1.方差筛选 是最基础的过滤法:计算特征的方差,剔除方差极低的特征(这类特征数值变化小,对样本区分度弱)。优点是计算极快,缺点是只看特征自身,不考虑和目标的关联。
2.皮尔逊相关系数筛选 属于过滤法:计算特征与目标变量的皮尔逊相关系数(衡量线性相关程度),保留相关系数绝对值高的特征。
优点是直观易懂,缺点仅能捕捉线性关联,对非线性关系无效。
3.Lasso 筛选 属于嵌入法:在线性模型(如线性回归、逻辑回归)中加入L1正则化,迫使不重要的特征系数收缩至 0,最终保留系数非0的特征。既能完成特征筛选,也能同步训练模型,适合高维数据。
树模型重要性 属于嵌入法:基于决策树/随机森林/XGBoost等树模型,通过“特征对节点分裂的贡献度”计算重要性,保留重要4性高的特征。优点是能捕捉非线性关联,缺点是易受高基数特征干扰。
5.SHAP 重要性 是树模型重要性的进阶版:基于 SHAP 值(解释模型预测的统一框架)计算特征重要性,不仅能体现特征的整体影响程度,还能展示特征对预测结果的正负方向,解释性更强。
6.递归特征消除(RFE) 属于包裹法:反复训练指定模型,每次移除模型判定的“最不重要特征”,直到保留预设数量的特征。优点是直接以模型性能为筛选依据,精度较高;缺点是计算成本高(需多次训练模型)@浙大疏锦行
news
2026/4/16 13:45:49
day23 常见特征筛选算法
张小明
前端开发工程师
1.2k
24
版权声明:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设
2026/4/16 13:42:59
双塔emb模型的分类头
class SimpleConcatMLPHead(nn.Module):"""MLP分类头:使用多种交互特征,提升embedding效果"""def __init__(self,hidden_size: int,num_labels:
网站建设
2026/4/16 11:00:48
杂项设备驱动/应用层与内核层数据传输
声明:内容源于B站UP主——北京迅为电子一、简介字符设备:IO的传递传递过程是以字符设备为单位的,没有缓冲,比如I2C,SPI都是字符设备 块设备:IO传递过程是一块为单位的,跟存储相关的,都属于块设备…
网站建设
2026/4/14 1:28:44
百度网盘直链解析实战手册:突破限速封锁的完整解决方案
还在为百度网盘蜗牛般的下载速度而焦虑吗?当你急需下载重要文件,却只能眼睁睁看着几十KB/s的进度条缓慢爬行,那种无助感确实令人沮丧。现在,通过百度网盘直链解析工具的巧妙应用,你将彻底告别这种困境,实现…
网站建设
2026/4/16 10:42:42
Springboot医院门诊管理系统fcdrv(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。
系统程序文件列表项目功能:用户,医院简介,医生,科室信息,扣减金额,余额充值,用户钱包,就医指南,挂号预约,医生诊疗开题报告内容Spring Boot医院门诊管理系统开题报告一、选题依据(一)研究背景在医疗行业快速发展的当下,医院门诊作…
网站建设
2026/4/16 11:01:09
删除有序数组中的重复项(C++)
一、问题描述给你一个非严格递增排列的数组 nums,请你原地删除重复出现的元素,使每个元素只出现一次,返回删除后数组的新长度。元素的相对顺序应该保持一致,然后返回 nums 中唯一元素的个数。去重后,nums 的前 k 个元素…