1. 什么是特征选择？

特征选择是机器学习中一个至关重要的步骤，它从原始数据的众多特征中挑选出对模型最有价值的子集。

简单来说，就是从一堆可能影响结果的因素中，找出那些真正重要的因素，把不重要的、重复的或者有干扰的特征去掉。

为什么要做特征选择呢？主要有以下几个原因：

提高模型性能：少而精的特征能帮助模型更专注于重要的信息，避免被无关特征干扰，从而提高准确性。
加快训练速度：特征少了，模型需要处理的数据量就小了，训练时间自然也就缩短了。
降低过拟合风险：过多的特征可能让模型记住噪声，而不是学习到真正的规律。特征选择能帮助模型更好地泛化。
提升可解释性：特征少了，模型的决策过程更容易理解，这对很多实际应用场景非常重要。

2. 三大特征选择方法

根据特征选择与模型训练过程的关系，主要可以分为以下三类方法：

2.1. 过滤式：先"筛"后"用"

过滤式方法就像用筛子筛沙子一样，先根据特征本身的统计特性对特征进行评估和筛选，然后再把选出来的特征交给模型使用。

这个过程完全独立于机器学习模型。

常见的过滤式方法包括：

方差阈值：去掉那些几乎不变的特征（方差低于某个阈值）
卡方检验：评估分类问题中特征与目标变量的独立性
相关系数：计算特征与目标变量之间的相关性

下面的代码演示如何使用过滤式方法来进行特征选择，使用卡方检验（SelectBest）：

from sklearn.datasets import load_iris

from sklearn.feature_selection import SelectKBest, f_classif

from sklearn.model_selection import train_test_split

# 加载数据集

iris = load_iris()

X, y = iris.data, iris.target

# 划分训练集和测试集

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 创建过滤式选择器，选择2个最佳特征

selector = SelectKBest(score_func=f_classif, k=2)

X_train_selected = selector.fit_transform(X_train, y_train)

X_test_selected = selector.transform(X_test)

# 查看选中的特征

selected_features = selector.get_support(indices=True)

print(f"选中的特征索引: {selected_features}")

print(f"特征得分: {selector.scores_}")

# 输出特征选择后的数据维度

print(f"原始训练集特征数: {X_train.shape[1]}")

print(f"选择后训练集特征数: {X_train_selected.shape[1]}")

## 输出结果：

'''

选中的特征索引: [2 3]

特征得分: [ 74.7572012   33.41979913 713.45534904 526.54162416]

原始训练集特征数: 4

选择后训练集特征数: 2

'''

最后选择的特征是2和3，也就是后2个特征（特征索引是从0开始的）。

从特征得分来看看，后2个特征也是得分最高的。

2.2. 包裹式：带着模型一起选

包裹式方法就像带着模型去"试衣"一样，把特征子集当作不同的"衣服"，让模型试穿（训练）后看看效果如何。

根据模型的表现（比如准确性）来决定哪些特征组合最好。

常见的包裹式方法包括：

递归特征消除（RFE）：不断移除最不重要的特征，直到达到指定数量
穷举搜索：尝试所有可能的特征组合（计算成本很高）

下面的代码示例使用递归特征消除（RFE）：

from sklearn.feature_selection import RFE

from sklearn.ensemble import RandomForestClassifier

# 创建随机森林分类器

model = RandomForestClassifier(random_state=42)

# 创建递归特征消除选择器

selector = RFE(model, n_features_to_select=2, step=1)

selector = selector.fit(X_train, y_train)

# 查看选中的特征

selected_features = selector.get_support(indices=True)

print(f"选中的特征: {selected_features}")

print(f"特征排名: {selector.ranking_}")

# 特征选择后的数据

X_train_selected = selector.transform(X_train)

X_test_selected = selector.transform(X_test)

# 输出特征选择后的数据维度

print(f"原始训练集特征数: {X_train.shape[1]}")

print(f"选择后训练集特征数: {X_train_selected.shape[1]}")

## 输出结果：

'''

选中的特征: [2 3]

特征排名: [2 3 1 1]

原始训练集特征数: 4

选择后训练集特征数: 2

'''

选择的特征也是2和3，从特征排名来看，前两个特征排名2和3，后两个特征并列排名第一。

2.3. 嵌入式：在模型里自然选择

嵌入式方法就像在模型里内置了一个"挑食"机制，让模型在训练过程中自然地倾向于使用某些特征，而忽略其他特征。

这种方法通常通过正则化来实现。

常见的嵌入式方法包括：

L1正则化（Lasso）：会自动将不重要特征的系数缩放到零
树模型中的特征重要性：如随机森林、梯度提升树等模型自带的特征重要性评分

代码示例：

from sklearn.feature_selection import SelectFromModel

from sklearn.linear_model import LassoCV

# 创建带L1正则化的逻辑回归模型

model = LassoCV(random_state=42)

# 创建嵌入式选择器

selector = SelectFromModel(model, threshold='median')

selector = selector.fit(X_train, y_train)

# 查看选中的特征

selected_features = selector.get_support(indices=True)

print(f"选中的特征: {selected_features}")

# 特征选择后的数据

X_train_selected = selector.transform(X_train)

X_test_selected = selector.transform(X_test)

# 输出特征选择后的数据维度

print(f"原始训练集特征数: {X_train.shape[1]}")

print(f"选择后训练集特征数: {X_train_selected.shape[1]}")

## 输出结果：

'''

选中的特征: [2 3]

原始训练集特征数: 4

选择后训练集特征数: 2

'''

同样，最终选择的特征也是2和3。

3. 三种方法的对比

选择哪种特征选择方法，取决于你的具体需求和场景，下面是三种方法的比较：

方法类型	优点	缺点	适用场景
过滤式	计算效率高，不依赖模型	可能忽略特征与模型的关系	特征数量较少，对模型不敏感的情况
包裹式	直接考虑模型性能，效果通常较好	计算开销大，容易过拟合	特征数量适中，对性能要求高的情况
嵌入式	计算效率较高，考虑了特征与模型的关系	通常需要模型本身支持特征选择	需要模型具有稀疏性的情况

4. 总结

特征选择是机器学习流程中不可忽略的重要环节。

在实际应用中，我们可以尝试多种方法，观察它们对模型性能的影响，有时候，结合多种方法甚至能取得更好的效果。

记住，特征选择不是一成不变的规则，而是一门需要根据数据和模型不断调整的艺术。

机器学习中的"食材挑选术"：特征选择方法的更多相关文章

阅读源代码的重要性：如厨师选食材，耍厨具——在Eclipse中怎样查看Java、Android源代码
首先,非常多人说,不会看jdk中的源代码就不叫学过Java.显然这是肯定的.打个例如:真正的厨师须要从食材的选取.加工.到最后的烹饪.装盘成型,甚至到最后给用户介绍食用方法等一整套流程走下来.而实际上 ...
paper 56 ：机器学习中的算法：决策树模型组合之随机森林（Random Forest）
周五的组会如约而至,讨论了一个比较感兴趣的话题,就是使用SVM和随机森林来训练图像,这样的目的就是在图像特征之间建立内在的联系,这个model的训练,着实需要好好的研究一下,下面是我们需要准备的入门 ...
机器学习中模型泛化能力和过拟合现象(overfitting)的矛盾、以及其主要缓解方法正则化技术原理初探
1. 偏差与方差 - 机器学习算法泛化性能分析在一个项目中,我们通过设计和训练得到了一个model,该model的泛化可能很好,也可能不尽如人意,其背后的决定因素是什么呢?或者说我们可以从哪些方面去 ...
paper 126：[转载] 机器学习中的范数规则化之（一）L0、L1与L2范数
机器学习中的范数规则化之(一)L0.L1与L2范数 zouxy09@qq.com http://blog.csdn.net/zouxy09 今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化. ...
【转帖】Python在大数据分析及机器学习中的兵器谱
Flask:Python系的轻量级Web框架. 1. 网页爬虫工具集 Scrapy 推荐大牛pluskid早年的一篇文章:<Scrapy 轻松定制网络爬虫> Beautiful Soup ...
机器学习中的范数规则化之（一）L0、L1与L2范数（转）
http://blog.csdn.net/zouxy09/article/details/24971995 机器学习中的范数规则化之(一)L0.L1与L2范数 zouxy09@qq.com http: ...
机器学习中的算法-决策树模型组合之随机森林与GBDT
机器学习中的算法(1)-决策树模型组合之随机森林与GBDT 版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使 ...
机器学习中的范数规则化之（一）L0、L1与L2范数非常好，必看
机器学习中的范数规则化之(一)L0.L1与L2范数 zouxy09@qq.com http://blog.csdn.net/zouxy09 今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化. ...
机器学习中的范数规则化-L0,L1和L2范式（转载）
机器学习中的范数规则化之(一)L0.L1与L2范数 zouxy09@qq.com http://blog.csdn.net/zouxy09 今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化. ...
机器学习中的规则化范数(L0, L1, L2, 核范数)
目录: 一.L0,L1范数二.L2范数三.核范数今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化.我们先简单的来理解下常用的L0.L1.L2和核范数规则化.最后聊下规则化项参数的选择问 ...

随机推荐

【P7&Loongson】支持部分中断/异常处理
概况常规单发射5级流水线cpu.新增支持指令{mtc0, mfc0, eret, syscall, break, bgezal, bltzal}:新增异常处理{Int, AdEL, AdES, Ov ...
gorm事务的rollback和commit操作
一个事务内同一操作二次回滚(Rollback)会报错,二次提交(commit)也会报错, 如果回滚完又进行提交操作,一样会报错循环注意把事务开启tx.Begin放在事务操作前边,操作完回滚或者提交
nginx 根据 URL 参数引入不同的文件
同步发布:https://blog.jijian.link/2020-06-30/nginx-import-file/ 编程世界中各种奇奇怪怪的需求都有,本次遇到一个需求:根据URL参数判断,包含 x ...
Vue3+TS项目无法识别自动导入提示
遇到问题在写 Vue3 + TS 项目的时候,经常遇到写完一个新方法后,在组件使用的时候无法自动识别. 解决方案 Volar: Restart Vue Server 重新启动 Vue 服务
NumPy学习6
今天学习 NumPy位运算 12, NumPy位运算NumPy 中提供了以下按位运算函数:numpy按位运算函数序号函数位运算符描述说明1 bitwise_and & 计算数组元素之间的 ...
Flask快速入门3
十一,Flask Cookies Cookie以文本文件的形式存储在客户端的计算机上.其目的是记住和跟踪与客户使用相关的数据,以获得更好的访问者体验和网站统计信息. Request对象包含Cookie ...
通过局域网访问连接 vite 或 Django 之类的项目
博客地址:https://www.cnblogs.com/zylyehuo/ step1 将 vite 或 Django 类的项目启动 ip 设置为 0.0.0.0:端口 step2 查询本机电脑在当 ...
【JVM之内存与垃圾回收篇】本地方法栈
本地方法栈 Java 虚拟机栈于管理 Java 方法的调用,而本地方法栈用于管理本地方法的调用. 本地方法栈,也是线程私有的. 允许被实现成固定或者是可动态扩展的内存大小.(在内存溢出方面是相同的) ...
实现Android键盘自适应
实现Android键盘自适应 unit Unit13; interface uses System.SysUtils, System.Types, System.UITypes, System.Cla ...
Lua虚拟机
Lua虚拟机概述何为"虚拟机"? 在一门脚本语言中,总会有一个虚拟机,可是"虚拟机"是什么?简而言之,这里的"虚拟机"就是使用代码实现的用 ...

机器学习中的"食材挑选术"：特征选择方法