title: sklearn-特征工程之特征选择

date: 2016-11-25 22:49:24

categories: skearn

tags: sklearn

抄袭/参考资料

当数据预处理完成后，我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通常来说，从两个方面考虑来选择特征：

特征是否发散：如果一个特征不发散，例如方差接近于0，也就是说样本在这个特征上基本上没有差异，这个特征对于样本的区分并没有什么用。
特征与目标的相关性：这点比较显见，与目标相关性高的特征，应当优选选择。除方差法外，本文介绍的其他方法均从相关性考虑。

根据特征选择的形式又可以将特征选择方法分为3种：

Filter：过滤法，按照发散性或者相关性对各个特征进行评分，设定阈值或者待选择阈值的个数，选择特征。
Wrapper：包装法，根据目标函数（通常是预测效果评分），每次选择若干特征，或者排除若干特征。
Embedded：嵌入法，先使用某些机器学习的算法和模型进行训练，得到各个特征的权值系数，根据系数从大到小选择特征。类似于Filter方法，但是是通过训练来确定特征的优劣。

我们使用sklearn中的feature_selection库来进行特征选择。

Filter：过滤法

方差选择法

VarianceThreshold 是特征选择中的一项基本方法。它会移除所有方差不满足阈值的特征。默认设置下，它将移除所有方差为0的特征，即那些在所有样本中数值完全相同的特征。

from sklearn.feature_selection import VarianceThreshold

# 设置方差阈值为100

sel = VarianceThreshold(threshold=100)

sel.fit_transform(X)

单变量特征选择

单变量特征选择基于单变量的统计测试来选择最佳特征。它可以看作预测模型的一项预处理。Scikit-learn将特征选择程序用包含transform 函数的对象来展现：

SelectKBest 移除得分前 $k$ 名以外的所有特征
SelectPercentile 移除得分在用户指定百分比以后的特征
对每个特征使用通用的单变量统计测试：假正率(false positive rate) SelectFpr, 伪发现率(false discovery rate) SelectFdr, 或族系误差率 SelectFwe.
GenericUnivariateSelect 可以设置不同的策略来进行单变量特征选择。同时不同的选择策略也能够使用超参数寻优，从而让我们找到最佳的单变量特征选择策略。

这些作为打分函数输入的对象（同样位于feature_selection模块中），返回单变量的概率值：

用于回归: f_regression

用于分类: chi2 （卡方）or f_classif

卡方检验

互信息法

Wrapper：包装法

递归特征消除法

递归消除特征法使用一个基模型来进行多轮训练，每轮训练后，消除若干权值系数的特征，再基于新的特征集进行下一轮训练。

Embedded：嵌入法 / 基于模型进行特征选择

基于惩罚项的特征选择法

class sklearn.feature_selection.SelectFromModel(estimator,

                                                threshold=None,

                                                prefit=False)

使用L1范数作为惩罚项的:ref:Linear models会得到稀疏解：大部分特征对应的系数为0。当你希望减少特征的维度以用于其它分类器时，可以通过 feature_selection.SelectFromModel 来选择不为0的系数。特别指出，常用于此目的的稀疏预测模型有：

回归： linear_model.Lasso
- 对于Lasso，参数$alpha$越大，被选中的特征越少。
分类： linear_model.LogisticRegression 和 svm.LinearSVC
- 对于SVM和逻辑回归，参数$C$控制稀疏性：$C$越小，被选中的特征越少。

from sklearn.feature_selection import SelectFromModel

from sklearn.linear_model import Lasso

lr = Lasso(alpha=10)

lr.fit(X,y)

#带L1惩罚项的逻辑回归作为基模型的特征选择

model = SelectFromModel(lr, prefit=True)

model.transform(X)

基于树模型的特征选择法

基于树的预测模型（见 sklearn.tree 模块，森林见 sklearn.ensemble 模块）能够用来计算特征的重要程度，因此能用来去除不相关的特征（结合 sklearn.feature_selection.SelectFromModel ）

from sklearn.feature_selection import SelectFromModel

from sklearn.ensemble import GradientBoostingRegressor

gbdt = GradientBoostingRegressor()

gbdt.fit(X,y)

#GBDT作为基模型的特征选择

model = SelectFromModel(gbdt, prefit=True)

model.transform(X)

sklearn-特征工程之特征选择的更多相关文章

sklearn—特征工程
sklearn实战-乳腺癌细胞数据挖掘(博主亲自录制视频) https://study.163.com/course/introduction.htm?courseId=1005269003& ...
sklearn特征工程
目录一. 特征工程是什么? 2 ①特征使用方案 3 ②特征获取方案 4 ③特征处理 4 1. 特征清洗 4 2. 数据预处理 4 3. 特 ...
sklearn特征工程总结
转自: http://www.cnblogs.com/jasonfreak/p/5448385.html https://www.zhihu.com/question/28641663/answer/ ...
Machine Learning-特征工程之特征选择
特征工程之特征选择目录简介 1 Filter(过滤式选择) 1.1 移除低方差特征(variance threshold) 1.2 信息增益(information gain) 1.3 单变量特征 ...
机器学习实战基础（十八）：sklearn中的数据预处理和特征工程（十一）特征选择之 Wrapper包装法
Wrapper包装法包装法也是一个特征选择和算法训练同时进行的方法,与嵌入法十分相似,它也是依赖于算法自身的选择,比如coef_属性或feature_importances_属性来完成特征选择.但不 ...
机器学习实战基础（十七）：sklearn中的数据预处理和特征工程（十）特征选择之 Embedded嵌入法
Embedded嵌入法嵌入法是一种让算法自己决定使用哪些特征的方法,即特征选择和算法训练同时进行.在使用嵌入法时,我们先使用某些机器学习的算法和模型进行训练,得到各个特征的权值系数,根据权值系数从大 ...
机器学习实战基础（十五）：sklearn中的数据预处理和特征工程（八）特征选择之 Filter过滤法（二）相关性过滤
相关性过滤方差挑选完毕之后,我们就要考虑下一个问题:相关性了. 我们希望选出与标签相关且有意义的特征,因为这样的特征能够为我们提供大量信息.如果特征与标签无关,那只会白白浪费我们的计算内存,可能还会 ...
机器学习实战基础（十四）：sklearn中的数据预处理和特征工程（七）特征选择之 Filter过滤法（一）方差过滤
Filter过滤法过滤方法通常用作预处理步骤,特征选择完全独立于任何机器学习算法.它是根据各种统计检验中的分数以及相关性的各项指标来选择特征 1 方差过滤 1.1 VarianceThreshold ...
机器学习实战基础（十三）：sklearn中的数据预处理和特征工程（六）特征选择 feature_selection 简介
当数据预处理完成后,我们就要开始进行特征工程了. 在做特征选择之前,有三件非常重要的事:跟数据提供者开会!跟数据提供者开会!跟数据提供者开会!一定要抓住给你提供数据的人,尤其是理解业务和数据含义的人, ...
使用sklearn做单机特征工程
目录 1 特征工程是什么?2 数据预处理 2.1 无量纲化 2.1.1 标准化 2.1.2 区间缩放法 2.1.3 标准化与归一化的区别 2.2 对定量特征二值化 2.3 对定性特征哑编码 2.4 缺 ...

随机推荐

ubuntu下编译源码 make 出现 make: 'Makefile' is up to date.
其实只需要 make就行了,不需要 make Makefile 当然,make的前提是,执行 ./configure 不报错
C#两个引用类的属性、方法各位早安
***字符串.IndexOf("串"); - 返回字符串中第一个匹配项的索引,如果没有匹配项返回-1 intint b = s.IndexOf("天",s.I ...
C++默认成员函数
1.什么是面向对象? 概念:(Object Oriented Programming,缩写:OOP)是一种程序设计范型,同时也是一种程序开发的方法. 对象指的是类的实例,将对象作为程序的基本单元,将程 ...
年薪30W的软件测试“老司机”工作经验
这几天,新入职的小MM提议“老司机”们把自己这些年的软件测试工作经验跟大家分享一下,让新同学学习学习,利用空闲时间我整理了一些,可能不全,勉强看看,这也算是对自己这些年的工作总结. 测试阶段划分 1. ...
Bailian 2808 校门外的树（入门线段树）
题目链接:http://bailian.openjudge.cn/practice/2808?lang=en_US 总时间限制: 1000ms 内存限制: 65536kB 描述某校大门外长度为L的马 ...
温习DL之一：梯度的概念
1.梯度的概念梯度是一个矢量,表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向变化最快. 在微积分里面,对多元函数的参数求∂偏导数,把求得的各个参数的偏导数以向量的形式写 ...
thrift0.5入门操作
在探索未知的程序之前,我们往往会使用“Hello World”这个经典的输出作为测试,为了遵循这个惯例,作为thrift菜鸟都不算的一员,决定跑一下“Hello world”正式进入菜鸟的行列. th ...
go vendor 安装失败的原因分析
安装之前的配置 export GOPATH=$HOME/go export PATH=$PATH:$GOPATH/bin 1 2 安装通常,我们查到的安装方法一般是下面这种 go get -u gi ...
使用Python批量修改数据库执行Sql文件
由于上篇文章中批量修改了文件,有的时候数据库也需要批量修改一下,之前的做法是使用宝塔的phpMyAdmin导出一个已经修改好了的sql文件,然后依次去其他数据库里导入,效率不说极低,也算低了,且都是些 ...
作业要求 20181127-5 Beta发布用户使用报告
此作业要求参见:https://edu.cnblogs.com/campus/nenu/2018fall/homework/2450 一.用户反馈反馈截图(部分) 三.用户反馈情况统计图

sklearn-特征工程之特征选择

title: sklearn-特征工程之特征选择

date: 2016-11-25 22:49:24

categories: skearn

tags: sklearn

Filter：过滤法

方差选择法

单变量特征选择

相关系数法

卡方检验

互信息法

Wrapper：包装法

递归特征消除法

Embedded：嵌入法 / 基于模型进行特征选择

基于惩罚项的特征选择法

基于树模型的特征选择法

sklearn-特征工程之特征选择的更多相关文章

随机推荐

热门专题

sklearn-特征工程之特征选择

title: sklearn-特征工程之特征选择 date: 2016-11-25 22:49:24 categories: skearn tags: sklearn

Filter：过滤法

方差选择法

单变量特征选择

相关系数法

卡方检验

互信息法

Wrapper：包装法

递归特征消除法

Embedded：嵌入法 / 基于模型进行特征选择

基于惩罚项的特征选择法

基于树模型的特征选择法

sklearn-特征工程之特征选择的更多相关文章

随机推荐

热门专题

title: sklearn-特征工程之特征选择

date: 2016-11-25 22:49:24

categories: skearn

tags: sklearn