sklearn实战-乳腺癌细胞数据挖掘(博主亲自录制视频)

https://study.163.com/course/introduction.htm?courseId=1005269003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share

作者:知乎用户
链接:https://www.zhihu.com/question/28641663/answer/41653367
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

特征选择是特征工程中的重要问题(另一个重要的问题是特征提取),坊间常说:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程尤其是特征选择在机器学习中占有相当重要的地位。
通常而言,特征选择是指选择获得相应模型和算法最好性能的特征集,工程上常用的方法有以下:
1. 计算每一个特征与响应变量的相关性:工程上常用的手段有计算皮尔逊系数和互信息系数,皮尔逊系数只能衡量线性相关性而互信息系数能够很好地度量各种相关性,但是计算相对复杂一些,好在很多toolkit里边都包含了这个工具(如sklearn的MINE),得到相关性之后就可以排序选择特征了;
2. 构建单个特征的模型,通过模型的准确性为特征排序,借此来选择特征,另外,记得JMLR'03上有一篇论文介绍了一种基于决策树的特征选择方法,本质上是等价的。当选择到了目标特征之后,再用来训练最终的模型;
3. 通过L1正则项来选择特征:L1正则方法具有稀疏解的特性,因此天然具备特征选择的特性,但是要注意,L1没有选到的特征不代表不重要,原因是两个具有高相关性的特征可能只保留了一个,如果要确定哪个特征重要应再通过L2正则方法交叉检验;
4. 训练能够对特征打分的预选模型:RandomForest和Logistic Regression等都能对模型的特征打分,通过打分获得相关性后再训练最终模型;
5. 通过特征组合后再来选择特征:如对用户id和用户特征最组合来获得较大的特征集再来选择特征,这种做法在推荐系统和广告系统中比较常见,这也是所谓亿级甚至十亿级特征的主要来源,原因是用户数据比较稀疏,组合特征能够同时兼顾全局模型和个性化模型,这个问题有机会可以展开讲。
6. 通过深度学习来进行特征选择:目前这种手段正在随着深度学习的流行而成为一种手段,尤其是在计算机视觉领域,原因是深度学习具有自动学习特征的能力,这也是深度学习又叫unsupervised feature learning的原因。从深度学习模型中选择某一神经层的特征后就可以用来进行最终目标模型的训练了。
整体上来说,特征选择是一个既有学术价值又有工程价值的问题,目前在研究领域也比较热,值得所有做机器学习的朋友重视。

http://blog.csdn.net/ae5555/article/details/49534263

去除方差小的特征

设置一个方差阈值,没有达到这个方差阈值的特征都会被丢弃。 
VarianceThreshold,算法输入只要求特征(X),不需要输入结果(Y)。

from sklearn.feature_selection import VarianceThreshold 
X=[[feature1,feature2,…],…] 
sel=VarianceThreshold(threshold=xx) 
print(sel.fit_transform(X))

单变量特征选取

单变量特征提取的原理是分别计算每个特征的某个统计指标,根据该指标来选取特征。 
SelectKBest、SelectPercentile,前者选择排名前k个的特征,后者选择排名在前k%的特征。选择的统计指标需要指定,对于regression问题,使用f_regression指标;对于classification问题,可以使用chi2或者f_classif指标。

from sklearn.feature_selection import SelectKBest,chi2 
X_new=SelectKBest(chi2,k=2).fit_transform(test_X,test_Y)

  1. False Positive Rate,假阳性率
  2. chi2,卡方统计量,X中特征取值必须非负。卡方检验用来测度随机变量之间的依赖关系。通过卡方检验得到的特征之间是最可能独立的随机变量,因此这些特征的区分度很高。
循环特征选取

不单独地检验某个特征的价值,而是检验特征集的价值。对于一个数量为n的特征集合,子集的个数为2的n次方减一。通过指定一个学习算法,通过算法计算所有子集的error,选择error最小的子集作为选取的特征。

RFE

  1. 对初始特征集合中每个特征赋予一个初始权重。
  2. 训练,将权重最小的特征移除。
  3. 不断迭代,直到特征集合的数目达到预定值。

from sklearn.svm import SVC 
from sklearn.feature_selection import RFE 
//X为样本集合,每个样本为一个数组,数组元素为各个特征值,Y样本的评分 
svc=SVC(kernel=”linear”,C=1) 
rfe=RFE(estimator=svc,n_features_to_select=5,step=1) 
X_new=rfe.fit_transform(X,Y)

RFECV

在RFE训练时,增加交叉验证。

L1-base

在线性回归模型中,每一个特征代表一个w,若得到的w系数等于或接近0,则说明这些特征不重要。 
LinearSVC 
参数C控制特征系数稀疏度,C的值越小,选择的特征数越少。

from sklearn.svm import LinearSVC 
X_new=LinearSVC(C=0.01,penalty=”l1”,dual=False).fit_transform(x,y)

决策树特征选取

通过决策树可以计算特征的重要性,抛弃不太重要的特性。

from sklearn.ensemble import ExtraTreesClassifier 
clf=ExtraTreesClassifier() 
X_new=clf.fit(x,y).transform(x) 
//各个特征重要性 
print(clf.feature_importances)

sklearn分类数据

sklearn.datasets.make_classification用来随机产生一个多分类问题。 
n_features=n_informative+n_redundant+n_repeated。 
n_clusters_per_class 每个分类的集群数

import sklearn.datasets 
(x,y)=make_classification(n_samples=, 
n_features=, 
n_informative=, 
n_redundant=, 
n_repeated=, 
n_classes=, 
random_state=, 
shuffle=False 
)

特征选取1-from sklearn.feature_selection import SelectKBest的更多相关文章

  1. Python —— sklearn.feature_selection模块

    Python —— sklearn.feature_selection模块 sklearn.feature_selection模块的作用是feature selection,而不是feature ex ...

  2. 吴裕雄 python 机器学习——数据预处理过滤式特征选取SelectPercentile模型

    from sklearn.feature_selection import SelectPercentile,f_classif #数据预处理过滤式特征选取SelectPercentile模型 def ...

  3. 吴裕雄 python 机器学习——数据预处理过滤式特征选取VarianceThreshold模型

    from sklearn.feature_selection import VarianceThreshold #数据预处理过滤式特征选取VarianceThreshold模型 def test_Va ...

  4. 吴裕雄 python 机器学习——数据预处理包裹式特征选取模型

    from sklearn.svm import LinearSVC from sklearn.datasets import load_iris from sklearn.feature_select ...

  5. 转 :scikit-learn的GBDT工具进行特征选取。

    http://blog.csdn.net/w5310335/article/details/48972587 使用GBDT选取特征 2015-03-31 本文介绍如何使用scikit-learn的GB ...

  6. scikit-learn的GBDT工具进行特征选取。

    http://blog.csdn.net/w5310335/article/details/48972587 使用GBDT选取特征 2015-03-31 本文介绍如何使用scikit-learn的GB ...

  7. from sklearn.datasets import make_classification创建分类数据集

    make_classification创建用于分类的数据集,官方文档 例子: ### 创建模型 def create_model(): # 生成数据 from sklearn.datasets imp ...

  8. sklearn.externals import joblib模块保存和下载使用模型的用法实例

    #加载模块 from sklearn import datasets from sklearn.externals import joblib from sklearn.linear_model im ...

  9. [模式识别].(希腊)西奥多里蒂斯<第四版>笔记5之__特征选取

    1,引言 有关模式识别的一个主要问题是维数灾难.我们将在第7章看到维数非常easy变得非常大. 减少维数的必要性有几方面的原因.计算复杂度是一个方面.还有一个有关分类器的泛化性能. 因此,本章的主要任 ...

随机推荐

  1. Orcle安装环境及步骤

    Windows7环境下如何成功安装Oracle数据库      随着微软新一代操作系统 Windows7 的正式发行,使用 Windows7  的朋友也越来越多,很多人在 Windows7 环境下安装 ...

  2. 第七组团队项目——专业课程资源共享平台——需求分析&原型设计

    一.项目目标.定位需求: (1)目标:在教师.学生之间建立一个综合的.全面的.快捷的.高效的免费课程和学习资源共享.交流与推荐的开放性平台,实现多维和动态的推荐与分类检索服务. (2)定位:学生与教师 ...

  3. 收获,不止oracle

    物理体系 体系结构图 缩放 1.Oracle由实例和数据库组成,上半部分的直角方框为实例instance,下半部分的圆角方框为数据库Database. 2.实例是由一个开辟的共享内存区SGA(Syst ...

  4. PHP和JavaScript将字符串转换为数字string2int

    在看廖雪峰的JavaScript教程时,里面有一个题就是利用reduce()将string转换为int,我看评论中贴出的方法,当时觉得挺意外了,以为他只用了一行代码,即下面这行代码 var str=& ...

  5. PAT 1081 检查密码

    https://pintia.cn/problem-sets/994805260223102976/problems/994805261217153024 本题要求你帮助某网站的用户注册模块写一个密码 ...

  6. SpringBoot(十六)_springboot整合JasperReport6.6.0

    现在项目上要求实现套打,结果公司里有个人建议用JaperReport进行实现,就进入这个东西的坑中.好歹经过挣扎现在已经脱离此坑中.现在我也是仅能实现读取数据库数据转成pdf进行展示,包括中文的展示. ...

  7. python之发送HTML内容的邮件

    # 发送html内容的邮件 import smtplib, time, os from email.mime.text import MIMEText from email.header import ...

  8. CSS变形transform(2d)

    前面的话 CSS变形transform是一些效果的集合,主要是移动.旋转.缩放和倾斜这四种基本操作,还可以通过设置matrix矩阵来实现更复杂的效果.变形transform可以实现2D和3D两种效果. ...

  9. 一本通1548【例 2】A Simple Problem with Integers

    1548:[例 2]A Simple Problem with Integers 题目描述 这是一道模板题. 给定数列 a[1],a[2],…,a[n],你需要依次进行 q 个操作,操作有两类: 1 ...

  10. docker--compose--sonarqube

    Create this docker-compose.yml file: version: "2" services: sonarqube: image: sonarqube po ...