转：scikit-learn的GBDT工具进行特征选取。

http://blog.csdn.net/w5310335/article/details/48972587

使用GBDT选取特征

2015-03-31

本文介绍如何使用scikit-learn的GBDT工具进行特征选取。

为什麽选取特征

有些特征意义不大，删除后不影响效果，甚至可能提升效果。

关于GBDT(Gradient Boosting Decision Tree)

可以参考：

GBDT（MART）概念简介

GBDT（MART）迭代决策树入门教程 | 简介

机器学习中的算法(1)-决策树模型组合之随机森林与GBDT

如何在numpy数组中选取若干列或者行？

>>> import numpy as np

>>> tmp_a = np.array([[1,1], [0.4, 4], [1., 0.9]])

>>> tmp_a

array([[ 1. ,  1. ],

       [ 0.4,  4. ],

       [ 1. ,  0.9]])

>>> tmp_a[[0,1],:]  # 选第0、1行

array([[ 1. ,  1. ],

       [ 0.4,  4. ]])

>>> tmp_a[np.array([True, False, True]), :]  # 选第0、2行

array([[ 1. ,  1. ],

       [ 1. ,  0.9]])

>>> tmp_a[:,[0]]    # 选第0列

array([[ 1. ],

       [ 0.4],

       [ 1. ]])

>>> tmp_a[:, np.array([True, False])]  # 选第0列

array([[ 1. ],

       [ 0.4],

       [ 1. ]])

生成数据集

参考基于贝叶斯的文本分类实战。部分方法在原始数据集的预测效果也在基于贝叶斯的文本分类实战这篇文章里。

训练GBDT

>>> from sklearn.ensemble import GradientBoostingClassifier

>>> gbdt = GradientBoostingClassifier()

>>> gbdt.fit(training_data, training_labels)  # 训练。喝杯咖啡吧

GradientBoostingClassifier(init=None, learning_rate=0.1, loss='deviance',

              max_depth=3, max_features=None, max_leaf_nodes=None,

              min_samples_leaf=1, min_samples_split=2,

              min_weight_fraction_leaf=0.0, n_estimators=100,

              random_state=None, subsample=1.0, verbose=0,

              warm_start=False)

>>> gbdt.feature_importances_   # 据此选取重要的特征

array([  2.08644807e-06,   0.00000000e+00,   8.93452010e-04, ...,

         5.12199658e-04,   0.00000000e+00,   0.00000000e+00])

>>> gbdt.feature_importances_.shape

(19630,)

看一下GBDT的分类效果：

>>> gbdt_predict_labels = gbdt.predict(test_data)

>>> sum(gbdt_predict_labels==test_labels)  # 比 多项式贝叶斯 差许多

414

新的训练集和测试集（只保留了1636个特征，原先是19630个特征）：

>>> new_train_data = training_data[:, feature_importances>0]

>>> new_train_data.shape  # 只保留了1636个特征

(1998, 1636)

>>> new_test_data = test_data[:, feature_importances>0]

>>> new_test_data.shape

(509, 1636)

使用多项式贝叶斯处理新数据

>>> from sklearn.naive_bayes import MultinomialNB

>>> bayes = MultinomialNB()

>>> bayes.fit(new_train_data, training_labels)

MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)

>>> bayes_predict_labels = bayes.predict(new_test_data)

>>> sum(bayes_predict_labels == test_labels)   # 之前预测正确的样本数量是454

445

使用伯努利贝叶斯处理新数据

>>> from sklearn.naive_bayes import BernoulliNB

>>> bayes2 = BernoulliNB()

>>> bayes2.fit(new_train_data, training_labels)

BernoulliNB(alpha=1.0, binarize=0.0, class_prior=None, fit_prior=True)

>>> bayes_predict_labels = bayes2.predict(new_test_data)

>>> sum(bayes_predict_labels == test_labels)   # 之前预测正确的样本数量是387

422

使用Logistic回归处理新数据

对原始特征组成的数据集：

>>> from sklearn.linear_model import LogisticRegression

>>> lr1 = LogisticRegression()

>>> lr1.fit(training_data, training_labels)

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,

          intercept_scaling=1, max_iter=100, multi_class='ovr',

          penalty='l2', random_state=None, solver='liblinear', tol=0.0001,

          verbose=0)

>>> lr1_predict_labels = lr1.predict(test_data)

>>> sum(lr1_predict_labels == test_labels)

446

对削减后的特征组成的数据集：

>>> lr2 = LogisticRegression()

>>> lr2.fit(new_train_data, training_labels)

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,

          intercept_scaling=1, max_iter=100, multi_class='ovr',

          penalty='l2', random_state=None, solver='liblinear', tol=0.0001,

          verbose=0)

>>> lr2_predict_labels = lr2.predict(new_test_data)

>>> sum(lr2_predict_labels == test_labels)  # 正确率略微提升

449

（完）

转：scikit-learn的GBDT工具进行特征选取。的更多相关文章

scikit-learn的GBDT工具进行特征选取。
http://blog.csdn.net/w5310335/article/details/48972587 使用GBDT选取特征 2015-03-31 本文介绍如何使用scikit-learn的GB ...
scikit learn 模块调参 pipeline+girdsearch 数据举例：文档分类（python代码）
scikit learn 模块调参 pipeline+girdsearch 数据举例:文档分类数据集 fetch_20newsgroups #-*- coding: UTF-8 -*- import ...
(原创)（三）机器学习笔记之Scikit Learn的线性回归模型初探
一.Scikit Learn中使用estimator三部曲 1. 构造estimator 2. 训练模型:fit 3. 利用模型进行预测:predict 二.模型评价模型训练好后,度量模型拟合效果的 ...
(原创)（四）机器学习笔记之Scikit Learn的Logistic回归初探
目录 5.3 使用LogisticRegressionCV进行正则化的 Logistic Regression 参数调优一.Scikit Learn中有关logistics回归函数的介绍 1. 交叉 ...
Scikit Learn
Scikit Learn Scikit-Learn简称sklearn,基于 Python 语言的,简单高效的数据挖掘和数据分析工具,建立在 NumPy,SciPy 和 matplotlib 上.
Scikit Learn: 在python中机器学习
转自:http://my.oschina.net/u/175377/blog/84420#OSC_h2_23 Scikit Learn: 在python中机器学习 Warning 警告:有些没能理解的 ...
特征选取1-from sklearn.feature_selection import SelectKBest
sklearn实战-乳腺癌细胞数据挖掘(博主亲自录制视频) https://study.163.com/course/introduction.htm?courseId=1005269003& ...
[模式识别].(希腊)西奥多里蒂斯<第四版>笔记5之__特征选取
1,引言有关模式识别的一个主要问题是维数灾难.我们将在第7章看到维数非常easy变得非常大. 减少维数的必要性有几方面的原因.计算复杂度是一个方面.还有一个有关分类器的泛化性能. 因此,本章的主要任 ...
吴裕雄 python 机器学习——数据预处理过滤式特征选取SelectPercentile模型
from sklearn.feature_selection import SelectPercentile,f_classif #数据预处理过滤式特征选取SelectPercentile模型 def ...

随机推荐

青客宝团队Consul内部分享ppt
青客宝团队Consul内部分享ppt https://mp.weixin.qq.com/s?src=3&timestamp=1503647705&ver=1&signatu ...
C#如何直接调用非托管代码
C#如何直接调用非托管代码,通常有2种方法: 1．直接调用从 DLL 导出的函数. 2．调用 COM 对象上的接口方法我主要讨论从dll中导出函数,基本步骤如下: 1．使用 C# 关键字 s ...
perl 信号
来自:http://www.bagualu.net/wordpress/?p=1628 使用signal,能让你的程序功能更丰富.要在Linux下列出所有的signal, 利用kill -l即可. 下 ...
btrace-dtrace-for-java-ish
http://dtrace.org/blogs/ahl/2012/04/24/btrace-dtrace-for-java-ish/
Unity3D脚本(MonoBehaviour)生命周期
场景中有2个物体:A,B 每一个物体上绑定2个脚本:A,B 初始化log: Object : A , Script : B , Message : Awake Object : A , Script ...
咏南中间件支持TMS WEB CORE客户端
咏南中间件支持TMS WEB CORE客户端 TMS WEB CORE是优秀的JS前端,搭配咏南中间件后端,可以进行快速的企业应用开发.
GCD实现多线程实践
GCD中弹窗的正确写法 - (void)viewDidLoad { //…… if (![self isStartLoading]) [self startLoading:nil]; //loadin ...
C#编程（二十二）----------继承的类型
继承的类型在面向对象的编程中,有两种截然不同的集成类型:实现继承和接口继承实现继承:表示一个类型派生于一个基类型,它拥有该基类型的所有成员字段和函数.在实现继承中,派生类型采用基类型的每个函数的实 ...
nginx网站攻击防护
1.上上个月架构全部迁移上云以后,总的来说比较稳定,业务量也上来,可爱的坏人也来了,7X24小时不停恶意攻击我的网站,第一次收到报警是网站流入流量1分钟以内连续3次超过1000000bps,换算下1M ...
spring 4.1.4 发布
Spring 框架今天发布了三个更新版本,分别是 4.1.4.4.0.9 和 3.2.13 版本. 这三个版本都是新年的维护版本,修复了各种小 bug,小改进等. via spring blog De ...

转 ：scikit-learn的GBDT工具进行特征选取。