sklearn特征选择和分类模型

数据格式：

这里。原始特征的输入文件的格式使用libsvm的格式，即每行是label index1:value1 index2:value2这样的稀疏矩阵的格式。

sklearn中自带了非常多种特征选择的算法。

我们选用特征选择算法的根据是数据集和训练模型。

以下展示chi2的使用例。chi2，採用卡方校验的方法进行特征选择。比較适合0/1型特征和稀疏矩阵。

from sklearn.externals.joblib import Memory

from sklearn.datasets import load_svmlight_file

mem = Memory("./mycache")

@mem.cache

def get_data():

    data = load_svmlight_file("labeled_fea.txt")

    return data[0], data[1]

X, y = get_data()

from sklearn.feature_selection import SelectKBest

from sklearn.feature_selection import chi2

data  = SelectKBest(chi2, k=10000).fit_transform(X, y)

from sklearn.datasets import dump_svmlight_file

dump_svmlight_file(data, y, "labeled_chi2_fea.txt",False)

sklearn中分类模型也非常多，接口统一。非常方便使用。

分类之前。能够不进行特征选择。也能够先独立进行特征选择后再做分类，还能够通过pipeline的方式让特征选择和分类集成在一起。

from sklearn.externals.joblib import Memory

from sklearn.datasets import load_svmlight_file

mem = Memory("./mycache")

@mem.cache

def get_data():

    data = load_svmlight_file("labeled_fea.txt")

    return data[0], data[1]

X, y = get_data()

train_X = X[0:800000]

train_y = y[0:800000]

test_X = X[800000:]

test_y = y[800000:]

print(train_X.shape)

print(test_X.shape)

from sklearn.feature_selection import SelectKBest, chi2

from sklearn.pipeline import Pipeline

from sklearn.ensemble import RandomForestClassifier

from sklearn.naive_bayes import BernoulliNB, MultinomialNB

from sklearn.linear_model import RidgeClassifier

from sklearn.linear_model import Perceptron

from sklearn.neighbors import NearestCentroid

from sklearn.linear_model import SGDClassifier

from sklearn.svm import LinearSVC

from sklearn.ensemble import GradientBoostingClassifier

from sklearn import metrics

from time import time

#独立的特征选择

ch2 = SelectKBest(chi2, k=10000)

train_X = ch2.fit_transform(train_X, train_y)

test_X = ch2.transform(test_X)

#依据一个分类模型。训练模型后。进行測试

def benchmark(clf):

    print('_' * 80)

    print("Training: ")

    print(clf)

    t0 = time()

    clf.fit(train_X, train_y)

    train_time = time() - t0

    print("train time: %0.3fs" % train_time)

    t0 = time()

    pred = clf.predict(test_X)

    test_time = time() - t0

    print("test time:  %0.3fs" % test_time)

    score = metrics.accuracy_score(test_y, pred)

    print("accuracy:   %0.3f" % score)

    clf_descr = str(clf).split('(')[0]

    return clf_descr, score, train_time, test_time

clf = RandomForestClassifier(n_estimators=100)

#clf = RidgeClassifier(tol=1e-2, solver="lsqr")

#clf = Perceptron(n_iter=50)

#clf = LinearSVC()

#clf = GradientBoostingClassifier() 

#clf = SGDClassifier(alpha=.0001, n_iter=50,penalty="l1")

#clf = SGDClassifier(alpha=.0001, n_iter=50,penalty="elasticnet")

#clf = NearestCentroid()

#clf = MultinomialNB(alpha=.01)

#clf = BernoulliNB(alpha=.01)

#pipeline模型特征选择和分类模型结合在一起

#clf = Pipeline([ ('feature_selection', LinearSVC(penalty="l1", dual=False, tol=1e-3)), ('classification', LinearSVC())])

benchmark(clf)

值得注意的是，上面的程序训练和预測阶段都是在同一份程序运行。而实际应用中。训练和预測是分开的。因此，要使用python的对象序列化特征。每次训练完之后。序列化模型对象。保存模型的状态，预測时反序列化模型对象。还原模型的状态。

參考资料：

http://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_svmlight_file.html

http://scikit-learn.org/stable/modules/generated/sklearn.datasets.dump_svmlight_file.html

http://scikit-learn.org/stable/modules/feature_selection.html#feature-selection

http://scikit-learn.org/stable/auto_examples/text/document_classification_20newsgroups.html#example-text-document-classification-20newsgroups-py

本文作者：linger

本文链接：http://blog.csdn.net/lingerlanlan/article/details/47960127

sklearn特征选择和分类模型的更多相关文章

[转载]sklearn多分类模型
[转载]sklearn多分类模型这篇文章很好地说明了利用sklearn解决多分类问题时的implement层面的内容:https://www.jianshu.com/p/b2c95f13a9ae.我 ...
sklearn CART决策树分类
sklearn CART决策树分类决策树是一种常用的机器学习方法,可以用于分类和回归.同时,决策树的训练结果非常容易理解,而且对于数据预处理的要求也不是很高. 理论部分比较经典的决策树是ID3.C ...
NLP学习（2）----文本分类模型
实战:https://github.com/jiangxinyang227/NLP-Project 一.简介: 1.传统的文本分类方法:[人工特征工程+浅层分类模型] (1)文本预处理: ①(中文) ...
吴裕雄 python 机器学习——集成学习随机森林RandomForestClassifier分类模型
import numpy as np import matplotlib.pyplot as plt from sklearn import datasets,ensemble from sklear ...
吴裕雄 python 机器学习——集成学习AdaBoost算法分类模型
import numpy as np import matplotlib.pyplot as plt from sklearn import datasets,ensemble from sklear ...
sklearn实现多分类逻辑回归
sklearn实现多分类逻辑回归 #二分类逻辑回归算法改造适用于多分类问题1.对于逻辑回归算法主要是用回归的算法解决分类的问题,它只能解决二分类的问题,不过经过一定的改造便可以进行多分类问题,主要的改 ...
分类模型的F1-score、Precision和Recall 计算过程
分类模型的F1分值.Precision和Recall 计算过程引入通常,我们在评价classifier的性能时使用的是accuracy 考虑在多类分类的背景下 accuracy = (分类正确的样 ...
笔记︱风控分类模型种类（决策、排序）比较与模型评估体系（ROC/gini/KS/lift）
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 本笔记源于CDA-DSC课程,由常国珍老师主讲 ...
MXNET：分类模型
线性回归模型适用于输出为连续值的情景,例如输出为房价.在其他情景中,模型输出还可以是一个离散值,例如图片类别.对于这样的分类问题,我们可以使用分类模型,例如softmax回归. 为了便于讨论,让我们假 ...

随机推荐

c++中vector容器的功能及应用。
vector基本操作: 1.头文件 #include<vector>. 注:一定要加上using namespace std; 2.vector对象的创建: vector<int ...
Etcd和ZooKeeper，究竟谁在watch的功能表现更好？
ZooKeeper和Etcd的主要异同可以参考这篇文章,此外,Etcd的官网上也有对比表格(https://coreos.com/etcd/docs/latest/learning/why.html) ...
java中文乱码问题解决
1 处理乱码方式: 1 连接数据库的时候 jdbc.properties:jdbc:mysql://localhost:3306/myproject?useUnicode=true&chara ...
[POI2007]MEG-Megalopolis (树状数组,Dfs序)
题目描述 Solution 这道题考试的时候竟然没有仔细想,结果只拿了暴力分... 其实就是一个 DFS序+树状数组. 我们先把用 DFS 把它变成一个序列,同时记录它们的 \(siz\). 那么我们 ...
vim 翻页命令记录
vim命令: ctrl-f:往前翻一页(forward) ctrl-b:往后翻一页(backward) ctrl-d:往下翻半页(down) ctrl-u:往上翻半页(up)
bzoj 4566 [Haoi2016]找相同字符SA
4566: [Haoi2016]找相同字符 Time Limit: 20 Sec Memory Limit: 256 MBSubmit: 128 Solved: 75[Submit][Status ...
jquery中append、prepend, before和after方法的区别（一）
原文:http://blog.csdn.net/woosido123/article/details/64439490 在 jquery中append() 与 prepend()是在元素内插入内容(该 ...
剑指Offer 二进制中一的个数
链接:https://www.nowcoder.com/questionTerminal/8ee967e43c2c4ec193b040ea7fbb10b8 来源:牛客网 public class So ...
poj 1418 Viva Confetti
Viva Confetti Time Limit: 1000MS Memory Limit: 10000K Total Submissions: 1025 Accepted: 422 Desc ...
移动端H5多平台分享实践--摘抄
作者:大漠日期:2018-01-20 点击:628 mobile 编辑推荐: 掘金是一个高质量的技术社区,从 CSS 到 Vue.js,性能优化到开源类库,让你不错过前端开发的每一个技术干货. 点击 ...

sklearn特征选择和分类模型

sklearn特征选择和分类模型的更多相关文章

随机推荐

热门专题