机器学习之路：python 特征降维特征筛选 feature

特征提取：
    特征降维的手段
    抛弃对结果没有联系的特征
    抛弃对结果联系较少的特征
    以这种方式，降低维度

数据集的特征过多，有些对结果没有任何关系，
这个时候，将没有关系的特征删除，反而能获得更好的预测结果

下面使用决策树，预测泰坦尼克号幸存情况，
对不同百分比的筛选特征，进行学习和预测，比较准确率

python3学习使用api

使用到联网的数据集，我已经下载到本地，可以到我的git中下载数据集

git: https://github.com/linyi0604/MachineLearning

代码：

 import pandas as pd

 from sklearn.cross_validation import train_test_split

 from sklearn.feature_extraction import DictVectorizer

 from sklearn.tree import DecisionTreeClassifier

 from sklearn import feature_selection

 from sklearn.cross_validation import cross_val_score

 import numpy as np

 import pylab as pl

 '''

 特征提取：

     特征降维的手段

     抛弃对结果没有联系的特征

     抛弃对结果联系较少的特征

     以这种方式，降低维度

 数据集的特征过多，有些对结果没有任何关系，

 这个时候，将没有关系的特征删除，反而能获得更好的预测结果

 下面使用决策树，预测泰坦尼克号幸存情况，

 对不同百分比的筛选特征，进行学习和预测，比较准确率

 '''

 # 1 准备数据

 titanic = pd.read_csv("../data/titanic/titanic.txt")

 # 分离数据特征与目标

 y = titanic["survived"]

 x = titanic.drop(["row.names", "name", "survived"], axis=1)

 # 对缺失值进行补充

 x['age'].fillna(x['age'].mean(), inplace=True)

 x.fillna("UNKNOWN", inplace=True)

 # 2 分割数据集 25%用于测试 75%用于训练

 x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.25, random_state=33)

 # 3 类别型特征向量化

 vec = DictVectorizer()

 x_train = vec.fit_transform(x_train.to_dict(orient='record'))

 x_test = vec.transform(x_test.to_dict(orient='record'))

 # 输出处理后向量的维度

 # print(len(vec.feature_names_))  # 474

 # 4 使用决策树对所有特征进行学习和预测

 dt = DecisionTreeClassifier(criterion='entropy')

 dt.fit(x_train, y_train)

 print("全部维度的预测准确率：", dt.score(x_test, y_test))  # 0.8206686930091185

 # 5 筛选前20%的特征，使用相同配置的决策树模型进行评估性能

 fs = feature_selection.SelectPercentile(feature_selection.chi2, percentile=20)

 x_train_fs = fs.fit_transform(x_train, y_train)

 x_test_fs = fs.transform(x_test)

 dt.fit(x_train_fs, y_train)

 print("前20%特征的学习模型预测准确率：", dt.score(x_test_fs, y_test))     # 0.8237082066869301

 # 6 通过交叉验证 按照固定间隔百分比筛选特征， 展示性能情况

 percentiles = range(1, 100, 2)

 results = []

 for i in percentiles:

     fs = feature_selection.SelectPercentile(feature_selection.chi2, percentile=i)

     x_train_fs = fs.fit_transform(x_train, y_train)

     scores = cross_val_score(dt, x_train_fs, y_train, cv=5)

     results = np.append(results, scores.mean())

 # print(results)

 '''

 [0.85063904 0.85673057 0.87501546 0.88622964 0.86284271 0.86489384

  0.87303649 0.86689342 0.87098536 0.86690373 0.86895485 0.86083282

  0.86691404 0.86488353 0.86895485 0.86792414 0.86284271 0.86995465

  0.86486291 0.86385281 0.86384251 0.86894455 0.86794475 0.86690373

  0.86488353 0.86489384 0.86590394 0.87300557 0.86995465 0.86793445

  0.87097506 0.86998557 0.86692435 0.86892393 0.86997526 0.87098536

  0.87198516 0.86691404 0.86691404 0.87301587 0.87202639 0.8648423

  0.86386312 0.86388374 0.86794475 0.8618223  0.85877139 0.86285302

  0.86692435 0.8577819 ]

 '''

 # 找到最佳性能的筛选百分比

 opt = np.where(results == results.max())[0][0]

 print("最高性能的筛选百分比是：%s%%" % percentiles[opt])  #

 pl.plot(percentiles, results)

 pl.xlabel("特征筛选的百分比")

 pl.ylabel("准确率")

 pl.show()

生成的准确率图：

机器学习之路：python 特征降维特征筛选 feature_selection的更多相关文章

机器学习之路: python 回归树 DecisionTreeRegressor 预测波士顿房价
python3 学习api的使用 git: https://github.com/linyi0604/MachineLearning 代码: from sklearn.datasets import ...
机器学习之路: python 线性回归LinearRegression, 随机参数回归SGDRegressor 预测波士顿房价
python3学习使用api 线性回归,和随机参数回归 git: https://github.com/linyi0604/MachineLearning from sklearn.datasets ...
机器学习之路: python 决策树分类DecisionTreeClassifier 预测泰坦尼克号乘客是否幸存
使用python3 学习了决策树分类器的api 涉及到特征的提取,数据类型保留,分类类型抽取出来新的类型需要网上下载数据集,我把他们下载到了本地, 可以到我的git下载代码和数据集: https: ...
机器学习之路: python k近邻分类器 KNeighborsClassifier 鸢尾花分类预测
使用python语言学习k近邻分类器的api 欢迎来到我的git查看源代码: https://github.com/linyi0604/MachineLearning from sklearn.da ...
机器学习之路--Python
常用数据结构 1.list 列表有序集合 classmates = ['Michael', 'Bob', 'Tracy'] len(classmates) classmates[0] len(cla ...
什么是机器学习的特征工程？【数据集特征抽取（字典，文本TF-Idf）、特征预处理（标准化，归一化）、特征降维（低方差，相关系数，PCA）】
2.特征工程 2.1 数据集 2.1.1 可用数据集 Kaggle网址:https://www.kaggle.com/datasets UCI数据集网址: http://archive.ics.uci ...
AI学习---特征工程【特征抽取、特征预处理、特征降维】
学习框架特征工程(Feature Engineering) 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已什么是特征工程: 帮助我们使得算法性能更好发挥性能而已 sklearn主 ...
特征降维之PCA
目录 PCA思想问题形式化表述 PCA之协方差矩阵协方差定义矩阵-特征值 PCA运算步骤 PCA理论解释最大方差理论性质参数k的选取数据重建主观理解应用代码示例 PCA思想 PCA ...
如何用Python做自动化特征工程
机器学习的模型训练越来越自动化,但特征工程还是一个漫长的手动过程,依赖于专业的领域知识,直觉和数据处理.而特征选取恰恰是机器学习重要的先期步骤,虽然不如模型训练那样能产生直接可用的结果.本文作者将使用 ...

随机推荐

HDU 2722 Here We Go(relians) Again (最短路)
题目链接 Problem Description The Gorelians are a warlike race that travel the universe conquering new wo ...
java矩阵包jama的简单操作
本文转自http://www.cnblogs.com/zangbo/p/5622351.html 一.jama简介 Jama是一个基本的线性代数java包.包括一个基本的Matrix类和5个矩阵分解类 ...
python练习-Socket实现远程cmd命令
需求:基于tcp的套接字实现远程执行命令的操作代码示例: # 编辑者:闫龙 #Client端部分 import socket #导入骚凯特模块 CmdObj = socket.socket(sock ...
Ubuntu: HDF5报错: HDF5 header version与HDF5 library不匹配
今天在执行一个用到hdf5的python脚本时,遇到如下错误 Warning! ***HDF5 library version mismatched error*** The HDF5 header ...
20155303 2016-2017-2 《Java程序设计》第十周学习总结
20155303 2016-2017-2 <Java程序设计>第十周学习总结目录学习内容总结网络编程数据库教材学习中的问题和解决过程代码调试中的问题和解决过程代码托管上周考 ...
【逆向知识】开发WinDBG扩展DLL
如何开发WinDbg扩展DLL WinDbg扩展DLL是一组导出的回调函数,用于实现用户定义的命令.以便从内存转储中提取特定的信息.扩展dll由调试器引擎加载,可以在执行用户模式或内核模式调试时提供自 ...
Apple Notification Center Service--ANCS【转】
Apple Notification Center Service 转自:http://studentdeng.github.io/blog/2014/03/22/ancs/ MAR 22ND, 20 ...
java 一个函数如何返回多个值
在开发过程中,经常会有这种情况,就是一个函数需要返回多个值,这是一个问题!! 网上这个问题的解决方法: 1.使用map返回值:这个方法问题是,你并不知道如何返回值的key是什么,只能通过doc或者通过 ...
七、springboot整合Spring-data-jpa
1.Spring Data JPA是什么由Spring提供的一个用于简化JPA开发的框架.可以在几乎不用写实现的情况下,实现对数据的访问和操作.除了CRUD外,还包括如分页.排序等一些常用的功能 1 ...
ExtJs对js基本语法扩展支持
ExtJs对js基本语法扩展支持本篇主要介绍一下ExtJs对JS基本语法的扩展支持,包括动态加载.类的封装等. 一.动态引用加载 ExtJs有庞大的类型库,很多类可能在当前的页面根本不会用到,我们可 ...

机器学习之路：python 特征降维 特征筛选 feature_selection

机器学习之路：python 特征降维 特征筛选 feature_selection的更多相关文章

随机推荐

热门专题

机器学习之路：python 特征降维特征筛选 feature_selection

机器学习之路：python 特征降维特征筛选 feature_selection的更多相关文章