python大战机器学习—

　　数据预处理的常用流程：

　　　　1）去除唯一属性

　　　　2）处理缺失值

　　　　3）属性编码

　　　　4）数据标准化、正则化

　　　　5）特征选择

　　　　6）主成分分析

1、去除唯一属性

　　如id属性，是唯一属性，直接去除就好

2、处理缺失值

(1)直接使用含有缺失值的特征

　　如决策树算法就可以直接使用含有缺失值的特征

(2)删除含有缺失值的特征

(3)缺失值补全

1)均值插补

　　若样本属性的距离是可度量的，则该属性的缺失值就以该属性有效值的平均值来插补缺失的值。如果样本的属性的距离是不可度量的，则该属性的缺失值就以该属性有效值的众数来插补缺失的值。

2)用同类均值插补

　　首先将样本进行分类，然后以该类样本中的均值来插补缺失值。

3)建模预测

　　将缺失的属性作为预测目标来预测。这种方法效果较好，但是该方法有个根本的缺陷：如果其他属性和缺失属性无关，则预测的结果毫无意义。但是如果预测结果相当准确，则说明这个缺失属性是没必要考虑纳入数据集中的。一般的情况介于两者之间。

4)高维映射

　　将属性高映射到高维空间。这种做法是最精确的做法，它完全保留了所有的信息，也未增加任何额外的信息。这样做的好处是完整保留了原始数据的全部信息、不用考虑缺失值。但它的缺点也很明显，就是计算量大大提升。而且只有在样本量非常大的时候效果才好，否则会因为过于稀疏，效果很差。

5)多重插补

　　多重插补认为待插补的值是随机的，它的值来自于已观测到的值。具体实践上通常是估计出待插补的值，然后再加上不同的噪声，形成多组可选插补值。根据某种选择依据，选取最合适的插补值。

6)极大似然估计

7)压缩感知及矩阵补全

　　压缩感知通过利用信号本身所具有的稀疏性，从部分观测样本中回复原信号。压缩感知分为感知测量和重构恢复两个阶段。

　　　　感知测量：此阶段对原始信号进行处理以获得稀疏样本表示。常用的手段是傅里叶变换、小波变换、字典学习、稀疏编码等

　　　　重构恢复：此阶段基于稀疏性从少量观测中恢复原信号。这是压缩感知的核心

　　矩阵补全

3、特征编码

(1)特征二元化：将数值型的属性转换成布尔型的属性

(2)独热编码：构建一个映射，将这些非数值属性映射到整数。其采用N位状态寄存器来对N个可能的取值进行编码，每个状态都由独立的寄存器位表示，并且在任意时刻只有其中的一位有效。

4、数据标准化、正则化

(1)数据标准化：将样本的属性缩放到某个指定范围

　　进行数据标准化的原因：一是因为某些算法要求样本数据具有零均值和单位方差。二是样本不同属性具有不同量级时，消除数量级的影响。

　　min-max标准化：标准化之后，样本x的所有属性值都在[0,1]之间

　　z-score标准化：标准化之后，样本集的所有属性的均值都是0，标准差均为1

(2)数据正则化：将样本的某个范数（如L1范数）缩放到单位1。正则化的过程是针对单个样本的，对于每个样本将样本缩放到单位范数。通常如果使用二次型（如点积）或者其他核方法计算两个样本之间的相似性，该方法会很有用。

5、特征选择

(1)过滤式选择：先对数据集进行特征选择，然后再训练学习器。特征选择过程与后续学习器无关。常用方法有Relief（二分类）、Relief-F（多分类）

(2)包裹式选择：直接把最终将要使用的学习器的性能作为特征子集的评价准则。常用方法LVW

(3)嵌入式选择和L1正则化

　　嵌入式特征选择是在学习器训练过程中自动进行了特征选择

6、稀疏表示和字典学习

代码实现：

 from sklearn.preprocessing import Binarizer,OneHotEncoder,MinMaxScaler,MaxAbsScaler,StandardScaler,Normalizer

 from sklearn.feature_selection import VarianceThreshold,SelectKBest,f_classif,RFE,RFECV,SelectFromModel

 from sklearn.svm import LinearSVC

 from sklearn.datasets import load_iris

 import numpy as np

 from sklearn.decomposition import DictionaryLearning

 #Binary

 X=[   [1,2,3,4,5],

       [5,4,3,2,1],

       [3,3,3,3,3],

       [1,1,1,1,1]]

 print("before transform:",X)

 binarizer=Binarizer(threshold=2.5)

 print("after transform:",binarizer.transform(X))

 #OneHotEncoder

 X=[   [1,2,3,4,5],

       [5,4,3,2,1],

       [3,3,3,3,3],

       [1,1,1,1,1]]

 print("before transform:",X)

 encoder=OneHotEncoder(sparse=False)

 encoder.fit(X)

 print("active_feature_:",encoder.active_features_)

 print("feature_indices_:",encoder.feature_indices_)

 print("n_values:",encoder.n_values_)

 print("after transform:",encoder.transform([[1,2,3,4,5]]))

 #standardization

 #MinMaxScaler

 X=[ [1,5,1,2,10],

     [2,6,3,2,7],

     [3,7,5,6,4],

     [4,8,7,8,1]

 ]

 print("before transform:",X)

 scaler=MinMaxScaler(feature_range=(0,2))

 scaler.fit(X)

 print("min_is:",scaler.min_)

 print("scale_is:",scaler.scale_)

 print("data_max_ is:",scaler.data_max_)

 print("data_min_ is:",scaler.data_min_)

 print("data_range_ is:",scaler.data_range_)

 print("after transform:",scaler.transform(X))

 #MaxAbsScaler

 X=[

       [1,5,1,2,10],

       [2,6,3,2,7],

       [3,7,5,6,4],

       [4,8,7,8,1]

 ]

 print("before transform:",X)

 scaler=MaxAbsScaler()

 scaler.fit(X)

 print("scale_is:",scaler.scale_)

 print("max_abs_ is:",scaler.max_abs_)

 print("after transform:",scaler.transform(X))

 #StandardScaler:z-score

 X=[

       [1,5,1,2,10],

       [2,6,3,2,7],

       [3,7,5,6,4],

       [4,8,7,8,1]

 ]

 print("before transfrom:",X)

 scaler=StandardScaler()

 scaler.fit(X)

 print("scale_ is:",scaler.scale_)

 print("mean_ is:",scaler.mean_)

 print("var_ is:",scaler.var_)

 print("after transfrom:",scaler.transform(X))

 #Normalizer

 X=[

       [1,2,3,4,5],

       [5,4,3,2,1],

       [1,3,5,2,4],

       [2,4,1,3,5]

 ]

 print("before transform:",X)

 normalizer=Normalizer(norm='l2')

 print("after transform:",normalizer.transform(X))

 #VarianceThreshold

 X=[

       [100,1,2,3],

       [100,4,5,6],

       [100,7,8,9],

       [101,11,12,13]

 ]

 selector=VarianceThreshold(1)

 selector.fit(X)

 print("Variances is %s"%selector.variances_)

 print("After transform is %s"%selector.transform(X))

 print("The surport is %s"%selector.get_support(True))

 print("After reverse transform is %s"%selector.inverse_transform(selector.transform(X)))

 #SelectKBest

 X=[   [1,2,3,4,5],

       [5,4,3,2,1],

       [3,3,3,3,3],

       [1,1,1,1,1]]

 Y=[0,1,0,1]

 print("before transform:",X)

 selector=SelectKBest(score_func=f_classif,k=3)

 selector.fit(X,Y)

 print("scores_:",selector.scores_)

 print("pvalues_:",selector.pvalues_)

 print("selected index:",selector.get_support(True))

 print("after transform:",selector.transform(X))

 #RFE

 iris=load_iris()

 X=iris.data

 Y=iris.target

 estimator=LinearSVC()

 selector=RFE(estimator=estimator,n_features_to_select=2)

 print("Before transform,X=",X)

 selector.fit(X,Y)

 selector.transform(X)

 print("After transform,X=",X)

 print("Ranking %s"%selector.ranking_)

 #RFECV

 iris=load_iris()

 X=iris.data

 Y=iris.target

 estimator=LinearSVC()

 selector=RFECV(estimator=estimator,cv=3)

 selector.fit(X,Y)

 print("Grid Scores %s"%selector.grid_scores_)

 #SelectFromModel

 iris=load_iris()

 X=iris.data

 Y=iris.target

 estimator=LinearSVC(penalty='l1',dual=False)

 selector=SelectFromModel(estimator=estimator,threshold='mean')

 selector.fit(X,Y)

 selector.transform(X)

 print("Threshold %s"%selector.threshold_)

 print("Support is %s"%selector.get_support(indices=True))

 #DictionaryLearning

 X=[

       [1,2,3,4,5],

       [6,7,8,9,10],

       [10,9,8,7,6],

       [5,4,3,2,1]

 ]

 print("before transform:",X)

 dct=DictionaryLearning(n_components=3)

 dct.fit(X)

 print("components is :",dct.components_)

 print("after transform:",dct.transform(X))

python大战机器学习——数据预处理的更多相关文章

python大战机器学习——数据降维
注:因为公式敲起来太麻烦,因此本文中的公式没有呈现出来,想要知道具体的计算公式,请参考原书中内容降维就是指采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中 1.主成分分析(PCA) 将n ...
Python: sklearn库——数据预处理
Python: sklearn库 —— 数据预处理数据集转换之预处理数据: 将输入的数据转化成机器学习算法可以使用的数据.包含特征提取和标准化. 原因:数据集的标准化(服从均值为 ...
机器学习 —— 数据预处理
对于学习机器学习算法来说,肯定会涉及到数据的处理,因此一开始,对数据的预处理进行学习对于数据的预处理,大概有如下几步: 步骤1 -- 导入所需库导入处理数据所需要的python库,有如下两个库是非 ...
[机器学习]-[数据预处理]-中心化缩放 KNN（二）
上次我们使用精度评估得到的成绩是 61%,成绩并不理想,再使 recall 和 f1 看下成绩如何? 首先我们先了解一下召回率和 f1. 真实结果预测结果预测结果正例反例正例 TP 真 ...
吴裕雄 python 机器学习——数据预处理过滤式特征选取SelectPercentile模型
from sklearn.feature_selection import SelectPercentile,f_classif #数据预处理过滤式特征选取SelectPercentile模型 def ...
吴裕雄 python 机器学习——数据预处理过滤式特征选取VarianceThreshold模型
from sklearn.feature_selection import VarianceThreshold #数据预处理过滤式特征选取VarianceThreshold模型 def test_Va ...
吴裕雄 python 机器学习——数据预处理正则化Normalizer模型
from sklearn.preprocessing import Normalizer #数据预处理正则化Normalizer模型 def test_Normalizer(): X=[[1,2,3, ...
吴裕雄 python 机器学习——数据预处理标准化MaxAbsScaler模型
from sklearn.preprocessing import MaxAbsScaler #数据预处理标准化MaxAbsScaler模型 def test_MaxAbsScaler(): X=[[ ...
吴裕雄 python 机器学习——数据预处理标准化StandardScaler模型
from sklearn.preprocessing import StandardScaler #数据预处理标准化StandardScaler模型 def test_StandardScaler() ...

随机推荐

ngCookies都做了什么
根据官方的api文档,ngCookies的$cookieStore服务,提供了这样几个方法: 1.get(key); 2.put(key, value); 3.remove(key); 以上方法都是对 ...
AtCoder Grand Contest 015 题解
A - A+...+B Problem 常识 Problem Statement Snuke has N integers. Among them, the smallest is A, and th ...
uoj problem 10
uoj problem 10 题目大意: 给定任务若干,每个任务在$t_i$收到,需要$s_i$秒去完成,优先级为$p_i$ 你采用如下策略: 每一秒开始时,先收到所有在该秒出现的任务,然 ...
[POI 2018] Plan Metra
[题目链接] https://www.lydsy.com/JudgeOnline/problem.php?id=5100 [算法] 首先分两类考虑 : 1. 1 -> N的路径不经过其它节点 , ...
git rebase小计(转)
git rebase,顾名思义,就是重新定义(re)起点(base)的作用,即重新定义分支的版本库状态.要搞清楚这个东西,要先看看版本库状态切换的两种情况: 我们知道,在某个分支上,我们可以通过git ...
asp.net异常处理和错误页配置
最近做一个项目,直接拷贝了前辈写的程序,结果报错了查了半天都没查出原因,也看不出哪里报错,最后发现有一个错误被try...catch了,所以我们做项目的时候一般不需要try...catch. 假设所有 ...
面向对象（Java中普通代码块，构造代码块，静态代码块区别及代码示例）
//执行顺序:(优先级从高到低.)静态代码块>mian方法>构造代码块>构造方法. 其中静态代码块只执行一次.构造代码块在每次创建对象是都会执行. 1 普通代码块 //普通代码块:在 ...
继承自DynamicObject的对象的Xml序列化
默认情况下,对继承自DynamicObject的对象进行序列化操作是不会报错的,但是并没有实际序列化出任何东西来为了让它进行序列化,我们改造一下实现类,实现IXmlSerializable接口代码 ...
js检测对象属性
In:(检测自身及原型属性) var o={x:1}; "x" in o; //true,自有属性存在 "y" in o; //false "toSt ...
HTML DOM clearTimeout() 方法
转自:http://www.w3school.com.cn/jsref/met_win_cleartimeout.asp 定义和用法 clearTimeout() 方法可取消由 setTimeout( ...

python大战机器学习——数据预处理

python大战机器学习——数据预处理的更多相关文章

随机推荐

热门专题