本文參考:http://scikit-learn.org/stable/data_transforms.html

本篇主要讲数据预处理,包含四部分:

数据清洗、数据降维(PCA类)、数据增维(Kernel类)、提取自己定义特征。

哇哈哈。还是关注预处理比較靠谱。

。。

重要的不翻译:scikit-learn providesa library of transformers, which mayclean (see Preprocessing
data
), reduce (seeUnsupervised
dimensionality reduction
), expand (see Kernel
Approximation
) or generate (see Feature
extraction
) feature representations.

fit、transform、fit_transform三者差别:

fit:从训练集中学习模型的參数(比如,方差、中位数等;也可能是不同的词汇表)

transform:将训练集/測试集中的数据转换为fit学到的參数的维度上(測试集的方差、中位数等;測试集在fit得到的词汇表下的向量值等)。

fit_transform:同一时候进行fit和transform操作。

Like
other estimators, these are represented by classes with fit method,
which learns model parameters (e.g. mean and standard deviation for normalization) from a training set, and a transform method
which applies this transformation model to unseen data. fit_transform may
be more convenient and efficient for modelling and transforming the training data simultaneously.

八大块内容。翻译会在之后慢慢更新:

4.1.
Pipeline and FeatureUnion: combining estimators

4.1.1.
Pipeline: chaining estimators

4.1.2.
FeatureUnion: composite feature spaces

翻译之后的文章,參考:http://blog.csdn.net/mmc2015/article/details/46991465

4.2.
Feature extraction

4.2.3.
Text feature extraction

翻译之后的文章,參考:http://blog.csdn.net/mmc2015/article/details/46997379

4.2.4.
Image feature extraction

翻译之后的文章,參考:http://blog.csdn.net/mmc2015/article/details/46992105

4.3.
Preprocessing data

翻译之后的文章。參考:http://blog.csdn.net/mmc2015/article/details/47016313

4.3.1.
Standardization, or mean removal and variance scaling

4.3.2.
Normalization

4.3.3.
Binarization

4.3.4.
Encoding categorical features

4.3.5.
Imputation of missing values

4.4.
Unsupervised dimensionality reduction

翻译之后的文章,參考:http://blog.csdn.net/mmc2015/article/details/47066239

4.4.1.
PCA: principal component analysis

4.4.2.
Random projections

4.4.3.
Feature agglomeration
 (特征聚集)

4.5.
Random Projection

翻译之后的文章,參考:http://blog.csdn.net/mmc2015/article/details/47067003

4.5.1.
The Johnson-Lindenstrauss lemma

4.5.2.
Gaussian random projection

4.5.3.
Sparse random projection

4.6.
Kernel Approximation

翻译之后的文章,參考:http://blog.csdn.net/mmc2015/article/details/47068223

4.6.1.
Nystroem Method for Kernel Approximation

4.6.2.
Radial Basis Function Kernel

4.6.3.
Additive Chi Squared Kernel

4.6.4.
Skewed Chi Squared Kernel

4.6.5.
Mathematical Details

4.7.
Pairwise metrics, Affinities and Kernels

翻译之后的文章。參考:http://blog.csdn.net/mmc2015/article/details/47068895

4.7.1.
Cosine similarity

4.7.2.
Linear kernel

4.7.3.
Polynomial kernel

4.7.4.
Sigmoid kernel

4.7.5.
RBF kernel

4.7.6.
Chi-squared kernel

4.8.
Transforming the prediction target (y)

翻译之后的文章。參考:http://blog.csdn.net/mmc2015/article/details/47069869

4.8.1.
Label binarization

4.8.2.
Label encoding

scikit-learn:4. 数据集预处理(clean数据、reduce降维、expand增维、generate特征提取)的更多相关文章

  1. scikit learn 模块 调参 pipeline+girdsearch 数据举例:文档分类 (python代码)

    scikit learn 模块 调参 pipeline+girdsearch 数据举例:文档分类数据集 fetch_20newsgroups #-*- coding: UTF-8 -*- import ...

  2. Scikit Learn: 在python中机器学习

    转自:http://my.oschina.net/u/175377/blog/84420#OSC_h2_23 Scikit Learn: 在python中机器学习 Warning 警告:有些没能理解的 ...

  3. (原创)(四)机器学习笔记之Scikit Learn的Logistic回归初探

    目录 5.3 使用LogisticRegressionCV进行正则化的 Logistic Regression 参数调优 一.Scikit Learn中有关logistics回归函数的介绍 1. 交叉 ...

  4. WCF分布式开发步步为赢(8):使用数据集(DataSet)、数据表(DataTable)、集合(Collection)传递数据

    数据集(DataSet).数据表(DataTable).集合(Collection)概念是.NET FrameWork里提供数据类型,在应用程序编程过程中会经常使用其来作为数据的载体,属于ADO.NE ...

  5. (原创)(三)机器学习笔记之Scikit Learn的线性回归模型初探

    一.Scikit Learn中使用estimator三部曲 1. 构造estimator 2. 训练模型:fit 3. 利用模型进行预测:predict 二.模型评价 模型训练好后,度量模型拟合效果的 ...

  6. Scikit Learn

    Scikit Learn Scikit-Learn简称sklearn,基于 Python 语言的,简单高效的数据挖掘和数据分析工具,建立在 NumPy,SciPy 和 matplotlib 上.

  7. 大数据学习day39----数据仓库02------1. log4j 2. 父子maven工程(子spring项目的创建)3.项目开发(埋点日志预处理-json数据解析、清洗过滤、数据集成实现、uid回补)

    1. log4j(具体见log4j文档) log4j是一个java系统中用于输出日志信息的工具.log4j可以将日志定义成多种级别:ERROR  /  WARN  /  INFO  /  DEBUG ...

  8. Deep Learning 16:用自编码器对数据进行降维_读论文“Reducing the Dimensionality of Data with Neural Networks”的笔记

    前言 论文“Reducing the Dimensionality of Data with Neural Networks”是深度学习鼻祖hinton于2006年发表于<SCIENCE > ...

  9. Deep learning:三十四(用NN实现数据的降维)

    数据降维的重要性就不必说了,而用NN(神经网络)来对数据进行大量的降维是从2006开始的,这起源于2006年science上的一篇文章:reducing the dimensionality of d ...

随机推荐

  1. Android Bluetooth抓包

    1. 前提 这里介绍一种在Android上捕获蓝牙数据包的方法 首先你要有一部Android手机:然后你的Android系统版本要在4.4及以上 我没有做过Android开发,不清楚开发者们是如何抓蓝 ...

  2. Linux内核情景分析之消息队列

    早期的Unix通信只有管道与信号,管道的缺点: 所载送的信息是无格式的字节流,不知道分界线在哪,也没通信规范,另外缺乏控制手段,比如保温优先级,管道机制的大小只有1页,管道很容易写满而读取没有及时,发 ...

  3. myeclipse服务器"未能创建视图:抛出意外异常。"

    找到对应目录 Workspaces\.metadata\.plugins\org.eclipse.core.runtime\.settings 下的 com.genuitec.eclipse.ast. ...

  4. Android 中利用ViewFlipper 滑动屏幕切换页面,ListView展示数据

    首先新建一个Android项目,命名为ViewFlipperTest 如图:项目机构,本项目主要操作图中红色箭头标注的文件 1.HgroupAdapter.java文件代码↓主要实现listview数 ...

  5. 前端js、jQuery实现日期格式化、字符串格式化

    1. js仿后台的字符串的StringFormat方法 在做前端页面时候,经常会对字符串进行拼接处理,但是直接使用字符串拼接,不但影响阅读,而且影响执行效率,且jQuery有没有定义字符串的Strin ...

  6. JSP高级功能-java之JSP学习第三天(非原创)

    文章大纲 一.JSP 标准标签库(JSTL)二.JSP 连接数据库三.JSP XML 数据处理四.JSP JavaBean五.JSP 自定义标签六.JSP 表达式语言七.JSP 异常处理八.JSP 调 ...

  7. mysql之count,max,min,sum,avg,celing,floor

    写在前面 昨天去青龙峡玩了一天,累的跟狗似的.不过还好,最终也算登到山顶了,也算来北京后征服的第三座山了.这里也唠叨一句,做开发这行,没事还是多运动运动,对自己还是很有好处的,废话少说,还是折腾折腾s ...

  8. C++测试题练习题1

    1.which of the following is not automatically generated by the compiler? a. default constructor    b ...

  9. 初始----python数字图像处理--:环境安装与配置

    一提到数字图像处理编程,可能大多数人就会想到matlab,但matlab也有自身的缺点: 1.不开源,价格贵 2.软件容量大.一般3G以上,高版本甚至达5G以上. 3.只能做研究,不易转化成软件. 因 ...

  10. hibernate向mysql插入数据后,得到该条数据主键的方法

    hibernate向MySQL插入一条数据后,得到该条数据主键的方法.主键是自增长的. 保存完成后,直接用该实体的getId的方法就可以得到.因为保存完成后,hibernate会自动将id赋值给实体. ...