本文參考:http://scikit-learn.org/stable/data_transforms.html

本篇主要讲数据预处理,包含四部分:

数据清洗、数据降维(PCA类)、数据增维(Kernel类)、提取自己定义特征。

哇哈哈。还是关注预处理比較靠谱。

。。

重要的不翻译:scikit-learn providesa library of transformers, which mayclean (see Preprocessing
data
), reduce (seeUnsupervised
dimensionality reduction
), expand (see Kernel
Approximation
) or generate (see Feature
extraction
) feature representations.

fit、transform、fit_transform三者差别:

fit:从训练集中学习模型的參数(比如,方差、中位数等;也可能是不同的词汇表)

transform:将训练集/測试集中的数据转换为fit学到的參数的维度上(測试集的方差、中位数等;測试集在fit得到的词汇表下的向量值等)。

fit_transform:同一时候进行fit和transform操作。

Like
other estimators, these are represented by classes with fit method,
which learns model parameters (e.g. mean and standard deviation for normalization) from a training set, and a transform method
which applies this transformation model to unseen data. fit_transform may
be more convenient and efficient for modelling and transforming the training data simultaneously.

八大块内容。翻译会在之后慢慢更新:

4.1.
Pipeline and FeatureUnion: combining estimators

4.1.1.
Pipeline: chaining estimators

4.1.2.
FeatureUnion: composite feature spaces

翻译之后的文章,參考:http://blog.csdn.net/mmc2015/article/details/46991465

4.2.
Feature extraction

4.2.3.
Text feature extraction

翻译之后的文章,參考:http://blog.csdn.net/mmc2015/article/details/46997379

4.2.4.
Image feature extraction

翻译之后的文章,參考:http://blog.csdn.net/mmc2015/article/details/46992105

4.3.
Preprocessing data

翻译之后的文章。參考:http://blog.csdn.net/mmc2015/article/details/47016313

4.3.1.
Standardization, or mean removal and variance scaling

4.3.2.
Normalization

4.3.3.
Binarization

4.3.4.
Encoding categorical features

4.3.5.
Imputation of missing values

4.4.
Unsupervised dimensionality reduction

翻译之后的文章,參考:http://blog.csdn.net/mmc2015/article/details/47066239

4.4.1.
PCA: principal component analysis

4.4.2.
Random projections

4.4.3.
Feature agglomeration
 (特征聚集)

4.5.
Random Projection

翻译之后的文章,參考:http://blog.csdn.net/mmc2015/article/details/47067003

4.5.1.
The Johnson-Lindenstrauss lemma

4.5.2.
Gaussian random projection

4.5.3.
Sparse random projection

4.6.
Kernel Approximation

翻译之后的文章,參考:http://blog.csdn.net/mmc2015/article/details/47068223

4.6.1.
Nystroem Method for Kernel Approximation

4.6.2.
Radial Basis Function Kernel

4.6.3.
Additive Chi Squared Kernel

4.6.4.
Skewed Chi Squared Kernel

4.6.5.
Mathematical Details

4.7.
Pairwise metrics, Affinities and Kernels

翻译之后的文章。參考:http://blog.csdn.net/mmc2015/article/details/47068895

4.7.1.
Cosine similarity

4.7.2.
Linear kernel

4.7.3.
Polynomial kernel

4.7.4.
Sigmoid kernel

4.7.5.
RBF kernel

4.7.6.
Chi-squared kernel

4.8.
Transforming the prediction target (y)

翻译之后的文章。參考:http://blog.csdn.net/mmc2015/article/details/47069869

4.8.1.
Label binarization

4.8.2.
Label encoding

scikit-learn:4. 数据集预处理(clean数据、reduce降维、expand增维、generate特征提取)的更多相关文章

  1. scikit learn 模块 调参 pipeline+girdsearch 数据举例:文档分类 (python代码)

    scikit learn 模块 调参 pipeline+girdsearch 数据举例:文档分类数据集 fetch_20newsgroups #-*- coding: UTF-8 -*- import ...

  2. Scikit Learn: 在python中机器学习

    转自:http://my.oschina.net/u/175377/blog/84420#OSC_h2_23 Scikit Learn: 在python中机器学习 Warning 警告:有些没能理解的 ...

  3. (原创)(四)机器学习笔记之Scikit Learn的Logistic回归初探

    目录 5.3 使用LogisticRegressionCV进行正则化的 Logistic Regression 参数调优 一.Scikit Learn中有关logistics回归函数的介绍 1. 交叉 ...

  4. WCF分布式开发步步为赢(8):使用数据集(DataSet)、数据表(DataTable)、集合(Collection)传递数据

    数据集(DataSet).数据表(DataTable).集合(Collection)概念是.NET FrameWork里提供数据类型,在应用程序编程过程中会经常使用其来作为数据的载体,属于ADO.NE ...

  5. (原创)(三)机器学习笔记之Scikit Learn的线性回归模型初探

    一.Scikit Learn中使用estimator三部曲 1. 构造estimator 2. 训练模型:fit 3. 利用模型进行预测:predict 二.模型评价 模型训练好后,度量模型拟合效果的 ...

  6. Scikit Learn

    Scikit Learn Scikit-Learn简称sklearn,基于 Python 语言的,简单高效的数据挖掘和数据分析工具,建立在 NumPy,SciPy 和 matplotlib 上.

  7. 大数据学习day39----数据仓库02------1. log4j 2. 父子maven工程(子spring项目的创建)3.项目开发(埋点日志预处理-json数据解析、清洗过滤、数据集成实现、uid回补)

    1. log4j(具体见log4j文档) log4j是一个java系统中用于输出日志信息的工具.log4j可以将日志定义成多种级别:ERROR  /  WARN  /  INFO  /  DEBUG ...

  8. Deep Learning 16:用自编码器对数据进行降维_读论文“Reducing the Dimensionality of Data with Neural Networks”的笔记

    前言 论文“Reducing the Dimensionality of Data with Neural Networks”是深度学习鼻祖hinton于2006年发表于<SCIENCE > ...

  9. Deep learning:三十四(用NN实现数据的降维)

    数据降维的重要性就不必说了,而用NN(神经网络)来对数据进行大量的降维是从2006开始的,这起源于2006年science上的一篇文章:reducing the dimensionality of d ...

随机推荐

  1. Node.js应用场景及发展趋势

    node主要应用场景是在大前端,阿里的思路是比较合适的,但是必须要注意,绝对不能让node做太多的业务逻辑,他只适合接受人家生成好的数据,然后或渲染后,或直接发送到客户端.如果让node做复杂的业务逻 ...

  2. 立即执行函数(IIFE)

    立即执行函数(IIFE) 看到这里,相信你一定迫不及待地想知道究竟如何做了吧,其实很简单,只需要用括号全部括起来即可,比如下面这样: (function(){ /* code */ }()); 为什么 ...

  3. 审查php.ini自动分析程序

    源码 https://github.com/sektioneins/pcc 使用方法 环境: mac cli 命令行执行 git clone https://github.com/sektionein ...

  4. centos中httpd Server not started: (13)Permission denied: make_sock: could not bind to address [::]:8888

    Install semanage tools: sudo yum -y install policycoreutils-python Allow port 88 for httpd: sudo sem ...

  5. Using Single Alert For Messages And Confirmation Messages In Oracle Forms With Set_Alert_Button_Property

    Learn how to use single Oracle Form's Alert object for warning/information messages and confirmation ...

  6. 【freeCodeCamp】免费晋级前台工程师呦!!!!

    首页地址:https://www.freecodecamp.org/ GitHub:https://github.com/freeCodeCamp/freeCodeCamp ============= ...

  7. 从数据库中选取数据形成select标签

    添加文章时用代码如下: <select name="NClass" id="NClass" class="sel"> <? ...

  8. wpa破解学习

    TENDA  159031106A iPhone 192.168.0.11 90:27:E4:53:49:D6 18:58:52 PC-201211262044 192.168.0.12 00:F1: ...

  9. 微信开发token验证失败

    遇到token验证时: 1.首先检验是否是80端口或443端口,能否接收到微信的响应信息,如果使用域名,域名要备注,否则接收不到响应信息: 2.其次判断是否能正常echo $echoStr,之前不能有 ...

  10. 2017.2.21 activiti实战--第七章--Activiti与spring集成(一)配置文件

    学习资料:<Activiti实战> 第七章 Activiti与容器集成 本章讲解activiti-spring可以做的事情,如何与现有系统集成,包含bean的注入.统一事务管理等. 7.1 ...