scikit-learn:4. 数据集预处理(clean数据、reduce降维、expand增维、generate特征提取)
本文參考:http://scikit-learn.org/stable/data_transforms.html
本篇主要讲数据预处理,包含四部分:
数据清洗、数据降维(PCA类)、数据增维(Kernel类)、提取自己定义特征。
哇哈哈。还是关注预处理比較靠谱。
。。
。
重要的不翻译:scikit-learn providesa library of transformers, which mayclean (see Preprocessing
data), reduce (seeUnsupervised
dimensionality reduction), expand (see Kernel
Approximation) or generate (see Feature
extraction) feature representations.
fit、transform、fit_transform三者差别:
fit:从训练集中学习模型的參数(比如,方差、中位数等;也可能是不同的词汇表)
transform:将训练集/測试集中的数据转换为fit学到的參数的维度上(測试集的方差、中位数等;測试集在fit得到的词汇表下的向量值等)。
fit_transform:同一时候进行fit和transform操作。
Like
other estimators, these are represented by classes with fit method,
which learns model parameters (e.g. mean and standard deviation for normalization) from a training set, and a transform method
which applies this transformation model to unseen data. fit_transform may
be more convenient and efficient for modelling and transforming the training data simultaneously.
八大块内容。翻译会在之后慢慢更新:
4.1.
Pipeline and FeatureUnion: combining estimators
4.1.1.
Pipeline: chaining estimators
4.1.2.
FeatureUnion: composite feature spaces
翻译之后的文章,參考:http://blog.csdn.net/mmc2015/article/details/46991465
4.2.3.
Text feature extraction
翻译之后的文章,參考:http://blog.csdn.net/mmc2015/article/details/46997379
4.2.4.
Image feature extraction
翻译之后的文章,參考:http://blog.csdn.net/mmc2015/article/details/46992105
翻译之后的文章。參考:http://blog.csdn.net/mmc2015/article/details/47016313
4.3.1.
Standardization, or mean removal and variance scaling
4.3.4.
Encoding categorical features
4.3.5.
Imputation of missing values
4.4.
Unsupervised dimensionality reduction
翻译之后的文章,參考:http://blog.csdn.net/mmc2015/article/details/47066239
4.4.1.
PCA: principal component analysis
4.4.3.
Feature agglomeration (特征聚集)
翻译之后的文章,參考:http://blog.csdn.net/mmc2015/article/details/47067003
4.5.1.
The Johnson-Lindenstrauss lemma
4.5.2.
Gaussian random projection
4.5.3.
Sparse random projection
翻译之后的文章,參考:http://blog.csdn.net/mmc2015/article/details/47068223
4.6.1.
Nystroem Method for Kernel Approximation
4.6.2.
Radial Basis Function Kernel
4.6.3.
Additive Chi Squared Kernel
4.6.4.
Skewed Chi Squared Kernel
4.7.
Pairwise metrics, Affinities and Kernels
翻译之后的文章。參考:http://blog.csdn.net/mmc2015/article/details/47068895
4.8.
Transforming the prediction target (y)
翻译之后的文章。參考:http://blog.csdn.net/mmc2015/article/details/47069869
scikit-learn:4. 数据集预处理(clean数据、reduce降维、expand增维、generate特征提取)的更多相关文章
- scikit learn 模块 调参 pipeline+girdsearch 数据举例:文档分类 (python代码)
scikit learn 模块 调参 pipeline+girdsearch 数据举例:文档分类数据集 fetch_20newsgroups #-*- coding: UTF-8 -*- import ...
- Scikit Learn: 在python中机器学习
转自:http://my.oschina.net/u/175377/blog/84420#OSC_h2_23 Scikit Learn: 在python中机器学习 Warning 警告:有些没能理解的 ...
- (原创)(四)机器学习笔记之Scikit Learn的Logistic回归初探
目录 5.3 使用LogisticRegressionCV进行正则化的 Logistic Regression 参数调优 一.Scikit Learn中有关logistics回归函数的介绍 1. 交叉 ...
- WCF分布式开发步步为赢(8):使用数据集(DataSet)、数据表(DataTable)、集合(Collection)传递数据
数据集(DataSet).数据表(DataTable).集合(Collection)概念是.NET FrameWork里提供数据类型,在应用程序编程过程中会经常使用其来作为数据的载体,属于ADO.NE ...
- (原创)(三)机器学习笔记之Scikit Learn的线性回归模型初探
一.Scikit Learn中使用estimator三部曲 1. 构造estimator 2. 训练模型:fit 3. 利用模型进行预测:predict 二.模型评价 模型训练好后,度量模型拟合效果的 ...
- Scikit Learn
Scikit Learn Scikit-Learn简称sklearn,基于 Python 语言的,简单高效的数据挖掘和数据分析工具,建立在 NumPy,SciPy 和 matplotlib 上.
- 大数据学习day39----数据仓库02------1. log4j 2. 父子maven工程(子spring项目的创建)3.项目开发(埋点日志预处理-json数据解析、清洗过滤、数据集成实现、uid回补)
1. log4j(具体见log4j文档) log4j是一个java系统中用于输出日志信息的工具.log4j可以将日志定义成多种级别:ERROR / WARN / INFO / DEBUG ...
- Deep Learning 16:用自编码器对数据进行降维_读论文“Reducing the Dimensionality of Data with Neural Networks”的笔记
前言 论文“Reducing the Dimensionality of Data with Neural Networks”是深度学习鼻祖hinton于2006年发表于<SCIENCE > ...
- Deep learning:三十四(用NN实现数据的降维)
数据降维的重要性就不必说了,而用NN(神经网络)来对数据进行大量的降维是从2006开始的,这起源于2006年science上的一篇文章:reducing the dimensionality of d ...
随机推荐
- 使用git快捷方便的保存代码
大家都在使用git保存和备份代码,下面我们就来学习下吧. 一.本地安装和配置git 1.安装git pacman -S git //如果没有问题的话就可以安装成功了 2.验证 git --versio ...
- saltstack 模块学习之 state
入口文件top.sls 三要素环境:通过file-roots指定目标主机:可以使用通配符*配置文件路径:路径分割符为. 比如a.mysql 表示在环境指定的路径下有个a目录,a目录下有个mysql. ...
- 大话tomcat之tomcat连接mysql
研究主题:tomcat连接mysql 一.tomcat连接mysql的两种连接方式:简单连接(不使用连接池)使用tomcat连接池 二.简单分析:(简介部分摘自一篇博客,觉得写得非常赞,读了非常有快感 ...
- 【转载】51CTO-Android设置模拟器屏幕大小
在Eclipse Android中设置模拟器屏幕大小是本文要介绍的内容,主要是来了解并学习Eclipse Android中模拟器的设置,具体关于Eclipse Android内容的详解来看本文. ...
- UVA 524 素数环 【dfs/回溯法】
Description A ring is composed of n (even number) circles as shown in diagram. Put natural numbers ...
- jQuery.parseHTML() 函数
<!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title> ...
- Scut游戏服务器引擎6.1.5.6发布,直接可运行,支持热更新
1. 增加exe版(console),web版本(IIS)的游戏服宿主程序 2. 增加Model支持脚本化,实现不停服更新 3. 增加Language支持脚本化 4. 修改Sns与Pay Center ...
- 每天学一点Python(2)
9月16日(python扩展的安装和使用) 接着上一篇继续.按照之前计划,先分析导出的数据,再做进一步统计. 导出的数据是html类型的,想到的处理方法有: 1.直接readlines然后一行一行找我 ...
- selenium firefox46.0.1设置禁用图片
firefox_profile = webdriver.FirefoxProfile()firefox_profile.set_preference('permissions.default.ima ...
- Discussion about z pre-pass
Z pre-pass In the rendering Process, the first pass render to a depth buffer to get the front layer ...