scikit-learn:4. 数据集预处理(clean数据、reduce降维、expand增维、generate特征提取)
本文參考:http://scikit-learn.org/stable/data_transforms.html
本篇主要讲数据预处理,包含四部分:
数据清洗、数据降维(PCA类)、数据增维(Kernel类)、提取自己定义特征。
哇哈哈。还是关注预处理比較靠谱。
。。
。
重要的不翻译:scikit-learn providesa library of transformers, which mayclean (see Preprocessing
data), reduce (seeUnsupervised
dimensionality reduction), expand (see Kernel
Approximation) or generate (see Feature
extraction) feature representations.
fit、transform、fit_transform三者差别:
fit:从训练集中学习模型的參数(比如,方差、中位数等;也可能是不同的词汇表)
transform:将训练集/測试集中的数据转换为fit学到的參数的维度上(測试集的方差、中位数等;測试集在fit得到的词汇表下的向量值等)。
fit_transform:同一时候进行fit和transform操作。
Like
other estimators, these are represented by classes with fit method,
which learns model parameters (e.g. mean and standard deviation for normalization) from a training set, and a transform method
which applies this transformation model to unseen data. fit_transform may
be more convenient and efficient for modelling and transforming the training data simultaneously.
八大块内容。翻译会在之后慢慢更新:
4.1.
Pipeline and FeatureUnion: combining estimators
4.1.1.
Pipeline: chaining estimators
4.1.2.
FeatureUnion: composite feature spaces
翻译之后的文章,參考:http://blog.csdn.net/mmc2015/article/details/46991465
4.2.3.
Text feature extraction
翻译之后的文章,參考:http://blog.csdn.net/mmc2015/article/details/46997379
4.2.4.
Image feature extraction
翻译之后的文章,參考:http://blog.csdn.net/mmc2015/article/details/46992105
翻译之后的文章。參考:http://blog.csdn.net/mmc2015/article/details/47016313
4.3.1.
Standardization, or mean removal and variance scaling
4.3.4.
Encoding categorical features
4.3.5.
Imputation of missing values
4.4.
Unsupervised dimensionality reduction
翻译之后的文章,參考:http://blog.csdn.net/mmc2015/article/details/47066239
4.4.1.
PCA: principal component analysis
4.4.3.
Feature agglomeration (特征聚集)
翻译之后的文章,參考:http://blog.csdn.net/mmc2015/article/details/47067003
4.5.1.
The Johnson-Lindenstrauss lemma
4.5.2.
Gaussian random projection
4.5.3.
Sparse random projection
翻译之后的文章,參考:http://blog.csdn.net/mmc2015/article/details/47068223
4.6.1.
Nystroem Method for Kernel Approximation
4.6.2.
Radial Basis Function Kernel
4.6.3.
Additive Chi Squared Kernel
4.6.4.
Skewed Chi Squared Kernel
4.7.
Pairwise metrics, Affinities and Kernels
翻译之后的文章。參考:http://blog.csdn.net/mmc2015/article/details/47068895
4.8.
Transforming the prediction target (y)
翻译之后的文章。參考:http://blog.csdn.net/mmc2015/article/details/47069869
scikit-learn:4. 数据集预处理(clean数据、reduce降维、expand增维、generate特征提取)的更多相关文章
- scikit learn 模块 调参 pipeline+girdsearch 数据举例:文档分类 (python代码)
scikit learn 模块 调参 pipeline+girdsearch 数据举例:文档分类数据集 fetch_20newsgroups #-*- coding: UTF-8 -*- import ...
- Scikit Learn: 在python中机器学习
转自:http://my.oschina.net/u/175377/blog/84420#OSC_h2_23 Scikit Learn: 在python中机器学习 Warning 警告:有些没能理解的 ...
- (原创)(四)机器学习笔记之Scikit Learn的Logistic回归初探
目录 5.3 使用LogisticRegressionCV进行正则化的 Logistic Regression 参数调优 一.Scikit Learn中有关logistics回归函数的介绍 1. 交叉 ...
- WCF分布式开发步步为赢(8):使用数据集(DataSet)、数据表(DataTable)、集合(Collection)传递数据
数据集(DataSet).数据表(DataTable).集合(Collection)概念是.NET FrameWork里提供数据类型,在应用程序编程过程中会经常使用其来作为数据的载体,属于ADO.NE ...
- (原创)(三)机器学习笔记之Scikit Learn的线性回归模型初探
一.Scikit Learn中使用estimator三部曲 1. 构造estimator 2. 训练模型:fit 3. 利用模型进行预测:predict 二.模型评价 模型训练好后,度量模型拟合效果的 ...
- Scikit Learn
Scikit Learn Scikit-Learn简称sklearn,基于 Python 语言的,简单高效的数据挖掘和数据分析工具,建立在 NumPy,SciPy 和 matplotlib 上.
- 大数据学习day39----数据仓库02------1. log4j 2. 父子maven工程(子spring项目的创建)3.项目开发(埋点日志预处理-json数据解析、清洗过滤、数据集成实现、uid回补)
1. log4j(具体见log4j文档) log4j是一个java系统中用于输出日志信息的工具.log4j可以将日志定义成多种级别:ERROR / WARN / INFO / DEBUG ...
- Deep Learning 16:用自编码器对数据进行降维_读论文“Reducing the Dimensionality of Data with Neural Networks”的笔记
前言 论文“Reducing the Dimensionality of Data with Neural Networks”是深度学习鼻祖hinton于2006年发表于<SCIENCE > ...
- Deep learning:三十四(用NN实现数据的降维)
数据降维的重要性就不必说了,而用NN(神经网络)来对数据进行大量的降维是从2006开始的,这起源于2006年science上的一篇文章:reducing the dimensionality of d ...
随机推荐
- Android Bluetooth抓包
1. 前提 这里介绍一种在Android上捕获蓝牙数据包的方法 首先你要有一部Android手机:然后你的Android系统版本要在4.4及以上 我没有做过Android开发,不清楚开发者们是如何抓蓝 ...
- Linux内核情景分析之消息队列
早期的Unix通信只有管道与信号,管道的缺点: 所载送的信息是无格式的字节流,不知道分界线在哪,也没通信规范,另外缺乏控制手段,比如保温优先级,管道机制的大小只有1页,管道很容易写满而读取没有及时,发 ...
- myeclipse服务器"未能创建视图:抛出意外异常。"
找到对应目录 Workspaces\.metadata\.plugins\org.eclipse.core.runtime\.settings 下的 com.genuitec.eclipse.ast. ...
- Android 中利用ViewFlipper 滑动屏幕切换页面,ListView展示数据
首先新建一个Android项目,命名为ViewFlipperTest 如图:项目机构,本项目主要操作图中红色箭头标注的文件 1.HgroupAdapter.java文件代码↓主要实现listview数 ...
- 前端js、jQuery实现日期格式化、字符串格式化
1. js仿后台的字符串的StringFormat方法 在做前端页面时候,经常会对字符串进行拼接处理,但是直接使用字符串拼接,不但影响阅读,而且影响执行效率,且jQuery有没有定义字符串的Strin ...
- JSP高级功能-java之JSP学习第三天(非原创)
文章大纲 一.JSP 标准标签库(JSTL)二.JSP 连接数据库三.JSP XML 数据处理四.JSP JavaBean五.JSP 自定义标签六.JSP 表达式语言七.JSP 异常处理八.JSP 调 ...
- mysql之count,max,min,sum,avg,celing,floor
写在前面 昨天去青龙峡玩了一天,累的跟狗似的.不过还好,最终也算登到山顶了,也算来北京后征服的第三座山了.这里也唠叨一句,做开发这行,没事还是多运动运动,对自己还是很有好处的,废话少说,还是折腾折腾s ...
- C++测试题练习题1
1.which of the following is not automatically generated by the compiler? a. default constructor b ...
- 初始----python数字图像处理--:环境安装与配置
一提到数字图像处理编程,可能大多数人就会想到matlab,但matlab也有自身的缺点: 1.不开源,价格贵 2.软件容量大.一般3G以上,高版本甚至达5G以上. 3.只能做研究,不易转化成软件. 因 ...
- hibernate向mysql插入数据后,得到该条数据主键的方法
hibernate向MySQL插入一条数据后,得到该条数据主键的方法.主键是自增长的. 保存完成后,直接用该实体的getId的方法就可以得到.因为保存完成后,hibernate会自动将id赋值给实体. ...