数据预处理之数据规约（Data Reduction）

数据归约策略

数据仓库中往往具有海量的数据，在其上进行数据分析与挖掘需要很长的时间

数据归约
用于从源数据中得到数据集的归约表示，它小的很多，但可以产生相同的（几乎相同的）效果

数据归约策略
维归约
数据压缩
数值归约
离散化和概念分层产生

用于数据归约的时间不应超过或“抵消”在归约后的数据上挖掘节省的时间

维归约

通过删除不相干的额属性和维数减少数据量

属性子集选择
1找出最小的属性集，使得数据类的概率分布尽可能接近所有属性的原分布
2 减少出现在出现模式上的属性的数目，使得模式更容易于理解

启发式的（探索性的）方法
逐步向前选择
逐步向后删除
向前选择和向后删除相结合
判定归纳树（分类算法）
基于统计分析的归约：主成分分析，回归分析

数据压缩

有损压缩 vs 无损压缩

字符串压缩
有广泛的理论基础和精妙的算法
通常是无损压缩
在解压缩前对字符串的操作非常有限

音频/视频压缩
通常是有损压缩，压缩精度可以递进选择
有时候可以在不解压整体数据的情况下，重构某个片段

两种有损数据压缩的方法：小波变换和主要成分分析

数值归约

通过选择替代的、较小的数据表示形式来减少数据量

有参方法：使用一个参数模型估计数据，最后只要存储参数即可。
线性回归方法
多元回归
对数线性模型：近似离散的多维数据概率分布

无参方法
直方图
聚类
选样

主成分相关的程序-python
import pandas as pd from sklearn.decomposition import PCA inputfile = '../data/principal_component.xls' outputfile = '../tmp/dimention_reducted.xls' #降维后的数据 data = pd.read_excel(inputfile, header = None) #读入数据 pca = PCA() pca.fit(data) print pca.components_ #返回模型的各个特征向量 print pca.explained_variance_ratio_ #返回各个成分各自的方差百分比 pca = PCA(3) pca.fit(data) low_d = pca.transform(data) #降低唯独 pd.DataFrame(low_d).toexcel(outputfile) #保存结果 pca.inverse_transform(low_d) #复原数据

数据预处理之数据规约（Data Reduction）的更多相关文章

第七篇：数据预处理(四) - 数据归约(PCA/EFA为例)
前言这部分也许是数据预处理最为关键的一个阶段. 如何对数据降维是一个很有挑战,很有深度的话题,很多理论书本均有详细深入的讲解分析. 本文仅介绍主成分分析法(PCA)和探索性因子分析法(EFA),并给 ...
c++ 数据预处理（数据去噪，归一化）
正态分布3σ原则,把3倍方差之外的点设想为噪声数据来排除. 归一化,将数据经过处理之后限定到一定的范围内,一般都会将数据限定到[0,1]. #include <iostream>#incl ...
数据预处理 —— padding数据
1. 论Conv2d()里的padding和Conv2d()前padding的区别及重要性. 小生建议,尽量少用Conv2d()里的填充方式,换成自定义填充方式(强烈建议). 小生为何这样建议 ...
R语言--数据预处理
一.日期时间.字符串的处理日期 Date: 日期类,年与日 POSIXct: 日期时间类,精确到秒,用数字表示 POSIXlt: 日期时间类,精确到秒,用列表表示 Sys.date(), date( ...
R语言数据预处理
R语言数据预处理一.日期时间.字符串的处理日期 Date: 日期类,年与日 POSIXct: 日期时间类,精确到秒,用数字表示 POSIXlt: 日期时间类,精确到秒,用列表表示 Sys.date ...
WEKA中的数据预处理
数据预处理包括数据的缺失值处理.标准化.规范化和离散化处理. 数据的缺失值处理:weka.filters.unsupervised.attribute.ReplaceMissingValues. 对于 ...
小白学 Python 数据分析（9）：Pandas （八）数据预处理（2）
人生苦短,我用 Python 前文传送门: 小白学 Python 数据分析(1):数据分析基础小白学 Python 数据分析(2):Pandas (一)概述小白学 Python 数据分析(3):P ...
python data analysis | python数据预处理（基于scikit-learn模块）
原文:http://www.jianshu.com/p/94516a58314d Dataset transformations| 数据转换 Combining estimators|组合学习器 Fe ...
Python for Data Analysis 学习心得（三） - 文件读写和数据预处理
一.Pandas文件读写 pandas很核心的一个功能就是数据读取.导入,pandas支援大部分主流的数据储存格式,并在导入的时候可以做筛选.预处理.在读取数据时的选项有超过50个参数,可见panda ...

随机推荐

IT兄弟连 JavaWeb教程过滤器1
Servlet过滤器是从Servlet2.3规范开始新增的功能,并在Servlet2.4规范中得到增强,监听器可以监听到Web应用程序启动和关闭.创建过滤器和监听器需要继承相应接口,并对其进行配置. ...
阿里云ECS测试服务器部署
前序:为了提供一个干净的测试环境,更好地验证产品问题,也为了防止被开发人员频繁发布代码而打断测试工作,故测试团队搭建了一台阿里云ECS服务器,以下是具体的部署信息: 1. 安装JDK Java版本:J ...
SpringMVC 控制器写多个方法（非注解方式）
Controller类有两种方法 1,implements Controller(实现Controller接口) 2,extends MultiActionController(继承 MultiAct ...
Git 深度学习填坑之旅一（git安装和配置、基本命令）
前戏最近不管是工作还是ctf比赛,接触与使用git变得越来越多,git半吊子水平的我已经不能支撑日常工作了.碰巧自己公司项目刚上线,现在能挤出一点时间来挖一下这个坑... 为什么使用Git 1.后悔 ...
vue element-ui IE9--11报 “无法获取未定义或null引用的属性‘toLowerCase’”
今天做zymh比赛的一个管理后台,用的技术是vue+element-ui+vue-router+axios,其他浏览器运行的很好,但是在IE(从IE11到IE9,vue支持IE9以上)都报错点进去就 ...
JS高级学习历程-2
1.dom操作,利用dom创建无序列表.并追加到body里边,里面要求至少有四个项目. <!DOCTYPE html> <html lang="en"> & ...
Linux —— awk命令
- 作用: 强大的文本分析工具,对于文本分析来说绝对是一把利器 - 语法: awk '{pattern + action}' {filenames} pattern需要查找的内容 action 查找到 ...
CodeForces - 1003-B-Binary String Constructing (规律+模拟)
You are given three integers aa, bb and xx. Your task is to construct a binary string ssof length n= ...
Yii2.0权限系统，使用PhpManager的方式
网上搜了一大堆yii2.0权限系统,大抵都是千篇一律,而且基本上都是DbManager.看了半天官方文档之后,终于知道了PhpManager的方式下,是怎么引入权限系统.介绍下我自己的使用.首先,配置 ...
简单记录下HTTPS中的SSL
大概思路大概思路是混合加密的方式,即对称加密方式混合非对称加密方式. 非对称加密会更加安全,功能也更强大,但他复杂而且速度慢. 对称加密速度快,但要保证这个公共密钥的正确性和真实性. 所以两者结合, ...