[comment]: # 机器学习实战 - 读书笔记(13) - 利用PCA来简化数据

前言

最近在看Peter Harrington写的“机器学习实战”，这是我的学习心得，这次是第13章 - 利用PCA来简化数据。

这里介绍，机器学习中的降维技术，可简化样品数据。

降维技术的用途

使得数据集更易使用；
降低很多算法的计算开销；
去除噪声；
使得结果易懂。

基本概念

降维（dimensionality reduction）。

如果样本数据的特征维度很大，会使得难以分析和理解。我们可以通过降维技术减少维度。

降维技术并不是将影响少的特征去掉，而是将样本数据集转换成一个低维度的数据集。
协方差（covariance）

协方差用于衡量两个变量的总体误差.
协方差矩阵（covariance matrix）

对于一个N维的样品数据，$X=[x_1, x_2, ..., x_n]^T$，其协方差矩阵是一个n * n的matrix，

元素$C_{ij}$是$x_i$和$x_j$的协方差。
协方差矩阵的特征值(Eigenvalues)和特征向量(eigenvectors)

特征值：表示特征向量对应列的权重，越大说明特征向量对应列的影响越大。

特征向量：是一个n * n 的matrix，n是样本数据的特征数。用于降维转换。

降维转换过程：

在特征向量中，选出特征值最大的m列，形成一个m * n的降维向量矩阵。

对（去除平均值的）样本数据的每行数据，和降维矩阵相乘，得到一个m维的**降维数据**。

重构的数据 = **降维数据** * **降维矩阵的转置** + 平均值

核心算法解释

主成分分析（Principal Component Analysis，PCA）

基本原理

线性代数的理论：
- 对一个n维的样本数据，通过其协方差矩阵，可以计算出特征值和特征向量。
- 选择特征值最大的前m项，可以将样本数据和特征向量进行计算，得到一个m维的降维数据集。
输入
- 数据集
- 应用的Feature数
输出
- 降维数据集
- 重构的数据集（可用于与原数据集比较）
逻辑过程

对数据集的每个Feature的数据，减去Feature的平均值。

计算协方差矩阵

计算协方差矩阵的特征值和特征向量

将特征值从大到小排序

保留最上面的N个特征向量

使用前面提到的降维转换过程，转换数据集为降维数据集和重构的数据集

核心公式

协方差（covariance）

协方差用于衡量两个变量的总体误差.

\[\begin{align}
cov(X, Y) & = E[(X-E(X))(Y-E(Y))] \\
& = E[XY] - E[X]E[Y]
\end{align} \\
where \\
\qquad E(X): mean(X)
\]

Matrix乘法运算

\[a * b = [a_{11}b_{11} + a_{12}b_{21} + ... + a_{1n}b_{n1}, ..., a_{11}b_{1m} + a_{12}b_{2m} + ... + a_{1n}b_{nm}] \\
a * b^T = [a_{11}b_{11} + a_{12}b_{12} + ... + a_{1n}b_{1n}, ..., a_{11}b_{1m} + a_{12}b_{2m} + ... + a_{1n}b_{nm}] \\
where \\
\qquad \text{a: a is a n-dimensions vector.} \\
\qquad \text{b: b is a m * n of matrix）.}
\]

参考

Machine Learning in Action by Peter Harrington
Covariance
numpy.cov
Eigenvalues and eigenvectors

机器学习实战 - 读书笔记(13) - 利用PCA来简化数据的更多相关文章

机器学习实战 - 读书笔记(07) - 利用AdaBoost元算法提高分类性能
前言最近在看Peter Harrington写的"机器学习实战",这是我的学习笔记,这次是第7章 - 利用AdaBoost元算法提高分类性能. 核心思想在使用某个特定的算法是, ...
【转载】机器学习实战 - 读书笔记(07) - 利用AdaBoost元算法提高分类性能
原文地址: https://www.cnblogs.com/steven-yang/p/5686473.html ------------------------------------------- ...
机器学习实战 - 读书笔记(14) - 利用SVD简化数据
前言最近在看Peter Harrington写的"机器学习实战",这是我的学习心得,这次是第14章 - 利用SVD简化数据. 这里介绍,机器学习中的降维技术,可简化样品数据. 基 ...
【机器学习实战】第13章利用 PCA 来简化数据
第13章利用 PCA 来简化数据降维技术场景我们正通过电视观看体育比赛,在电视的显示器上有一个球. 显示器大概包含了100万像素点,而球则可能是由较少的像素点组成,例如说一千个像素点. 人们实 ...
机器学习实战 - 读书笔记(11) - 使用Apriori算法进行关联分析
前言最近在看Peter Harrington写的"机器学习实战",这是我的学习心得,这次是第11章 - 使用Apriori算法进行关联分析. 基本概念关联分析(associat ...
机器学习实战 - 读书笔记(12) - 使用FP-growth算法来高效发现频繁项集
前言最近在看Peter Harrington写的"机器学习实战",这是我的学习心得,这次是第12章 - 使用FP-growth算法来高效发现频繁项集. 基本概念 FP-growt ...
《机器学习实战》学习笔记第十三章 —— 利用PCA来简化数据
相关博文: 吴恩达机器学习笔记(八) —— 降维与主成分分析法(PCA) 主成分分析(PCA)的推导与解释主要内容: 一.向量內积的几何意义二.基的变换三.协方差矩阵四.PCA求解一.向量內 ...
机器学习实战 - 读书笔记(06) – SVM支持向量机
前言最近在看Peter Harrington写的"机器学习实战",这是我的学习笔记,这次是第6章:SVM 支持向量机. 支持向量机不是很好被理解,主要是因为里面涉及到了许多数学知 ...
机器学习实战读书笔记(二)k-近邻算法
knn算法: 1.优点:精度高.对异常值不敏感.无数据输入假定 2.缺点:计算复杂度高.空间复杂度高. 3.适用数据范围:数值型和标称型. 一般流程: 1.收集数据 2.准备数据 3.分析数据 4.训 ...

随机推荐

Show Linux Package Sort By Size
ArchLinux: ~ $ pacsysclean Debian: ~ $ sudo apt-get install debian-goodies ~ $ dpigs -H
CSS基础（六）：浮动深入
参考了<CSS彻底设计研究>的文章,说的很不错,所以拿来做笔记. 浮动在标准流中,一个块级元素在水平方向会自动伸展,直到包含它的元素边界:而在竖直方向和兄弟元素依次排列,不能并排.使用浮 ...
wordpress添加文章浏览统计（刷新不重复）
wordpress本身不带文章浏览统计,可以用插件wp-postview,但是刷新还是算一个浏览次数. 1.首先在主题下functions.php里增加以下代码,这段代码也是网上可以找到的 //add ...
更改linux文件夹的默认颜色
我不知道正常人看Linux下面文件夹的颜色(默认为深蓝)是不是有点晕晕的,看不清楚,反正对我这样的色弱的人来说,我看着很不爽,所以我到网上去找了一下,如果修改文件夹颜色的方法,网上真实众说纷纭,很多都 ...
【PRML读书笔记-Chapter1-Introduction】1.2 Probability Theory
一个例子: 两个盒子: 一个红色:2个苹果,6个橘子; 一个蓝色:3个苹果,1个橘子; 如下图: 现在假设随机选取1个盒子,从中.取一个水果,观察它是属于哪一种水果之后,我们把它从原来的盒子中替换掉. ...
DDD：《实现领域驱动》拾贝（待续）
Design is not just what it looks like and feels like. Design is how it works.
Android 布局之LinearLayout
Android 布局之LinearLayout 1 LinearLayout简介 LinearLayout是线程布局.它包括2个方向(android:orientation):“水平”(horizon ...
Python单元测试框架之pytest -- 生成测试报告
继续pytest单元测试框架的学习,pytest可以生成多种类型的测试报告.这一节就来学习pytest如何生成测试报告. 创建test_calss.py 测试用例文件,这里以测试该文件为例. #cod ...
Hadoop下面WordCount运行详解
单词计数是最简单也是最能体现MapReduce思想的程序之一,可以称为MapReduce版"Hello World",该程序的完整代码可以在Hadoop安装包的"src/ ...
python内置模块(1)
Python的模块在其它语言中通常称为库或类库,也就是lib.它是编程语言的第三级封装,第四级则是包,也就是模块的打包组合,而前两级分别是函数和类.封装的好处,自然不用多言,高内聚,松耦合,减少代码重 ...

机器学习实战 - 读书笔记(13) - 利用PCA来简化数据

前言