主成分分析、因子分析、ICA（未完成）

并且SVD分解也适用于一般的矩阵。

主成分分析可以简单的总结成一句话：数据的压缩和解释。常被用来寻找判断某种事物或现象的综合指标，并且给综合指标所包含的信息以适当的解释。在实际的应用过程中，主成分分析常被用作达到目的的中间手段，而非完全的一种分析方法。

可以通过矩阵变换知道原始数据能够浓缩成几个主成分，以及每个主成分与原来变量之间线性组合关系式。但是细心的朋友会发现，每个原始变量在主成分中都占有一定的分量，这些分量（载荷）之间的大小分布没有清晰的分界线，这就造成无法明确表述哪个主成分代表哪些原始变量，也就是说提取出来的主成分无法清晰的解释其代表的含义。

因子分析

鉴于主成分分析现实含义的解释缺陷，统计学斯皮尔曼又对主成分分析进行扩展。因子分析在提取公因子时，不仅注意变量之间是否相关，而且考虑相关关系的强弱，使得提取出来的公因子不仅起到降维的作用，而且能够被很好的解释。因子分析与主成分分析是包含与扩展的关系。

其次是扩展关系。因子分析解决主成分分析解释障碍的方法是通过因子轴旋转。因子轴旋转可以使原始变量在公因子（主成分）上的载荷重新分布，从而使原始变量在公因子上的载荷两级分化，这样公因子（主成分）就能够用哪些载荷大的原始变量来解释。以上过程就解决了主成分分析的现实含义解释障碍。

1.原理不同：

主成分分析（Principal
components
analysis，PCA）基本原理：利用降维（线性变换)的思想，在损失很少信息的前提下把多个指标转化为几个不相关的综合指标（主成分)，即每个主成分都是原始变量的线性组合，且各个主成分之间互不相关，使得主成分比原始变量具有某些更优越的性能（主成分必须保留原始变量90%以上的信息），从而达到简化系统结构，抓住问题实质的目的。

因子分析（Factor

Analysis，FA）基本原理：利用降维的思想，由研究原始变量相关矩阵内部的依赖关系出发，把一些具有错综复杂关系的变量表示成少数的公共因子和仅对某一个变量有作用的特殊因子线性组合而成。就是要从数据中提取对变量起解释作用的少数公共因子（因子分析是主成分的推广，相对于主成分分析，更倾向于描述原始变量之间的相关关系）。

2.线性表示方向不同：

因子分析是把变量表示成各公因子的线性组合；主成分分析中则是把主成分表示成各变量的线性组合。

3.假设条件不同：

主成分分析：不需要有假设(assumptions)；

因子分析：需要一些假设。因子分析的假设包括：各个共同因子之间不相关，特殊因子（specificfactor）之间也不相关，共同因子和特殊因子之间也不相关。

4.求解方法不同：

（1）求解主成分的方法：

从协方差阵出发（协方差阵已知），从相关阵出发（相关阵R已知），采用的方法只有主成分法。（实际研究中，总体协方差阵与相关阵是未知的，必须通过样本数据来估计）；

注意事项：由协方差阵出发与由相关阵出发求解主成分所得结果不一致时，要恰当的选取某一种方法；

一般当变量单位相同或者变量在同一数量等级的情况下，可以直接采用协方差阵进行计算；对于度量单位不同的指标或是取值范围彼此差异非常大的指标，应考虑将数据标准化，再由协方差阵求主成分。

实际应用中应该尽可能的避免标准化，因为在标准化的过程中会抹杀一部分原本刻画变量之间离散程度差异的信息。此外，最理想的情况是主成分分析前的变量之间相关性高，且变量之间不存在多重共线性问题（会出现最小特征根接近0的情况）；

2）求解因子载荷的方法：

主成分法，主轴因子法，极大似然法，最小二乘法，a因子提取法。

5.主成分和因子的变化不同：

主成分分析：当给定的协方差矩阵或者相关矩阵的特征值唯一时，主成分一般是固定的独特的；

因子分析：因子不是固定的，可以旋转得到不同的因子。

6.因子数量与主成分的数量

主成分分析：主成分的数量是一定的，一般有几个变量就有几个主成分（只是主成分所解释的信息量不等），实际应用时会根据碎石图提取前几个主要的主成分。

因子分析：因子个数需要分析者指定（SPSS和SAS根据一定的条件自动设定，只要是特征值大于1的因子主可进入分析），指定的因子数量不同而结果也不同；

7.解释重点不同：

主成分分析：重点在于解释个变量的总方差；因子分析：则把重点放在解释各变量之间的协方差。

8.算法上的不同：

主成分分析：协方差矩阵的对角元素是变量的方差；

因子分析：所采用的协方差矩阵的对角元素不在是变量的方差，而是和变量对应的共同度（变量方差中被各因子所解释的部分）。

9.优点不同：

（1）因子分析：

对于因子分析，可以使用旋转技术，使得因子更好的得到解释，因此在解释主成分方面因子分析更占优势；其次因子分析不是对原有变量的取舍，而是根据原始变量的信息进行重新组合，找出影响变量的共同因子，化简数据；

（2）主成分分析：

第一：如果仅仅想把现有的变量变成少数几个新的变量（新的变量几乎带有原来所有变量的信息）来进入后续的分析，则可以使用主成分分析，不过一般情况下也可以使用因子分析；

第二：通过计算综合主成分函数得分，对客观经济现象进行科学评价；

第三：它在应用上侧重于信息贡献影响力综合评价；

第四：应用范围广，主成分分析不要求数据来自正态分布总体，其技术来源是矩阵运算的技术以及矩阵对角化和矩阵的谱分解技术，因而凡是涉及多维度问题，都可以应用主成分降维。

1）主成分分析：

可以用于系统运营状态做出评估，一般是将多个指标综合成一个变量，即将多维问题降维至一维，这样才能方便排序评估；此外还可以应用于经济效益、经济发展水平、经济发展竞争力、生活水平、生活质量的评价研究上；主成分还可以用于和回归分析相结合，进行主成分回归分析，甚至可以利用主成分分析进行挑选变量，选择少数变量再进行进一步的研究。一般情况下主成分用于探索性分析，很少单独使用，用主成分来分析数据，可以让我们对数据有一个大致的了解。

几个常用组合：

主成分分析+判别分析，适用于变量多而记录数不多的情况；

主成分分析+多元回归分析，主成分分析可以帮助判断是否存在共线性，并用于处理共线性问题；

主成分分析+聚类分析，不过这种组合因子分析可以更好的发挥优势；

2）因子分析：

首先，因子分析+多元回归分析，可以利用因子分析解决共线性问题；其次，可以利用因子分析，寻找变量之间的潜在结构；再次，因子分析+聚类分析，可以通过因子分析寻找聚类变量，从而简化聚类变量；此外，因子分析还可以用于内在结构证实。

主成分分析、因子分析、ICA（未完成）的更多相关文章

R语言与概率统计(六) 主成分分析因子分析
超高维度分析,N*P的矩阵,N为样本个数,P为指标,N<<P PCA:抓住对y对重要的影响因素主要有三种:PCA,因子分析,回归方程+惩罚函数(如LASSO) 为了降维,用更少的变量解决 ...
R: 主成分分析 ~ PCA(Principal Component Analysis)
本文摘自:http://www.cnblogs.com/longzhongren/p/4300593.html 以表感谢. 综述: 主成分分析因子分析典型相关分析,三种方法的共同点主要是用来对数据 ...
常用的机器学习&数据挖掘知识点【转】
转自: [基础]常用的机器学习&数据挖掘知识点 Basis(基础): MSE(Mean Square Error 均方误差),LMS(LeastMean Square 最小均方),LSM(Le ...
【基础】常用的机器学习&数据挖掘知识点
Basis(基础): MSE(Mean Square Error 均方误差),LMS(LeastMean Square 最小均方),LSM(Least Square Methods 最小二乘法),ML ...
常用的机器学习&数据挖掘知识(点）总结
Basis(基础): MSE(Mean Square Error 均方误差), LMS(LeastMean Square 最小均方), LSM(Least Square Methods 最小二乘法), ...
ML科普向
转载自http://www.cnblogs.com/qscqesze/ Basis(基础): MSE(Mean Square Error 均方误差),LMS(LeastMean Square 最小均方 ...
Machine Learning Basic Knowledge
常用的数据挖掘&机器学习知识(点) Basis(基础): MSE(MeanSquare Error 均方误差),LMS(Least MeanSquare 最小均方),LSM(Least Squ ...
常用的机器学习&数据挖掘知识点
Basis(基础):MSE(Mean Square Error 均方误差),LMS(LeastMean Square 最小均方),LSM(Least Square Methods 最小二乘法),MLE ...
常用的机器学习&数据挖掘知识点总结
Basis(基础): MSE(Mean Square Error 均方误差),LMS(LeastMean Square 最小均方),LSM(Least Square Methods 最小二乘法),ML ...
SPSS数据分析—多维偏好分析（MPA）
之前的主成分分析和因子分析中,收集的变量数据都是连续型数值,但有时会碰到分类数据的情况,我们知道最优尺度变换可以对分类变量进行量化处理,如果将这一方法和主成分分析相结合,就称为了基于最优尺度变换的主成 ...

随机推荐

find 是区分大小写的。对于不区分大小写的写法（转载）
转自:http://justwinit.cn/post/3633/ 默认情况下,find 是区分大小写的.对于不区分大小写的 find,将 -iname 测试替换为 -name 测试. find do ...
ORACLE PL/SQL 实例精解之第六章迭代控制之一
6.1 简单循环简单循环,就想其名称一张,是一种最基本循环.简单循环具有如下结构 LOOP STATEMENT 1; STATEMENT 2; ... STATEMENT N; END LOOP; ...
模板 - 字符串 - Manacher
求最长回文子串. #include<bits/stdc++.h> using namespace std; #define ll long long ; ]; ]; int Manache ...
Codeforces Round #408 (Div. 2) D. Police Stations（最小生成树+构造）
传送门题意 n个点有n-1条边相连,其中有k个特殊点,要求: 删去尽可能多的边使得剩余的点距特殊点的距离不超过d 输出删去的边数和index 分析比赛的时候想不清楚,看了别人的题解一道将1个联通 ...
CodeForces 13C【DP】
题意: 给你n个数,每次只能让一个数+1,或者-1,目标是最终使这个序列构成一个非递减的序列: n是5e3,复杂度n^2内.值是1e9: 思路: 可以发现子结构是保证一个区间的非递减, 如果只是dp[ ...
python __builtins__ bool类（6）
6.'bool', 函数用于将给定参数转换为布尔类型,如果没有参数,返回 False. class bool(int) # 继承于int类型 | bool(x) -> bool # 创建boo ...
eclipse中alt+/的作用
一般情况下alt+/有代码提示作用,还有代码提示的快捷代码也不是alt+/,因此要恢复代码提示用alt+/.需要做两件事.在 Window - Preferences - General - Keys ...
js和jquery给iframe src赋值的3种方法
js和jquery给iframe src赋值的3种方法网页使用iframe嵌入网页时,有时候需要动态处理src的值,而不是写死的,所以我们需要知道如何给iframe src赋值,通常是使用js或 ...
python实现选择排序
list_1 = [] #先建一个空链表 print('输入排序个数:') n = int(input()) #接收输入个数 for i in range(n): a = input() list_1 ...
Lock wait timeout exceeded; try restarting transaction linux设置mysql innodb_lock_wait_timeout
root权限下: vi /etc/my.cnf 在[mysqld]配置下面加入 innodb_lock_wait_timeout=value # value是你想设置的值重启mysql /etc/i ...

主成分分析、因子分析、ICA（未完成）

主成分分析、因子分析、ICA（未完成）的更多相关文章

随机推荐

热门专题