R语言结合概率统计的体系分析---数字特征

现在有一个人，如何对这个人怎么识别这个人？那么就对其存在的特征进行提取，比如，提取其身高，其相貌，其年龄，分析这些特征，从而确定了，这个人就是这个人，我们绝不会认错。

同理，对数据进行分析，也是提取出数据的特征，对其特征进行分析，从而确定这些数据所呈现的信息状况，从而确定了这些数据的独特性和唯一性，因为他呈现的信息是唯一的，绝不与别的是相同的。

那么这些特征是什么呢？拥有哪些特征呢？似乎应该是经过无数科学家的总结，终于发现了几个重要的特征，包括数字特征和分布特征，这个数字特征，包括集中位置，分散程度，而后整体分布，就是一个总体的描述，其实，这里就有一个疑惑，数字特征和分布特征，到底有什么区别？他们依靠什么来从本质上加以区分开来的呢？

可以试着从一个角度来分析一下，数字特征，也就是说集中位置和分散程度是一个数，在坐标上，他仅仅代表着一个点，一个数字而已。而分布特征，则表现为一个图形，他可以是二维的图形，也可以是三维的图形，甚至可以是N维的图形。所以可以说，数字特征和分布特征，分别是数据信息在低维度和高纬度上面体现。

最后，我们为什么要分析数据？分析数据有何种意义可言？其实，就像我们认识分析一个人的特征是为了判断一个人一样，我们分析数据的特征，就是为了统计推断，为其服务的。

明白了以上的要点，初步建立了一个良好的逻辑结构和逻辑起点，即为数据---》特征分析---》信息呈现---》统计推断，下面就可以把所有的目光聚集在其中一个关键而又核心的位置了，即为特征分析。

问题在于，现在已经要研究集中位置，分散程度和整体分布，那么用什么东西描述他，或者说，用什么东西来表现他？

先来说，集中位置。

常用来表现集中位置的，有均值，众数，中位数和百分位数

1，均值：

简单，就是平均数咯。

公式的定义为：

在R语言中，求均值的公式为mean(x),x为样本，可以为向量，在这里不得不提一下，向量，在线性代数中有一个解释，即为向量就是一组有序的数组，这个定义放在这里是最恰当不过了。从数据分析的角度来说，只有一个数据，不存在分析的必要性，如果数据多了，就有了分析的必要，这些多的数据，放在一起，从而组成一组数。这组数在数学上的表示，就成了向量。

那么为什么向量可以表示有序数组，可以其实这么想，我现在把向量的起始点规定在坐标的原点，那么向量的终点就可以非常固定而又准确的表示出一个点了，这个点，在不同维度之中，表示这个点的数字也或多或少，比如在一位坐标中，也就是数轴上，这个点就只有一个数，令为a。在二维空间中，这个点为(a,b)，在三维空间中，这个点为(a,b,c)，四维空间中，这个点的坐标为（a,b,c,d）,同理，在n维空间之中，这个点的坐标为（a,b,c,d........），看着这样的规律，可见，向量可以正好表示存在的一组数，不论这组数中到底存在着多少的数据，这也是为什么线性代数中为什么要这么定义向量的原因了。

如果你只看大学课本里的那本线性代数，你会发现那里只是突然给出了向量的新的定义，至于为什么给出新的定义，他就没有说了，我想说的是，这还是教科书么？也许仅仅就是一个工具书而已，由此可见，中国的教育在高等层次上，还是做的很烂的，我都不禁怀疑，那些家伙到底也理解透了么？这或许是中国数学为什么在后期阶段都乏力的原因吧，能够给予我们良好指导的老师，几乎缺乏。。

其实吧，我觉得，线性代数，那一本书，本质上讲的就是有序数组，有序数组和有序数组之前的关系的学问，如果他本质上讲的向量，或者本质上讲的是矩阵，那么到底谁是本质，到底，谁才是本质上真正由起始的表现谁？所以说，他们最终都只是有序数组的一体两面而已。。。

不多说了，回到正题。。。

是把求平均值运用到矩阵当中，1，表示的行求平均，如果变为2，则表示，列求平均。

2，众数

也就是出现最多的数

3，中位数

就是处在一组数中间的数据，在获取这个中间数之前，必须先对这组数进行排序

排序的函数为：sort( )

中位数的公式：

对应的函数：

4，百分位数

所谓百分位数，比如样本总数为20，把他分为100个等分，即为20/100，如果在其25百分位数，即为20*25/100=20*25%=20/4=5,则这时，我们研究的数字就指向的第五个数。

R语言中的函数：

在来说说分散程度。。

这里只说说两种表现的方法，极差和方差。

所谓极差就是最大值和最小值的差距，常人的一般判断，都晓得最大值和最小值的差很容易就知道，这个的确是可以表示一组数据的分散程度的。

然而如下：

2，7,8,10 2,5,6,10

这两种数据，很显然就不能够用极差来判别他的分散程度了，就必须得另外想办法。

可以使用|2-10+7-8| |2-10+5-6| 容易得出后者的分散程度较小，然而这种计算方法显得有点不方便，他需要把数据分为几个部分来计算，增加了计算的复杂程度，那么有不有更加简单，效果却一样的方法呢？

　　可以观察有，5-6 其实是等于，5-5.5+5.5-6 中间其实有平均数在作用。

所以我们用每个数，减去其平均数，由于有正有负，又由于绝对值不方便计算，所以加上一个平方，从而得到一个平方差之和来表达一组数的离散，但仅仅是平方和相加么？那么几组数中数据的多少不同呢？这样就不好比较了，所以，再对这一平方和取得一个平均数，这样就可以比较了，这样，我们就得到了方差，公式为：

最后，在这一篇，说说前面几个表示集中位置的方法的区别，当存在离群非常明显的数据的时候，均值，就不能够很好的显示一组数据的集中位置，这个时候，就得靠众数和中位数，至于百分位数，可以用来显示特征的特征，即任意其中一个数，正整体中所表现的状态，如，小明的50分的成绩，在全班成绩中所在的位置，如果他的成绩，即50分处在75百分数，则表示他的成绩是是在中上游的。

下一篇，将讲分布和绘图体系。

R语言结合概率统计的体系分析---数字特征的更多相关文章

R语言与概率统计(二) 假设检验
> ####################5.2 > X<-c(159, 280, 101, 212, 224, 379, 179, 264, + 222, 362, 168, 2 ...
R语言与概率统计(一) 描述性统计分析
#查看已安装的包,查看已载入的包,查看包的介绍 ########例题3.1 #向量的输入方法 w<-c(75.0, 64.0, 47.4, 66.9, 62.2, 62.2, 58.7, 6 ...
R语言与概率统计(六) 主成分分析因子分析
超高维度分析,N*P的矩阵,N为样本个数,P为指标,N<<P PCA:抓住对y对重要的影响因素主要有三种:PCA,因子分析,回归方程+惩罚函数(如LASSO) 为了降维,用更少的变量解决 ...
R语言与概率统计(三) 多元统计分析（下）广义线性回归
广义线性回归 > life<-data.frame( + X1=c(2.5, 173, 119, 10, 502, 4, 14.4, 2, 40, 6.6, + 21.4, 2.8, 2. ...
R语言与概率统计(三) 多元统计分析（中）
模型修正 #但是,回归分析通常很难一步到位,需要不断修正模型 ###############################6.9通过牙膏销量模型学习模型修正 toothpaste<-data. ...
R语言与概率统计(五) 聚类分析
#########################################0808聚类分析 X<-data.frame( x1=c(2959.19, 2459.77, 1495.63, ...
R语言与概率统计(四) 判别分析(分类)
Fisher就是找一个线L使得组内方差小,组间距离大.即找一个直线使得d最大. ####################################1.判别分析,线性判别:2.分层抽样 #inst ...
R语言与概率统计(三) 多元统计分析（上）
> #############6.2一元线性回归分析 > x<-c(0.10,0.11,0.12,0.13,0.14,0.15,0.16,0.17,0.18,0.20,0.21,0. ...
R语言入门级实例——用igragh包分析社群
R语言入门级实例——用igragh包分析社群引入—— 本文的主要目的是初步实现R的igraph包的基础功能,包括绘制关系网络图(social relationship).利用算法进行社群发现(com ...

随机推荐

linux使用LVM合并硬盘
目的将两块空硬盘合并为"一块",挂载到指定目录下,达到在一个目录使用2块硬盘所有空间的效果.条件硬盘1 /dev/sdb 硬盘2 /dev/sdc方法创建pvpvcreate /d ...
谈谈在DevOps实践中，感觉最重要的这三个技术……
从国内众多DevOps实践中,我们能看到下面三个技术尤其重要和火热: 容器:容器从根本上解决了软件对环境的依懒性,解决了各个环境之间的差异问题:它可以加速部署的速度,提高部署的效率:降低部署的成本.容 ...
CSS写动态下拉菜单 -----2017-03-27
动态网站第一步:动态下拉菜单关键点: overflow:hidden max-height xx:hover {} 设置当鼠标移上之后的效果 transition: 设置过度时间 cursor: ...
在腾讯云上把Laravel整合万向优图图片管理能力，打造高效图片处理服务
推荐理由: 现如今数据爆炸性增长,人类生活产出的数据越来越多,文字信息,图片信息,视频信息:但有很多信息我们都无法直接使用,需通过一定的处理,才能够获取其中对我们有用的信息,在腾讯云上的万向优图能够对 ...
ZooKeeper集群-搭建指南
第一步: 上传安装程序到Linux 这一步很简单就不在这过多说明了! 第二步: 在Linux上使用命令行安装第三步: 修改配置文件 1.修改zoo.cfg文件 2.修改集群中各台主机的名称 1).如 ...
SEQ序号与ACK序号理解总结
备查 SEQ序号与ACK序号理解总结
Where T：Class，new（）的使用
当我们使用泛型的时候,有时候就会提示我们T必须是引用类型而无法进行下去,其实我们学泛型的时候也应该了解到这个T的使用场合,他可以是值类型也可以是引用类型,但是我们某些场合就只能使用引用类型比如EF中的 ...
老李分享：android app自动化测试工具合集
老李分享:android app自动化测试工具合集 poptest是国内唯一一家培养测试开发工程师的培训机构,以学员能胜任自动化测试,性能测试,测试工具开发等工作为目标.如果对课程感兴趣,请大家咨 ...
Xmpp实现简单聊天系列 --- ②用户注册和登陆
不管是注册还是登陆,亦或是聊天等功能,都必须先进行服务器连接,连接代码如下 ①自定义Xmpp连接工具类: ②调用创建连接的方法: ③连接服务器方法: *注意连接方式为客服 ...
C#设计模式：责任链模式
设计模式是面向对象编程的基础,是用于指导程序设计.在实际项目开发过程中,并不是一味将设计模式进行套用,也不是功能设计时大量引入设计模式.应该根据具体需求和要求应用适合的设计模式.设计模式是一个老话题了 ...

R语言结合概率统计的体系分析---数字特征

R语言结合概率统计的体系分析---数字特征的更多相关文章

随机推荐

热门专题