现在有一个人,如何对这个人怎么识别这个人?那么就对其存在的特征进行提取,比如,提取其身高,其相貌,其年龄,分析这些特征,从而确定了,这个人就是这个人,我们绝不会认错。

同理,对数据进行分析,也是提取出数据的特征,对其特征进行分析,从而确定这些数据所呈现的信息状况,从而确定了这些数据的独特性和唯一性,因为他呈现的信息是唯一的,绝不与别的是相同的。

那么这些特征是什么呢?拥有哪些特征呢?似乎应该是经过无数科学家的总结,终于发现了几个重要的特征,包括数字特征和分布特征,这个数字特征,包括集中位置,分散程度,而后整体分布,就是一个总体的描述,其实,这里就有一个疑惑,数字特征和分布特征,到底有什么区别?他们依靠什么来从本质上加以区分开来的呢?

可以试着从一个角度来分析一下,数字特征,也就是说集中位置和分散程度是一个数,在坐标上,他仅仅代表着一个点,一个数字而已。而分布特征,则表现为一个图形,他可以是二维的图形,也可以是三维的图形,甚至可以是N维的图形。所以可以说,数字特征和分布特征,分别是数据信息在低维度和高纬度上面体现。

最后,我们为什么要分析数据?分析数据有何种意义可言?其实,就像我们认识分析一个人的特征是为了判断一个人一样,我们分析数据的特征,就是为了统计推断,为其服务的。

明白了以上的要点,初步建立了一个良好的逻辑结构和逻辑起点,即为数据---》特征分析---》信息呈现---》统计推断,下面就可以把所有的目光聚集在其中一个关键而又核心的位置了,即为特征分析。

问题在于,现在已经要研究集中位置,分散程度和整体分布,那么用什么东西描述他,或者说,用什么东西来表现他?

先来说,集中位置。

常用来表现集中位置的,有均值,众数,中位数和百分位数

1,均值:

简单,就是平均数咯。

公式的定义为:

在R语言中,求均值的公式为mean(x),x为样本,可以为向量,在这里不得不提一下,向量,在线性代数中有一个解释,即为向量就是一组有序的数组,这个定义放在这里是最恰当不过了。从数据分析的角度来说,只有一个数据,不存在分析的必要性,如果数据多了,就有了分析的必要,这些多的数据,放在一起,从而组成一组数。这组数在数学上的表示,就成了向量。

那么为什么向量可以表示有序数组,可以其实这么想,我现在把向量的起始点规定在坐标的原点,那么向量的终点就可以非常固定而又准确的表示出一个点了,这个点,在不同维度之中,表示这个点的数字也或多或少,比如在一位坐标中,也就是数轴上,这个点就只有一个数,令为a。在二维空间中,这个点为(a,b),在三维空间中,这个点为(a,b,c),四维空间中,这个点的坐标为(a,b,c,d),同理,在n维空间之中,这个点的坐标为(a,b,c,d........),看着这样的规律,可见,向量可以正好表示存在的一组数,不论这组数中到底存在着多少的数据,这也是为什么线性代数中为什么要这么定义向量的原因了。

如果你只看大学课本里的那本线性代数,你会发现那里只是突然给出了向量的新的定义,至于为什么给出新的定义,他就没有说了,我想说的是,这还是教科书么?也许仅仅就是一个工具书而已,由此可见,中国的教育在高等层次上,还是做的很烂的,我都不禁怀疑,那些家伙到底也理解透了么?这或许是中国数学为什么在后期阶段都乏力的原因吧,能够给予我们良好指导的老师,几乎缺乏。。

其实吧,我觉得,线性代数,那一本书,本质上讲的就是有序数组,有序数组和有序数组之前的关系的学问,如果他本质上讲的向量,或者本质上讲的是矩阵,那么到底谁是本质,到底,谁才是本质上真正由起始的表现谁?所以说,他们最终都只是有序数组的一体两面而已。。。

不多说了,回到正题。。。

   是把求平均值运用到矩阵当中,1,表示的行求平均,如果变为2,则表示,列求平均。

2,众数

也就是出现最多的数

3,中位数

就是处在一组数中间的数据,在获取这个中间数之前,必须先对这组数进行排序

排序的函数为:sort( )

中位数的公式:

对应的函数:

4,百分位数

所谓百分位数,比如样本总数为20,把他分为100个等分,即为20/100,如果在其25百分位数,即为20*25/100=20*25%=20/4=5,则这时,我们研究的数字就指向的第五个数。

R语言中的函数:

在来说说分散程度。。

这里只说说两种表现的方法,极差和方差。

所谓极差就是最大值和最小值的差距,常人的一般判断,都晓得最大值和最小值的差很容易就知道,这个的确是可以表示一组数据的分散程度的。

然而如下:

2,7,8,10    2,5,6,10

这两种数据,很显然就不能够用极差来判别他的分散程度了,就必须得另外想办法。

可以使用|2-10+7-8|    |2-10+5-6|   容易得出后者的分散程度较小,然而这种计算方法显得有点不方便,他需要把数据分为几个部分来计算,增加了计算的复杂程度,那么有不有更加简单,效果却一样的方法呢?

  可以观察有,5-6 其实是等于,5-5.5+5.5-6  中间其实有平均数在作用。

所以我们用每个数,减去其平均数,由于有正有负,又由于绝对值不方便计算,所以加上一个平方,从而得到一个平方差之和来表达一组数的离散,但仅仅是平方和相加么?那么几组数中数据的多少不同呢?这样就不好比较了,所以,再对这一平方和取得一个平均数,这样就可以比较了,这样,我们就得到了方差,公式为:

最后,在这一篇,说说前面几个表示集中位置的方法的区别,当存在离群非常明显的数据的时候,均值,就不能够很好的显示一组数据的集中位置,这个时候,就得靠众数和中位数,至于百分位数,可以用来显示特征的特征,即任意其中一个数,正整体中所表现的状态,如,小明的50分的成绩,在全班成绩中所在的位置,如果他的成绩,即50分处在75百分数,则表示他的成绩是是在中上游的。

下一篇,将讲分布和绘图体系。

R语言结合概率统计的体系分析---数字特征的更多相关文章

  1. R语言与概率统计(二) 假设检验

    > ####################5.2 > X<-c(159, 280, 101, 212, 224, 379, 179, 264, + 222, 362, 168, 2 ...

  2. R语言与概率统计(一) 描述性统计分析

      #查看已安装的包,查看已载入的包,查看包的介绍 ########例题3.1 #向量的输入方法 w<-c(75.0, 64.0, 47.4, 66.9, 62.2, 62.2, 58.7, 6 ...

  3. R语言与概率统计(六) 主成分分析 因子分析

    超高维度分析,N*P的矩阵,N为样本个数,P为指标,N<<P PCA:抓住对y对重要的影响因素 主要有三种:PCA,因子分析,回归方程+惩罚函数(如LASSO) 为了降维,用更少的变量解决 ...

  4. R语言与概率统计(三) 多元统计分析(下)广义线性回归

    广义线性回归 > life<-data.frame( + X1=c(2.5, 173, 119, 10, 502, 4, 14.4, 2, 40, 6.6, + 21.4, 2.8, 2. ...

  5. R语言与概率统计(三) 多元统计分析(中)

    模型修正 #但是,回归分析通常很难一步到位,需要不断修正模型 ###############################6.9通过牙膏销量模型学习模型修正 toothpaste<-data. ...

  6. R语言与概率统计(五) 聚类分析

    #########################################0808聚类分析 X<-data.frame( x1=c(2959.19, 2459.77, 1495.63, ...

  7. R语言与概率统计(四) 判别分析(分类)

    Fisher就是找一个线L使得组内方差小,组间距离大.即找一个直线使得d最大. ####################################1.判别分析,线性判别:2.分层抽样 #inst ...

  8. R语言与概率统计(三) 多元统计分析(上)

    > #############6.2一元线性回归分析 > x<-c(0.10,0.11,0.12,0.13,0.14,0.15,0.16,0.17,0.18,0.20,0.21,0. ...

  9. R语言入门级实例——用igragh包分析社群

    R语言入门级实例——用igragh包分析社群 引入—— 本文的主要目的是初步实现R的igraph包的基础功能,包括绘制关系网络图(social relationship).利用算法进行社群发现(com ...

随机推荐

  1. windows系统解决github.com访问超时

    当github无法访问时,可以尝试在hosts文件中添加下面的内容 windows:c:\windows\system32\drivers\etc 192.30.252.131 https://git ...

  2. mysql创建数据表时如何判断是否已经存在?

    >>> create table if not exists people(name text,age int(2),gender char(1)); 如上代码表示创建一个名为peo ...

  3. Servlet小总结(转)

    一,什么是Servlet? Servlet是一个Java编写的程序,此程序是基于Http协议的,在服务器端运行的(如tomcat), 是按照Servlet规范编写的一个Java类. 二,Servlet ...

  4. 性能测试分享:MYSQL死锁

    poptest是国内唯一一家培养测试开发工程师的培训机构,以学员能胜任自动化测试,性能测试,测试工具开发等工作为目标.如果对课程感兴趣,请大家咨询qq:908821478,咨询电话010-845052 ...

  5. [编织消息框架][JAVA核心技术]动态代理应用4

    基础部份: 接下来讲编译JAVA时,生成自定义class 我们用 javax.annotation.processing.AbstractProcessor 来处理 public abstract c ...

  6. js实现多行图片点击(自动)左右无缝轮播特效

    /*效果图*/ HTML:    <div class="scroll">       <div class="picbox">     ...

  7. ReactJS入门3:组件的生命周期

    本文主要介绍组件的生命周期. 组建的生命周期主要分为3个:Mounting.Updating.Unmounting. 1. Mounting:组件被加载到DOM     在本阶段,主要有三个方法: 1 ...

  8. PHP对象相关知识点的总结

    对象传递:一种说法是"PHP对象是通过引用传递的",更准确的说法是别名(标识符)传递,即它们都保存着同一个标识符(ID)的拷贝,这个标识符指向同一个对象的真正内容. <?ph ...

  9. java小题:福尔摩斯的约会

    原题地址:https://www.nowcoder.com/pat/6/problem/4040 防止广告嫌疑,原题为: 题目描述 大侦探福尔摩斯接到一张奇怪的字条:"我们约会吧! 3485 ...

  10. Named function expressions demystified

    Introduction Surprisingly, a topic of named function expressions doesn't seem to be covered well eno ...