R语言重要数据集分析研究——需要整理分析阐明理念
1.R语言重要数据集分析研究需要整理分析阐明理念?
上一节讲了R语言作图,本节来讲讲当你拿到一个数据集的时候如何下手分析,数据分析的第一步,探索性数据分析。
统计量,即统计学里面关注的数据集的几个指标,常用的如下:最小值,最大值,四分位数,均值,中位数,众数,方差,标准差,极差,偏度,峰度
先来解释一下各个量得含义,浅显就不说了,这里主要说一下不常见的
众数:出现次数最多的
方差:每个样本值与均值的差得平方和的平均数
标准差:又称均方差,是方差的二次方根,用来衡量一个数据集的集中性
极差:最大值与最小值只差
偏度:相对于正态分布而言如果波峰出现在左边,就表明长尾出现在右边,成为右偏态(正偏态)偏度值>0,分布反之为左偏太(负偏态)偏度值<0
峰度:也是相对于正太分布的,正态分布的峰度为3,如果峰度>3图形越胖,越矮,称为厚尾,峰度<3 图形越瘦,越高,称为瘦尾
本节数据集:
我们采用MASS包的Insurance数据集,该数据集为某保险公司的车险数据。
"District" "Group" "Age" "Holders" "Claims"
按列一次表示:家庭住址区域,投保汽车排量,投保人年龄,投保人数量,要求索赔的数量
安装包与加载数据集:
install.pacakges('MASS') # 安装包
library(MASS) #加载包
data(Insurance) # 加载数据集
ins <- Insurance #拷贝一份数据
R语言重要数据集分析研究需要整理分析阐明理念?
上一节讲了R语言作图,本节来讲讲当你拿到一个数据集的时候如何下手分析,数据分析的第一步,探索性数据分析。
统计量,即统计学里面关注的数据集的几个指标,常用的如下:最小值,最大值,四分位数,均值,中位数,众数,方差,标准差,极差,偏度,峰度
先来解释一下各个量得含义,浅显就不说了,这里主要说一下不常见的
众数:出现次数最多的
方差:每个样本值与均值的差得平方和的平均数
标准差:又称均方差,是方差的二次方根,用来衡量一个数据集的集中性
极差:最大值与最小值只差
偏度:相对于正态分布而言如果波峰出现在左边,就表明长尾出现在右边,成为右偏态(正偏态)偏度值>0,分布反之为左偏太(负偏态)偏度值<0
峰度:也是相对于正太分布的,正态分布的峰度为3,如果峰度>3图形越胖,越矮,称为厚尾,峰度<3 图形越瘦,越高,称为瘦尾
本节数据集:
我们采用MASS包的Insurance数据集,该数据集为某保险公司的车险数据。
"District" "Group" "Age" "Holders" "Claims"
按列一次表示:家庭住址区域,投保汽车排量,投保人年龄,投保人数量,要求索赔的数量
安装包与加载数据集:
install.pacakges('MASS') # 安装包
library(MASS) #加载包
data(Insurance) # 加载数据集
ins <- Insurance #拷贝一份数据
2.R语言统计分析技术研究主要成分分析技术的分类和技巧?
- 什么是主成分分析
主成分分析(PrincipalComponent Analysis,PCA), 是将多指标化成少数几个综合指标的一种综合统计方法。主成分分析方法通过降维技术把多个变量化为少数几个主成分的方法,并且这些主成分保留原始变量的绝大部分信息,通常表现为原始变量的线性组合。通过主成分分析我们能够有效利用大量数据进行定量分析,并揭示变量之间的内在关系。
- 如何解释主成分分析
(1) 我们知道主成分分析是将原来的变量指标进行重新组合的新的综合指标,我们的目的就是要来选择尽可能少的主成分。我们以第一主成分Y1为例,如果在所有的线性组合中Y1的方差最大,,那么它所包含的信息最多。如果第一主成分不足以代表所有的信息,我们再考虑第二主成分,并要求第一主成分Y1已有的信息不出现在第二主成分Y2 中,即两个主成分不相关。
(2) 我们的选择主成分的标准是找到关于x的线性函数,并使相应的方差达到最大,且这些主成分的综合解释能力要在80%以上。
注:关于主成分的推导过程较为晦涩,此文着重讲述R语言的实现过程,有兴趣推导的可以加私信回复。
- 主成分的分析过程
- 多元统计分析及R语言建模(第四版)
- 编辑 锁定
- 本词条缺少信息栏、名片图,补充相关内容使词条更完整,还能快速升级,赶紧来编辑吧!
本书是在我社2010年出版的《管理运筹学(第四版)》的基础上修订而成的,为高等院校管理专本书是在《多元统计分析及R语言建模》(第三版)的基础上修订而成的,系统论述多元统计分析的基本理论和方法并结合R语言分析运算,力求理论与实际应用并重,具有基本统计知识的读者就可阅读本书。本书旨在介绍多元统计分析的基础知识、基本理论及其软件应用。本书主要内容是:多元统计分析概述、多元数据的数学表达、多元数据图示法、多元线性相关与回归分析、聚类分析、判别分析、主成分分析、因子分析、对应分析、典型相关分析和综合评价方法等。所有数据都使用R语言进行分析。对一些基本定理给出了必要而简明的数学推导,又注重数据分析方法的多样性,对各方法从背景、程序的使用、计算步骤到应用技巧及各种方法之间的联系,都有较详细的阐述,包括近期的一些新发展,书中给出一些有启发性的案例和习题,书末附录给出了许多补充知识。
R语言重要数据集分析研究——需要整理分析阐明理念的更多相关文章
- R语言扩展包dplyr——数据清洗和整理
R语言扩展包dplyr——数据清洗和整理 标签: 数据R语言数据清洗数据整理 2015-01-22 18:04 7357人阅读 评论(0) 收藏 举报 分类: R Programming(11) ...
- R语言重要数据集分析研究——R语言数据集的字段含义
R语言数据集的字段含义 作者:马文敏 选择一种数据结构来储存数据 将数据输入或导入到这个数据结构中 数据集的概念 数据集通常是有数据结构的一个矩形数组,行表示规则,列表示变量. 不同的行业对数据集的行 ...
- R语言︱异常值检验、离群点分析、异常值处理
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者寄语:异常值处理一般分为以下几个步骤:异常 ...
- R语言︱大数据集下运行内存管理
在实操时出现以下的问题: Error: cannot allocate vector of size 2.9GB 大神指导(http://bbs.pinggu.org/thread-3682816-1 ...
- R语言重要数据集分析研究—— 数据集本身的分析技巧
数据集本身的分析技巧 作者:王立敏 文章来源:网络 1.数据集 数据集,又称为资料集.数据集合或资料集合,是一种由数据所组成的集合. Data set(或dat ...
- R语言重要数据集分析研究——搞清数据的由来
搞清数据的由来 作者:李雪丽 资料来源:百度百科
- R语言-妹子被追后的选择分析
前提假设 妹子们一生中可以遇到100个追求者,追求者的优秀程度符合正态分布: 每个妹子都具备判断并比较追求者优秀程度的能力: 接受或拒绝一个追求者后永远无法后悔. 那么,问题来了 当遇到追求者时,如何 ...
- R语言iris数据集的层次聚类
data=iris[,-5]dist.e=dist(data,method='euclidean')model1=hclust(dist.e,method='ward') #分3类result=cut ...
- R语言实现数据集某一列的频数统计——with和table
with(priority.train, table(From.EMail)) 统计priority.train中From.EMail的频数
随机推荐
- centos系统修改网络配置注意事项
这也是无意之中发现的,我在做一个远程修改工控机网络配置的程序, 网络配置参数/etc/sysconfig/network-scripts/ifcfg-enp1s0下面,当然名字可能不一样ifcfg-e ...
- Vue2.0的变化 ,组件模板,生命周期,循环,自定义键盘指令,过滤器
组件模板: 之前: <template> <h3>我是组件</h3><strong>我是加粗标签</strong> </templat ...
- vue2.0 组件通信
组件通信: 子组件要想拿到父组件数据 props 子组件不允许直接给父级的数据, 赋值操作如果想更改,父组件每次穿一个对象给子组件, 对象之间引用. 例子: <script> window ...
- Docker - 容器直连
本文是在原文基础上的实际操作验证记录和细节补充. 默认情况下,容器连接到虚拟网桥docker0提供的虚拟子网中,容器之间通过默认网关(虚拟网桥docker0接口地址)建立连接. 如果不使用虚拟网桥,用 ...
- Python 学习——高阶函数 filter 和 sorted
filter filter函数顾名思义,筛选,通过调用函数进行筛选序列中的满足函数的子项 以实例来说话: 过滤一个序列中所有的偶数,保留奇数 另如下,过滤掉一个序列中的所有空格以及空字符等信息 可以知 ...
- JAVA自增自减的玄机
先看下面代码: ; i = i++; System.out.println(i); 请问:输出结果为多少? ---------------------------------------------- ...
- java线程总结3--synchronized关键字,原理以及相关的锁
在多线程编程中,synchronized关键字非常常见,当我们需要进行"同步"操作时,我们很多时候需要该该关键字对代码块或者方法进行锁定.被synchronized锁定的代码块,只 ...
- IO回忆录之怎样过目不忘(BIO/NIO/AIO/Netty)
有热心的网友加我微信,时不时问我一些技术的或者学习技术的问题.有时候我回微信的时候都是半夜了.但是我很乐意解答他们的问题.因为这些年轻人都是很有上进心的,所以在我心里他们就是很优秀的,我愿意多和努力的 ...
- 开涛spring3(1) - Spring概述
1.1.1 Spring是什么 Spring是一个开源的轻量级Java SE(Java 标准版本)/Java EE(Java 企业版本)开发应用框架,其目的是用于简化企业级应用程序开发.应用程序是由 ...
- React源码学习——ReactClass
前言 之前一直在使用react做开发,但是对其内部的工作机制却一点儿都不了解,说白了就是一直在套api,毫无成就感.趁最近比较闲,对源码做了一番研究,并通过博客的方式做一些记录. 进入正题 通过编写自 ...