SciTech-Mathmatics-Probability+Statistics:Quantifing Uncertainty_多元数据统计分析: 多元数据的: $\large \bm{Measure+Scale+Type(Nominal/Ordinal/Interval/Ratio)}$
SciTech-Mathmatics-Probability+Statistics:Quantifing Uncertainty_多元数据统计分析: 多元数据
多元数据和多元统计分析
<<实用多元统计分析>> 清华大学出版社,5校 正文1.indd 1 2023/9/12 17:14:25
学术用语
\(\large \begin{array}{rl} \\
\bm{ Object }:& 对象(观测的) \\
\bm{ Observation }:& 观测 \\
\bm{ Variable }:& 变量(统计的) \\
\bm{ Measure }:& 测量(计量) \\
\bm{ Level }:& 水平(阶层, 测量的) \\
\bm{ Scale }:& 尺度(测量的) \\
\bm{ Categories }:& 类别 \\
\bm{ Data }:& 数据 \\
\end{array}\)
\(\large \bm{Missing\ Values}\)(缺失值, not known, NK)
- 通过 缺失分析 确定变量的观察值产生缺失的原因,对研究很重要。
- 缺失值会导致本书介绍的许多分析方法出现问题,缺失值越多问题相对越严重。
- 有很多方法可以处理缺失数据问题(有效的和无效的, 但这些方法的讨论超出本书的范围),
常用方法是根据未缺失数据的信息估计文献的缺失值, 例如有:- 既有简单的: 使用非缺失数据的平均值代替缺失值,
- 又有复杂的: 借助数据随机性的多重插补(填补)方法(multiple imputation).
数据的 \(\large \bm{Measure\ +\ Scale\ + \ Type}\)
数据是对对象进行计量的结果,不同的计量尺度会产生不同的结果(数据)。
- 同一Variable(变量, 观测并测量的),可使用不同的Scale(尺度); 根据观测目标确定选择。
观测并测量得到的不同类型数据,需要不同的统计分析方法,
一般适合分析低水平尺度数据的方法,也可用于分析高水平尺度数据,反之不一定成立。 - Scale of Measure(计量尺度)有四种,即定类尺度、定序尺度、定距尺度和定比尺度。
- Data Type(数据分类)
统计学上, 我们将用以上四种尺度计量得到的数据, 分成两大类:- 品质型数据(类别数据或定性数据): 定类数据 和 定序数据
- 数值型数据: 定距数据 和 定比数据。
\(\large Nominal\ Scale\)(定类尺度): 是测量的最低水平,最常用于定性而非定量的变量。
- 使用定类尺度计量, 变量被划分为几个类别(categories), 通过确定对象所属类别来"测量"对象。
用定类尺度测量, 实际是分类对象, 并给出其类别的名称, 这也是将其称为名义尺度的缘由。 - 例如,跑鞋的牌子, 水果的种类, 音乐的种类, 月份, 宗教信仰, 眼睛颜色等。
- 定类尺度计量层次最低,具有如下特征:
- 对事物进行平行的分类。各类别可以指定数字代码表示。
- 数据表现为“类别”。
- 使用时必须符合类别穷尽(Collectively Exhausive)和互斥(Mutually Exclusive)的要求。
- 有“=”或“≠”的数学特性。
- 一个变量计量时使用定类尺度 则称这个变量为定类变量, 计量(测量)结果 称为 定类数据。
- 使用定类尺度计量, 变量被划分为几个类别(categories), 通过确定对象所属类别来"测量"对象。
\(\large Ordinal\ Scale\)(定序尺度):
有相对较低的计量层次,但测量水平高于定类尺度,它有相对低层次的数量特性。- 一个变量计量时使用定序尺度, 则称其为定序变量,计量(测量)结果称为定序数据。
- 例如,社会阶层, 对健康的自我感知(编码I到V), 教育水平(没受过学校教育/小学/中学/高等教育)等。
- 定序尺度具有如下特征:
- 对事物分类的同时给出各类别的顺序; 。
- 数据表现为“类别”,并且“有序”。
- 比定类尺度更精确, 但未测量出类别之间的准确差值。
- 具有“>”或“<”的数学特性。
\(\large Interval\ Scale\) (定距尺度):
比定序尺度有更高的测量水平, 它有数量特性且相邻单位等间隔,但没有绝对零点(零点位置可任选)。
因此,定距尺度具有定序尺度的性质,且相邻的单位间隔的测量值相等。- 一个变量的计量使用间隔尺度, 则称其为定距变量, 计量(测量)结果称为定距数据, 这些数据为数值型数据。
- 术语“相邻单位等间隔”意指相邻单位上变量被测量的值是一样的。
因为间隔尺度具有相邻单位之间变量计量(测量)xx值相等的性质,
所以相同间隔之间的差异也表示变量的测量值具有相同的差异。 - 在某些情况下,类似抑郁、焦虑或智力的测量,实际难以计量时(实际上也确实难以对其进行准确的测度),
则可使用间隔尺度对这些变量进行计量。 - 例如, 使用摄氏温度计或华氏温度计测量温度。
\(\large Ratio\ Scale\)(定比尺度):
是最高计量水平的计量尺度,对这种尺度测量的数据可以分析其相对大小及它们的差异,其零点位置是固定的。- 一个变量计量使用定比尺度, 则称其为定比变量, 计量(测量)结果称为定比数据, 这些数据为数值型数据。
例如,年龄、从任何固定事件起算的时间、事件发生的频率、体重、长度等。
- 一个变量计量使用定比尺度, 则称其为定比变量, 计量(测量)结果称为定比数据, 这些数据为数值型数据。
例 1.1
对 6 个变量 进行 10次观测(10 个个体) 的结果,如表 1-1 所示。
- 表 1-1 可以看作是一个 \(\large 10 \times 6\) 阶的数据矩阵,相当于对 6 个变量, 观测了 10 次。
“性别”变量、“忧郁”变量为定类变量,
“健康状况”变量为定序变量,
“IQ”变量为定距变量,
“年龄”变量、“体重”变量为定比变量。 - 表 1-1 中的定性信息可采用数值代码表示。例如,可定义
定类变量“性别”的取值为:男性 =1,女性 =2;
定序变量“健康状况”取值用 1~5 表示,取值为 5 表示很好,取值为 1 表示很差等。
但是,这里需要注意的是这些相同的数字代码(如 1)表达完全不同的信息,其与测量的尺度有关。 - 表 1-1 的另一个特征是它包含Missing Values;
表 1-1 含有 6个变量 的 10个观测数据
个体编号 | 性别 | 年龄/岁 | IQ | 忧郁症 | 健康状况 | 体重/千克 |
---|---|---|---|---|---|---|
1 | 男 | 21 | 120 | 是 | 很好 | 68 |
2 | 男 | 43 | NK | 否 | 很好 | 72.5 |
3 | 男 | 22 | 135 | 否 | 一般 | 61.2 |
4 | 男 | 86 | 150 | 否 | 很好 | 63.5 |
5 | 男 | 60 | 92 | 是 | 较好 | 49.9 |
6 | 女 | 16 | 130 | 是 | 较好 | 49.9 |
7 | 女 | NK | 150 | 是 | 很好 | 54.4 |
8 | 女 | 43 | NK | 是 | 一般 | 54.4 |
9 | 女 | 22 | 84 | 否 | 一般 | 47.6 |
10 | 女 | 80 | 70 | 否 | 较好 | 45.4 |
SciTech-Mathmatics-Probability+Statistics:Quantifing Uncertainty_多元数据统计分析: 多元数据的: $\large \bm{Measure+Scale+Type(Nominal/Ordinal/Interval/Ratio)}$的更多相关文章
- PHP+Hadoop实现数据统计分析
记一次完全独立完成的统计分析系统的搭建过程,主要用到了PHP+Hadoop+Hive+Thrift+Mysql实现 安装 Hadoop安装: http://www.powerxing.com/inst ...
- UC打通高德POI数据,用大数据描绘周边热点地图
UC打通高德POI数据,用大数据描绘周边热点地图 2016-10-25 11:13 来源:互联网 我来投稿 我要评论 在北京工作的小李最近很苦恼,房东因小区周边规划了大型商场而坚持涨价. ...
- 转:SQL SERVER数据库中实现快速的数据提取和数据分页
探讨如何在有着1000万条数据的MS SQL SERVER数据库中实现快速的数据提取和数据分页.以下代码说明了我们实例中数据库的“红头文件”一表的部分数据结构: CREATE TABLE [dbo]. ...
- GoldenGate实时投递数据到大数据平台(2)- Cassandra
简介 GoldenGate是一款可以实时投递数据到大数据平台的软件,针对apache cassandra,经过简单配置,即可实现从关系型数据将增量数据实时投递到Cassandra,以下介绍配置过程. ...
- PHP+Hadoop+Hive+Thrift+Mysql实现数据统计分析
原址:http://www.cnblogs.com/wicub/p/6094045.html 安装 Hadoop安装: http://www.powerxing.com/install-hadoo ...
- Webservice WCF WebApi 前端数据可视化 前端数据可视化 C# asp.net PhoneGap html5 C# Where 网站分布式开发简介 EntityFramework Core依赖注入上下文方式不同造成内存泄漏了解一下? SQL Server之深入理解STUFF 你必须知道的EntityFramework 6.x和EntityFramework Cor
Webservice WCF WebApi 注明:改编加组合 在.net平台下,有大量的技术让你创建一个HTTP服务,像Web Service,WCF,现在又出了Web API.在.net平台下, ...
- 时序数据库influxDB存储数据grafana展示数据
一.influxDB简介 InfluxDB是一款用Go语言编写的开源分布式时序.事件和指标数据库,无需外部依赖.该数据库现在主要用于存储涉及大量的时间戳数据,如DevOps监控数据,APP metri ...
- 速战速决 (6) - PHP: 获取 http 请求数据, 获取 get 数据 和 post 数据, json 字符串与对象之间的相互转换
[源码下载] 速战速决 (6) - PHP: 获取 http 请求数据, 获取 get 数据 和 post 数据, json 字符串与对象之间的相互转换 作者:webabcd 介绍速战速决 之 PHP ...
- ASP.NET API(MVC) 对APP接口(Json格式)接收数据与返回数据的统一管理
话不多说,直接进入主题. 需求:基于Http请求接收Json格式数据,返回Json格式的数据. 整理:对接收的数据与返回数据进行统一的封装整理,方便处理接收与返回数据,并对数据进行验证,通过C#的特性 ...
- Web jquery表格组件 JQGrid 的使用 - 7.查询数据、编辑数据、删除数据
系列索引 Web jquery表格组件 JQGrid 的使用 - 从入门到精通 开篇及索引 Web jquery表格组件 JQGrid 的使用 - 4.JQGrid参数.ColModel API.事件 ...
随机推荐
- 60个 Linux C/C++ 实战小项目,挑战年薪30万+
大家好啊!我是小康. 最近公众号后台收到好多小伙伴的私信: "小康哥,我已经把<C++ Primer>啃完了,Linux 环境也玩得差不多了,但就是不知道该做啥项目练手...&q ...
- PyQt6安装与配置(附带Vscode配置)
1. 安装PyQt6和PyQt-tools pip install PyQt6 pip install PyQt6-tools 2. Vscode配置QtDesigner 安装PyQt Integra ...
- 2.1k star! 抓紧冲,DeepChat:连接AI与个人世界的智能助手的开源项目
嗨,大家好,我是小华同学,关注我们获得"最新.最全.最优质"开源项目和高效工作学习方法 DeepChat是一款开源的跨平台智能助手工具,它如同AI世界的"万能转换插头&q ...
- 基于SaaS纯BS架构的全院级PACS系统
2014年曾经做过一版简单的Dicom Web Viewer,之前的Web版本由于技术和功能的极限性,仅能简单的运用于临床阅片和患者的电子胶片使用,无法普及到放射和超声等影像科室.影像科 ...
- JS 原型链查找
我们都知道面向对象语言如 Java, C++ 等都基本实现了 封装, 继承, 多态 等特性, 用面向对象语言来编程的基本套路就是抽象出类, 然后实例化, 用实例调用方法来模拟进行程序间的通信. 但 J ...
- TVM:使用调度模板和AutoTVM优化算子
本节学习如何使用TVM 张量表达式(TE)语言来编写调度模板,这些模板可以被autoTVM搜索到,以找到最佳调度.这个过程称为auto-Tuning,它有助于优化张量计算的自动化过程. 本节建立在如何 ...
- L2-3、Prompt结构化思维助力复杂任务:分步骤提示与多任务合并技巧
一.什么是 CoT(Chain of Thought)提示法? 结构化思维在人工智能交互中的重要性日益凸显,其中Chain of Thought(CoT,思维链)提示法是一种强大的技术,能够显著提升A ...
- Dify实战案例:MySQL查询助手!嘎嘎好用
有了 AI 之后,我们在查询数据库的时候就不需要使用数据库客户端或程序(如 Java.Python)来查询了,我们可以直接使用 AI 来查询数据库,并且查询语句都不用你来写了,AI 会自动帮你生成. ...
- 袋鼠云秋季发布会圆满落幕,AI驱动让生产力数智化
在当今时代,AI 的发展如汹涌浪潮,其速度之快超越了任何历史时期.它以前所未有的迅猛之势,渗入到各个领域的不同场景之中,悄然重塑着商业模式与人们的生活方式. 在 AI 逐渐成为企业基础属性的背景下,袋 ...
- 两步实现让antd与IDE和睦相处的处理案例
导读: Web IDE的开发从来是整个大数据平台开发中非常繁复和笨重的一环,从零搭建一个 Web IDE 通常意味着大量的殚精竭虑和苦思冥想,时间成本更是不可计数.两个UI组件库一起用更是bug的代名 ...