SciTech-Mathmatics-Probability+Statistics:Quantifing Uncertainty_多元数据统计分析: 多元数据 的 认知: 概念 和 多元统计分析的认知+应用
Chapt 1 学习目标
- 理解多元数据及多元统计分析与一元统计分析的区别。
- 掌握数据的计量尺度与数据类型。
- 了解多元统计分析的应用分类。
1.1 多元数据认知
1.1.1 多元数据 的概念
对任何一个现实问题要转化为一个统计问题,
首要的工作是要对其特征进行刻画:
- 一般采用随机变量.
- 多个特征采用多个随机变量, 如 \(\large (X_1, X_2,\ \cdots\ , X_p)\) .
- 随机变量一般是抽象的.
- 当随机变量描述的是有具体的意义的指标(特征)时,例如经济上常用的:
宏观经济指标GDP、社会商品零售总额、固定资产投资额、消费、个人可支配收入等。
此时统计问题的指标, 有其概念、单位、核算方法等:
- 如果仅考虑单一特征(一个变量),则是一元统计问题,
- 若要同时考虑多个特征,且要体现多个变量(指标)之间的关系,
例如,个人消费 与其 可支配收入 正有关等,
则不但要分析每一个变量,还要分析它们之间的关联程度;
有必要对一元统计分析方法进行拓展
多元数据 统计分析 的构思
同时对诸多变量\(\large (X_1, X_2,\ \cdots\ , X_p)\) 进行分析,
就是多元统计分析分析问题的构思。
为对 多变量 进行 统计分析(描述性的或推断性的),我们需要:
通过大量的重复观察结果(数据)捕捉多变量及其之间的规律。
对有 p 个变量的多元统计问题, 可采用矩阵方法对其观察数据进行表示, 如\(\large 矩阵 X\):
\(\large \begin{array}{rl} \\
\begin{bmatrix} x_{11} & x_{12} & \cdots & x_{1p} \\
x_{21} & x_{22} & \cdots & x_{2p} \\
\vdots & \vdots & & \vdots \\
x_{n1} & x_{n2} & \cdots & x_{np} \\
\end{bmatrix} \\
\end{array}\)
\(\large \begin{array}{rl} \\
\bm{ x_{ij}}:& \bm{Oberservation}\ of\ \bm{i-th\ Individual} \ and\ \bm{j-th\ Variable}\\
\bm{ n }:& \bm{Sample \ Size} \\
\bm{ p }:& \bm{Variable \ Size} \\
\end{array}\)分类变量:
如果,.有几个不同的个体属于 s 个不同的群体,
则, 设 s 是取值为$1, 2, \cdots, $的分类变量, 以区分这些群体。
1.2 多元统计分析
1.2.1 多元统计分析 认知
多元统计分析是分析多维数据的理论与方法,
随着现实问题的需要与数据收集、储存技术的发展,多元统计分析方法也不断地拓展与发展变化。
但是,如果想对 多元统计分析 给出一个 准确的定义, 一般非常困难,
我们很难建立一个既被广泛接受, 又能对其方法技术进行合适逻辑归类的分类框架。
鉴于此,本书从研究 现实问题 实际需要 的视角,
通过归类科学研究的目标, 以体现多元统计分析的方法与应用。
科学研究的目标或实际需要,特别是经济、管理、社会、教育、心理、医学等领域,
一般包括以下几个方面:
- \(\large \text{ data reduction or structural simplification}\)
数据减化或结构简化:
以不损失有价值信息为前提,使用尽可能简单方式,
对现象开展研究, 以期使解释更易。 - \(\large \text{ sorting and grouping}\)
分类和聚类:
根据测量得数据及其特征,
将"相似的"对象或变量分类, 或构建规则 以将 新对象 分于预先定义好的类。 - \(\large \text{ investigation of the dependence among variables}\)
调研变量之间的关系:
研究者会对 变量之间的关系 感兴趣, 经常需要确定,
是否所有的变量相互独立;还是一个或多个变量依赖于其他的一些变量,及其原因。 - \(\large \text{ prediction}\)
预测:
基于某些变量的观测数据,确立变量之间的关系,
以对感兴趣的一个或多个变量的值进行预测。 - \(\large \text{ hypothesis construction and testing}\)
假设的构建与检验:
利用多元总体的参数构建统计假设,并对其进行检验,
以对问题的假设或竞争性论点进行实证分析。
1.2.2 多元统计分析分类应用简例
为体现实际问题的分析需要和科学研究的目标,
下面通过问题举例, 呈现多元统计分析方法的应用,
学员可在此基础上举一反三,思考研究问题与多元统计分析方法的对应关系与选择。
数据简化或结构约化简例
- 使用几个与患者放疗反应有关的变量数据,构建一个测度方法以测量患者的疗效。
- 基于许多国家运动员的竞赛成绩数据,构建一个指数测量男女运动员的技术水平。
- 利用高级扫描仪收集的多谱图像数据,在二维平面上呈现海岸线的图像。
分类和聚类简例
- 基于若干人体生理变量的测量值,开发一种甄别方法,区别嗜酒者和非嗜酒者。
- 税务部门使用从纳税申报表收集的数据,将纳税人分为 审计 和 不审计 两类。
- 基于反映不同类型国家发展水平的若干变量数据,判断某国的发展方式应该:
采取粗放型、集约型、粗放集约型、集约粗放型四种发展方式的哪一种。
变量之间关系简例
- 基于几个变量的数据识别影响聘用外部顾问的企业成功的因素。
- 对一些与公司环境和公司组织有关的变量进行测量,并基此解释为什么:
有些公司的产品具有创新性,而有些公司的产品不具有创新性。 - 基于公司高管的风险倾向与其社会经济特征之间的关系,
评估高管的风险行为与其绩效之间的关系。
预测简例
- 利用学生的测试分数与体现其高中、大学表现的若干个变量之间的联系,
预测学生大学期间的表现。 - 基于若干个会计和财务变量识别财产保险者潜在的破产状况。
- 利用学生的测试分数与体现其高中、大学表现的若干个变量之间的联系,
假设的构建与检验简例
- 基于若干与污染有关的变量数据,以确定大城市的污染水平:
在一周内大概相同,还是在工作日和周末之间存在明显的差异。 - 基于一些与职业结构差异有关的变量数据,验证两种竞争的社会学观点的正确性。
- 基于一些变量的数据,判断新兴工业化国家不同类型企业是否表现不同创新模式。
- 基于若干与污染有关的变量数据,以确定大城市的污染水平:
练习题
- 数据的计量尺度包括哪几种?如何进行区分?
- 多元统计分析应用主要包括哪些方面?
SciTech-Mathmatics-Probability+Statistics:Quantifing Uncertainty_多元数据统计分析: 多元数据 的 认知: 概念 和 多元统计分析的认知+应用的更多相关文章
- (数据科学学习手札19)R中基本统计分析技巧总结
在获取数据,并且完成数据的清洗之后,首要的事就是对整个数据集进行探索性的研究,这个过程中会利用到各种描述性统计量和推断性统计量来初探变量间和变量内部的基本关系,本篇笔者便基于R,对一些常用的数据探索方 ...
- UC打通高德POI数据,用大数据描绘周边热点地图
UC打通高德POI数据,用大数据描绘周边热点地图 2016-10-25 11:13 来源:互联网 我来投稿 我要评论 在北京工作的小李最近很苦恼,房东因小区周边规划了大型商场而坚持涨价. ...
- 转:SQL SERVER数据库中实现快速的数据提取和数据分页
探讨如何在有着1000万条数据的MS SQL SERVER数据库中实现快速的数据提取和数据分页.以下代码说明了我们实例中数据库的“红头文件”一表的部分数据结构: CREATE TABLE [dbo]. ...
- GoldenGate实时投递数据到大数据平台(2)- Cassandra
简介 GoldenGate是一款可以实时投递数据到大数据平台的软件,针对apache cassandra,经过简单配置,即可实现从关系型数据将增量数据实时投递到Cassandra,以下介绍配置过程. ...
- Webservice WCF WebApi 前端数据可视化 前端数据可视化 C# asp.net PhoneGap html5 C# Where 网站分布式开发简介 EntityFramework Core依赖注入上下文方式不同造成内存泄漏了解一下? SQL Server之深入理解STUFF 你必须知道的EntityFramework 6.x和EntityFramework Cor
Webservice WCF WebApi 注明:改编加组合 在.net平台下,有大量的技术让你创建一个HTTP服务,像Web Service,WCF,现在又出了Web API.在.net平台下, ...
- 时序数据库influxDB存储数据grafana展示数据
一.influxDB简介 InfluxDB是一款用Go语言编写的开源分布式时序.事件和指标数据库,无需外部依赖.该数据库现在主要用于存储涉及大量的时间戳数据,如DevOps监控数据,APP metri ...
- 速战速决 (6) - PHP: 获取 http 请求数据, 获取 get 数据 和 post 数据, json 字符串与对象之间的相互转换
[源码下载] 速战速决 (6) - PHP: 获取 http 请求数据, 获取 get 数据 和 post 数据, json 字符串与对象之间的相互转换 作者:webabcd 介绍速战速决 之 PHP ...
- ASP.NET API(MVC) 对APP接口(Json格式)接收数据与返回数据的统一管理
话不多说,直接进入主题. 需求:基于Http请求接收Json格式数据,返回Json格式的数据. 整理:对接收的数据与返回数据进行统一的封装整理,方便处理接收与返回数据,并对数据进行验证,通过C#的特性 ...
- Web jquery表格组件 JQGrid 的使用 - 7.查询数据、编辑数据、删除数据
系列索引 Web jquery表格组件 JQGrid 的使用 - 从入门到精通 开篇及索引 Web jquery表格组件 JQGrid 的使用 - 4.JQGrid参数.ColModel API.事件 ...
- SpringMVC框架下数据的增删改查,数据类型转换,数据格式化,数据校验,错误输入的消息回显
在eclipse中javaEE环境下: 这儿并没有连接数据库,而是将数据存放在map集合中: 将各种架包导入lib下... web.xml文件配置为 <?xml version="1. ...
随机推荐
- [开源] .NetCore 使用 ORM FreeSql 访问 MySql/Mariadb
1.创建项目 我们以 console 类型项目试验 插入.删除.更新.查询 等功能,创建控制台项目,使用命令: dotnet new console dotnet add package FreeSq ...
- Spring Ioc源码引入:什么是IoC,IoC解决了什么问题
Spring Ioc源码引入:什么是IoC,IoC解决了什么问题 什么是IoC 用一个故事举例: 小陈想开一家咖啡店,于是独自创业.找咖啡豆供应商.买咖啡机.招员工,样样都要自己来.开店成本很高.后来 ...
- JavaScript中的DOM和Timer(简单易用的基本操作)
JavaScript中的DOM和Timer基本操作 DOM操作 传统的选择器 选择器id var elements = document.getElementById(id的名称); 例如: var ...
- 【经验】日常|WakeUp、Outlook、Google日历导入飞书日历
以飞书团队账号登录时,设置的日历就能被团队其他成员看到(可选择私密.仅忙碌[默认].完全公开三种模式),以便相互查看空闲时间. Wakeup日历导出到Outlook日历 Wakeup支持从各大学校便利 ...
- vue3 基础-CompositionAPI - setup
之前介绍的是一些关于代码复用的问题, 如 mixin, plugin 等. 从本篇开始呢, 就将来学习一波 vue3 的新特性, 即 Composition API 咱之前的写法, 即把各种逻辑, 方 ...
- Python基础 - 多线程(下)
上篇对多线程有一个初步的认识, 常用的要点, 也是对照这 多进程 来试验的. 目的呢, 还是再不断地提醒自己能通俗理解进程和线程的"关系", OS -> 多进程 -> ...
- 网络编程:TCP 网络编程
参考:盛延敏:网络编程实战 TCP TCP,又被叫做字节流套接字(Stream Socket),UDP 也有一个类似的叫法, 数据报套接字(Datagram Socket),一般分别以"SO ...
- 求阶乘末尾0的个数(java)
末尾0的个数 题目描述 输入一个正整数,求n!末尾有多少个0?比如n = 10; n! = 3628800 ,所以答案为2 输入描述 输入为一行,n (1 <= n <= 1000)//输 ...
- EDR(端点检测与响应)如何提升中小型企业(SMB)的网络安全
1.什么是 EDR? (What is EDR?) Endpoint Detection and Response (EDR) is a cybersecurity solution... EDR t ...
- 爬取西刺代理的IP与端口(一)
0x01 简陋代码是,获取(.*?)的字符串 #coding:utf-8 from requests import * import re headers = { "accept" ...