SciTech-Mathmatics-Probability+Statistics:Quantifing Uncertainty_多元数据统计分析: 多元数据 的 认知: 概念 和 多元统计分析的认知+应用
Chapt 1 学习目标
- 理解多元数据及多元统计分析与一元统计分析的区别。
- 掌握数据的计量尺度与数据类型。
- 了解多元统计分析的应用分类。
1.1 多元数据认知
1.1.1 多元数据 的概念
对任何一个现实问题要转化为一个统计问题,
首要的工作是要对其特征进行刻画:
- 一般采用随机变量.
- 多个特征采用多个随机变量, 如 \(\large (X_1, X_2,\ \cdots\ , X_p)\) .
- 随机变量一般是抽象的.
- 当随机变量描述的是有具体的意义的指标(特征)时,例如经济上常用的:
宏观经济指标GDP、社会商品零售总额、固定资产投资额、消费、个人可支配收入等。
此时统计问题的指标, 有其概念、单位、核算方法等:
- 如果仅考虑单一特征(一个变量),则是一元统计问题,
- 若要同时考虑多个特征,且要体现多个变量(指标)之间的关系,
例如,个人消费 与其 可支配收入 正有关等,
则不但要分析每一个变量,还要分析它们之间的关联程度;
有必要对一元统计分析方法进行拓展
多元数据 统计分析 的构思
同时对诸多变量\(\large (X_1, X_2,\ \cdots\ , X_p)\) 进行分析,
就是多元统计分析分析问题的构思。
为对 多变量 进行 统计分析(描述性的或推断性的),我们需要:
通过大量的重复观察结果(数据)捕捉多变量及其之间的规律。
对有 p 个变量的多元统计问题, 可采用矩阵方法对其观察数据进行表示, 如\(\large 矩阵 X\):
\(\large \begin{array}{rl} \\
\begin{bmatrix} x_{11} & x_{12} & \cdots & x_{1p} \\
x_{21} & x_{22} & \cdots & x_{2p} \\
\vdots & \vdots & & \vdots \\
x_{n1} & x_{n2} & \cdots & x_{np} \\
\end{bmatrix} \\
\end{array}\)
\(\large \begin{array}{rl} \\
\bm{ x_{ij}}:& \bm{Oberservation}\ of\ \bm{i-th\ Individual} \ and\ \bm{j-th\ Variable}\\
\bm{ n }:& \bm{Sample \ Size} \\
\bm{ p }:& \bm{Variable \ Size} \\
\end{array}\)分类变量:
如果,.有几个不同的个体属于 s 个不同的群体,
则, 设 s 是取值为$1, 2, \cdots, $的分类变量, 以区分这些群体。
1.2 多元统计分析
1.2.1 多元统计分析 认知
多元统计分析是分析多维数据的理论与方法,
随着现实问题的需要与数据收集、储存技术的发展,多元统计分析方法也不断地拓展与发展变化。
但是,如果想对 多元统计分析 给出一个 准确的定义, 一般非常困难,
我们很难建立一个既被广泛接受, 又能对其方法技术进行合适逻辑归类的分类框架。
鉴于此,本书从研究 现实问题 实际需要 的视角,
通过归类科学研究的目标, 以体现多元统计分析的方法与应用。
科学研究的目标或实际需要,特别是经济、管理、社会、教育、心理、医学等领域,
一般包括以下几个方面:
- \(\large \text{ data reduction or structural simplification}\)
数据减化或结构简化:
以不损失有价值信息为前提,使用尽可能简单方式,
对现象开展研究, 以期使解释更易。 - \(\large \text{ sorting and grouping}\)
分类和聚类:
根据测量得数据及其特征,
将"相似的"对象或变量分类, 或构建规则 以将 新对象 分于预先定义好的类。 - \(\large \text{ investigation of the dependence among variables}\)
调研变量之间的关系:
研究者会对 变量之间的关系 感兴趣, 经常需要确定,
是否所有的变量相互独立;还是一个或多个变量依赖于其他的一些变量,及其原因。 - \(\large \text{ prediction}\)
预测:
基于某些变量的观测数据,确立变量之间的关系,
以对感兴趣的一个或多个变量的值进行预测。 - \(\large \text{ hypothesis construction and testing}\)
假设的构建与检验:
利用多元总体的参数构建统计假设,并对其进行检验,
以对问题的假设或竞争性论点进行实证分析。
1.2.2 多元统计分析分类应用简例
为体现实际问题的分析需要和科学研究的目标,
下面通过问题举例, 呈现多元统计分析方法的应用,
学员可在此基础上举一反三,思考研究问题与多元统计分析方法的对应关系与选择。
数据简化或结构约化简例
- 使用几个与患者放疗反应有关的变量数据,构建一个测度方法以测量患者的疗效。
- 基于许多国家运动员的竞赛成绩数据,构建一个指数测量男女运动员的技术水平。
- 利用高级扫描仪收集的多谱图像数据,在二维平面上呈现海岸线的图像。
分类和聚类简例
- 基于若干人体生理变量的测量值,开发一种甄别方法,区别嗜酒者和非嗜酒者。
- 税务部门使用从纳税申报表收集的数据,将纳税人分为 审计 和 不审计 两类。
- 基于反映不同类型国家发展水平的若干变量数据,判断某国的发展方式应该:
采取粗放型、集约型、粗放集约型、集约粗放型四种发展方式的哪一种。
变量之间关系简例
- 基于几个变量的数据识别影响聘用外部顾问的企业成功的因素。
- 对一些与公司环境和公司组织有关的变量进行测量,并基此解释为什么:
有些公司的产品具有创新性,而有些公司的产品不具有创新性。 - 基于公司高管的风险倾向与其社会经济特征之间的关系,
评估高管的风险行为与其绩效之间的关系。
预测简例
- 利用学生的测试分数与体现其高中、大学表现的若干个变量之间的联系,
预测学生大学期间的表现。 - 基于若干个会计和财务变量识别财产保险者潜在的破产状况。
- 利用学生的测试分数与体现其高中、大学表现的若干个变量之间的联系,
假设的构建与检验简例
- 基于若干与污染有关的变量数据,以确定大城市的污染水平:
在一周内大概相同,还是在工作日和周末之间存在明显的差异。 - 基于一些与职业结构差异有关的变量数据,验证两种竞争的社会学观点的正确性。
- 基于一些变量的数据,判断新兴工业化国家不同类型企业是否表现不同创新模式。
- 基于若干与污染有关的变量数据,以确定大城市的污染水平:
练习题
- 数据的计量尺度包括哪几种?如何进行区分?
- 多元统计分析应用主要包括哪些方面?
SciTech-Mathmatics-Probability+Statistics:Quantifing Uncertainty_多元数据统计分析: 多元数据 的 认知: 概念 和 多元统计分析的认知+应用的更多相关文章
- (数据科学学习手札19)R中基本统计分析技巧总结
在获取数据,并且完成数据的清洗之后,首要的事就是对整个数据集进行探索性的研究,这个过程中会利用到各种描述性统计量和推断性统计量来初探变量间和变量内部的基本关系,本篇笔者便基于R,对一些常用的数据探索方 ...
- UC打通高德POI数据,用大数据描绘周边热点地图
UC打通高德POI数据,用大数据描绘周边热点地图 2016-10-25 11:13 来源:互联网 我来投稿 我要评论 在北京工作的小李最近很苦恼,房东因小区周边规划了大型商场而坚持涨价. ...
- 转:SQL SERVER数据库中实现快速的数据提取和数据分页
探讨如何在有着1000万条数据的MS SQL SERVER数据库中实现快速的数据提取和数据分页.以下代码说明了我们实例中数据库的“红头文件”一表的部分数据结构: CREATE TABLE [dbo]. ...
- GoldenGate实时投递数据到大数据平台(2)- Cassandra
简介 GoldenGate是一款可以实时投递数据到大数据平台的软件,针对apache cassandra,经过简单配置,即可实现从关系型数据将增量数据实时投递到Cassandra,以下介绍配置过程. ...
- Webservice WCF WebApi 前端数据可视化 前端数据可视化 C# asp.net PhoneGap html5 C# Where 网站分布式开发简介 EntityFramework Core依赖注入上下文方式不同造成内存泄漏了解一下? SQL Server之深入理解STUFF 你必须知道的EntityFramework 6.x和EntityFramework Cor
Webservice WCF WebApi 注明:改编加组合 在.net平台下,有大量的技术让你创建一个HTTP服务,像Web Service,WCF,现在又出了Web API.在.net平台下, ...
- 时序数据库influxDB存储数据grafana展示数据
一.influxDB简介 InfluxDB是一款用Go语言编写的开源分布式时序.事件和指标数据库,无需外部依赖.该数据库现在主要用于存储涉及大量的时间戳数据,如DevOps监控数据,APP metri ...
- 速战速决 (6) - PHP: 获取 http 请求数据, 获取 get 数据 和 post 数据, json 字符串与对象之间的相互转换
[源码下载] 速战速决 (6) - PHP: 获取 http 请求数据, 获取 get 数据 和 post 数据, json 字符串与对象之间的相互转换 作者:webabcd 介绍速战速决 之 PHP ...
- ASP.NET API(MVC) 对APP接口(Json格式)接收数据与返回数据的统一管理
话不多说,直接进入主题. 需求:基于Http请求接收Json格式数据,返回Json格式的数据. 整理:对接收的数据与返回数据进行统一的封装整理,方便处理接收与返回数据,并对数据进行验证,通过C#的特性 ...
- Web jquery表格组件 JQGrid 的使用 - 7.查询数据、编辑数据、删除数据
系列索引 Web jquery表格组件 JQGrid 的使用 - 从入门到精通 开篇及索引 Web jquery表格组件 JQGrid 的使用 - 4.JQGrid参数.ColModel API.事件 ...
- SpringMVC框架下数据的增删改查,数据类型转换,数据格式化,数据校验,错误输入的消息回显
在eclipse中javaEE环境下: 这儿并没有连接数据库,而是将数据存放在map集合中: 将各种架包导入lib下... web.xml文件配置为 <?xml version="1. ...
随机推荐
- 10个 DeepSeek 神级提示词,建议收藏!
在当下人工智能飞速发展的时代,DeepSeek 作为一款功能强大的 AI 工具,能够帮助我们实现各种创意和需求.然而,要充分发挥它的潜力,掌握一些巧妙的提示词至关重要.今天,就为大家精心整理了 15 ...
- 小模型工具调用能力激活:以Qwen2.5 0.5B为例的Prompt工程实践
在之前的分析中,我们深入探讨了cline prompt的设计理念(Cline技术分析:prompt如何驱动大模型对本地文件实现自主变更),揭示了其在激发语言模型能力方面的潜力.现在,我们将这些理论付诸 ...
- 拆解 Cursor Pro 自动化工具,看看它是怎么实现的?
深入解析Cursor Pro自动化工具的核心实现 从源码角度剖析关键技术 完整解读:注册.认证.机器码重置的自动化方案 项目概述 大家好,我是松哥.这篇文章将为大家详细解析一个Cursor自动化管 ...
- Java---实现文件拷贝
直接上代码: package com.zjw.file; import java.io.BufferedInputStream; import java.io.BufferedOutputStream ...
- 基于Kubernetes可扩展的Selenium 并行自动化测试部署及搭建(1)——Win10环境下Docker部署
前言: 最近逛swtestacademy时候发现一篇基于kubernetes搭建selenium并行自动化测试的帖子,主要描述的是通过k8s动态扩展selenium grid来实现自动化测试用例在不同 ...
- k8s之ingress反向代理pod
Ingress controller Nginx -->后来改造 Traefik -->也是用于微服务 Envoy -->微服务 Ingress资源 目前使用0.17.1版本ing ...
- LSTM 与 GRU
弄完这块, 感觉对于 RNN (递归神经网络) 基本就接近尾声了. 相对于 之前的卷积神经网络, 我感觉 RNN 还是相对有意思一些, 也可能是在前面手推 CNN 公式时弄翻车的原因, 以及实在对图像 ...
- CentOS 7.6 安装 Mysql 5.7
一.查看CentOS版本 Mysql的版本必须要和CentOS的版本对应!查看CentOS版本的指令如下: cat /etc/redhat-release 二.下载yum源包 wget http:// ...
- linux下用android-file-transfer-linux替换掉 gvfs-mtp来挂载mtp
用android-file-transfer-linux替换掉 gvfs-mtp来挂载mtp 问题现状 在我使用gvfs-mtp挂载的时候,无论读取文件还是获取对应文件夹下所有文件的路径等操作,都非常 ...
- FastDFS分布式文件服务器搭建以及Golang和Python调用
FastDFS 1.介绍 FastDFS是基于http协议的分布式文件系统,其设计理念是一切从简.主要解决了海量数据存储的问题,特别适合系统中的中小文件的存储和在线服务.中小文件的范围大致为4KB-5 ...