SciTech-Mathmatics-Probability+Statistics-V-Statistics:Quantifing Uncertainty

RA的Kernel Goal的是Prediction(预测)和Interpretation(解释)

Abbreviation:

DS(Data Science)

DA(Data Analysis)

RA(Regression Analysis)

LA(Linear Regression)

MR(Multiple-Regression)

LSM(Least Squares Method)

HT(Hypothesis Testing)

Regression Analysis(回归分析)

RA是统计学另一个核心主题和基石之一, 也是DS和各种实际应用不可或缺的.

RA用于理解变量间的关系, 特别是试图了解一个变量如何影响另一个变量时.

从 简单的线性关系 到 复杂的多元关系, RA提供一种方法揭示数据背后隐藏的模式和联系。

回归分析是一种统计学方法:

用于研究变量间的关系，特别是确定一个或多个自变量与一个因变量之间的定量关系。

主要类型包括Linear R.A. 和Logistic R.A.：

Linear R.A.(线性回归) 适用于定量数据，用于预测和分析连续变量之间的关系。

关键步骤包括F检验（验证模型整体显著性）、R²（模型拟合优度，值越大越好）、VIF（检查多重共线性，应小于10，理想小于5）以及p值（判断变量影响的显著性）。
Logistic R.A.()逻辑回归) 用于分类数据，特别是二元分类（如0和1）或多分类问题，研究变量间的非线性关系，常用于预测事件发生的概率。

建模时，需考虑变量的类型(内生与外生)、控制变量，并通过理论建模或实证建模来估计参数。

R.A. 不仅揭示变量间的关系，还能进行预测和假设检验。

本篇文章，我们将:

先介绍RA的基本概念, 后深入探讨 LA(线性回归) 和 MR(多元回归) 的原理与实践。

通过这些内容, 读者能全面理解RA(回归分析), 对应用其解决现实世界的问题有所启发。

在文章的最后，我们还将预告我们的下一篇文章《统计学入门（七）：抽样方法的探索》，

在那里，我们将探讨不同的抽样技术以及它们在统计研究的重要性。

现在，让我们开始我们对回归分析的探索之旅。

RA(Regression Analysis) Overview

RA是一种强大的统计方法, 用于研究一个或多个independent variables(自变量) 和 dependent variable(一个因变量) 之间的关系。

RA最简单形式是LR, 旨在通过一条直线或更复杂模型(非线性回归), 来描述这些变量之间的关系。

RA的Kernel Goal的是Prediction(预测)和Interpretation(解释).

Prediction and Interpretation

Prediction: RA可以用来预测因变量的值, 基于对自变量的观察。

例如, 预测房价基于其大小、位置和其他特征。
Interpretation: RA可以揭示自变量如何影响因变量。

例如, 了解广告支出如何影响销售额。

应用领域

RA在许多领域都有应用, 从社会科学到商业分析，再到生物统计和工程领域。无论是市场研究的消费者行为评估, 还是公共卫生的风险因素分析，RA都是非常有用。

Types of RA

LR(Linear Regression): 研究变量之间的Linear Relationship.
MR(Multiple Regression): 有两个或多个自变量时使用。
Others, Such as Logistic Regression和 Non-linear Regression,

用于特定类型的数据和关系.

掌握RA, 可建立模型,预测因变量的未来趋势, 和理解各种因素的相互作用.

LR(Linear Regression, 线性回归)

LR是统计学最基础且广泛使用的回归技术之一。

它用于估计或预测 一个或多个自变量 和实际值(因变量) 的 线性关系.

LR的主要优势在于其简单性和对数据的直观解释。

LR基本原理

LR的核心思想是找出最佳拟合直线(或超平面，多元情况下),

该直线可以最好地描述 自变量和因变量的线性关系, 可表示为:

\(\large \begin{array}{rl} \\
& Y =& \beta_0 + \beta_1 \cdot X + e \\
where,& \\
& Y: & 是因变量, \\
& X: & 是自变量, \\
& \beta_i: & 是回归系数，i \in {1, 2}, \\
& e : & 是误差项, \\
\end{array}\)

LSM(Least Squares Method, 最小二乘法)

LSM是用于估计LR模型 的 回归系数的标准方法.

它通过最小化 预测值和实际值之间的误差平方和来找到最佳拟合线.

模型建立和解释

建立LR模型通常涉及 收集数据、选择合适的自变量、估计回归系数, 并检验模型的适用性。

一个重要步骤是解释回归系数, 自变量每变化一个单位, 因变量平均如何变化。

实例应用

例如，房地产市场可能使用LR来预测房屋价格。

自变量可能包括房屋的面积、位置、年龄等，而因变量是房屋价格。

线性回归虽然强大，但也有其局限性。

它假设变量之间存在线性关系，这在现实世界并不总是成立。

此外, 它对异常值非常敏感，可能会影响模型的准确性。

尽管如此，线性回归仍是一个极好的起点，为理解更复杂的回归模型奠定基础。

Multiple Regression(多元回归)

MR是LR的扩展, 它涉及两个或更多的自变量。

在现实世界的数据分析, 常遇到多个因素同时影响一个结果变量的情况,

这时MR(多元回归)就非常合适。

由LR到MR的扩展

MR允许我们同时考虑多个自变量对因变量的影响。

MR可揭示不同自变量之间的相互作用, 并提供比单一变量模型更丰富的信息。

MR(多元回归)模型的构建

MR模型的一般形式是

\(\large \begin{array}{rl} \\
& Y =& \beta_0 + \beta_1 \cdot X_1 + \beta_2 \cdot X_2 + \cdots + \beta_n \cdot X_n + e \\
where,& \\
& Y: & 是因变量, \\
& X_i: & 是自变量, i \in [1, n] \in N, \\
& \beta_i: & 是回归系数，i \in [0, n] \in N , \\
& e : & 是误差项, \\
\end{array}\)

构建MR模型的过程包括 变量的选择、模型的估计、系数的解释和模型的验证。

MR分析的实例

例如，营销分析, 一个公司可能想要了解价格、广告支出和产品特性如何共同影响销售量.

此时, MR可识别哪些因素对销售量有显著影响，以及这些影响的相对大小.

MR的挑战

MR虽然提供更全面的分析框架, 但它也带来一些挑战, 如:

多重共线性问题, 即当两个或更多自变量高度相关时, 可能会干扰对系数的准确估计.
过多变量可能导致过度拟合问题, 会降低模型对新数据的预测能力.

MR分析是强大的，它可以帮助我们在复杂的实际问题中找到答案。

正确应用MR这种方法, 需要对数据有深刻的理解和对统计模型有正确的解释能力。

HT(Hypothesis Testing) in Regression

假设检验是评估和解释回归模型有效性的关键环节。它帮助我们确定模型中的回归系数是否显著，从而判断自变量是否真正影响因变量。

Regression模型的假设条件

线性关系：假设自变量和因变量之间存在线性关系。
独立性：假设模型中的误差项相互独立。
正态分布：假设误差项呈正态分布。
同方差性：假设所有观测值的误差项有同一方差。

HT的步骤

首先，设定 H0(零假设) 和 H1(备择假设)。

通常，H0(零假设) 表示 自变量 对 因变量 没有影响。

然后，使用统计测试(如 \(\large t 检验\)) 决定是否有足够的证据来拒绝H0(零假设)。

HT结果的解释

如果检验结果显示回归系数显著, 我们可以拒绝零假设, 认为自变量确实影响因变量。

Significance Level 通常是 0.05 或 0.01, 决定结果是否显著, 低于这个threshold(阈值)的 P 值, 表明结果有统计学意义.

RA的注意事项

虽然HT是强有力的，但它也有局限性。

例如，即使回归系数显著, 也不能证明因果关系。

此外，数据的质量 和 选择适当的模型 对于获得 有效和可靠的结果 至关重要。

HT in RA 不仅能帮助我们确定 模型的有效性, 还能加深我们对数据背后关系的理解。

正确应用这些技术可以使我们对统计模型的解释更加准确和有力。

RA的局限性和挑战

RA强大, 但它也有一些局限性和挑战，需要我们在应用时加以注意。

局限性
- 线性假设: RA通常基于 变量间存在线性关系的假设，这在现实并不总成立.
- 影响因素多样性: Regression模型 可能无法捕捉到所有影响因变量的因素,
  
  特别是当某些重要变量未被纳入模型时.
- 因果关系误解: 即使RA表明变量间存在统计学上的显著关系, 也不能据此推断出因果关系。
挑战
- 多重共线性: 当模型的自变量高度有关时, 可能会导致回归系数估计不稳定, 难以解释.
- 异常值的影响: Regression模型对异常值非常敏感, 这可能会导致误导的结果。
- 过度拟合: 在尝试使模型适应训练数据时, 可能会出现过度拟合, 降低模型对新数据的预测能力.

克服挑战的策略

变量选择：仔细选择有关且有意义的自变量，避免不必要的复杂性.
数据处理：对异常值进行处理和分析, 以减少它们对模型的影响.
模型验证：使用交叉验证等技术来测试模型在新数据上的表现, 确保其泛化能力。

正确认识并应对这些挑战对于进行有效RA至关重要。通过采取适当的方法和技术，

我们可以最大限度地运用RA的优势，同时减轻其局限性的影响。

结论

本文深入探讨了RA的基础知识和应用, 从LR到MR, 再到RA的HT和面临的挑战。

RA 不仅能够帮助我们理解变量之间的关系, 还能在预测和决策制定是产生重要作用。

正确使用RA的关键在于理解其原理, 认识其局限性, 并适当应对各种挑战。

未涉及的有关主题

本文没有深入讨论一些特定类型的回归分析, 如：

Logistic Regression，它对分类问题特别有用。
Non-linear Regression，这在处理复杂数据关系时非常重要。
Time Series Analysis 的 Regression方法也是一个重要的领域, 特别在金融和经济学。

在我们的下一篇文章《统计学入门（七）：抽样方法的探索》，

将转向另一个统计学的核心主题：抽样方法。

我们将探讨不同的抽样技术及其在数据收集和分析的重要性。

SciTech-Mathmatics-Probability+Statistics-VI-Statistics:Quantifing Uncertainty+Regression Analysis(回归分析)的更多相关文章

《Pro SQL Server Internals, 2nd edition》的CHAPTER 3 Statistics中的Introduction to SQL Server Statistics、Statistics and Execution Plans、Statistics Maintenance(译）
<Pro SQL Server Internals> 作者: Dmitri Korotkevitch 出版社: Apress出版年: 2016-12-29页数: 804定价: USD 59 ...
descriptive statistics|inferential statistics|Observational Studies| Designed Experiments
descriptive statistics:组织和总结信息,为自身(可以是population也可以是sample)审视和探索, inferential statistics.从sample中推论p ...
PMBOK及PMP考试精要
PROJECT MANAGEMENT KNOWLEDGE AREAS项目管理知识体系 2 PROJECT LIFE CYCLE / PROJECT MANAGEMENT PROCESS GROUPS项 ...
Statistics ： Data Distribution
1.Normal distribution In probability theory, the normal (or Gaussian or Gauss or Laplace–Gauss) dist ...
[Hive - LanguageManual] Statistics in Hive
Statistics in Hive Statistics in Hive Motivation Scope Table and Partition Statistics Column Statist ...
autotrace显示Statistics很多信息为0(转)
一朋友使用autotrace查看数据库执行计划发现结果如下,Statistics中很多信息为0,这个肯定是不正常现象,什么都可以为0,consistent gets也不可能为0. SQL> se ...
Statistics in Python
Statistics in Python Materials for the “Statistics in Python” euroscipy 2015 tutorial. Requirements ...
【译】SQLskills SQL101：Trace Flags、ERRORLOG、Update Statistics
最近阅读SQLskills SQL101,将Erin Stellato部分稍作整理.仅提取自己感兴趣的知识点,详细内容请阅读原文. 一.Trace Flags推荐开启三个跟踪标记1118.3023.3 ...
Study notes for Discrete Probability Distribution
The Basics of Probability Probability measures the amount of uncertainty of an event: a fact whose o ...
How do I learn machine learning?
https://www.quora.com/How-do-I-learn-machine-learning-1?redirected_qid=6578644 How Can I Learn X? ...

随机推荐

Web前端入门第 42 问：聊聊 CSS 元素上下左右（水平+垂直）同时居中有几种方法
影响元素位置的 CSS 属性基本介绍完毕(参考前几篇文章),现思考一个最常见的需求: 一个子元素,要摆放在盒子的正中央,使用 CSS 布局手段,究竟有多少种实现方式? 上下左右(水平方向.垂直方向)要 ...
关于 IFreeSql 注入，与 AspectCore 冲突的说明
FreeSql 以 MIT 开源协议托管于 github:https://github.com/2881099/FreeSql IFreeSql 作为 ORM 顶级对象,没有设置 NameSpace( ...
CDH6.2.0部署-亲自操作验证可行
CDH6.2.0部署 PDF文档:https://files.cnblogs.com/files/duxingren/CDH6.2-pdf.zip 郑重声明:并非拿来主义.亲手实践并花费一天时间整理文 ...
海康摄像头SDK在Linux、windows下的兼容问题
零.前言最近一直在做人脸识别相关的应用. 主要就是使用海康的摄像头抓拍.录制视频,使用虹软的sdk进行人脸识别,使用jna调用这些sdk. 海康的sdk在使用时遭遇了很多问题,主要问题就是windo ...
python3安装xlutils模块
下载: https://www.cnpython.com/pypi/xlutils/dl-xlutils-2.0.0-py2.py3-none-any.whl#google_vignette 安装: ...
Java字节流--输出流OutputStream和输入流InputStream
OutputStream和InputStream都是抽象类 OutputStream定义和InputStream定义 OutputStream InputStream public abstract ...
Stream.findFirst()代替get(0)和数组[0]获取集合中的第一个值
一.介绍语法集合.stream().findFirst() 使用 // 我们的工具类(切割SKU字符串relatedSkuJoin,转为集合).stream.第一个数(): CommonUtils ...
Web前端入门第 49 问：CSS offset 路径动画演示
什么是路径动画? 随手画一条不规则的线,让元素按照这条不规则的线运动起来,这就是所谓的路径动画. 前面说过的动画都只能针对某一个 CSS 属性,要想实现路径动画可没办法,路径动画必须借助 CSS3 的 ...
linux与docker知识积累
0.在CentOS中,启动docker : sudo systemctl start docker 1.在 CentOS 中,要删除一个文件夹及其内容,可以使用 rm 命令的 -r 或 --recur ...
【2020.11.30提高组模拟】剪辣椒(chilli) 题解
[2020.11.30提高组模拟]剪辣椒(chilli) 题解题意简述给你一棵树,删去两条边,使得形成的三棵新树的大小极差最小化.求最小极差. \(3\le n\le 200,000\). Sol ...

SciTech-Mathmatics-Probability+Statistics-VI-Statistics:Quantifing Uncertainty+Regression Analysis(回归分析)