SciTech-Mathmatics-Probability+Statistics-V-Statistics:Quantifing Uncertainty

RA的Kernel Goal的Prediction(预测)和Interpretation(解释)

Abbreviation:

DS(Data Science)

DA(Data Analysis)

RA(Regression Analysis)

LA(Linear Regression)

MR(Multiple-Regression)

LSM(Least Squares Method)

HT(Hypothesis Testing)

Regression Analysis(回归分析)

RA是统计学另一个核心主题和基石之一, 也是DS和各种实际应用不可或缺的.

RA用于理解 变量间的关系, 特别是试图了解一个变量如何影响另一个变量时.

简单的线性关系复杂的多元关系, RA提供一种方法揭示数据背后隐藏模式和联系

回归分析是一种统计学方法:

用于研究变量间的关系,特别是确定一个或多个自变量一个因变量之间的定量关系

主要类型包括Linear R.A.Logistic R.A.

  • Linear R.A.(线性回归) 适用于定量数据,用于预测和分析连续变量之间的关系

    关键步骤包括F检验(验证模型整体显著性)、R²(模型拟合优度,值越大越好)、VIF(检查多重共线性,应小于10,理想小于5)以及p值(判断变量影响的显著性)。
  • Logistic R.A.()逻辑回归) 用于分类数据,特别是二元分类(如0和1)或多分类问题,研究变量间非线性关系,常用于预测事件发生的概率

建模时,需考虑变量的类型(内生与外生)控制变量,并通过理论建模实证建模估计参数

R.A. 不仅揭示变量间的关系,还能进行预测和假设检验

本篇文章,我们将:

先介绍RA的基本概念, 后深入探讨 LA(线性回归)MR(多元回归)原理与实践

通过这些内容, 读者能全面理解RA(回归分析), 对应用其解决现实世界的问题有所启发。

在文章的最后,我们还将预告我们的下一篇文章《统计学入门(七):抽样方法的探索》,

在那里,我们将探讨不同的抽样技术以及它们在统计研究的重要性。

现在,让我们开始我们对回归分析的探索之旅。

RA(Regression Analysis) Overview

RA是一种强大的统计方法, 用于研究 一个或多个independent variables(自变量) 和 dependent variable(一个因变量) 之间的关系。

RA最简单形式是LR, 旨在通过一条直线或更复杂模型(非线性回归), 来描述这些变量之间的关系。

RA的Kernel Goal的Prediction(预测)和Interpretation(解释).

Prediction and Interpretation

  • Prediction: RA可以用来预测因变量的值, 基于对自变量的观察。

    例如, 预测房价基于其大小、位置和其他特征。
  • Interpretation: RA可以揭示自变量如何影响因变量

    例如, 了解广告支出如何影响销售额。

应用领域

RA在许多领域都有应用, 从社会科学到商业分析,再到生物统计和工程领域。无论是市场研究的消费者行为评估, 还是公共卫生的风险因素分析,RA都是非常有用。

Types of RA

  • LR(Linear Regression): 研究变量之间Linear Relationship.
  • MR(Multiple Regression): 有两个或多个自变量使用
  • Others, Such as Logistic Regression和 Non-linear Regression,

    用于特定类型的数据和关系.

掌握RA, 可建立模型,预测因变量的未来趋势, 和理解各种因素的相互作用.

LR(Linear Regression, 线性回归)

LR是统计学最基础且广泛使用的回归技术之一。

它用于估计或预测 一个或多个自变量 和 实际值(因变量) 的 线性关系.

LR的主要优势在于其 简单性 和 对数据的直观解释。

LR基本原理

LR的核心思想是找出最佳拟合直线(或超平面,多元情况下),

该直线可以最好地描述 自变量和因变量线性关系, 可表示为:

\(\large \begin{array}{rl} \\
& Y =& \beta_0 + \beta_1 \cdot X + e \\
where,& \\
& Y: & 是因变量, \\
& X: & 是自变量, \\
& \beta_i: & 是回归系数,i \in {1, 2}, \\
& e : & 是误差项, \\
\end{array}\)

LSM(Least Squares Method, 最小二乘法)

LSM是 用于估计LR模型回归系数标准方法.

它通过最小化 预测值实际值之间的误差平方和找到最佳拟合线.

模型建立和解释

建立LR模型通常涉及 收集数据、选择合适的自变量、估计回归系数, 并检验模型的适用性

一个重要步骤是解释回归系数, 自变量每变化一个单位, 因变量平均如何变化。

实例应用

例如,房地产市场可能使用LR来预测房屋价格。

自变量可能包括房屋的面积、位置、年龄等,而因变量是房屋价格。

线性回归虽然强大,但也有其局限性。

它假设变量之间存在线性关系,这在现实世界并不总是成立。

此外, 它对异常值非常敏感,可能会影响模型的准确性。

尽管如此,线性回归仍是一个极好的起点,为理解更复杂的回归模型奠定基础。

Multiple Regression(多元回归)

MR是LR的扩展, 它涉及两个或更多的自变量。

在现实世界的数据分析, 常遇到多个因素同时影响一个结果变量的情况,

这时MR(多元回归)就非常合适。

由LR到MR的扩展

MR允许我们同时考虑多个自变量因变量影响

MR可揭示不同自变量之间的相互作用, 并提供比单一变量模型更丰富的信息。

MR(多元回归)模型的构建

MR模型的一般形式是

\(\large \begin{array}{rl} \\
& Y =& \beta_0 + \beta_1 \cdot X_1 + \beta_2 \cdot X_2 + \cdots + \beta_n \cdot X_n + e \\
where,& \\
& Y: & 是因变量, \\
& X_i: & 是自变量, i \in [1, n] \in N, \\
& \beta_i: & 是回归系数,i \in [0, n] \in N , \\
& e : & 是误差项, \\
\end{array}\)

构建MR模型的过程包括 变量的选择、模型的估计、系数的解释 和 模型的验证

MR分析的实例

例如,营销分析, 一个公司可能想要了解 价格、广告支出 和 产品特性 如何 共同影响 销售量.

此时, MR可识别 哪些因素 对 销售量 有 显著影响,以及这些影响的相对大小.

MR的挑战

MR虽然提供更全面的分析框架, 但它也带来一些挑战, 如:

  • 多重共线性问题, 即当两个或更多自变量高度相关时, 可能会干扰对系数的准确估计.
  • 过多变量可能导致过度拟合问题, 会降低模型对新数据的预测能力.

MR分析是强大的,它可以帮助我们在复杂的实际问题中找到答案。

正确应用MR这种方法, 需要对数据有深刻的理解和对统计模型有正确的解释能力。

HT(Hypothesis Testing) in Regression

假设检验是评估和解释回归模型有效性的关键环节。它帮助我们确定模型中的回归系数是否显著,从而判断自变量是否真正影响因变量。

Regression模型的 假设条件

  • 线性关系:假设自变量和因变量之间存在线性关系。
  • 独立性:假设模型中的误差项相互独立。
  • 正态分布:假设 误差项 呈 正态分布。
  • 同方差性:假设 所有观测值的误差项 有 同一方差。

HT的步骤

首先,设定 H0(零假设) 和 H1(备择假设)。

通常,H0(零假设) 表示 自变量因变量 没有影响

然后,使用 统计测试(如 \(\large t 检验\)) 决定是否有足够的证据拒绝H0(零假设)

HT结果的解释

如果检验结果显示 回归系数显著, 我们可以拒绝零假设, 认为自变量确实影响因变量。

Significance Level 通常是 0.05 或 0.01, 决定结果是否显著, 低于这个threshold(阈值)的 P 值, 表明结果有统计学意义.

RA的注意事项

虽然HT是强有力的,但它也有局限性。

例如,即使 回归系数 显著, 也不能证明因果关系

此外,数据的质量选择适当的模型 对于获得 有效和可靠的结果 至关重要。

HT in RA 不仅能帮助我们确定 模型的有效性, 还能加深我们对数据背后关系的理解。

正确应用这些技术可以使我们对统计模型的解释更加准确和有力。

RA的局限性和挑战

RA强大, 但它也有一些局限性和挑战,需要我们在应用时加以注意。

  • 局限性

    • 线性假设: RA通常基于 变量间存在线性关系假设,这在现实并不总成立.
    • 影响因素多样性: Regression模型 可能无法捕捉所有影响因变量因素,

      特别是当某些重要变量未被纳入模型时.
    • 因果关系误解: 即使RA表明变量间存在统计学上的显著关系, 也不能据此推断出因果关系
  • 挑战

    • 多重共线性: 当模型的自变量高度有关时, 可能会导致回归系数估计不稳定, 难以解释.
    • 异常值的影响: Regression模型对异常值非常敏感, 这可能会导致误导的结果
    • 过度拟合: 在尝试使模型适应训练数据时, 可能会出现过度拟合, 降低模型对新数据的预测能力.

克服挑战的策略

  • 变量选择仔细选择有关且有意义的自变量,避免不必要的复杂性.
  • 数据处理对异常值进行处理和分析, 以减少它们对模型的影响.
  • 模型验证:使用交叉验证等技术来测试模型在新数据上表现, 确保其泛化能力

正确认识并应对这些挑战对于进行有效RA至关重要。通过采取适当的方法和技术,

我们可以最大限度地运用RA的优势,同时减轻其局限性的影响。

结论

本文深入探讨了RA的基础知识和应用, 从LR到MR, 再到RA的HT和面临的挑战。

RA 不仅能够帮助我们理解变量之间的关系, 还能在预测和决策制定是产生重要作用。

正确使用RA的关键在于理解其原理, 认识其局限性, 并适当应对各种挑战。

未涉及的有关主题

本文没有深入讨论一些 特定类型的回归分析, 如:

  • Logistic Regression,它对分类问题特别有用。
  • Non-linear Regression,这在处理复杂数据关系时非常重要。
  • Time Series Analysis 的 Regression方法也是一个重要的领域, 特别在金融和经济学。

在我们的下一篇文章《统计学入门(七):抽样方法的探索》,

将转向另一个统计学的核心主题:抽样方法。

我们将探讨不同的抽样技术及其在数据收集和分析的重要性。

SciTech-Mathmatics-Probability+Statistics-VI-Statistics:Quantifing Uncertainty+Regression Analysis(回归分析)的更多相关文章

  1. 《Pro SQL Server Internals, 2nd edition》的CHAPTER 3 Statistics中的Introduction to SQL Server Statistics、Statistics and Execution Plans、Statistics Maintenance(译)

    <Pro SQL Server Internals> 作者: Dmitri Korotkevitch 出版社: Apress出版年: 2016-12-29页数: 804定价: USD 59 ...

  2. descriptive statistics|inferential statistics|Observational Studies| Designed Experiments

    descriptive statistics:组织和总结信息,为自身(可以是population也可以是sample)审视和探索, inferential statistics.从sample中推论p ...

  3. PMBOK及PMP考试精要

    PROJECT MANAGEMENT KNOWLEDGE AREAS项目管理知识体系 2 PROJECT LIFE CYCLE / PROJECT MANAGEMENT PROCESS GROUPS项 ...

  4. Statistics : Data Distribution

    1.Normal distribution In probability theory, the normal (or Gaussian or Gauss or Laplace–Gauss) dist ...

  5. [Hive - LanguageManual] Statistics in Hive

    Statistics in Hive Statistics in Hive Motivation Scope Table and Partition Statistics Column Statist ...

  6. autotrace显示Statistics很多信息为0(转)

    一朋友使用autotrace查看数据库执行计划发现结果如下,Statistics中很多信息为0,这个肯定是不正常现象,什么都可以为0,consistent gets也不可能为0. SQL> se ...

  7. Statistics in Python

    Statistics in Python Materials for the “Statistics in Python” euroscipy 2015 tutorial. Requirements ...

  8. 【译】SQLskills SQL101:Trace Flags、ERRORLOG、Update Statistics

    最近阅读SQLskills SQL101,将Erin Stellato部分稍作整理.仅提取自己感兴趣的知识点,详细内容请阅读原文. 一.Trace Flags推荐开启三个跟踪标记1118.3023.3 ...

  9. Study notes for Discrete Probability Distribution

    The Basics of Probability Probability measures the amount of uncertainty of an event: a fact whose o ...

  10. How do I learn machine learning?

    https://www.quora.com/How-do-I-learn-machine-learning-1?redirected_qid=6578644   How Can I Learn X? ...

随机推荐

  1. Windows上,10分钟构建一个本地知识库

    这篇文章是我约新书<RAG应用实战>的一个样章,基于阿里云代码构建的一个本地RAG服务. 本地模型看代码注释,需要替换几行代码. 阅读本章时,已默认安装你的个人电脑上安装了Python 3 ...

  2. Netty 心跳机制实现(客户端与服务端)

    Netty 心跳机制实现(客户端与服务端) Netty 的心跳机制是保持长连接有效性的重要手段,可以检测连接是否存活并及时释放无效连接.下面介绍客户端和服务端的完整实现方案. 一.服务端实现 1. 基 ...

  3. 揭秘AI自动化框架Browser-use(三):Browser-use控制浏览器的核心机制

    1. 概述 在Browser-use框架中,核心任务是使大模型能够像人类一样操作浏览器.本文深入探讨大模型如何实际控制浏览器,重点解析从模型输出到浏览器动作执行的完整流程. 上一篇(公众号首发)-Br ...

  4. Spring编程式事务控制

    目录 Spring编程式事务控制 代码实现 测试 Spring编程式事务控制 实际中很少使用 代码实现 pom.xml <?xml version="1.0" encodin ...

  5. mysql8.0.12+hibernate5.4.1 的一些配置

    目录 整体目录结构 第一步 创建数据库 第二步 创建java项目,导入相应的jar包 第三步 创建数据库对应的java类 第四步 创建hibernate映射文件 第五步 创建hibernate核心配置 ...

  6. 代码随想录第九天 | Leecode 151.翻转字符串里的单词、Leecode 28. 找出字符串中第一个匹配项的下标、Leecode 459.重复的子字符串

    Leecode 151.翻转字符串里的单词 题目链接:https://leetcode.cn/problems/reverse-words-in-a-string/description/ 题目描述 ...

  7. 私有资产测绘&安全流水线Shovel

    私有资产测绘&安全流水线Shovel(Preview)发布 发布版本:Shovel-v0.1.7 当前项目发布版本 Shovel-v0.1.7(预览版) | 企业级资产测绘管理,开启资配漏补新 ...

  8. 网络编程:理解TCP中的“流”

    TCP是一种流式协议 TCP数据是流式的特性,可分别从发送端和接收端来阐述 发送端:当调用send函数完成数据"发送"后,数据并没有真正从网络上发送出去,只是从应用程序拷贝到了操作 ...

  9. RabbitMQ基本原理及模式介绍

    一.RabbitMQ概念 RabbitMQ:是一个由erlang开发的AMQP(Advanced Message Queue 高级消息队列协议 )的开源实现,由于erlang 语言的高并发特性,性能较 ...

  10. java springboot api接口使用easyexcle导出xlsx

    提示 使用这种方式,会使你的项目打jar包后,体积增加20MB左右(仅为个人测试) 如果你对表格样式.格式没有要求,可以曲线救国,代码看我其他文章 添加pom依赖 <!--导出excle依赖-- ...