机器学习---最小二乘线性回归模型的5个基本假设(Machine Learning Least Squares Linear Regression Assumptions)
在之前的文章《机器学习---线性回归(Machine Learning Linear Regression)》中说到,使用最小二乘回归模型需要满足一些假设条件。但是这些假设条件却往往是人们容易忽略的地方。如果不考虑模型的适用情况,就只会得到错误的模型。下面来看一下,使用最小二乘回归模型需要满足哪些假设,以及如果不满足这些假设条件会产生怎样的后果。
最小二乘回归模型的5个基本假设:
- 自变量(X)和因变量(y)线性相关
- 自变量(X)之间相互独立
- 误差项(ε)之间相互独立
- 误差项(ε)呈正态分布,期望为0,方差为定值
- 自变量(X)和误差项(ε)之间相互独立
第一个假设:自变量(X)和因变量(y)线性相关
线性相关(linearly dependent)是最基本的假设。如果自变量和因变量之间没有关系或者是非线性关系,那么就无法使用线性回归模型进行预测,或者无法预测出准确的结果。
第二个假设:自变量(X)之间相互独立
如果我们发现本应相互独立的自变量出现了一定程度(甚至高度)的相关性,那么我们就无法知道自变量和因变量之间的真正关系,这称之为共线性(collinearity)。当共线性出现的时候,变量之间的联动关系会导致我们估计的参数的标准差变大,置信区间变宽,由此来看,参数的估计值会变得不稳定,对参数的假设检验也会变得不准确。
(注:两个特征之间相互关联被称之为共线性,但是也有可能三个或更多的特征之间相互关联,即使这些特征两两之间并没有很高的关联,这被称之为多重共线性(multicollinearity))
第三个假设:误差项(ε)之间相互独立
随机误差项的各期望值之间存在着相关关系,称随机误差项之间存在自相关性(autocorrelation)。自相关性通常出现在时间序列里,后一项依赖于前一项;也可能出现在有偏差的样本里,比如样本搜集自同一个家庭的成员。当自相关性出现的时候,预测值的标准差往往比真实的小,进而会导致置信区间变窄,同时,较低的标准差会导致p值较小,这会让我们得到错误的假设检验结果。
第四个假设:误差项(ε)呈正态分布,期望为0,方差为定值
误差项服从均值为0的正态分布,方差为定值。如果违反了这一假设,意味着异常点增多,置信区间会变宽,这称之为异方差性(heteroscedasticity)。当异方差性出现的时候,如果仍采用最小二乘法估计参数,会导致参数的t检验值被高估,可能造成本来不显著的某些参数变为显著,使假设检验失去意义。
第五个假设:自变量(X)和误差项(ε)之间相互独立
模型中一个或多个自变量与随机误差项存在相关关系,这称之为内生性(endogeneity)。内生性通常由于遗漏变量而导致,因此是一个普遍存在的问题。内生性会导致模型参数估计不准确。
机器学习---最小二乘线性回归模型的5个基本假设(Machine Learning Least Squares Linear Regression Assumptions)的更多相关文章
- 机器学习---用python实现最小二乘线性回归算法并用随机梯度下降法求解 (Machine Learning Least Squares Linear Regression Application SGD)
在<机器学习---线性回归(Machine Learning Linear Regression)>一文中,我们主要介绍了最小二乘线性回归算法以及简单地介绍了梯度下降法.现在,让我们来实践 ...
- 机器学习案例学习【每周一例】之 Titanic: Machine Learning from Disaster
下面一文章就总结几点关键: 1.要学会观察,尤其是输入数据的特征提取时,看各输入数据和输出的关系,用绘图看! 2.训练后,看测试数据和训练数据误差,确定是否过拟合还是欠拟合: 3.欠拟合的话,说明模 ...
- 机器学习---用python实现朴素贝叶斯算法(Machine Learning Naive Bayes Algorithm Application)
在<机器学习---朴素贝叶斯分类器(Machine Learning Naive Bayes Classifier)>一文中,我们介绍了朴素贝叶斯分类器的原理.现在,让我们来实践一下. 在 ...
- 机器学习---朴素贝叶斯与逻辑回归的区别(Machine Learning Naive Bayes Logistic Regression Difference)
朴素贝叶斯与逻辑回归的区别: 朴素贝叶斯 逻辑回归 生成模型(Generative model) 判别模型(Discriminative model) 对特征x和目标y的联合分布P(x,y)建模,使用 ...
- 机器学习(Machine Learning)&深度学习(Deep Learning)资料(Chapter 2)
##机器学习(Machine Learning)&深度学习(Deep Learning)资料(Chapter 2)---#####注:机器学习资料[篇目一](https://github.co ...
- (原创)(三)机器学习笔记之Scikit Learn的线性回归模型初探
一.Scikit Learn中使用estimator三部曲 1. 构造estimator 2. 训练模型:fit 3. 利用模型进行预测:predict 二.模型评价 模型训练好后,度量模型拟合效果的 ...
- 多重线性回归 (multiple linear regression) | 变量选择 | 最佳模型 | 基本假设的诊断方法
P133,这是第二次作业,考察多重线性回归.这个youtube频道真是精品,用R做统计.这里是R代码的总结. 连续变量和类别型变量总要分开讨论: 多重线性回归可以写成矩阵形式的一元一次回归:相当于把多 ...
- 机器学习---三种线性算法的比较(线性回归,感知机,逻辑回归)(Machine Learning Linear Regression Perceptron Logistic Regression Comparison)
最小二乘线性回归,感知机,逻辑回归的比较: 最小二乘线性回归 Least Squares Linear Regression 感知机 Perceptron 二分类逻辑回归 Binary Logis ...
- 【Machine Learning】机器学习及其基础概念简介
机器学习及其基础概念简介 作者:白宁超 2016年12月23日21:24:51 摘要:随着机器学习和深度学习的热潮,各种图书层出不穷.然而多数是基础理论知识介绍,缺乏实现的深入理解.本系列文章是作者结 ...
随机推荐
- DSAPI 短域名服务
有时,需要将长域名转换为短域名,或是为了减少字符量,或是为了隐藏真实网址.在DSAPI中,集成了EPS-GS的短域名接口.该功能需要联接互联网,从EPS服务器获取. 代码 DSAPI.网络.短域名服务 ...
- java 深克隆(深拷贝)与浅克隆(拷贝)详解
java深克隆和浅克隆 基本概念 浅复制(浅克隆) 被复制对象的所有变量都含有与原来的对象相同的值,而所有的对其他对象的引用仍然指向原来的对象.换言之,浅复制仅仅复制所拷贝的对象,而不复制它所引用的对 ...
- layer.photos()异步修改图片地址后显示异常
项目中有一个图片有预览(用的layer.photos()),需要异步修改图片地址,但是成功修改后第一次预览会显示修改前的大图,第二次以后就都正常了. 尝试修改成功后再次调用layer.photos() ...
- Android 沉浸式状态栏完美解决方案
现在搜索Android 沉浸式状态栏,真的是一堆一堆,写的特别多,但是真正用的舒服的真没有,在这里自己整理一下开发记录 注意,在使用这个步骤过程之前,请把之前设置的代码注释一下 把布局带有androi ...
- maven+springMVC(二)
[目录]
- Handler,Looper,MessageQueue流程梳理
目的:handle的出现主要是为了解决线程间通讯. 举个例子,android是不允许在主线程中访问网络,因为这样会阻塞主线程,影响性能,所以访问网络都是放在子线程中执行,对于网络返回的结果则需要显示在 ...
- 使用AndroidStudio编写APICloud模块需要注意的地方,解决模块未定义。
在新的版本下,使用AndroidStudio编写APICloud模块,已经非常简单了,解决模块未定义,最重要的就是要先看官方的视频! 注意在模块的module.json中name很重要,建议做到三统一 ...
- DVWA 黑客攻防演练(十)反射型 XSS 攻击 Reflected Cross Site Scripting
XSS (Cross-site scripting) 攻击,为和 CSS 有所区分,所以叫 XSS.又是一种防不胜防的攻击,应该算是一种 "HTML注入攻击",原本开发者想的是显示 ...
- Python开发者现实版养成路线:从一无所知到无所不知
初级开发者学Python容易陷入茫然,面对市面上种类众多的编程语言和框架,重要的是坚持自己的选择,宜精不宜杂.本文是一篇指路文,概述了从编程基础.引导.文档阅读.书籍和视频.源代码等学习和积累环节,值 ...
- VS2010动态链接库的生成及调用(C++)
一.动态链接库的生成 首先利用VS2010新建一个空的工程或者win32工程 2.在工程中添加头文件和源文件 3.工程属性配置 3.1 可以在解决方案目录下新建以下几个文件夹 bin (用于存放Rel ...