多元线性回归模型

的最小二乘估计结果为

如果存在较强的共线性,即 中各列向量之间存在较强的相关性,会导致的从而引起对角线上的 值很大

并且不一样的样本也会导致参数估计值变化非常大。即参数估计量的方差也增大,对参数的估计会不准确。

因此,是否可以删除掉一些相关性较强的变量呢?如果p个变量之间具有较强的相关性,那么又应当删除哪几个是比较好的呢?

本文介绍两种方法能够判断如何对具有多重共线性的模型进行变量剔除。即岭回归和LASSO(注:LASSO是在岭回归的基础上发展的)

 

 

思想:

既然共线性会导致参数估计值变得非常大,那么给最小二乘的目标函数加上基础上加上一个对 的惩罚函数

最小化新的目标函数的时候便也需要同时考虑到 值的大小,不能过大

在惩罚函数上加上系数k

随着k增大,共线性的影响将越来越小。在不断增大惩罚函数系数的过程中,画下估计参数(k)的变化情况,即为岭迹。

通过岭迹的形状来判断我们是否要剔除掉该参数(例如:岭迹波动很大,说明该变量参数有共线性)。

步骤:

  1. 对数据做标准化,从而方便以后对(k)的岭迹的比较,否则不同变量的参数大小没有比较性。
  2. 构建惩罚函数,对不同的k,画出岭迹图。
  3. 根据岭迹图,选择剔除掉哪些变量。

岭回归的目标函数

式中,t为 的函数。越大,t越小(这里就是k)

如上图中,相切点便是岭回归得出来的解。是岭回归的几何意义。

可以看出,岭回归就是要控制 的变化范围,弱化共线性对大小的影响。

解得的岭回归的估计结果为:

岭回归的性质

    由岭回归的目标函数可以看出,惩罚函数的系数 (或者k)越大,目标函数中惩罚函数所占的重要性越高。

从而估计参数 也就越小了。我们称系数 (或者k)为岭参数。因为岭参数不是唯一的,所以我们得到的岭回归估计 实际是回归参数 的一个估计族。例如下表中:

岭迹图

    将上表中回归估计参数与岭回归参数k之间的变化关系用一张图来表示,便是岭迹图

    

    当不存在奇异性是,岭迹应该是稳定地逐渐趋于0

当存在奇异性时,由岭回归的参数估计结果可以看出来,刚开始k不够大时,奇异性并没有得到太大的改变,所以随着k的变化,回归的估计参数震动很大,当k足够大时,奇异性的影响逐渐减少,从而估计参数的值变的逐渐稳定。

岭参数选择的一般原则

  1. 各回归系数的岭估计基本稳定
  2. 不存在有明显不符合常理的回归参数,其岭估计的符号应当要变得合理
  3. 回归系数没有不合实际意义的绝对值
  4. 残差平方和增大不多

用岭回归选择变量

  1. 由于岭回归是已经变量标准化之后的回归,因此岭回归系数的大小是能够互相比较的,可以剔除掉标准化
  2. 随着k的增加,回归系数不稳定,震动趋于零的变量也可以剔除

那么,问题来了,趋于0到底是怎样才能看出来呢?能不能程序自动判断呢?如果有好几个回归系数不稳定的,又应该去掉哪个呢?这就需要根据去掉某个变量之后的回归效果来定。这就涉及到扩展的岭回归方法LASSO了。

在此之前,先用R语言运行一个岭回归的例子

R语言中岭回归的包是MASS, 运行岭回归的函数是lm.ridge

1.载入MASS包,使用R内置的longley数据集(宏观经济数据)做为例子。(注:宏观经济数据一般而言都会存在比较严重的共线性问题(

  1. 使用传统OLS方法进行回归的结果

发现有几个变量的结果并不显著,那么是否要删除掉这几个变量呢?我们用岭回归进行变量的剔除。

  1. 动挑选岭回归参数,给出的结果

  1. 观察岭迹图,进行变量剔除

     

    待解决疑问:到底哪个颜色代表了哪个变量啊。。。尼玛

    上图可以用肉眼去选择k值,然后放入lambda中(lm.ridge函数中lambda默认是0)

  1. 根据不同的方法选择k, 可以发现岭回归参数的选择存在非常大的不确定性

 

 

  1. Tibshirani(1996)提出了Lasso(The Least Absolute Shrinkage and

Selectionator operator)算法

  1. 与岭回归不同的是,LASSO构造的是一个一阶的惩罚函数,从而使得模型一 些变量的系数为0(岭回归系数为0的可能性非常)
  2. 与岭回归一样,LASSO也是有偏估计

模型形式对比

岭回归:

LASSO

可以看出,LASSO的惩罚函数是绝对值形式,其函数形式就更为压缩,用几何意义来说明会更为直观:

下图是LASSO模型的几何表述

下图是岭回归的几何表述

 

红色是求最小值区域,而蓝色则是约束条件区域。

可以发现,LASSO由于是绝对值形式,其约束条件更为"尖锐"。回归的估计参数更容易为0。

上图左边是岭回归,右边是LASSO。 在每个图中从右往左,k值逐渐增大,可以看到,LASSO在k值增大的过程中,

回归的参数估计经常会有为0的状况,对于这种参数,我们便可以选择对它们进行剔除。便不用我们进行人工选择剔除变量,而可以让程序自动根据是否为0来剔除掉变量了。

现在问题是,LASSO回归由于其惩罚函数是绝对值的形式,难以得到一个确定的估计参数的表达式,如何解决呢?

统计学家们发现,LASSO回归与最小角回归的计算结果是高度相似的,因此可以用最小角回归LAR的结果来对LASSO进行估计。(具体的思路和证明非常复杂,以后有空继续写篇博文进行阐述)。


对LAR模型进行一定的修正后,便能够让LAR的结果与LASSO基本上一致了。因此,我们用LAR的算法来对LASSO进行计算。

 

 

包:lars

Library(lars)

使用longley数据集

上图的结果是用LAR算法对线性回归进行最小二乘回归的结果。

可以看到Year和Employed这两个变量被反复删除和使用,这两个是应当被删除掉的

在summary的结果中,CP代表的是对共线性的判断,可以看到,模型在第8步的时候

共线性是最小的,结合laa中第8步的状况,所以剔除掉Year和Employed这两个变量是

比较合适的。

 

 

多重共线性的解决方法之——岭回归与LASSO的更多相关文章

  1. 岭回归和lasso回归(转)

    回归和分类是机器学习算法所要解决的两个主要问题.分类大家都知道,模型的输出值是离散值,对应着相应的类别,通常的简单分类问题模型输出值是二值的,也就是二分类问题.但是回归就稍微复杂一些,回归模型的输出值 ...

  2. 岭回归与Lasso回归

    线性回归的一般形式 过拟合问题及其解决方法 问题:以下面一张图片展示过拟合问题 解决方法:(1):丢弃一些对我们最终预测结果影响不大的特征,具体哪些特征需要丢弃可以通过PCA算法来实现:(2):使用正 ...

  3. 机器学习-正则化(岭回归、lasso)和前向逐步回归

    机器学习-正则化(岭回归.lasso)和前向逐步回归 本文代码均来自于<机器学习实战> 这三种要处理的是同样的问题,也就是数据的特征数量大于样本数量的情况.这个时候会出现矩阵不可逆的情况, ...

  4. 岭回归、lasso

    参考:https://blog.csdn.net/Byron309/article/details/77716127     ----    https://blog.csdn.net/xbinwor ...

  5. 【笔记】模型泛化与岭回归与LASSO

    模型泛化与岭回归与LASSO 模型正则化 模型正则化,简单来说就是限制参数大小 模型正则化是用什么思路来解决先前过拟合的由于过于拟合导致的曲线抖动(线性方程前的系数都很大) 线性回归的目标就是求一个最 ...

  6. 多元线性回归模型的特征压缩:岭回归和Lasso回归

    多元线性回归模型中,如果所有特征一起上,容易造成过拟合使测试数据误差方差过大:因此减少不必要的特征,简化模型是减小方差的一个重要步骤.除了直接对特征筛选,来也可以进行特征压缩,减少某些不重要的特征系数 ...

  7. 【机器学习】正则化的线性回归 —— 岭回归与Lasso回归

    注:正则化是用来防止过拟合的方法.在最开始学习机器学习的课程时,只是觉得这个方法就像某种魔法一样非常神奇的改变了模型的参数.但是一直也无法对其基本原理有一个透彻.直观的理解.直到最近再次接触到这个概念 ...

  8. 机器学习之五 正则化的线性回归-岭回归与Lasso回归

    机器学习之五 正则化的线性回归-岭回归与Lasso回归 注:正则化是用来防止过拟合的方法.在最开始学习机器学习的课程时,只是觉得这个方法就像某种魔法一样非常神奇的改变了模型的参数.但是一直也无法对其基 ...

  9. 岭回归和Lasso回归以及norm1和norm2

    norm代表的是距离,两个向量的距离:下图代表的就是p-norm,其实是对向量里面元素的一种运算: 最简单的距离计算(规范)是欧式距离(Euclidean distance),两点间距离是如下来算的, ...

随机推荐

  1. 将Resource中的图片资源动态绑定到PictureBox中:

    //CurrentCommunication为解决方案的名字,dynamic为图片的名字 pictureBox1.Image = CurrentCommunication.Properties.Res ...

  2. sql 索引 的建立

    (From:http://54laobaixing.blog.163.com/blog/static/57843681200952411133121/) 假设你想找书中的某一个句子.你可以一页一页地逐 ...

  3. 4-MSP430定时器_定时器中断

    一开始没写好就上传了,,,,,,,,这次来个全的 自己学MSP430是为了写一篇关于PID的文章,需要430在proteus上做仿真,一则认为在自动控制算法上PID真的很经典,PLC设备上大多是模块式 ...

  4. CoCreateInstance调用返回代码0x80040154的一种解决方法

    引言 前面的一篇博文中总结了开发Windows Thumbnail Handler的一些经验.在公司实际项目中,需要同时针对图片和视频实现缩略图.同时还要在图片和视频文件的顶部加上LOGO.像如下这样 ...

  5. 7.1数据注解属性--Key【Code-First系列】

    Key特性可以被用到类的属性中,Code-First默认约定,创建一个主键,是以属性的名字“Id”,或者是类名+Id来的. Key特性重写了这个默认的约定,你可以应用Key特性到一个类的属性上面,不管 ...

  6. 离线安装swashbuckle(webapi自动文档及测试工具)

    1.找到已经成功安装过的项目根目录的packages文件夹拷贝到新的项目的根目录 2.vs设置nuget程序包源 将源:地址改为新项目的packages文件夹 3.重新编译并修改代码 右键项目-> ...

  7. Spring Boot中静态资源(JS, 图片)等应该放在什么位置

    Spring Boot的静态资源,比如图片应该放在什么位置呢, 如果你放在传统WEB共的类似地方, 比如webapp或者WEB-INF下,你会得到一张示意文件未找到的破碎图片.那应该放哪里呢? 百度一 ...

  8. 用Java语言编写一个简易画板

    讲了三篇概博客的概念,今天,我们来一点实际的东西.我们来探讨一下如何用Java语言,编写一块简易的画图板. 一.需求分析 无论我们使用什么语言,去编写一个什么样的项目,我们的第一步,总是去分析这个项目 ...

  9. java web学习总结(十一) -------------------基本概念使用Cookie进行会话管理

    一.会话的概念 会话可简单理解为:用户开一个浏览器,点击多个超链接,访问服务器多个web资源,然后关闭浏览器,整个过程称之为一个会话. 有状态会话:一个同学来过教室,下次再来教室,我们会知道这个同学曾 ...

  10. 让网站动起来!12款优秀的 jQuery 动画插件推荐

    如今,大多数设计师和开发人员被要客户要求开发动态的网站.创造视觉震撼和醒目的动态网站是艰巨的任务,因为它需要大量的努力和创造力.在网络上有大量的工具和插件可用于创建网站动画.许多开发人员正在使用 HT ...