一、一般线性回归遇到的问题

在处理复杂的数据的回归问题时，普通的线性回归会遇到一些问题，主要表现在：

预测精度：这里要处理好这样一对为题，即样本的数量和特征的数量
- $n\gg p$ 时，最小二乘回归会有较小的方差
- $n\approx p$ 时，容易产生过拟合
- $n< p$ 时，最小二乘回归得不到有意义的结果
模型的解释能力：如果模型中的特征之间有相互关系，这样会增加模型的复杂程度，并且对整个模型的解释能力并没有提高，这时，我们就要进行特征选择。

以上的这些问题，主要就是表现在模型的方差和偏差问题上，这样的关系可以通过下图说明：

（摘自：机器学习实战）

方差指的是模型之间的差异，而偏差指的是模型预测值和数据之间的差异。我们需要找到方差和偏差的折中。

二、岭回归的概念

在进行特征选择时，一般有三种方式：

子集选择
收缩方式(Shrinkage method)，又称为正则化(Regularization)。主要包括岭回归个lasso回归。
维数缩减

岭回归(Ridge Regression)是在平方误差的基础上增加正则项

$\sum_{i=1}^{n}\left ( y_i-\sum_{j=0}^{p}w_jx_{ij} \right )^2+\lambda \sum_{j=0}^{p}w^2_j$ , $\lambda > 0$

通过确定 $\lambda$ 的值可以使得在方差和偏差之间达到平衡：随着 $\lambda$ 的增大，模型方差减小而偏差增大。

对 $w$ 求导，结果为

$2X^T\left ( Y-XW \right )-2\lambda W$

令其为0，可求得 $w$ 的值：

$\hat{w}=\left ( X^TX+\lambda I \right )^{-1}X^TY$

三、实验的过程

我们去探讨一下取不同的 $\lambda$ 对整个模型的影响。

MATLAB代码

主函数

%% 岭回归(Ridge Regression)
%导入数据
data = load('abalone.txt');
[m,n] = size(data);
dataX = data(:,1:8);%特征
dataY = data(:,9);%标签
%标准化
yMeans = mean(dataY);
for i = 1:m
yMat(i,:) = dataY(i,:)-yMeans;
end
xMeans = mean(dataX);
xVars = var(dataX);
for i = 1:m
xMat(i,:) = (dataX(i,:) - xMeans)./xVars;
end
% 运算30次
testNum = 30;
weights = zeros(testNum, n-1);
for i = 1:testNum
w = ridgeRegression(xMat, yMat, exp(i-10));
weights(i,:) = w';
end
% 画出随着参数lam
hold on
axis([-9 20 -1.0 2.5]);
xlabel log(lam);
ylabel weights;
for i = 1:n-1
x = -9:20;
y(1,:) = weights(:,i)';
plot(x,y);
end

岭回归求回归系数的函数

function [ w ] = ridgeRegression( x, y, lam )
xTx = x'*x;
[m,n] = size(xTx);
temp = xTx + eye(m,n)*lam;
if det(temp) == 0
disp('This matrix is singular, cannot do inverse');
end
w = temp^(-1)*x'*y;
end

http://blog.csdn.net/google19890102/article/details/27228279

数值计算方法的“稳定性”是指在计算过程中舍入误差是可以控制的。

对于有些矩阵，矩阵中某个元素的一个很小的变动，会引起最后计算结果误差很大，这种矩阵称为“病态矩阵”。有些时候不正确的计算方法也会使一个正常的矩阵在运算中表现出病态。对于高斯消去法来说，如果主元（即对角线上的元素）上的元素很小，在计算时就会表现出病态的特征。

回归分析中常用的最小二乘法是一种无偏估计。

$XB=Y$

当X列满秩时，有

$B=X^+Y=(X^TX)^{-1}X^TY$

X⁺表示X的广义逆（或叫伪逆）。

当X不是列满秩，或者某些列之间的线性相关性比较大时，X^TX的行列式接近于0，即X^TX接近于奇异，计算(X^TX)^-1时误差会很大。此时传统的最小二乘法缺乏稳定性与可靠性。

岭回归是对最小二乘回归的一种补充，它损失了无偏性，来换取高的数值稳定性，从而得到较高的计算精度。

当X^TX的行列式接近于0时，我们将其主对角元素都加上一个数k，可以使矩阵为奇异的风险大降低。于是：

$B(k)=(X^TX+kI)^{-1}X^TY$ 　　　　　(I是单位矩阵)

随着k的增大，B(k)中各元素b_i(k)的绝对值均趋于不断变小，它们相对于正确值b_i的偏差也越来越大。k趋于无穷大时，B(k)趋于0。b(k)随k的改变而变化的轨迹，就称为岭迹。实际计算中可选非常多的k值，做出一个岭迹图，看看这个图在取哪个值的时候变稳定了，那就确定k值了。

X不满足列满秩，换句话就是说样本向量之间具有高度的相关性（如果每一列是一个向量的话）。遇到列向量相关的情形，岭回归是一种处理方法，也可以用主成分分析PCA来进行降维。

http://www.cnblogs.com/zhangchaoyang 作者:Orisun

岭回归(Ridge Regression)的更多相关文章

Jordan Lecture Note-4: Linear & Ridge Regression
Linear & Ridge Regression 对于$n$个数据$\{(x_1,y_1),(x_2,y_2),\cdots,(x_n,y_n)\},x_i\in\mathbb{R}^d,y ...
L1,L2范数和正则化到lasso ridge regression
一.范数 L1.L2这种在机器学习方面叫做正则化,统计学领域的人喊她惩罚项,数学界会喊她范数. L0范数表示向量xx中非零元素的个数. L1范数表示向量中非零元素的绝对值之和. L2范数表 ...
在线场景感知：图像稀疏表示—ScSPM和LLC总结(以及lasso族、岭回归)
前言: 场景感知其实不分三维场景和二维场景,可以使用通用的方法,不同之处在于数据的形式,以及导致前期特征提取及后期在线场景分割过程.场景感知即是场景语义分析问题,即分析场景中物体的特征组合与相应场景的 ...
Ridge Regression（岭回归）
Ridge Regression岭回归数值计算方法的"稳定性"是指在计算过程中舍入误差是可以控制的. 对于有些矩阵,矩阵中某个元素的一个很小的变动,会引起最后计算结果误差很大,这 ...
scikit-learn中的岭回归（Ridge Regression）与Lasso回归
一.岭回归模型岭回归其实就是在普通最小二乘法回归(ordinary least squares regression)的基础上,加入了正则化参数λ. 二.如何调用 class sklearn.lin ...
机器学习：模型泛化（岭回归：Ridge Regression）
一.基础理解模型正则化(Regularization) # 有多种操作方差,岭回归只是其中一种方式: 功能:通过限制超参数大小,解决过拟合或者模型含有的巨大的方差误差的问题: 影响拟合曲线的两个因子 ...
线性回归——lasso回归和岭回归（ridge regression）
目录线性回归--最小二乘 Lasso回归和岭回归为什么 lasso 更容易使部分权重变为 0 而 ridge 不行? References 线性回归很简单,用线性函数拟合数据,用 mean squ ...
Sklearn库例子3：分类——岭回归分类（Ridge Regression ）例子
为了解决数据的特征比样本点还多的情况,统计学家引入了岭回归. 岭回归通过施加一个惩罚系数的大小解决了一些普通最小二乘的问题.回归系数最大限度地减少了一个惩罚的误差平方和. 这里是一个复杂的参数,用来控 ...
机器学习方法：回归（二）：稀疏与正则约束ridge regression，Lasso
欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.net/xbinworld. "机器学习方法"系列,我本着开放与共享(open and share)的精神撰写,目的是 ...

随机推荐

vscode的vetur插件提示 [vue-language-server] Elements in iteration expect to have 'v-bind:key' directives错误的解决办法
1.使用VS Code 出现如下问题,如图 Vue 2.2.0+的版本里,当在组件中使用v-for时,key是必须的. 2.更改vetur配置 vscode->文件->首选项->用户 ...
利用Metrics+influxdb+grafana构建监控平台（转）
转自http://www.jianshu.com/p/fadcf4d92b0e 这里再配合Influxdb和Grafana可以构建一个非常漂亮的实时监控界面. Grafana监控界面采集数据(Met ...
centos7和Ubuntu上的关机需要手动关闭电源的问题
author:heandsen chen date: 2018-11-11 20:36:38. # halt 执行后会出现这个问题解决办法: # init 0 # shutdown -h now ...
DependencyProperty属性介绍
1 DependencyProperty从属属性 1. 从属属性要定义为静态.为了在外部可以绑定,最好定义为Public 2. 从属属性实际上是取代了正常属性的存值变量 3. ...
vue--使用定时器的问题
https://blog.csdn.net/ywl570717586/article/details/79963162
np.tile 函数使用
>>> import numpy>>> numpy.tile([0,0],5)#在列方向上重复[0,0]5次,默认行1次array([0, 0, 0, 0, 0, ...
@staticmethod和@classmethod的作用与区别
一般来说,要使用某个类的方法,需要先实例化一个对象再调用方法. 而使用@staticmethod或@classmethod,就可以不需要实例化,直接类名.方法名()来调用. 这有利于组织代码,把某些应 ...
Linux--netstat命令
netstat:显示网络状态语法定义:netstat [-acCeFghilMnNoprstuvVwx] [-A<网络类型>][--ip] 参数说明: -a 或 -all :显示所有连线 ...
xp上使用vsphere client报错问题
出现该问题的原因是新版本的esxi和vcenter中增强了加密强度,而Windows XP和Windows Server 2003未能达到所需加密强度,client发起的链接被esxi和vcenter ...
iOS电话等中断事件的开始和结束通知
#import "ViewController.h" #import <AVFoundation/AVFoundation.h> @interface ViewCont ...

岭回归(Ridge Regression)

一、一般线性回归遇到的问题

二、岭回归的概念

三、实验的过程

岭回归(Ridge Regression)的更多相关文章

随机推荐

热门专题