岭回归（Ridge Regression）是一种用于处理共线性数据的线性回归改进方法。
和上一篇用基于最小二乘法的线性回归相比，它通过放弃最小二乘的无偏性，
以损失部分信息、降低精度为代价来获得更实际和可靠性更强的回归系数。

1. 概述

岭回归的模型对于存在大量相关特征（这些特征之间存在很高的相关性）的数据时效果远好于基于最小二乘法的线性模型。

原因就是它通过给系数的大小增加一个约束条件（即L2正则化项），来防止模型过度拟合训练数据。
损失函数一般定义为：\(L(w) = (y-wX)^2+\lambda\parallel w\parallel_2\)
其中 \(\lambda\parallel w\parallel_2 = \lambda\sum_{i=1}^{n}w_i^2\)，也就是 L2正则化项。

模型训练的过程就是寻找让损失函数\(L(w)\)最小的参数\(w\)。
也就等价于：\(\begin{align}
& arg\ min(y-wX)^2 \\
& s.t. \sum w_{ij}^2 < s
\end{align}\)
这两个公式表示，在满足约束条件 \(\sum w_{ij}^2 < s\)的情况下，计算 \((y-wX)^2\)的最小值。

2. 创建样本数据

岭回归适用于特征之间有很高关联性的数据集。
所以用scikit-learn中的加州住房数据集，这个数据集有8个房屋售价相关的属性，属性之间关联性高。
数据集的文件获取可以参考：TODO

从上面的文章中下载数据集（是一个zip压缩文件），
如下例所示，下载之后在 D:\share\data 中解压，就可以加载了。

import os

from sklearn.datasets import fetch_california_housing

home_dir = "D:\share\data"

data = fetch_california_housing(data_home=os.path.join(home_dir, "cal_housing"))

X = data["data"]

y = data["target"]

大约有2万多条数据。

3. 模型训练

数据加载之后，首先划分训练集和测试集。

from sklearn.model_selection import train_test_split

# 分割训练集和测试集

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.1)

然后用岭回归模型训练数据：

from sklearn.linear_model import Ridge

# 初始化岭回归线性模型

reg = Ridge()

# 训练模型

reg.fit(X_train, y_train)

这里，用的Ridge()模型的默认参数，它的一些主要参数如下（训练模型时可根据情况调整参数）：

alpha：控制正则化强度的常量，也就是上面公式中的 \(\lambda\)，默认值1，设置为0时，就是最小二乘法
fit_intercept：是否拟合此模型的截距，默认 True
copy_X：是否复制X（也就是训练数据），默认 True，设置为False的话，有可能会改变训练数据
tol：算法迭代时，收敛的精度上限
solver：迭代时使用的求解器，包含** {auto, svd, cholesky, lsqr, sparse_cg, sag, saga, lbfgs}** 等算法，默认 auto（根据数据类型自动选择求解器）

最后，用测试数据来验证训练后模型的性能。

y_pred = reg.predict(X_test)

mse = metrics.mean_squared_error(y_test, y_pred)

r2 = metrics.r2_score(y_test, y_pred)

m_error = metrics.median_absolute_error(y_test, y_pred)

print("均方误差：{}".format(mse))

print("复相关系数：{}".format(r2))

print("中位数绝对误差：{}".format(m_error))

# 运行结果

均方误差：0.0029948538129997903

复相关系数：0.9987534427417275

中位数绝对误差：0.049467455621301726

从结果来看，模型的性能还不错，均方误差和中位数绝对误差都比较小，而复相关系数高，说明在测试数据中，预测的值和实际的值比较接近。

4. 总结

总之，岭回归在很多场景下都有应用，例如多元线性回归、时间序列预测、特征选择等。
它的主要优点是可以处理共线性数据，并且在加入噪声的情况下会有更稳定的性能。

然而，由于其对数据的缩放敏感，岭回归的一个主要局限性是它可能对数据的尺度非常敏感。
此外，岭回归正则化参数的选择通常需要一些经验或者实验来确定，这也增加了其应用的复杂性。

PS.
共线性是指特征之间存在高度相关性，这可能导致线性回归模型的不稳定。

【scikit-learn基础】--『监督学习』之岭回归的更多相关文章

Python基础『一』
内置数据类型数据名称例子数字: Bool,Complex,Float,Integer True/False; z=a+bj; 1.23; 123 字符串: String '123456' 元组: ...
Python基础『二』
目录语句,表达式赋值语句打印语句分支语句循环语句函数函数的作用函数的三要素函数定义 DEF语句 RETURN语句函数调用作用域闭包递归函数匿名函数迭代语句,表达式赋值 ...
『cs231n』计算机视觉基础
线性分类器损失函数明细: 『cs231n』线性分类器损失函数最优化Optimiz部分代码: 1.随机搜索 bestloss = float('inf') # 无穷大 for num in range ...
Scikit Learn: 在python中机器学习
转自:http://my.oschina.net/u/175377/blog/84420#OSC_h2_23 Scikit Learn: 在python中机器学习 Warning 警告:有些没能理解的 ...
[原创] 【2014.12.02更新网盘链接】基于EasySysprep4.1的 Windows 7 x86/x64 『视频』封装
[原创] [2014.12.02更新网盘链接]基于EasySysprep4.1的 Windows 7 x86/x64 『视频』封装 joinlidong 发表于 2014-11-29 14:25:50 ...
(原创)（三）机器学习笔记之Scikit Learn的线性回归模型初探
一.Scikit Learn中使用estimator三部曲 1. 构造estimator 2. 训练模型:fit 3. 利用模型进行预测:predict 二.模型评价模型训练好后,度量模型拟合效果的 ...
『TensorFlow』专题汇总
TensorFlow:官方文档 TensorFlow:项目地址本篇列出文章对于全零新手不太合适,可以尝试TensorFlow入门系列博客,搭配其他资料进行学习. Keras使用tf.Session训 ...
『TensorFlow』批处理类
『教程』Batch Normalization 层介绍基础知识下面有莫凡的对于批处理的解释: fc_mean,fc_var = tf.nn.moments( Wx_plus_b, axes=[0] ...
『TensorFlow』梯度优化相关
tf.trainable_variables可以得到整个模型中所有trainable=True的Variable,也是自由处理梯度的基础基础梯度操作方法: tf.gradients 用来计算导数.该 ...
『TensorFlow』模型保存和载入方法汇总
『TensorFlow』第七弹_保存&载入会话_霸王回马一.TensorFlow常规模型加载方法保存模型 tf.train.Saver()类,.save(sess, ckpt文件目录)方法 ...

随机推荐

Java语言与其环境：常见问题解答
Java语言与其环境:常见问题解答在本博客文章中,将深入探讨Java编程语言的特点和环境,解释一些常见的关于Java的疑问. Java语言的特点是什么? Java是一种高级编程语言,它具有以下几个主 ...
[Maven] maven插件系列之maven-shade-plugin
[Maven] maven插件系列之maven-shade-plugin 1 插件简述/Plugin Overview 1.1 定义与目的/Definition & Goals Officia ...
【后端面经-数据库】Redis数据结构和底层数据类型
目录 1. Redis数据类型 1.1 基本数据类型 1. string 2. hash 3. list 4. set 5. sortset/Zset 1.2 特殊数据类型 1. bitmap 2. ...
Python脚本批量造数据、跑定时任务协助测试
批量造数据连接Mysql的信息 1 import pymysql 2 # 数据库连接信息 3 # 多个库要有多个conn 4 conn = pymysql.connect( 5 host=" ...
buu pwn wp（持续更新）
1.warmup_csaw_2016 main函数如下 __int64 __fastcall main(int a1, char **a2, char **a3) { char s[64]; // [ ...
8.13 分治&二分&倍增&快速幂模拟赛总结
今天太悲惨了qaq 考试概况: 总之疯狂挂分((( 根据题目说的四个算法,猜想每个算法按顺序对应一道题. \(T1\) 看起来不难,数据范围小,感觉应该就是把地图拆成四块来递归计算答案,不过分类讨论属 ...
RSA总结 From La神
常用工具分解大素数 factordb (http://www.factordb.com / API: http://factordb.com/api?query=) yafu (p q 相差过大或过 ...
animate.css 动画库的下载与使用
作者:WangMin 格言:努力做好自己喜欢的每一件事 animate.css是什么? animate.css 是一个有趣,酷炫的,跨浏览器的动画库,里面包含了许多常用的css动画.你可以将它用于你的 ...
2021CSP 游记
总结试机日: 我天,这学校什么垃圾电脑-- 比赛日: 1. 普及考试总体上来说题目算简单 (只是我脑残),t1简单 \(O(1)\),学了数论就行,而 t2 看懂后按题意打一遍,再优化一下: 数组 ...
什么是PIO
PIO,最早是我在raspberry pi pico的介绍中偶然看到的一个新词转载来在[https://zhuanlan.zhihu.com/p/347948344] 关于PIO的介绍如下: MCU ...

【scikit-learn基础】--『监督学习』之 岭回归

1. 概述

2. 创建样本数据

3. 模型训练

4. 总结

【scikit-learn基础】--『监督学习』之 岭回归的更多相关文章

随机推荐

热门专题

【scikit-learn基础】--『监督学习』之岭回归

【scikit-learn基础】--『监督学习』之岭回归的更多相关文章