LASSO（Least Absolute Shrinkage and Selection Operator）回归模型一般都是用英文缩写表示，
硬要翻译的话，可翻译为 最小绝对收缩和选择算子。

它是一种线性回归模型的扩展，其主要目标是解决高维数据中的特征选择和正则化问题。

1. 概述

在LASSO中，通过使用L1正则化项，它能够在回归系数中引入稀疏性，
也就是允许某些系数在优化过程中缩减为零，从而实现特征的选择。

与岭回归不同的是，LASSO的损失函数一般定义为：\(L(w) = (y-wX)^2+\lambda\parallel w\parallel_1\)
其中 \(\lambda\parallel w\parallel_1\)，也就是 L1正则化项（岭回归中用的是 L2正则化项）。

模型训练的过程就是寻找让损失函数\(L(w)\)最小的参数\(w\)。
也就等价于：\(\begin{align}
& arg\ min(y-wX)^2 \\
& s.t. \sum |w_{ij}| < s
\end{align}\)
这两个公式表示，在满足约束条件 \(\sum |w_{ij}| < s\)的情况下，计算 \((y-wX)^2\)的最小值。

2. 创建样本数据

相比于岭回归模型，LASSO回归模型不仅对于共线性数据集友好，
对于高维数据的数据集，也有不错的性能表现。

它通过将不重要的特征的系数压缩为零，帮助我们选择最重要的特征，从而提高模型的预测准确性和可解释性。
下面我们模拟创建一些高维数据，创建一个特征数比样本数还多的样本数据集。

from sklearn.datasets import make_regression

X, y = make_regression(n_samples=80, n_features=100, noise=10)

这个数据集中，只有80个样本，每个样本却有100个特征，并且噪声也设置的很大（noise=10）。

3. 模型训练

第一步，分割训练集和测试集。

from sklearn.model_selection import train_test_split

# 分割训练集和测试集

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.1)

用scikit-learn中的LASSO模型来训练：

from sklearn.linear_model import Lasso

# 初始化LASSO线性模型

reg = Lasso()

# 训练模型

reg.fit(X_train, y_train)

这里使用的 Lasso()的默认参数来训练模型，它的主要参数包括：

alpha：正则化项系数。它控制了L1正则化项的强度，即对模型复杂度的惩罚。alpha越大，模型越简单，但过大的alpha可能会导致模型欠拟合；alpha越小，模型越复杂，但过小的alpha可能会导致模型过拟合。默认值为1.0。
fit_intercept：布尔值，指定是否需要计算截距b值。如果设为False，则不计算b值。默认值为True。
normalize：布尔值。如果设为True，则在模型训练之前将数据归一化。默认值为False。
precompute：布尔值，指定是否预先计算X的平方和。如果设为True，则在每次迭代之前计算X的平方和。默认值为False。
copy_X：布尔值，指定是否在训练过程中复制X。如果设为True，则在训练过程中复制X。默认值为True。
max_iter：最大迭代次数。默认值为1000。
tol：阈值，用于判断是否达到收敛条件。默认值为1e-4。
warm_start：布尔值，如果设为True，则使用前一次的解作为本次迭代的起始点。默认值为False。
positive：布尔值，如果设为True，则强制系数为正。默认值为False。
selection：用于在每次迭代中选择系数的算法（有“cyclic”和“random”两种选择）。默认值为“cyclic”，即循环选择。

最后验证模型的训练效果：

from sklearn import metrics

y_pred = reg.predict(X_test)

mse = metrics.mean_squared_error(y_test, y_pred)

r2 = metrics.r2_score(y_test, y_pred)

m_error = metrics.median_absolute_error(y_test, y_pred)

print("均方误差：{}".format(mse))

print("复相关系数：{}".format(r2))

print("中位数绝对误差：{}".format(m_error))

# 运行结果

均方误差：441.07830708712186

复相关系数：0.9838880665687711

中位数绝对误差：11.643348614829785

误差看上去不小，因为这次实际生成的样本，不仅数量小（80件）且噪声大（noise=10）。

3.1. 与岭回归模型比较

单独看LASSO模型的训练结果，看不出其处理高维数据的优势。
同样用上面分割好的训练集和测试集，来看看岭回归模型的拟合效果。

from sklearn.linear_model import Ridge

# from sklearn.model_selection import train_test_split

mse, r2, m_error = 0.0, 0.0, 0.0

# 初始化岭回归线性模型

reg = Ridge()

# 训练模型

reg.fit(X_train, y_train)

y_pred = reg.predict(X_test)

mse = metrics.mean_squared_error(y_test, y_pred)

r2 = metrics.r2_score(y_test, y_pred)

m_error = metrics.median_absolute_error(y_test, y_pred)

print("均方误差：{}".format(mse))

print("复相关系数：{}".format(r2))

print("中位数绝对误差：{}".format(m_error))

# 运行结果

均方误差：6315.046844910431

复相关系数：0.7693207470296398

中位数绝对误差：60.65140692273637

对于高维数据，可以看出，岭回归模型的误差 远远大于 LASSO模型。

3.2. 与最小二乘法模型比较

同样用上面分割好的训练集和测试集，再来看看线性模型（最小二乘法）的拟合效果。

from sklearn.linear_model import LinearRegression

mse, r2, m_error = 0.0, 0.0, 0.0

# 初始化最小二乘法线性模型

reg = LinearRegression()

# 训练模型

reg.fit(X_train, y_train)

y_pred = reg.predict(X_test)

mse = metrics.mean_squared_error(y_test, y_pred)

r2 = metrics.r2_score(y_test, y_pred)

m_error = metrics.median_absolute_error(y_test, y_pred)

print("均方误差：{}".format(mse))

print("复相关系数：{}".format(r2))

print("中位数绝对误差：{}".format(m_error))

# 运行结果

均方误差：5912.442445894787

复相关系数：0.7840272859181612

中位数绝对误差：62.89225147465376

可以看出，线性模型的训练效果和岭回归模型差不多，但是都远远不如LASSO模型。

4. 总结

总的来说，LASSO回归模型是一种流行的线性回归扩展，具有一些显著的优势和劣势。
比如，在特征选择上，LASSO通过将某些系数压缩为零，能够有效地进行特征选择，这在高维数据集中特别有用。
此外，LASSO可以作为正则化工具，有助于防止过拟合。

不过，LASSO会假设特征是线性相关的，对于非线性关系的数据，效果可能不佳。
而且，如果数据存在复杂模式或噪声，LASSO可能会过度拟合这些模式。

【scikit-learn基础】--『监督学习』之 LASSO回归的更多相关文章

Python基础『一』
内置数据类型数据名称例子数字: Bool,Complex,Float,Integer True/False; z=a+bj; 1.23; 123 字符串: String '123456' 元组: ...
Python基础『二』
目录语句,表达式赋值语句打印语句分支语句循环语句函数函数的作用函数的三要素函数定义 DEF语句 RETURN语句函数调用作用域闭包递归函数匿名函数迭代语句,表达式赋值 ...
『cs231n』计算机视觉基础
线性分类器损失函数明细: 『cs231n』线性分类器损失函数最优化Optimiz部分代码: 1.随机搜索 bestloss = float('inf') # 无穷大 for num in range ...
Scikit Learn: 在python中机器学习
转自:http://my.oschina.net/u/175377/blog/84420#OSC_h2_23 Scikit Learn: 在python中机器学习 Warning 警告:有些没能理解的 ...
[原创] 【2014.12.02更新网盘链接】基于EasySysprep4.1的 Windows 7 x86/x64 『视频』封装
[原创] [2014.12.02更新网盘链接]基于EasySysprep4.1的 Windows 7 x86/x64 『视频』封装 joinlidong 发表于 2014-11-29 14:25:50 ...
(原创)（三）机器学习笔记之Scikit Learn的线性回归模型初探
一.Scikit Learn中使用estimator三部曲 1. 构造estimator 2. 训练模型:fit 3. 利用模型进行预测:predict 二.模型评价模型训练好后,度量模型拟合效果的 ...
『TensorFlow』专题汇总
TensorFlow:官方文档 TensorFlow:项目地址本篇列出文章对于全零新手不太合适,可以尝试TensorFlow入门系列博客,搭配其他资料进行学习. Keras使用tf.Session训 ...
『TensorFlow』批处理类
『教程』Batch Normalization 层介绍基础知识下面有莫凡的对于批处理的解释: fc_mean,fc_var = tf.nn.moments( Wx_plus_b, axes=[0] ...
『TensorFlow』梯度优化相关
tf.trainable_variables可以得到整个模型中所有trainable=True的Variable,也是自由处理梯度的基础基础梯度操作方法: tf.gradients 用来计算导数.该 ...
『TensorFlow』模型保存和载入方法汇总
『TensorFlow』第七弹_保存&载入会话_霸王回马一.TensorFlow常规模型加载方法保存模型 tf.train.Saver()类,.save(sess, ckpt文件目录)方法 ...

随机推荐

使用HTML一键打包APK工具打包KRPANO全景项目
"HMTL一键打包APK工具"可以把本地HTML项目或者网站打包为一个安卓应用APK文件,无需编写任何代码,支持在安卓设备上安装运行. 打包工具群:429338543 下载地址: ...
Eclipse OSGI配置文件说明
IntelliJ IDEA安装中文插件
1.运行IntelliJ IDEA程序2.点击左上角"File"//文件3.点击下拉的"Settings" //设置4.点击"Plugins" ...
《美英报刊阅读教程（中级精选本）（第五版）》 ISBN: 9787301306864
作者: 端木义万著出版社: 北京大学出版社出版时间: 2019-09 版次: 7 ISBN: 9787301306864 定价: 69.00 装帧: 平装开本: 16开纸张: ...
Rust WebAssembly 绑定输入类型（基于 Serde）
前言单位有个项目要共享前后端检查策略后端用的正好也是 Rust,但是 Rust 默认的 wasm-bindgen 包中提供的转换操作非常少,像 Vec<T> <=> Arra ...
CodeTON Round 4 (Div. 1 + Div. 2)C
C. Make It Permutation 我们希望尽可能少地进行操作可以使代价最小,我们如果要排列的话,那些重复的元素我们无论如何都要进行删除的,所以我们可以先把去重的代价计算出来,然后依次枚举排 ...
liunx远程管理常用命令笔记
1,关机/重启 shutdown -r now : 立刻重启的命令 2,查看或配置网卡信息 2.1 网卡和 IP 地址 2.2 ifconfig 用了管道和grep 查找到 IP 地址 2.3 p ...
阿里云上的rds 的隔离级别read committed 而不是repeatable-read设置原因
阿里云上的rds 的隔离级别是read committed ,而不是原生mysql的"可重复读(repeatable-read)",他们是基于什么原因这样设置的? show va ...
谈谈SSO单点登录的设计实现
谈谈SSO单点登录的设计实现本篇将会讲讲单点登录的具体实现. 实现思路其实单点登录在我们生活中很常见,比如学校的网站,有很多个系统,迎新系统,教务系统,网课系统.我们往往只需要登录一次就能在各个系 ...
请查收，本周刷屏的两大热点「GitHub 热点速览」
如果你逛 HackerNews 或者是推特,你一定会被 multipleWindow3dScene 这个跨窗口渲染项目的成果刷屏,毕竟国内的技术平台上也出现了不少的模仿项目.另外一个热点,便是你在白板 ...

【scikit-learn基础】--『监督学习』之 LASSO回归