【scikit-learn基础】--『回归模型评估』之偏差分析
模型评估在统计学和机器学习中具有至关重要,它帮助我们主要目标是量化模型预测新数据的能力。
本篇主要介绍模型评估时,如何利用scikit-learn帮助我们快速进行各种偏差的分析。
1. **R² ** 分数
R² 分数(也叫决定系数),用于衡量模型预测的拟合优度,它表示模型中因变量的变异中,可由自变量解释的部分所占的比例。
R² 值接近1的话,表示模型能够很好地解释因变量的变异,接近0的话,则表示模型解释能力较差。
需要注意的是,虽然R² 分数是一个很有用的指标,但它也有一些局限性。
例如,当模型中自变量数量增加时,R² 分数可能会增加,即使这些自变量对因变量没有真正的解释力。
因此,在使用R² 分数评估模型时,还需要结合其他诊断指标和领域知识进行综合判断。
1.1. 计算公式
\(R^2(y, \hat{y}) = 1 - \frac{\sum_{i=1}^{n} (y_i - \hat{y}_i)^2}{\sum_{i=1}^{n} (y_i - \bar{y})^2}\) 且 \(\bar{y} = \frac{1}{n} \sum_{i=1}^{n} y_i\)
其中,\(n\)是样本数量,\(y_i\)是真实值,\(\hat{y_i}\)是预测值。
1.2. 使用示例
from sklearn.metrics import r2_score
y_true = [1, 2, 3, 4]
y_pred = [0, 1, 3, 5]
r2_score(y_true, y_pred)
# 结果: 0.4
y_pred = [0, 2, 3, 4]
r2_score(y_true, y_pred)
# 结果: 0.8
r2_score就是scikit-learn中用来计算 **R² 分数 **的函数。
2. 解释方差分数
解释方差分数(Explained Variance Score,简称EVS),它用于量化模型对目标变量的解释程度。
解释方差分数比较高则表示模型能够较好地解释数据中的方差,即模型的预测与实际观测值较为接近。
需要注意的是,解释方差分数仅关注模型对方差的解释程度,并不直接反映预测的准确度。
2.1. 计算公式
\(explained\_{}variance(y, \hat{y}) = 1 - \frac{Var\{ y - \hat{y}\}}{Var\{y\}}\)
其中,\(y\)是真实值,\(\hat{y}\)是预测值。
\(Var\)表示计算方差,比如:\(Var{\{y\}} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \bar{y})^2\)
2.2. 使用示例
from sklearn.metrics import explained_variance_score
y_true = [1, 2, 3, 4]
y_pred = [0, 1, 3, 5]
explained_variance_score(y_true, y_pred)
# 结果: 0.45
y_pred = [0, 2, 3, 4]
explained_variance_score(y_true, y_pred)
# 结果: 0.85
explained_variance_score就是scikit-learn中用来计算 **解释方差分数 **的函数。
3. Tweedie 偏差
Tweedie 偏差是一种用于评估广义线性模型的指标,它衡量了预测值与实际观测值之间的差异,并考虑了模型的方差结构和分布假设。
Tweedie 偏差根据Tweedie分布的定义而来,参数不同,表示不同的分布。
Tweedie 偏差较小,表示模型的预测与实际观测值之间的差异较小,即模型能够更好地拟合数据。
需要注意的是,在使用 Tweedie 偏差时,需要确保所选的 Tweedie 分布适合数据的特性,否则可能会导致不准确的评估结果。
3.1. 计算公式
\(\text{D}(y, \hat{y}) = \frac{1}{n}
\sum_{i=0}^{n - 1}
2\left(\frac{\max(y_i,0)^{2-p}}{(1-p)(2-p)}-
\frac{y_i\,\hat{y}_i^{1-p}}{1-p}+\frac{\hat{y}_i^{2-p}}{2-p}\right)\)
其中,\(n\)是样本数量,\(y_i\)是真实值,\(\hat{y_i}\)是预测值。
上面的公式中,\(p=0\)时,Tweedie 偏差相当于均方误差:
\(\text{D}(y, \hat{y}) = \frac{1}{n}
\sum_{i=0}^{n - 1} (y_i-\hat{y}_i)^2\)
当 \(p=1\)时,Tweedie 偏差相当于平均泊松偏差:
\(\text{D}(y, \hat{y}) = \frac{1}{n}
\sum_{i=0}^{n - 1} 2(y_i \log(y_i/\hat{y}_i) + \hat{y}_i - y_i)\)
当 \(p=2\)时,Tweedie 偏差相当于平均Gamma偏差:
\(\text{D}(y, \hat{y}) = \frac{1}{n}
\sum_{i=0}^{n - 1} 2(\log(\hat{y}_i/y_i) + y_i/\hat{y}_i - 1)\)
3.2. 使用示例
from sklearn.metrics import mean_tweedie_deviance
mean_tweedie_deviance([1], [2], power=0)
# 运行结果: 1.0
mean_tweedie_deviance([100], [200], power=0)
# 运行结果: 10000.0
mean_tweedie_deviance([1], [2], power=1)
# 运行结果: 0.6137056388801092
mean_tweedie_deviance([100], [200], power=1)
# 运行结果: 61.370563888010906
mean_tweedie_deviance([1], [2], power=2)
# 运行结果: 0.3862943611198908
mean_tweedie_deviance([100], [200], power=2)
# 运行结果: 0.3862943611198908
power参数不同,同样是预测值和实际值差两倍的情况下,不同分布,Tweedie 偏差的结果差别很大。
4. 总结
总之,scikit-learn中提供的回归模型偏差的计算方式,能够帮助我们了解模型的性能、选择适合的模型、优化模型以及辅助决策。
对于回归问题的建模和预测具有重要的实际意义。
【scikit-learn基础】--『回归模型评估』之偏差分析的更多相关文章
- (原创)(四)机器学习笔记之Scikit Learn的Logistic回归初探
目录 5.3 使用LogisticRegressionCV进行正则化的 Logistic Regression 参数调优 一.Scikit Learn中有关logistics回归函数的介绍 1. 交叉 ...
- 机器学习之路:python 集成回归模型 随机森林回归RandomForestRegressor 极端随机森林回归ExtraTreesRegressor GradientBoostingRegressor回归 预测波士顿房价
python3 学习机器学习api 使用了三种集成回归模型 git: https://github.com/linyi0604/MachineLearning 代码: from sklearn.dat ...
- Poisson回归模型
Poisson回归模型也是用来分析列联表和分类数据的一种方法,它实际上也是对数线性模型的一种,不同点是对数线性模型假定频数分布为多项式分布,而泊松回归模型假定频数分布为泊松分布. 首先我们来认识一下泊 ...
- (原创)(三)机器学习笔记之Scikit Learn的线性回归模型初探
一.Scikit Learn中使用estimator三部曲 1. 构造estimator 2. 训练模型:fit 3. 利用模型进行预测:predict 二.模型评价 模型训练好后,度量模型拟合效果的 ...
- 逻辑回归模型(Logistic Regression, LR)基础
逻辑回归模型(Logistic Regression, LR)基础 逻辑回归(Logistic Regression, LR)模型其实仅在线性回归的基础上,套用了一个逻辑函数,但也就由于这个逻辑函 ...
- 『高性能模型』轻量级网络ShuffleNet_v1及v2
项目实现:GitHub 参考博客:CNN模型之ShuffleNet v1论文:ShuffleNet: An Extremely Efficient Convolutional Neural Netwo ...
- 回归模型效果评估系列1-QQ图
(erbqi)导语 QQ图全称 Quantile-Quantile图,也就是分位数-分位数图,简单理解就是把两个分布相同分位数的值,构成点(x,y)绘图:如果两个分布很接近,那个点(x,y)会分布在y ...
- 『高性能模型』HetConv: HeterogeneousKernel-BasedConvolutionsforDeepCNNs
论文地址:HetConv 一.现有网络加速技术 1.卷积加速技术 作者对已有的新型卷积划分如下:标准卷积.Depthwise 卷积.Pointwise 卷积.群卷积(相关介绍见『高性能模型』深度可分离 ...
- 『高性能模型』轻量级网络MobileNet_v2
论文地址:MobileNetV2: Inverted Residuals and Linear Bottlenecks 前文链接:『高性能模型』深度可分离卷积和MobileNet_v1 一.Mobil ...
- 20165308『网络对抗技术』Exp5 MSF基础应用
20165308『网络对抗技术』Exp5 MSF基础应用 一.原理与实践说明 实践内容 本实践目标是掌握metasploit的基本应用方式,重点常用的三种攻击方式的思路.具体需要完成: 一个主动攻击实 ...
随机推荐
- 使用gradle的方式进行Springboot3的web开发(微服务版)
简要: 最近看了很多的Springboot3的项目,但是发现很多都是用maven来进行版本管理的,很少有用gradle来管理的,通过网上查找资料,看视频,终于自己写一个gradle管理的Springb ...
- CentOS7,配置rsyslog客户端地址
在CentOS 7系统,将所有日志转发到 192.168.168.168 日志服务器,你可以按照以下步骤进行配置: 确保rsyslog已经被安装 rpm -qa|grep rsyslog 1.打开 r ...
- java获取包下所有java类
java获取包下所有java类 简单加载包下的类,注意简单编写非递归查找,自行实现递归查找即可 import java.io.File; import java.net.URL; import jav ...
- three.js中场景模糊、纹理失真的问题
目录 1. 概述 2. 方案 2.1. 开启反走样 2.2. 开启HiDPI设置 3. 结果 4. 参考 1. 概述 在three.js场景中,有时会遇到场景模糊,纹理失真的现象,似乎three.js ...
- KubeCon China 2023 | 拥抱开源,华为云原生华彩绽放
本文分享自华为云社区<KubeCon China 2023 | 拥抱开源,华为云原生华彩绽放>,作者: 云容器大未来 . 2023 年度云原生全球旗舰盛会 KubeCon + CloudN ...
- 如何极速极速搭建个人博客?Copy攻城狮用的这一招很优秀!
摘要:在中国功夫中,"天下武功,无坚不摧,唯快不破",在编程的世界里,如何快速搭建一个属于自己的博客呢?那么 Pagic + Vercel 应该是个不错的选择!接下来,由Copy攻 ...
- Mysql开发实践:error while loading shared libraries: libaio解决方案
摘要:Mysql出现问题:error while loading shared libraries: libaio解决方案. 本文分享自华为云社区<Mysql出现问题:error while l ...
- 不信谣不传谣,亲自动手验证ModelBox推理是否真的“高性能”
摘要:"高性能推理"是ModelBox宣传的主要特性之一,不信谣不传谣的我决定通过原生API和ModelBox实现相同案例进行对比,看一下ModelBox推理是否真的"高 ...
- 云图说|ASM灰度发布,让服务发布变得更敏捷、更安全
阅识风云是华为云信息大咖,擅长将复杂信息多元化呈现,其出品的一张图(云图说).深入浅出的博文(云小课)或短视频(云视厅)总有一款能让您快速上手华为云.更多精彩内容请单击此处. 摘要:通常产品优化迭代的 ...
- 9个问题,带你掌握流程控制语句中的java原理
摘要:利用9个问题帮助记忆流程控制语句中的Java原理知识. 本文分享自华为云社区<流程控制语句知识点里的java原理>,作者:breakDraw . 相信大家经常会遇到这种问题 可是这个 ...