1. R² 分数

R² 分数（也叫决定系数），用于衡量模型预测的拟合优度，它表示模型中因变量的变异中，可由自变量解释的部分所占的比例。
R² 值接近1的话，表示模型能够很好地解释因变量的变异，接近0的话，则表示模型解释能力较差。

需要注意的是，虽然R² 分数是一个很有用的指标，但它也有一些局限性。
例如，当模型中自变量数量增加时，R² 分数可能会增加，即使这些自变量对因变量没有真正的解释力。
因此，在使用R² 分数评估模型时，还需要结合其他诊断指标和领域知识进行综合判断。

1.1. 计算公式

\(R^2(y, \hat{y}) = 1 - \frac{\sum_{i=1}^{n} (y_i - \hat{y}_i)^2}{\sum_{i=1}^{n} (y_i - \bar{y})^2}\) 且 \(\bar{y} = \frac{1}{n} \sum_{i=1}^{n} y_i\)
其中，\(n\)是样本数量，\(y_i\)是真实值，\(\hat{y_i}\)是预测值。

1.2. 使用示例

from sklearn.metrics import r2_score

y_true = [1, 2, 3, 4]

y_pred = [0, 1, 3, 5]

r2_score(y_true, y_pred)

# 结果： 0.4

y_pred = [0, 2, 3, 4]

r2_score(y_true, y_pred)

# 结果： 0.8

r2_score就是scikit-learn中用来计算 **R² 分数 **的函数。

2. 解释方差分数

解释方差分数（Explained Variance Score，简称EVS），它用于量化模型对目标变量的解释程度。
解释方差分数比较高则表示模型能够较好地解释数据中的方差，即模型的预测与实际观测值较为接近。

需要注意的是，解释方差分数仅关注模型对方差的解释程度，并不直接反映预测的准确度。

2.1. 计算公式

\(explained\_{}variance(y, \hat{y}) = 1 - \frac{Var\{ y - \hat{y}\}}{Var\{y\}}\)
其中，\(y\)是真实值，\(\hat{y}\)是预测值。
\(Var\)表示计算方差，比如：\(Var{\{y\}} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \bar{y})^2\)

2.2. 使用示例

from sklearn.metrics import explained_variance_score

y_true = [1, 2, 3, 4]

y_pred = [0, 1, 3, 5]

explained_variance_score(y_true, y_pred)

# 结果： 0.45

y_pred = [0, 2, 3, 4]

explained_variance_score(y_true, y_pred)

# 结果： 0.85

explained_variance_score就是scikit-learn中用来计算 **解释方差分数 **的函数。

3. Tweedie 偏差

Tweedie 偏差是一种用于评估广义线性模型的指标，它衡量了预测值与实际观测值之间的差异，并考虑了模型的方差结构和分布假设。

Tweedie 偏差根据Tweedie分布的定义而来，参数不同，表示不同的分布。
Tweedie 偏差较小，表示模型的预测与实际观测值之间的差异较小，即模型能够更好地拟合数据。

需要注意的是，在使用 Tweedie 偏差时，需要确保所选的 Tweedie 分布适合数据的特性，否则可能会导致不准确的评估结果。

3.1. 计算公式

\(\text{D}(y, \hat{y}) = \frac{1}{n}
\sum_{i=0}^{n - 1}
2\left(\frac{\max(y_i,0)^{2-p}}{(1-p)(2-p)}-
\frac{y_i\,\hat{y}_i^{1-p}}{1-p}+\frac{\hat{y}_i^{2-p}}{2-p}\right)\)
其中，\(n\)是样本数量，\(y_i\)是真实值，\(\hat{y_i}\)是预测值。

上面的公式中，\(p=0\)时，Tweedie 偏差相当于均方误差：
\(\text{D}(y, \hat{y}) = \frac{1}{n}
\sum_{i=0}^{n - 1} (y_i-\hat{y}_i)^2\)

当 \(p=1\)时，Tweedie 偏差相当于平均泊松偏差：
\(\text{D}(y, \hat{y}) = \frac{1}{n}
\sum_{i=0}^{n - 1} 2(y_i \log(y_i/\hat{y}_i) + \hat{y}_i - y_i)\)

当 \(p=2\)时，Tweedie 偏差相当于平均Gamma偏差：
\(\text{D}(y, \hat{y}) = \frac{1}{n}
\sum_{i=0}^{n - 1} 2(\log(\hat{y}_i/y_i) + y_i/\hat{y}_i - 1)\)

3.2. 使用示例

from sklearn.metrics import mean_tweedie_deviance

mean_tweedie_deviance([1], [2], power=0)

# 运行结果： 1.0

mean_tweedie_deviance([100], [200], power=0)

# 运行结果： 10000.0

mean_tweedie_deviance([1], [2], power=1)

# 运行结果： 0.6137056388801092

mean_tweedie_deviance([100], [200], power=1)

# 运行结果： 61.370563888010906

mean_tweedie_deviance([1], [2], power=2)

# 运行结果： 0.3862943611198908

mean_tweedie_deviance([100], [200], power=2)

# 运行结果： 0.3862943611198908

power参数不同，同样是预测值和实际值差两倍的情况下，不同分布，Tweedie 偏差的结果差别很大。

4. 总结

总之，scikit-learn中提供的回归模型偏差的计算方式，能够帮助我们了解模型的性能、选择适合的模型、优化模型以及辅助决策。
对于回归问题的建模和预测具有重要的实际意义。

【scikit-learn基础】--『回归模型评估』之偏差分析的更多相关文章

(原创)（四）机器学习笔记之Scikit Learn的Logistic回归初探
目录 5.3 使用LogisticRegressionCV进行正则化的 Logistic Regression 参数调优一.Scikit Learn中有关logistics回归函数的介绍 1. 交叉 ...
机器学习之路：python 集成回归模型随机森林回归RandomForestRegressor 极端随机森林回归ExtraTreesRegressor GradientBoostingRegressor回归预测波士顿房价
python3 学习机器学习api 使用了三种集成回归模型 git: https://github.com/linyi0604/MachineLearning 代码: from sklearn.dat ...
Poisson回归模型
Poisson回归模型也是用来分析列联表和分类数据的一种方法,它实际上也是对数线性模型的一种,不同点是对数线性模型假定频数分布为多项式分布,而泊松回归模型假定频数分布为泊松分布. 首先我们来认识一下泊 ...
(原创)（三）机器学习笔记之Scikit Learn的线性回归模型初探
一.Scikit Learn中使用estimator三部曲 1. 构造estimator 2. 训练模型:fit 3. 利用模型进行预测:predict 二.模型评价模型训练好后,度量模型拟合效果的 ...
逻辑回归模型(Logistic Regression, LR)基础
逻辑回归模型(Logistic Regression, LR)基础逻辑回归(Logistic Regression, LR)模型其实仅在线性回归的基础上,套用了一个逻辑函数,但也就由于这个逻辑函 ...
『高性能模型』轻量级网络ShuffleNet_v1及v2
项目实现:GitHub 参考博客:CNN模型之ShuffleNet v1论文:ShuffleNet: An Extremely Efficient Convolutional Neural Netwo ...
回归模型效果评估系列1-QQ图
(erbqi)导语 QQ图全称 Quantile-Quantile图,也就是分位数-分位数图,简单理解就是把两个分布相同分位数的值,构成点(x,y)绘图:如果两个分布很接近,那个点(x,y)会分布在y ...
『高性能模型』HetConv: HeterogeneousKernel-BasedConvolutionsforDeepCNNs
论文地址:HetConv 一.现有网络加速技术 1.卷积加速技术作者对已有的新型卷积划分如下:标准卷积.Depthwise 卷积.Pointwise 卷积.群卷积(相关介绍见『高性能模型』深度可分离 ...
『高性能模型』轻量级网络MobileNet_v2
论文地址:MobileNetV2: Inverted Residuals and Linear Bottlenecks 前文链接:『高性能模型』深度可分离卷积和MobileNet_v1 一.Mobil ...
20165308『网络对抗技术』Exp5 MSF基础应用
20165308『网络对抗技术』Exp5 MSF基础应用一.原理与实践说明实践内容本实践目标是掌握metasploit的基本应用方式,重点常用的三种攻击方式的思路.具体需要完成: 一个主动攻击实 ...

随机推荐

MD5 or Bcrypt?
MD5 or Bcrypt? 摘要首先是一个错误的认识观念问题,很多人觉得MD5是一个加密算法.不然,他实则是一种摘要算法,也可以叫哈希函数.他的作用是将目标文本转换成具有相同长度.不可逆的杂凑字符 ...
CTFshow元旦水友赛 CRYPTO WP
CRYPTO 新年祝福题目加油!为跨年夜还在努力的自己加油! ctfshow全体工作人员,祝您学业有成,阖家幸福! 解码下面base64 Y3Rmc2hvd3vmlK/ku5jlrp3lj6Pku ...
技巧：在Excel或Word中将回车替换掉
一.在Excel中替换将回车替换为逗号或其他字符,如下面的屏幕截图所示. 1. 在查找和替换对话框中查找内容字段,请按 Ctrl + J 键,然后在更换字段中,键入所需的字符,在这种情况 ...
构建健康游戏环境：DFA算法在敏感词过滤的应用
现在的游戏有敏感词检测这一点,相信大家也不陌生了,不管是聊天,起名,签名还是简介,只要是能让玩家手动输入的地方,一定少不了敏感词识别,至于识别之后是拒绝修改还是星号替换,这个就各有各的做法了,但是绕不 ...
Android学习--Intent
Intent : Intent 是一个动作的完整描述,一种运行时的绑定机制,Intent中包含对Intent有兴趣的组件信息,如对动作的产生组件.接受组件和传递的数据信息.Android根据此Inte ...
Rabin-Karp 字符串查找算法
和一般的比较字符串的方式不同,Rabin-Karp 查找算法通过对子字符串进行 hash,如果在原有字符串中找到了 hash 值相同的字符串,那么继续比较是否是需要查找的字串,一般来讲,如果 hash ...
如何使用 Helm 在 K8s 上集成 Prometheus 和 Grafana｜Part 2
在 Part 1 中,我们一起了解了什么是 Prometheus 和 Grafana,以及使用这些工具的前提条件和优势.在本部分,将继续带您学习如何安装 Helm 以及如何使用 Prometheus ...
计算机网络分层结构--OSI模型、TCP/IP 模型、五层模型
计算机网络分层结构 OSI参考模型与TCP/IP参考模型五层参考模型
微信小程序中业务域名的配置
需要配置业务域名,需要先将域名http转https 1,首先在该微信小程序的公众号平台中下载业务域名的证书 2,将下载的证书放进nginx的根目录 3,在nginx中 (root为.txt的地址)
痞子衡嵌入式：原来i.MXRT1170内部RAM的ECC初始化工作可全部由ROM完成
大家好,我是痞子衡,是正经搞技术的痞子.今天痞子衡给大家分享的是i.MXRT1170内部RAM的ECC初始化工作可全部由ROM完成. 痞子衡之前写了三篇文章 <M7 FlexRAM ECC> ...

【scikit-learn基础】--『回归模型评估』之偏差分析

1. **R² ** 分数