模型评估在统计学和机器学习中具有至关重要,它帮助我们主要目标是量化模型预测新数据的能力。

本篇主要介绍模型评估时,如何利用scikit-learn帮助我们快速进行各种偏差的分析。

1. **R² ** 分数

R² 分数(也叫决定系数),用于衡量模型预测的拟合优度,它表示模型中因变量的变异中,可由自变量解释的部分所占的比例。
接近1的话,表示模型能够很好地解释因变量的变异,接近0的话,则表示模型解释能力较差。

需要注意的是,虽然R² 分数是一个很有用的指标,但它也有一些局限性。
例如,当模型中自变量数量增加时,R² 分数可能会增加,即使这些自变量对因变量没有真正的解释力。
因此,在使用R² 分数评估模型时,还需要结合其他诊断指标和领域知识进行综合判断。

1.1. 计算公式

\(R^2(y, \hat{y}) = 1 - \frac{\sum_{i=1}^{n} (y_i - \hat{y}_i)^2}{\sum_{i=1}^{n} (y_i - \bar{y})^2}\) 且 \(\bar{y} = \frac{1}{n} \sum_{i=1}^{n} y_i\)
其中,\(n\)是样本数量,\(y_i\)是真实值,\(\hat{y_i}\)是预测值。

1.2. 使用示例

from sklearn.metrics import r2_score

y_true = [1, 2, 3, 4]

y_pred = [0, 1, 3, 5]
r2_score(y_true, y_pred)
# 结果: 0.4 y_pred = [0, 2, 3, 4]
r2_score(y_true, y_pred)
# 结果: 0.8

r2_score就是scikit-learn中用来计算 **R² 分数 **的函数。

2. 解释方差分数

解释方差分数Explained Variance Score,简称EVS),它用于量化模型对目标变量的解释程度。
解释方差分数比较高则表示模型能够较好地解释数据中的方差,即模型的预测与实际观测值较为接近。

需要注意的是,解释方差分数仅关注模型对方差的解释程度,并不直接反映预测的准确度。

2.1. 计算公式

\(explained\_{}variance(y, \hat{y}) = 1 - \frac{Var\{ y - \hat{y}\}}{Var\{y\}}\)
其中,\(y\)是真实值,\(\hat{y}\)是预测值。
\(Var\)表示计算方差,比如:\(Var{\{y\}} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \bar{y})^2\)

2.2. 使用示例

from sklearn.metrics import explained_variance_score

y_true = [1, 2, 3, 4]

y_pred = [0, 1, 3, 5]
explained_variance_score(y_true, y_pred)
# 结果: 0.45 y_pred = [0, 2, 3, 4]
explained_variance_score(y_true, y_pred)
# 结果: 0.85

explained_variance_score就是scikit-learn中用来计算 **解释方差分数 **的函数。

3. Tweedie 偏差

Tweedie 偏差是一种用于评估广义线性模型的指标,它衡量了预测值与实际观测值之间的差异,并考虑了模型的方差结构和分布假设。

Tweedie 偏差根据Tweedie分布的定义而来,参数不同,表示不同的分布。
Tweedie 偏差较小,表示模型的预测与实际观测值之间的差异较小,即模型能够更好地拟合数据。

需要注意的是,在使用 Tweedie 偏差时,需要确保所选的 Tweedie 分布适合数据的特性,否则可能会导致不准确的评估结果。

3.1. 计算公式

\(\text{D}(y, \hat{y}) = \frac{1}{n}
\sum_{i=0}^{n - 1}
2\left(\frac{\max(y_i,0)^{2-p}}{(1-p)(2-p)}-
\frac{y_i\,\hat{y}_i^{1-p}}{1-p}+\frac{\hat{y}_i^{2-p}}{2-p}\right)\)
其中,\(n\)是样本数量,\(y_i\)是真实值,\(\hat{y_i}\)是预测值。

上面的公式中,\(p=0\)时,Tweedie 偏差相当于均方误差
\(\text{D}(y, \hat{y}) = \frac{1}{n}
\sum_{i=0}^{n - 1} (y_i-\hat{y}_i)^2\)

当 \(p=1\)时,Tweedie 偏差相当于平均泊松偏差
\(\text{D}(y, \hat{y}) = \frac{1}{n}
\sum_{i=0}^{n - 1} 2(y_i \log(y_i/\hat{y}_i) + \hat{y}_i - y_i)\)

当 \(p=2\)时,Tweedie 偏差相当于平均Gamma偏差
\(\text{D}(y, \hat{y}) = \frac{1}{n}
\sum_{i=0}^{n - 1} 2(\log(\hat{y}_i/y_i) + y_i/\hat{y}_i - 1)\)

3.2. 使用示例

from sklearn.metrics import mean_tweedie_deviance

mean_tweedie_deviance([1], [2], power=0)
# 运行结果: 1.0
mean_tweedie_deviance([100], [200], power=0)
# 运行结果: 10000.0 mean_tweedie_deviance([1], [2], power=1)
# 运行结果: 0.6137056388801092
mean_tweedie_deviance([100], [200], power=1)
# 运行结果: 61.370563888010906 mean_tweedie_deviance([1], [2], power=2)
# 运行结果: 0.3862943611198908
mean_tweedie_deviance([100], [200], power=2)
# 运行结果: 0.3862943611198908

power参数不同,同样是预测值和实际值差两倍的情况下,不同分布,Tweedie 偏差的结果差别很大。

4. 总结

总之,scikit-learn中提供的回归模型偏差的计算方式,能够帮助我们了解模型的性能、选择适合的模型、优化模型以及辅助决策。
对于回归问题的建模和预测具有重要的实际意义。

【scikit-learn基础】--『回归模型评估』之偏差分析的更多相关文章

  1. (原创)(四)机器学习笔记之Scikit Learn的Logistic回归初探

    目录 5.3 使用LogisticRegressionCV进行正则化的 Logistic Regression 参数调优 一.Scikit Learn中有关logistics回归函数的介绍 1. 交叉 ...

  2. 机器学习之路:python 集成回归模型 随机森林回归RandomForestRegressor 极端随机森林回归ExtraTreesRegressor GradientBoostingRegressor回归 预测波士顿房价

    python3 学习机器学习api 使用了三种集成回归模型 git: https://github.com/linyi0604/MachineLearning 代码: from sklearn.dat ...

  3. Poisson回归模型

    Poisson回归模型也是用来分析列联表和分类数据的一种方法,它实际上也是对数线性模型的一种,不同点是对数线性模型假定频数分布为多项式分布,而泊松回归模型假定频数分布为泊松分布. 首先我们来认识一下泊 ...

  4. (原创)(三)机器学习笔记之Scikit Learn的线性回归模型初探

    一.Scikit Learn中使用estimator三部曲 1. 构造estimator 2. 训练模型:fit 3. 利用模型进行预测:predict 二.模型评价 模型训练好后,度量模型拟合效果的 ...

  5. 逻辑回归模型(Logistic Regression, LR)基础

    逻辑回归模型(Logistic Regression, LR)基础   逻辑回归(Logistic Regression, LR)模型其实仅在线性回归的基础上,套用了一个逻辑函数,但也就由于这个逻辑函 ...

  6. 『高性能模型』轻量级网络ShuffleNet_v1及v2

    项目实现:GitHub 参考博客:CNN模型之ShuffleNet v1论文:ShuffleNet: An Extremely Efficient Convolutional Neural Netwo ...

  7. 回归模型效果评估系列1-QQ图

    (erbqi)导语 QQ图全称 Quantile-Quantile图,也就是分位数-分位数图,简单理解就是把两个分布相同分位数的值,构成点(x,y)绘图:如果两个分布很接近,那个点(x,y)会分布在y ...

  8. 『高性能模型』HetConv: HeterogeneousKernel-BasedConvolutionsforDeepCNNs

    论文地址:HetConv 一.现有网络加速技术 1.卷积加速技术 作者对已有的新型卷积划分如下:标准卷积.Depthwise 卷积.Pointwise 卷积.群卷积(相关介绍见『高性能模型』深度可分离 ...

  9. 『高性能模型』轻量级网络MobileNet_v2

    论文地址:MobileNetV2: Inverted Residuals and Linear Bottlenecks 前文链接:『高性能模型』深度可分离卷积和MobileNet_v1 一.Mobil ...

  10. 20165308『网络对抗技术』Exp5 MSF基础应用

    20165308『网络对抗技术』Exp5 MSF基础应用 一.原理与实践说明 实践内容 本实践目标是掌握metasploit的基本应用方式,重点常用的三种攻击方式的思路.具体需要完成: 一个主动攻击实 ...

随机推荐

  1. MD5 or Bcrypt?

    MD5 or Bcrypt? 摘要 首先是一个错误的认识观念问题,很多人觉得MD5是一个加密算法.不然,他实则是一种摘要算法,也可以叫哈希函数.他的作用是将目标文本转换成具有相同长度.不可逆的杂凑字符 ...

  2. CTFshow元旦水友赛 CRYPTO WP

    CRYPTO 新年祝福 题目 加油!为跨年夜还在努力的自己加油! ctfshow全体工作人员,祝您学业有成,阖家幸福! 解码下面base64 Y3Rmc2hvd3vmlK/ku5jlrp3lj6Pku ...

  3. 技巧:在Excel或Word中将回车替换掉

    一.在Excel中替换 将回车替换为逗号或其他字符,如下面的屏幕截图所示. 1. 在 查找和替换 对话框中 查找内容 字段,请按 Ctrl + J 键,然后在 更换 字段中,键入所需的字符,在这种情况 ...

  4. 构建健康游戏环境:DFA算法在敏感词过滤的应用

    现在的游戏有敏感词检测这一点,相信大家也不陌生了,不管是聊天,起名,签名还是简介,只要是能让玩家手动输入的地方,一定少不了敏感词识别,至于识别之后是拒绝修改还是星号替换,这个就各有各的做法了,但是绕不 ...

  5. Android学习--Intent

    Intent : Intent 是一个动作的完整描述,一种运行时的绑定机制,Intent中包含对Intent有兴趣的组件信息,如对动作的产生组件.接受组件和传递的数据信息.Android根据此Inte ...

  6. Rabin-Karp 字符串查找算法

    和一般的比较字符串的方式不同,Rabin-Karp 查找算法通过对子字符串进行 hash,如果在原有字符串中找到了 hash 值相同的字符串,那么继续比较是否是需要查找的字串,一般来讲,如果 hash ...

  7. 如何使用 Helm 在 K8s 上集成 Prometheus 和 Grafana|Part 2

    在 Part 1 中,我们一起了解了什么是 Prometheus 和 Grafana,以及使用这些工具的前提条件和优势.在本部分,将继续带您学习如何安装 Helm 以及如何使用 Prometheus ...

  8. 计算机网络分层结构--OSI模型、TCP/IP 模型、五层模型

    计算机网络分层结构 OSI参考模型与TCP/IP参考模型 五层参考模型

  9. 微信小程序中业务域名的配置

    需要配置业务域名,需要先将域名http转https 1,首先在该微信小程序的公众号平台中下载 业务域名的证书 2,将下载的证书放进nginx的根目录 3,在nginx中 (root为.txt的地址)

  10. 痞子衡嵌入式:原来i.MXRT1170内部RAM的ECC初始化工作可全部由ROM完成

    大家好,我是痞子衡,是正经搞技术的痞子.今天痞子衡给大家分享的是i.MXRT1170内部RAM的ECC初始化工作可全部由ROM完成. 痞子衡之前写了三篇文章 <M7 FlexRAM ECC> ...