模型评估在统计学和机器学习中具有至关重要,它帮助我们主要目标是量化模型预测新数据的能力。

在这个数据充斥的时代,没有评估的模型就如同盲人摸象,可能带来误导和误判。
模型评估不仅是一种方法,更是一种保障,确保我们在数据海洋中航行时,能够依赖准确的模型,做出明智的决策。

本篇主要介绍模型评估时,如何利用scikit-learn帮助我们快速进行各种误差的分析。

1. 平均绝对误差

平均绝对误差(Mean Absolute Error,简称MAE),它用于度量预测值与真实值之间的平均误差大小
它能直观地反映出预测的准确性,MAE越小,说明模型的预测能力越好

1.1. 计算公式

平均绝对误差的计算公式如下:
\(\text{MAE}(y, \hat{y}) = \frac{1}{n} \sum_{i=0}^{n-1} \left| y_i - \hat{y}_i \right|.\)
其中,\(n\)是样本数量,\(y_i\)是真实值,\(\hat{y_i}\)是预测值。

1.2. 使用示例

from sklearn.metrics import mean_absolute_error
import numpy as np # 随机生成100个sample
n = 100
y_true = np.random.randint(1, 100, n)
y_pred = np.random.randint(1, 100, n) mean_absolute_error(y_true, y_pred)

mean_absolute_error就是scikit-learn中用来计算MAE的函数。

2. 均方误差

均方误差Mean Squared Error,简称MSE),它用于衡量模型的预测值与实际观测值之间的差异。
MSE越小,表示模型的预测值与实际观测值之间的差异较小,即模型具有较高的预测精度。

2.1. 计算公式

\(\text{MSE}(y, \hat{y}) = \frac{1}{n} \sum_{i=0}^{n - 1} (y_i - \hat{y}_i)^2.\)
其中,\(n\)是样本数量,\(y_i\)是真实值,\(\hat{y_i}\)是预测值。

2.2. 使用示例

from sklearn.metrics import mean_squared_error
import numpy as np n = 100
y_true = np.random.randint(1, 100, n)
y_pred = np.random.randint(1, 100, n) mean_squared_error(y_true, y_pred)

mean_squared_error就是scikit-learn中用来计算MSE的函数。

3. 均方对数误差

均方对数误差Mean Squared Log Error,简称MSLE),与均方误差MSE)相比,MSLE在计算误差时先对预测值和真实值取对数。
通过对数转换,MSLE能够减小较大值和较小值之间的差异,使得误差度量更为稳定。
MSLE的值越小,表示预测结果与真实值的差异越小,即模型的拟合程度越好。

3.1. 计算公式

\(\text{MSLE}(y, \hat{y}) = \frac{1}{n} \sum_{i=0}^{n - 1} (\log_e (1 + y_i) - \log_e (1 + \hat{y}_i) )^2.\)
其中,\(n\)是样本数量,\(y_i\)是真实值,\(\hat{y_i}\)是预测值。

3.2. 使用示例

from sklearn.metrics import mean_squared_log_error
import numpy as np n = 100
y_true = np.random.randint(1, 100, n)
y_pred = np.random.randint(1, 100, n) mean_squared_log_error(y_true, y_pred)

mean_squared_log_error就是scikit-learn中用来计算MSLE的函数。

4. 平均绝对百分比误差

平均绝对百分比误差Mean Absolute Percentage Error,简称MAPE),平均绝对误差MAE)相比,MAPE将误差转化为百分比形式,这使得它在不同尺度的数据上具有更好的可比性。
MAPE越小,表示模型的预测结果与实际结果的差异较小,即模型的预测准确性较高。

4.1. 计算公式

\(\text{MAPE}(y, \hat{y}) = \frac{1}{n} \sum_{i=0}^{n-1} \frac{{}\left| y_i - \hat{y}_i \right|}{\max(\epsilon, \left| y_i \right|)}\)
其中,\(n\)是样本数量,\(y_i\)是真实值,\(\hat{y_i}\)是预测值。
\(\epsilon\)是一个任意小但严格为正的数,以避免在\(y_i\)为零时出现未定义的结果。

4.2. 使用示例

from sklearn.metrics import mean_absolute_percentage_error
import numpy as np n = 100
y_true = np.random.randint(1, 100, n)
y_pred = np.random.randint(1, 100, n) mean_absolute_percentage_error(y_true, y_pred)

mean_absolute_percentage_error就是scikit-learn中用来计算MAPE的函数。

5. 绝对误差中值

绝对误差中值Median Absolute Error,简称MedAE),它用于衡量预测模型对于数据集的精度。
平均误差相比,中值对异常值更为稳健,对于数据集中的异常值和离群点,绝对误差中值具有较强的抗性。
MedAE越小的模型,通常意味着它在大多数数据点上的预测更为准确。

5.1. 计算公式

\(\text{MedAE}(y, \hat{y}) = \text{median}(\mid y_1 - \hat{y}_1 \mid, \ldots, \mid y_n - \hat{y}_n \mid).\)
其中,\(y_i\)是真实值,\(\hat{y_i}\)是预测值,\(median\)表示取中位数。

5.2. 使用示例

from sklearn.metrics import median_absolute_error
import numpy as np n = 100
y_true = np.random.randint(1, 100, n)
y_pred = np.random.randint(1, 100, n) median_absolute_error(y_true, y_pred)

median_absolute_error就是scikit-learn中用来计算MedAE的函数。

6. 最大误差

最大误差Max Error),它用于衡量模型预测值与真实值之间的最大差异,揭示模型在最坏情况下的表现。
如果模型在大多数情况下的预测误差都很小,但最大误差很大,那么这可能意味着模型对于某些特定情况的处理不够好,需要进一步优化。

6.1. 计算公式

\(\text{Max Error}(y, \hat{y}) = \max(| y_i - \hat{y}_i |)\)
其中,\(y_i\)是真实值,\(\hat{y_i}\)是预测值,\(max\)表示取最大值。

6.2. 使用示例

from sklearn.metrics import max_error
import numpy as np n = 100
y_true = np.random.randint(1, 100, n)
y_pred = np.random.randint(1, 100, n) max_error(y_true, y_pred)

max_error就是scikit-learn中用来计算Max Error的函数。

7. 总结

本篇主要介绍了6种常用的误差分析函数,包括:

  • 平均绝对误差
  • 均方误差
  • 均方对数误差
  • 平均绝对百分比误差
  • 绝对误差中值
  • 最大误差

误差的计算方式其实也不算不复杂,不过,掌握scikit-learn中封装好的各种误差计算函数,
还是可以帮助我们在评估回归模型时节约不少时间。

【scikit-learn基础】--『回归模型评估』之误差分析的更多相关文章

  1. (原创)(四)机器学习笔记之Scikit Learn的Logistic回归初探

    目录 5.3 使用LogisticRegressionCV进行正则化的 Logistic Regression 参数调优 一.Scikit Learn中有关logistics回归函数的介绍 1. 交叉 ...

  2. 机器学习之路:python 集成回归模型 随机森林回归RandomForestRegressor 极端随机森林回归ExtraTreesRegressor GradientBoostingRegressor回归 预测波士顿房价

    python3 学习机器学习api 使用了三种集成回归模型 git: https://github.com/linyi0604/MachineLearning 代码: from sklearn.dat ...

  3. (原创)(三)机器学习笔记之Scikit Learn的线性回归模型初探

    一.Scikit Learn中使用estimator三部曲 1. 构造estimator 2. 训练模型:fit 3. 利用模型进行预测:predict 二.模型评价 模型训练好后,度量模型拟合效果的 ...

  4. 逻辑回归模型(Logistic Regression, LR)基础

    逻辑回归模型(Logistic Regression, LR)基础   逻辑回归(Logistic Regression, LR)模型其实仅在线性回归的基础上,套用了一个逻辑函数,但也就由于这个逻辑函 ...

  5. 『高性能模型』轻量级网络ShuffleNet_v1及v2

    项目实现:GitHub 参考博客:CNN模型之ShuffleNet v1论文:ShuffleNet: An Extremely Efficient Convolutional Neural Netwo ...

  6. 回归模型效果评估系列1-QQ图

    (erbqi)导语 QQ图全称 Quantile-Quantile图,也就是分位数-分位数图,简单理解就是把两个分布相同分位数的值,构成点(x,y)绘图:如果两个分布很接近,那个点(x,y)会分布在y ...

  7. 『高性能模型』HetConv: HeterogeneousKernel-BasedConvolutionsforDeepCNNs

    论文地址:HetConv 一.现有网络加速技术 1.卷积加速技术 作者对已有的新型卷积划分如下:标准卷积.Depthwise 卷积.Pointwise 卷积.群卷积(相关介绍见『高性能模型』深度可分离 ...

  8. 『高性能模型』轻量级网络MobileNet_v2

    论文地址:MobileNetV2: Inverted Residuals and Linear Bottlenecks 前文链接:『高性能模型』深度可分离卷积和MobileNet_v1 一.Mobil ...

  9. 20165308『网络对抗技术』Exp5 MSF基础应用

    20165308『网络对抗技术』Exp5 MSF基础应用 一.原理与实践说明 实践内容 本实践目标是掌握metasploit的基本应用方式,重点常用的三种攻击方式的思路.具体需要完成: 一个主动攻击实 ...

  10. 2017-2018-2 20155303『网络对抗技术』Exp9:Web安全基础

    2017-2018-2 『网络对抗技术』Exp9:Web安全基础 --------CONTENTS-------- 一.基础问题回答 1.SQL注入攻击原理,如何防御? 2.XSS攻击的原理,如何防御 ...

随机推荐

  1. 一文搞定K8S监控告警平台选型

    公众号「架构成长指南」,专注于生产实践.云原生.分布式系统.大数据技术分享 前言 最近在搞K8S的监控告警平台选型,对比了目前比较流行两款开源平台kube-prometheus.夜莺,也踩了一些坑分享 ...

  2. 【C++】【图像处理】均值滤波 and 高斯滤波 and 中值滤波 (低通滤波器)and Sobel算子边缘提取算法解析(以.raw格式的图像为基础进行图像处理、gray levels:256)

    1 void meanFilter(BYTE* image, int width, int height, BYTE* outImg) 2 { 3 //均值滤波 4 int smth[9]; 5 in ...

  3. 一个WPF版的Layui前端UI库

    前言 相信做.NET后端开发的很多小伙伴都用过Layui前端UI组件库,今天我们分享一个WPF版的Layui前端UI样式库:Layui-WPF. WPF介绍 WPF 是一个强大的桌面应用程序框架,用于 ...

  4. #11独立开发周总结|核心OKR1000元/月已达标

    核心OKR:1000元/月达成情况 算上微信上收费了200多元,核心OKR已达标 12.25-12.29本周完成事项 产品方面 本周产品上主要是在进行重构的测试,顺利上线,线上问题也比较少 运营方面 ...

  5. 现代 CSS 解决方案:文字颜色自动适配背景色!

    在 23 年的 CSS 新特性中,有一个非常重要的功能更新 -- 相对颜色. 简单而言,相对颜色的功能,让我们在 CSS 中,对颜色有了更为强大的掌控能力. 其核心功能就是,让我们能够基于一个现有颜色 ...

  6. export详解

    linux下export命令详解 export:将自定义变量设定为系统环境变量(当前shell中有效) 功能说明:设置或显示环境变量. 语 法:export [-fnp][变量名称]=[变量设置值] ...

  7. CodeArts Repo:6大特性助力企业代码稳定可靠安全无忧

    摘要:华为云代码托管服务CodeArts Repo已于2月20日22:00正式上线,这是一款全栈自研.基于Git的云端代码托管服务,旨在保护企业核心代码资产安全,提升企业研发质量和效率. 本文分享自华 ...

  8. LiteOS内核源码分析:位操作模块

    摘要:本文带领大家一起剖析了LiteOS位操作模块的源代码,代码非常简单,参考官方示例程序代码,实际编译运行一下,加深理解. 在进一步分析之前,本文我们先来熟悉下LiteOS提供的辅助功能模块–位操作 ...

  9. 一文带你 GNN 从入门到起飞,做一个饭盆最稳 GNN 饭人!

    摘要:本文介绍了图神经网络在学界和业界的发展情况,并给出了图神经网络的基本概念与表示形式,总结了图神经网络的变体,最后介绍了华为云图神经网络框架. 本文分享自华为云社区<干饭人,干饭魂,搞懂图神 ...

  10. 提升数据决策时效,火山引擎DataLeapCDC分库分表能力升级!

    更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,回复[1]进入官方交流群   近日,大数据研发治理套件DataLeap数据集成更新CDC分库分表能力,可做到将多个实例的多个数据库的多个分表 ...