【scikit-learn基础】--『回归模型评估』之误差分析
模型评估在统计学和机器学习中具有至关重要,它帮助我们主要目标是量化模型预测新数据的能力。
在这个数据充斥的时代,没有评估的模型就如同盲人摸象,可能带来误导和误判。
模型评估不仅是一种方法,更是一种保障,确保我们在数据海洋中航行时,能够依赖准确的模型,做出明智的决策。
本篇主要介绍模型评估时,如何利用scikit-learn帮助我们快速进行各种误差的分析。
1. 平均绝对误差
平均绝对误差(Mean Absolute Error,简称MAE),它用于度量预测值与真实值之间的平均误差大小。
它能直观地反映出预测的准确性,MAE越小,说明模型的预测能力越好。
1.1. 计算公式
平均绝对误差的计算公式如下:
\(\text{MAE}(y, \hat{y}) = \frac{1}{n} \sum_{i=0}^{n-1} \left| y_i - \hat{y}_i \right|.\)
其中,\(n\)是样本数量,\(y_i\)是真实值,\(\hat{y_i}\)是预测值。
1.2. 使用示例
from sklearn.metrics import mean_absolute_error
import numpy as np
# 随机生成100个sample
n = 100
y_true = np.random.randint(1, 100, n)
y_pred = np.random.randint(1, 100, n)
mean_absolute_error(y_true, y_pred)
mean_absolute_error就是scikit-learn中用来计算MAE的函数。
2. 均方误差
均方误差(Mean Squared Error,简称MSE),它用于衡量模型的预测值与实际观测值之间的差异。MSE越小,表示模型的预测值与实际观测值之间的差异较小,即模型具有较高的预测精度。
2.1. 计算公式
\(\text{MSE}(y, \hat{y}) = \frac{1}{n} \sum_{i=0}^{n - 1} (y_i - \hat{y}_i)^2.\)
其中,\(n\)是样本数量,\(y_i\)是真实值,\(\hat{y_i}\)是预测值。
2.2. 使用示例
from sklearn.metrics import mean_squared_error
import numpy as np
n = 100
y_true = np.random.randint(1, 100, n)
y_pred = np.random.randint(1, 100, n)
mean_squared_error(y_true, y_pred)
mean_squared_error就是scikit-learn中用来计算MSE的函数。
3. 均方对数误差
均方对数误差(Mean Squared Log Error,简称MSLE),与均方误差(MSE)相比,MSLE在计算误差时先对预测值和真实值取对数。
通过对数转换,MSLE能够减小较大值和较小值之间的差异,使得误差度量更为稳定。MSLE的值越小,表示预测结果与真实值的差异越小,即模型的拟合程度越好。
3.1. 计算公式
\(\text{MSLE}(y, \hat{y}) = \frac{1}{n} \sum_{i=0}^{n - 1} (\log_e (1 + y_i) - \log_e (1 + \hat{y}_i) )^2.\)
其中,\(n\)是样本数量,\(y_i\)是真实值,\(\hat{y_i}\)是预测值。
3.2. 使用示例
from sklearn.metrics import mean_squared_log_error
import numpy as np
n = 100
y_true = np.random.randint(1, 100, n)
y_pred = np.random.randint(1, 100, n)
mean_squared_log_error(y_true, y_pred)
mean_squared_log_error就是scikit-learn中用来计算MSLE的函数。
4. 平均绝对百分比误差
平均绝对百分比误差(Mean Absolute Percentage Error,简称MAPE),平均绝对误差(MAE)相比,MAPE将误差转化为百分比形式,这使得它在不同尺度的数据上具有更好的可比性。MAPE越小,表示模型的预测结果与实际结果的差异较小,即模型的预测准确性较高。
4.1. 计算公式
\(\text{MAPE}(y, \hat{y}) = \frac{1}{n} \sum_{i=0}^{n-1} \frac{{}\left| y_i - \hat{y}_i \right|}{\max(\epsilon, \left| y_i \right|)}\)
其中,\(n\)是样本数量,\(y_i\)是真实值,\(\hat{y_i}\)是预测值。
\(\epsilon\)是一个任意小但严格为正的数,以避免在\(y_i\)为零时出现未定义的结果。
4.2. 使用示例
from sklearn.metrics import mean_absolute_percentage_error
import numpy as np
n = 100
y_true = np.random.randint(1, 100, n)
y_pred = np.random.randint(1, 100, n)
mean_absolute_percentage_error(y_true, y_pred)
mean_absolute_percentage_error就是scikit-learn中用来计算MAPE的函数。
5. 绝对误差中值
绝对误差中值(Median Absolute Error,简称MedAE),它用于衡量预测模型对于数据集的精度。
与平均误差相比,中值对异常值更为稳健,对于数据集中的异常值和离群点,绝对误差中值具有较强的抗性。MedAE越小的模型,通常意味着它在大多数数据点上的预测更为准确。
5.1. 计算公式
\(\text{MedAE}(y, \hat{y}) = \text{median}(\mid y_1 - \hat{y}_1 \mid, \ldots, \mid y_n - \hat{y}_n \mid).\)
其中,\(y_i\)是真实值,\(\hat{y_i}\)是预测值,\(median\)表示取中位数。
5.2. 使用示例
from sklearn.metrics import median_absolute_error
import numpy as np
n = 100
y_true = np.random.randint(1, 100, n)
y_pred = np.random.randint(1, 100, n)
median_absolute_error(y_true, y_pred)
median_absolute_error就是scikit-learn中用来计算MedAE的函数。
6. 最大误差
最大误差(Max Error),它用于衡量模型预测值与真实值之间的最大差异,揭示模型在最坏情况下的表现。
如果模型在大多数情况下的预测误差都很小,但最大误差很大,那么这可能意味着模型对于某些特定情况的处理不够好,需要进一步优化。
6.1. 计算公式
\(\text{Max Error}(y, \hat{y}) = \max(| y_i - \hat{y}_i |)\)
其中,\(y_i\)是真实值,\(\hat{y_i}\)是预测值,\(max\)表示取最大值。
6.2. 使用示例
from sklearn.metrics import max_error
import numpy as np
n = 100
y_true = np.random.randint(1, 100, n)
y_pred = np.random.randint(1, 100, n)
max_error(y_true, y_pred)
max_error就是scikit-learn中用来计算Max Error的函数。
7. 总结
本篇主要介绍了6种常用的误差分析函数,包括:
- 平均绝对误差
- 均方误差
- 均方对数误差
- 平均绝对百分比误差
- 绝对误差中值
- 最大误差
误差的计算方式其实也不算不复杂,不过,掌握scikit-learn中封装好的各种误差计算函数,
还是可以帮助我们在评估回归模型时节约不少时间。
【scikit-learn基础】--『回归模型评估』之误差分析的更多相关文章
- (原创)(四)机器学习笔记之Scikit Learn的Logistic回归初探
目录 5.3 使用LogisticRegressionCV进行正则化的 Logistic Regression 参数调优 一.Scikit Learn中有关logistics回归函数的介绍 1. 交叉 ...
- 机器学习之路:python 集成回归模型 随机森林回归RandomForestRegressor 极端随机森林回归ExtraTreesRegressor GradientBoostingRegressor回归 预测波士顿房价
python3 学习机器学习api 使用了三种集成回归模型 git: https://github.com/linyi0604/MachineLearning 代码: from sklearn.dat ...
- (原创)(三)机器学习笔记之Scikit Learn的线性回归模型初探
一.Scikit Learn中使用estimator三部曲 1. 构造estimator 2. 训练模型:fit 3. 利用模型进行预测:predict 二.模型评价 模型训练好后,度量模型拟合效果的 ...
- 逻辑回归模型(Logistic Regression, LR)基础
逻辑回归模型(Logistic Regression, LR)基础 逻辑回归(Logistic Regression, LR)模型其实仅在线性回归的基础上,套用了一个逻辑函数,但也就由于这个逻辑函 ...
- 『高性能模型』轻量级网络ShuffleNet_v1及v2
项目实现:GitHub 参考博客:CNN模型之ShuffleNet v1论文:ShuffleNet: An Extremely Efficient Convolutional Neural Netwo ...
- 回归模型效果评估系列1-QQ图
(erbqi)导语 QQ图全称 Quantile-Quantile图,也就是分位数-分位数图,简单理解就是把两个分布相同分位数的值,构成点(x,y)绘图:如果两个分布很接近,那个点(x,y)会分布在y ...
- 『高性能模型』HetConv: HeterogeneousKernel-BasedConvolutionsforDeepCNNs
论文地址:HetConv 一.现有网络加速技术 1.卷积加速技术 作者对已有的新型卷积划分如下:标准卷积.Depthwise 卷积.Pointwise 卷积.群卷积(相关介绍见『高性能模型』深度可分离 ...
- 『高性能模型』轻量级网络MobileNet_v2
论文地址:MobileNetV2: Inverted Residuals and Linear Bottlenecks 前文链接:『高性能模型』深度可分离卷积和MobileNet_v1 一.Mobil ...
- 20165308『网络对抗技术』Exp5 MSF基础应用
20165308『网络对抗技术』Exp5 MSF基础应用 一.原理与实践说明 实践内容 本实践目标是掌握metasploit的基本应用方式,重点常用的三种攻击方式的思路.具体需要完成: 一个主动攻击实 ...
- 2017-2018-2 20155303『网络对抗技术』Exp9:Web安全基础
2017-2018-2 『网络对抗技术』Exp9:Web安全基础 --------CONTENTS-------- 一.基础问题回答 1.SQL注入攻击原理,如何防御? 2.XSS攻击的原理,如何防御 ...
随机推荐
- Logistics Regression (对数几率回归)及numpy实现
Logistics Regression 我们知道线性回归模型可以处理回归问题,但是如何处理分类问题? 对于一个二分类问题,或许我们可以认为w*x+b > 0为正类,其他情况为负类. 那么模型不 ...
- 2023年度低代码平台企业TOP50榜单公布—以开源起家的JeecgBoot格外亮眼
近日,中国科学院主管.科学出版社主办的国家级核心期刊<互联网周刊>联合eNet研究院.德本咨询评选的<2023低代码企业50强>榜单正式公布.这一榜单的公布引起了业内外的广泛关 ...
- CentOS 7 安装 Python 3.X版本
由于Centos7默认安装了python2.7.5版本,因此想安装python 3.X版本就需要特殊处理. 详情可以参考南宫羽香的技术博客原文:https://www.cnblogs.com/lclq ...
- 确定了-C#是2023年度的编程语言!
大家好,我是沙漠尽头的狼.在朋友圈看到桂素伟大佬发的喜讯截图,站长赶紧翻译向大家报喜,确定了-C#是2023年度的编程语言! 在TIOBE指数的历史上,C#首次获得了年度编程语言的奖项.祝贺!二十多年 ...
- Flume快速入门
Flume快速入门 一.简介 高可用.高可靠,分布式的海量日志采集.聚合和传输系统,基于流式架构,灵活简单. event:事件 source:数据源 sink:目标 channel:数据管道 通过获取 ...
- MySQL基础篇:第八章_详解TCL语言
事务 一.含义 事务:一条或多条sql语句组成一个执行单位,一组sql语句要么都执行要么都不执行 二.特点(ACID) A 原子性:一个事务是不可再分割的整体,要么都执行要么都不执行 C 一致性:一个 ...
- GaussDB(DWS)案例丨MERGE场景下语句不下推引起的性能瓶颈问题
本文分享自华为云社区<GaussDB(DWS)性能调优:MERGE场景下语句不下推引起的性能瓶颈问题案例>,作者:O泡果奶~. 1.[问题描述] 语句执行时间过长,且该语句performa ...
- 再获殊荣!华为云GaussDB喜提“科技进步一等奖”
摘要:近日,中国电子学会科学技术奖励大会颁发了2021-2022年度中国电子学会科学技术奖获奖项目,华为云主导的"GaussDB智能云原生分布式数据库"项目荣获"科技进步 ...
- 用了这个评估优化LiteOS镜像利器,我有点飘...
摘要:本文会给大家介绍下LiteOS Studio的镜像分析工具,这可是一个评估.优化镜像文件RAM.ROM占用大小的利器. 大家都知道嵌入式开发板由于受成本限制,芯片的RAM.Flash等硬件资源有 ...
- 掌握ROMA Compose,报表清单不秃头
摘要:在没有ROMA Compose之前,完成一个跨数据源的关联查询是一个十分艰巨的任务. 1. ROMA Compose为何诞生 试想这样一个场景,主管让刚入职的小沛明天下班前给他发一份报表.小沛兴 ...