衡量线性回归法的指标 MSE,RMS,MAE以及评价回归算法 R Square

衡量线性回归法的指标

对于分类问题来说,我们将原始数据分成了训练数据集和测试数据集两部分,我们使用训练数据集得到模型以后使用测试数据集进行测试然后和测试数据集自带的真实的标签进行对比,那么这样一来,我们就得到了我们的分类准确度,使用这种分类准确度来衡量机器学习模型的好坏

那么对于线性回归算法的好坏应该用什么来衡量呢

以简单线性回归算法来说,我们就是为了使损失函数尽可能的小,那么我们在使用的时候,实际上也是分成两部分的,我们的尽可能小是对于训练数据集来说的,实际上就是训练集和预测出的结果的差值的平方的和

当训练过程结束以后,我们将x_test带入,可以得到每个所相应的预测值

很显然,衡量标准可以是

不过,有个问题,在我们汇报这个标准的时候,这个衡量标准是个m相关的,在没有确定测试数据集的整体一致时,这个标准是没法说明的,因此我们需要对其进行一个1/m的,相当于使这个标准和样本数是无关的

我们一般称其为均方误差MSE

但是这里又有一个问题,就是量纲的问题,使y的单位变成了平方,有的时候会带来麻烦,这个时候我们就可以对上面的式子进行一个平方根处理

我们一般称其为均方根误差RMSE

这两个区别在于对于量纲是否敏感,如果使用同样量纲的话,RMSE的误差会更加的明显

还有一个就是平均绝对误差MAE,很直接,其直接得出每组数据的距离,然后加在一起,在对总数进行平均,就得到了相应的误差

那么在notebook中实现一下衡量回归标准的好坏

那么调用真实的数据,加载好相应的库

  import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets

使用波士顿的房价,将数据存放在Boston中

  boston = datasets.load_boston()

可以使用print来看看其中的内容是什么

  print(boston.DESCR)

因为我么只使用简单的线性回归,所以只取一个特征

  boston.feature_names

可知rm是第五个属性,那么我们可以只是用第五列的数值,即只用房间数量这个特征

  x = boston.data[:,5]

使x和y对应起来

  x.shape

  y = boston.target
y.shape

然后进行绘制,看看大概长什么样

  plt.scatter(x,y)

数据如下所示

从图中可以看出来,在50的地方分布了一些点,这些点是一个上限点,即数据中的最大值,比如大于50的全部属于50,对于这些点,显然有可能不是真实的点

确认一下最大值是否为50

  np.max(y)

可知确实为50,那么我们将其范围改成小于50

  x = x[y < 50.0]
y = y[y < 50.0]

然后绘制看看有什么差异

  plt.scatter(x,y)

图像如下

使用简单线性回归算法

首先进行引用,并将其分成四个值,种子设置为666

  from model_selection import train_test_split

  x_train,x_test,y_train,y_test = train_test_split(x,y,seed=666)

其中我们通过shape可以知道其样本数量

  x_train.shape
x_test.shape

然后我们使用向量化运算的方式

  from SimpleLinearRegression import SimpleLinearRegression2

确定以后进行实例化,在进行fit操作进行训练

  reg = SimpleLinearRegression2()
reg.fit(x_train,y_train)

可以看看得到的a和b

  reg.a_
reg.b_

简单的绘制一下结果

  plt.scatter(x,y)
plt.plot(x_train,reg.predict(x_train),color='r')

图像如下

然后我们可以开始进行预测,使用predict这个函数将x_test引入,结果放入

  y_predict
y_predict = reg.predict(x_test)

指标部分:

MSE

对差距进行的平方的和再除以样本总数对于test来说

  mse_test = np.sum((y_predict - y_test) ** 2) / len(y_test)
mse_test

RMSE

对MSE进行一个平方根运算

  from math import sqrt

  rmse_test = sqrt(mse_test)
rmse_test

MAE

实际预测出来的结果和真实值的差值的绝对值并求和再取平均

  mae_test = np.sum(np.absolute(y_predict - y_test)) / len(y_test)
mae_test

我们写入一个metrics.py文件,将对应的操作对应的函数写在其中,三个函数的实现过程和notebook中是一样的

代码如下

  import numpy as np
from math import sqrt def accuracy_score(y_true, y_predict):
"""计算y_true和y_predict间的准确率"""
assert y_true.shape[0] == y_predict.shape[0], \
"the size of y_true must be equal to the size of y_predict" return sum(y_true == y_predict) / len(y_true) def mean_squared_error(y_true, y_predict):
"""计算y_true和y_predict间的MSE"""
assert len(y_true) == len(y_predict), \
"the size of y_true must be equal to the size of y_predict" return np.sum((y_true - y_predict) ** 2) / len(y_true) def root_mean_squared_error(y_true, y_predict):
"""计算y_true和y_predict间的RMSE""" return sqrt(mean_squared_error(y_true, y_predict)) def mean_absolute_error(y_true, y_predict):
"""计算y_true和y_predict间的MAE"""
assert len(y_true) == len(y_predict), \
"the size of y_true must be equal to the size of y_predict" return np.sum(np.absolute(y_true - y_predict)) / len(y_true) def r2_score(y_ture, y_predict):
"""计算y_true和y_predict间的R Square""" return 1 - mean_squared_error(y_ture, y_predict) / np.var(y_ture)

我们封装好属于我们自己的标准之后,我们也可以调用自己的标准

  from metrics import mean_squared_error
from metrics import root_mean_squared_error
from metrics import mean_absolute_error

MSE

  mean_squared_error(y_test,y_predict)

RMSE

  root_mean_squared_error(y_test,y_predict)

MAE

  mean_absolute_error(y_test,y_predict)

sklearn中的MSE,MAE

在sklearn中没有RMSE的方法的

因此只能使用其他两个,包装方式相同

  from sklearn.metrics import mean_squared_error
from sklearn.metrics import mean_absolute_error

对其使用

MSE

  mean_squared_error(y_test,y_predict)

MAE

  mean_absolute_error(y_test,y_predict)

RSME和MAE的比较

他们的量纲是一样的,都对应着原始数据,但是大部分情况下,RMSE比MAE大,从公式可以发现,RMSE是有一个放大差距的一个趋势,因此,从某种程度上,是MSE小更好一些

从我个人来看,若是数据基本相同,从公式可以发现RMSE是除以的根号下的m,而MAE是除以m,这个地方就已经导致差距不小了,不知道这种理解对还是不对

评价回归算法 R Square

上面介绍了三种指标,但是这些还是有问题的,像是分类的准确度,1最好,0最坏,很直观,但是上面的指标就没法很直观的判断,种类不同,没法直接对比,这算是一个局限性

解决方法,使用R Square

简单来说,就是让1减去预测结果减去真值的差距的平方的和再除以均值减去真值的平方的和

这个R²的意义是什么呢

对于分子来说,这样的操作可以使用我们的模型预测产生的错误,对于分母来说,是使用y=y*(y的均值)预测产生的错误,这也可以当成一个模型,其与x是无关的,是一个很朴素的预测结果,称其为Baseline Model

基于此,我们可以认为,我们使用自己的模型和基础的模型来预测产生的错误,在用1减去两者相除以后,相当于衡量了我们的模型拟合住的数据的地方,即衡量了我们的式子没有产生错误的指标

这样下来,我们可以确定

1.R²是小于等于1的

2.R²越大越好。当我们的预测模型不犯任何错误的时候,R²会得到最大值1

3.当我们的模型等于基准模型的时候,R²为0

4.和准确度不一样,存在小于0的情况,如果R²小于0,这就说明我们学习到的模型还不如一个基准模型,这个时候,很可能是我们的模型不存在任何的线性关系,这个时候可能需要换别的非线性的算法了

我们可以发现式子是可以变化成

这就可以变成

这样计算会更加的方便直观

上式可以书写成

  1 - mean_squared_error(y_test,y_predict) / np.var(y_test)

在metrics.py中已经写好了R Square,我们直接引用使用即可

  from metrics import r2_score

直接就可以调用这个函数,就可以得出结果

  r2_score(y_test,y_predict)

在sklearn中一样有R Square,使用方法是一样的

  from sklearn.metrics import r2_score
r2_score(y_test,y_predict)

我们可以在其中直接添加上计算准确度的函数score

在SimpleLinearRegression中添加上

  from metrics import r2_score

  def r2_score(y_ture, y_predict):
"""计算y_true和y_predict间的R Square""" return 1 - mean_squared_error(y_ture, y_predict) / np.var(y_ture)

直接使用即可

  reg.score(x_test,y_test)

【笔记】衡量线性回归法的指标 MSE,RMS,MAE以及评价回归算法 R Square的更多相关文章

  1. 衡量线性回归法的指标MSE, RMSE,MAE和R Square

    衡量线性回归法的指标:MSE, RMSE和MAE 举个栗子: 对于简单线性回归,目标是找到a,b 使得尽可能小 其实相当于是对训练数据集而言的,即 当我们找到a,b后,对于测试数据集而言 ,理所当然, ...

  2. 机器学习:衡量线性回归法的指标(MSE、RMSE、MAE、R Squared)

    一.MSE.RMSE.MAE 思路:测试数据集中的点,距离模型的平均距离越小,该模型越精确 # 注:使用平均距离,而不是所有测试样本的距离和,因为距离和受样本数量的影响 1)公式: MSE:均方误差 ...

  3. 《Python编程从0到1》笔记3——欧几里得算法

    本节以欧几里得算法(这是人类历史上最早记载的算法)为示例,向读者展示注释.文档字符串(docstring).变量.循环.递归.缩进以及函数定义等Python语法要素.    欧几里得算法:“在数学中, ...

  4. Lasso回归算法: 坐标轴下降法与最小角回归法小结

    前面的文章对线性回归做了一个小结,文章在这: 线性回归原理小结.里面对线程回归的正则化也做了一个初步的介绍.提到了线程回归的L2正则化-Ridge回归,以及线程回归的L1正则化-Lasso回归.但是对 ...

  5. Spark MLlib回归算法------线性回归、逻辑回归、SVM和ALS

    Spark MLlib回归算法------线性回归.逻辑回归.SVM和ALS 1.线性回归: (1)模型的建立: 回归正则化方法(Lasso,Ridge和ElasticNet)在高维和数据集变量之间多 ...

  6. STL笔记(6)标准库:标准库中的排序算法

    STL笔记(6)标准库:标准库中的排序算法 标准库:标准库中的排序算法The Standard Librarian: Sorting in the Standard Library Matthew A ...

  7. 回归算法比较(线性回归,Ridge回归,Lasso回归)

    代码: # -*- coding: utf-8 -*- """ Created on Mon Jul 16 09:08:09 2018 @author: zhen &qu ...

  8. 可决系数R^2和MSE,MAE,SMSE

    波士顿房价预测 首先这个问题非常好其实要完整的回答这个问题很有难度,我也没有找到一个完整叙述这个东西的资料,所以下面主要是结合我自己的理解和一些资料谈一下r^2,mean square error 和 ...

  9. 第3章 衡量线性回归的指标:MSE,RMSE,MAE

    , , ,, , ,  , 

随机推荐

  1. 在使用XStream时没有processAnnotations方法

    https://stackoverflow.com/questions/28770909/xstream-processannotations 我遇到这个问题的原因是xstream.jar的版本问题 ...

  2. 我是如何用redis做实时订阅推送的(转)

    前阵子开发了公司领劵中心的项目,这个项目是以redis作为关键技术落地的.       先说一下领劵中心的项目吧,这个项目就类似京东app的领劵中心,当然图是截取京东的,公司的就不截了...   其中 ...

  3. MySQL数据库性能优化该如何入手

    今天小杨给大家分享一篇关于数据库查询优化,数据库的操作越来越成为整个应用的性能瓶颈了,这点对于Web应用尤其明显.关于数据库的性能,这并不只是DBA才需要担心的事,而这更是我们程序员需要去关注的事情. ...

  4. vs2013:asp.net网站发布

    1."生成"菜单"生成网站" 2."发布网站" 3.配置文件--自定义,名称 4.发布方法:文件系统,确定目标位置(另外的) 5.配置选择r ...

  5. SLAM十四讲第二版项目代码总结

    github地址:https://github.com/gaoxiang12/slambook2/tree/master/ch13 双目视觉里程计 头文件 所有的类都在myslam命名空间中 1.co ...

  6. Appearance-Based Loop Closure Detection for Online Large-Scale and Long-Term Operation

    Abstract: 本文提出一种用于大规模的长期回环检测,基于一种内存管理方法:限制用于回环检测的位置数目,以满足实时性要求. introduction: 大场景存在的最关键问题:随着场景增大,回环检 ...

  7. 【经典结构】单例模式Singleton

    单例模式Singleton 1.含义 单例模式:即一个类只能创建一个实例. 只有一个实例 --> 不可以从类外new对象 --> 构造器私有化private --> 从类里创建实例: ...

  8. Requests方法 -- 参数关联

    一.删除草稿箱1.参数这篇https://www.cnblogs.com/Teachertao/p/11144726.html 2.删除刚才保存的草稿 3.用 fiddler 抓包,抓到删除帖子的请求 ...

  9. xshell工具使用

    一.下载安装 参考见:https://www.bilibili.com/video/BV1hh411k7vy?from=search&seid=2244124597826079746 流程: ...

  10. poj1182:食物链

    poj1182:食物链 听说是poj中最经典的一道并查集题目.我一做,果然很经典呢!好难啊!!!真的琢磨了很久还弄懂.这道题的重点就在于怎么用并查集表示题目中的关系环. 1. 题干 原题传送门1 原题 ...