机器学习-回归中的相关度和R平方值

1. 皮尔逊相关系数(Pearson Correlation Coefficient)

1.1 衡量两个值线性相关强度的量

1.2 取值范围[-1, 1]

正相关：>0, 负相关：<0, 无相关：=0

1.3 要理解Pearson相关系数，首先要理解协方差（Covariance），协方差是一个反映两个随机变量相关程度的指标，如果一个变量跟随着另一个变量同时变大或者变小，那么这两个变量的协方差就是正值，反之相反，公式如下：

方差：

Pearson相关系数公式如下：

注意：有了协方差，为什么还使用皮尔逊相关系数？虽然协方差能反映两个随机变量的相关程度（协方差大于0的时候表示两者正相关，小于0的时候表示两者负相关），但是协方差值的大小并不能很好地度量两个随机变量的关联程度，例如，现在二维空间中分布着一些数据，我们想知道数据点坐标X轴和Y轴的相关程度，如果X与Y的相关程度较小但是数据分布的比较离散，这样会导致求出的协方差值较大，用这个值来度量相关程度是不合理的。
为了更好的度量两个随机变量的相关程度，引入了Pearson相关系数，其在协方差的基础上除以了两个随机变量的标准.

2. 计算方法举例：

x y

1 10

3 12

8 24

7 21

9 34

在Excel中计算：

3. 其他例子

4. R平方值

4.1 定义：决定系数，反应因变量的全部变异能通过回归关系被自变量解释的比例。

也就是说，对于已经建模的模型，多大程度上可以解释数据

4.2 描述：如R平方为0.8，则表示回归关系可以解释因变量80%的变异。换句话说，如果我们控制自变量不变，则因变量的变异程度会减少80%。

4.3 简单线性回归：R^2 = r * r (r为皮尔逊相关系数)

多元线性回归：

R平方也有局限性：R平方随着自变量的增加会变大，R平方和样本量是有关系的。因此，我们要对R平方进行修正。修正方法：

实际中一般会选择修正后的R平方值对线性回归模型对拟合度进行评判

Python实现：

# -*- coding:utf-8 -*-

import numpy as np

from astropy.units import Ybarn

import math

#相关度

def computeCorrelation(X, Y):

    xBar = np.mean(X)

    yBar = np.mean(Y)

    SSR = 0

    varX = 0

    varY = 0

    for i in range(0, len(X)):

        diffXXbar = X[i] - xBar

        diffYYbar = Y[i] - yBar

        SSR += (diffXXbar * diffYYbar)

        varX += diffXXbar**2

        varY += diffYYbar**2

    SST = math.sqrt(varX * varY)

    return SSR / SST

#测试

testX = [1, 3, 8, 7, 9]

testY = [10, 12, 24, 21, 34]

# print("相关度r:", computeCorrelation(testX, testY))

#相关度r: 0.940310076545

#R平方

#简单线性回归：

# print("r^2:", str(computeCorrelation(testX, testY)**2))

#r^2: 0.884183040052

#多个x自变量时：

def polyfit(x, y, degree): #degree自变量x次数

    result = {}

    coeffs = np.polyfit(x, y, degree)

    result['polynomial'] = coeffs.tolist()

    p = np.poly1d(coeffs)

    yhat = p(x)

    ybar = np.sum(y)/len(y)

    ssreg = np.sum((yhat - ybar)**2)

    sstot = np.sum((y - ybar)**2)

    result['determination'] = ssreg / sstot

    return  result

#测试

print(polyfit(testX, testY, 1)["determination"])

#r^2:0.884183040052

机器学习-回归中的相关度和R平方值的更多相关文章

day-14 回归中的相关系数和决定系数概念及Python实现
衡量一个回归模型常用的两个参数:皮尔逊相关系数和R平方一.皮尔逊相关系数在统计学中,皮尔逊相关系数( Pearson correlation coefficient),又称皮尔逊积矩相关系数(Pe ...
斯坦福《机器学习》Lesson4感想--1、Logistic回归中的牛顿方法
在上一篇中提到的Logistic回归是利用最大似然概率的思想和梯度上升算法确定θ,从而确定f(θ).本篇将介绍还有一种求解最大似然概率ℓ(θ)的方法,即牛顿迭代法. 在牛顿迭代法中.如果一个函数是,求 ...
Apache Spark 2.2.0 中文文档 - SparkR (R on Spark) | ApacheCN
SparkR (R on Spark) 概述 SparkDataFrame 启动: SparkSession 从 RStudio 来启动创建 SparkDataFrames 从本地的 data fr ...
回归模型效果评估系列3-R平方
决定系数(coefficient of determination,R2)是反映模型拟合优度的重要的统计量,为回归平方和与总平方和之比.R2取值在0到1之间,且无单位,其数值大小反映了回归贡献的相对程 ...
Echarts实现Excel趋势线和R平方计算思路
测试数据 [19550, 7.1 ],[22498, 8.44 ],[25675, 9.56 ],[27701, 10.77],[29747, 11.5 ],[32800, 12.27],[34822 ...
机器学习算法中的准确率(Precision)、召回率(Recall)、F值(F-Measure)
摘要: 数据挖掘.机器学习和推荐系统中的评测指标—准确率(Precision).召回率(Recall).F值(F-Measure)简介. 引言: 在机器学习.数据挖掘.推荐系统完成建模之后,需要对模型 ...
【笔记】逻辑回归中使用多项式（sklearn）
在逻辑回归中使用多项式特征以及在sklearn中使用逻辑回归并添加多项式在逻辑回归中使用多项式特征在上面提到的直线划分中,很明显有个问题,当样本并没有很好地遵循直线划分(非线性分布)的时候,其预测 ...
javascript基础程序（算出一个数的平方值、算出一个数的阶乘、输出!- !- !- !- !- -! -! -! -! -! 、函数三个数中的最大数）
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
今天在Mac机器上使用了Flex Builder编辑了一个源代码文件，保存后使用vim命令去打开时发现系统自动在每一行的结尾添加了^M符号，其实^M在Linux/Unix中是非常常见的，也就是我们在Win中见过的/r回车符号。由于编辑软件的编码问题，某些IDE的编辑器在编辑完文件之后会自动加上这个^M符号。看起来对我们的源代码没有任何影响，其实并不然，当我们把源代码文件Check In到svn之类
今天在Mac机器上使用了Flex Builder编辑了一个源代码文件,保存后使用vim命令去打开时发现系统自动在每一行的结尾添加了^M符号,其实^M在Linux/Unix中是非常常见的,也就是我们在W ...

随机推荐

HTML5 localStorage setItem getItem removeItem
HTML5 WEB存储中提供了两种客户端的数据存储方法:localStorage 还有sessionStorage localStorage: localStorage 方法存储的数据没有时间限制.第 ...
190707Python-Redis
一.Redis的简单使用 Redis操作模式 # Author:Li Dongfei import redis r = redis.Redis(host='192.168.56.7', port=63 ...
dom4j使用方式
使用dom4j读取xml 1.读取xml文件 SAXReader reader = new SAXReader(); Document doc = reader.read(new File(" ...
拉取代码产生冲突 && 切换分支
1.拉取代码产生冲突项目中用的主要是 IDEA 编辑器,拉取代码时产生冲突的时候,就先 add + commit 一下,然后再拉取代码,这样子就不冲突了. 拉取过后再push一次. 2.切换一个新增 ...
zabbix图形刷新延迟解决
环境: 服务端 ip :192.168.1.204 hostname:www.test.com 服务端 ip :192.168.1.206 hostname:www ...
Oracle 归档日志管理
一.Oracle日志介绍 1.Oracle日志分类分三大类: Alert log files--警报日志,Trace files--跟踪日志(用户和进程)和 redo log ...
Redis 入门 3.1 热身
3.1 热身 1. 获得符合规则的键名列表 KEYS pattern pattern 支持 glob 风格通配符格式语言字符组 ? 匹配一个字符 * 匹配任意个(包括0个)字符 [] 匹配括号间的 ...
js在页面中添加一个元素 —— 添加弹幕
参考地址 [往下拉 —— 使用HTML DOM appendChild() 方法实现元素的添加 ] 一.创建 HTML <div class="right_liuyan"&g ...
LeetCode.965-单一二叉树(Univalued Binary Tree)
这是悦乐书的第366次更新,第394篇原创 01 看题和准备今天介绍的是LeetCode算法题中Easy级别的第228题(顺位题号是965).如果树中的每个节点具有相同的值,则二叉树是单一的.当且仅 ...
图片下载&&非同源图片下载&&同源下载&&网页点击下载图片
非同源图片下载(html添加canvas标签) 方法1: downloadImgByBase64(url){ console.log() // 创建隐藏的可下载链接 // let blob = ...

机器学习-回归中的相关度和R平方值

机器学习-回归中的相关度和R平方值的更多相关文章

随机推荐

热门专题