基础铺垫

  • 多重线性回归(Multiple Linear Regression)

    • 研究一个因变量与多个自变量间线性关系的方法

    • 在实际工作中,因变量的变化往往受几个重要因素的影响,此时就需要用2个或2个以上的影响因素作为自变量来解释因变量的变化,这就是多重线性回归;

多重线性回归模型

1.模型

y=α+β1x1+β2x2+...+βnxn+e
数据分析部落公众号:shujudata
方程式中:
y−因变量
xn−第n个自变量
α−常数项(回归直线在y轴上的截距)
βn−第n个偏回归系数
e−随机误差

2.模型关键词解析

  • 偏回归系数

    • 多重线性模型中包含多个自变量,它们同时对因变量y发生作用,如果要考察一个自变量对因变量y的影响,就必须假设其他自变量保持不变;因此,多重线性模型中的回归系数称为偏回归系数,偏回归系数β_1是指在其他自变量保持不变的情况下,自变量x_1每变动一个单位,引起的因变量y的平均变化;β_2到β_n依次类推;

回顾-回归分析步骤

  • 根据预测目标,确定自变量和因变量

  • 绘制散点图,确定回归模型类型

  • 估计模型参数,建立回归模型

  • 对回归模型进行检验

  • 利用回归模型进行预测

案例实操-金融场景

下面,jacky通过一个金融场景的案例,开始我们的分享:某金融公司打算新开一类金融产品,现有9个金融产品的数据,包括用户购买金融产品的综合年化利率,以及公司收取用户的佣金(手续费);如下表所示,产品利率为11%,佣金为50,我们需要预测这款金融产品的销售额

产品编号 百分比利率 抽取用户佣金 金融产品销售额
1 9 75 500
2 7 30 370
3 7 20 375
4 5 30 270
5 6 0 360
6 7 21 379
7 8 50 440
8 6 20 300
9 9 60 510
10 11 50
import pandas
data = pandas.read_csv(
'file:///Users/apple/Desktop/jacky_1.csv',encoding='GBK'
)

第一步 确定变量

  • 根据预测目标,确定自变量和因变量

    • 因变量:销售额

    • 自变量:利率、佣金

第二步 确定类型

  • 绘制散点图,确定回归模型类型

    • 从散点图和相关系数结果表可以看出,产品利率和销售额是强正相关;佣金与销售额是强负相关;因此,我们可以使用多重线性模型来解决这个问题;

我们对自变量和因变量绘制散点图,因为需要绘制多个变量两两之间的散点图,在这里介绍一个更先进的绘图方法scatter_matrix:我们把自变量和因变量从data中选取出来,然后设置好对应的参数。第一个是图片的大小,如果变量太多,我们就要把图片的尺寸设置的足够大才能够展示出来;第二个参数diagonal是变量与变量本身的绘图方式,我们选择kde,是绘制直方图,这个参数是什么意思,我们执行代码就知道了,代码如下:

import matplotlib
from pandas.tools.plotting import scatter_matrix
font = {
'family':'SimHei'
}
matplotlib.rc('font',**font) scatter_matrix(
data[["百分比利率","抽取用户佣金","金融产品销售额"],
figsize =(10,10),diagonal = 'kid'
) data[["百分比利率","抽取用户佣金","金融产品销售额"]].corr()
x = data[["百分比利率","抽取用户佣金"]]
y = data[["金融产品销售额"]]

第三步 建立模型

  • 估计模型参数,建立回归模型

    • 多重线性回归模型参数的估计方法与简单线性回归模型参数的估计方法是相同的:都是采用最小二乘法进行估计(对最小二乘法更详细的解析,请参见Python回归分析五步曲(一)—简单线性回归)
#建模
from sklearn.linear_model import LinearRegression
lrModel = LinearRegression() #训练模型
lrModel.fit(x,y)

第四步 模型检验

  • 对回归模型进行检验

    判定系数=相关系数R2=ESSTSS=1−RSSTSS
调整判定系数=相关系数R¯2=1−RSS/(n−k−1)TSS/(n−1)
其中,数据分析部落公众号(shujudata)
TSS=∑(Yi−Y¯)2总离差平方和
ESS=∑(Yi−Y¯)2回归差平方和
RSS=∑(Yi−Y¯)2残差平方和
n样本个数
k自变量个数
  • jacky解析:拟合完方程的参数之后,我们就要对回归模型进行检验,在简单线性回归的分享中,我们用判定系数来验证方程的拟合程度,而在多重线性回归中,如果在模型中增加一个自变量,模型中R平方往往也会相应增加,这就会给我们一个错觉:要使得模型拟合的好,只要增加自变量即可。因此,使用判定系数R平方来验证方程的拟合程度是不够科学的,需要自变量个数进行修正和调整,也就是调整判定系数;以上,我们只要理解原理即可,公式记不住也不要紧,知道多重线性模型需要用调整判定系数来判定方程的拟合程度,会用Python看结果就可以了。

第五步 模型预测

  • 利用回归模型进行预测

    • 根据已有的自变量数据,预测需要的因变量对应的结果
#预测
lrModel.predict([11,50]) #查看参数
lrModel.coef_ #查看截距
lrModel.intercept_

总结-完整代码

#---author:朱元禄---
import pandas
data = pandas.read_csv(
'file:///Users/apple/Desktop/jacky_1.csv',encoding='GBK'
) import matplotlib
from pandas.tools.plotting import scatter_matrix
font = {
'family':'SimHei'
}
matplotlib.rc('font',**font) scatter_matrix(
data[["百分比利率","抽取用户佣金","金融产品销售额"],
figsize =(10,10),diagonal = 'kid'
) data[["百分比利率","抽取用户佣金","金融产品销售额"]].corr()
x = data[["百分比利率","抽取用户佣金"]]
y = data[["金融产品销售额"]] #建模
from sklearn.linear_model import LinearRegression
lrModel = LinearRegression() #训练模型
lrModel.fit(x,y) #预测
lrModel.predict([11,50]) #查看参数
lrModel.coef_ #查看截距
lrModel.intercept_

Python回归分析五部曲(二)—多重线性回归的更多相关文章

  1. python回归分析五部曲

    Python回归分析五部曲(一)—简单线性回归 https://blog.csdn.net/jacky_zhuyuanlu/article/details/78878405?ref=myread Py ...

  2. Python回归分析五部曲(一)—简单线性回归

    回归最初是遗传学中的一个名词,是由英国生物学家兼统计学家高尔顿首先提出来的,他在研究人类身高的时候发现:高个子回归人类的平均身高,而矮个子则从另一方向回归人类的平均身高: 回归分析整体逻辑 回归分析( ...

  3. Python回归分析五部曲(三)—一元非线性回归

    (一)基础铺垫 一元非线性回归分析(Univariate Nonlinear Regression) 在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条曲线近似表示,则称为一元非线性回归 ...

  4. SPSS实例教程:多重线性回归,你用对了么

    SPSS实例教程:多重线性回归,你用对了么 在实际的医学研究中,一个生理指标或疾病指标往往受到多种因素的共同作用和影响,当研究的因变量为连续变量时,我们通常在统计分析过程中引入多重线性回归模型,来分析 ...

  5. Python的单元测试(二)

    title: Python的单元测试(二) date: 2015-03-04 19:08:20 categories: Python tags: [Python,单元测试] --- 在Python的单 ...

  6. SPSS数据分析—多重线性回归

    只有一个自变量和因变量的线性回归称为简单线性回归,但是实际上,这样单纯的关系在现实世界中几乎不存在,万事万物都是互相联系的,一个问题的产生必定多种因素共同作用的结果. 对于有多个自变量和一个因变量的线 ...

  7. 机器学习算法与Python实践之(二)支持向量机(SVM)初级

    机器学习算法与Python实践之(二)支持向量机(SVM)初级 机器学习算法与Python实践之(二)支持向量机(SVM)初级 zouxy09@qq.com http://blog.csdn.net/ ...

  8. Python爬虫学习:二、爬虫的初步尝试

    我使用的编辑器是IDLE,版本为Python2.7.11,Windows平台. 本文是博主原创随笔,转载时请注明出处Maple2cat|Python爬虫学习:二.爬虫的初步尝试 1.尝试抓取指定网页 ...

  9. python机器学习实战(二)

    python机器学习实战(二) 版权声明:本文为博主原创文章,转载请指明转载地址 http://www.cnblogs.com/fydeblog/p/7159775.html 前言 这篇noteboo ...

随机推荐

  1. linux下nginx搭建

    1.准备 1-1.安装 make,zlib,gcc-c++,openssl yum -y install make zlib zlib-devel gcc-c++ libtool  openssl o ...

  2. Spring Boot(一) 初步理解Spring Boot

    一.Spring Boot所解决的问题 Java开发十分笨重:繁多的配置.低下的开发效率.复杂的部署流程以头疼的第三方技术集成. Spring Boot的理念:习惯优于配置——项目中存在大量的配置,此 ...

  3. MyBatis 源码篇-DataSource

    本章介绍 MyBatis 提供的数据源模块,为后面与 Spring 集成做铺垫,从以下三点出发: 描述 MyBatis 数据源模块的类图结构: MyBatis 是如何集成第三方数据源组件的: Pool ...

  4. 01 Java 内存分配全面浅析

    http://blog.csdn.net/shimiso/article/details/8595564 Java 内存分配全面浅析  本文将由浅入深详细介绍Java内存分配的原理,以帮助新手更轻松的 ...

  5. vue 安装插件

    import VueClipboard from 'vue-clipboard2' import MessagePlugin from '../message' import * as filters ...

  6. Typeof() 和 GetType()区别

    1.typeof(x)中的x,必须是具体的类名.类型名称等,不可以是变量名称. 2.GetType()方法继承自Object,所以C#中任何对象都具有GetType()方法,它的作用和typeof() ...

  7. 深入浅出GNU X86-64 汇编

    深入浅出GNU X86-64 汇编 来源 https://blog.csdn.net/pro_technician/article/details/78173777 原文 https://www3.n ...

  8. 一个SDL2.0程序的分析

    //把图片加载到SDL_Texture SDL_Texture* loadTexture(const std::string &file, SDL_Renderer *ren){       ...

  9. oracle中查询表中的触发器,关闭启用操作

    1.查询指定表中有哪些触发器 select * from all_triggers WHERE table_name='表名' 2.禁用指定表中所有的触发器 alter table table_nam ...

  10. 简要了解web安全之sql注入

    什么是sql注入? 通俗来讲就是通过 将可执行sql语句作为参数 传入查询sql 中,在sql编译过程中 执行了传入进来的恶意 sql,从而 得到 不应该查到或者不应该执行的sql语句,对网站安全,信 ...