Python回归分析五部曲(二)—多重线性回归
基础铺垫
多重线性回归(Multiple Linear Regression)
研究一个因变量与多个自变量间线性关系的方法
在实际工作中,因变量的变化往往受几个重要因素的影响,此时就需要用2个或2个以上的影响因素作为自变量来解释因变量的变化,这就是多重线性回归;
多重线性回归模型
1.模型
2.模型关键词解析
偏回归系数
- 多重线性模型中包含多个自变量,它们同时对因变量y发生作用,如果要考察一个自变量对因变量y的影响,就必须假设其他自变量保持不变;因此,多重线性模型中的回归系数称为偏回归系数,偏回归系数β_1是指在其他自变量保持不变的情况下,自变量x_1每变动一个单位,引起的因变量y的平均变化;β_2到β_n依次类推;
回顾-回归分析步骤
根据预测目标,确定自变量和因变量
绘制散点图,确定回归模型类型
估计模型参数,建立回归模型
对回归模型进行检验
利用回归模型进行预测
案例实操-金融场景
下面,jacky通过一个金融场景的案例,开始我们的分享:某金融公司打算新开一类金融产品,现有9个金融产品的数据,包括用户购买金融产品的综合年化利率,以及公司收取用户的佣金(手续费);如下表所示,产品利率为11%,佣金为50,我们需要预测这款金融产品的销售额
| 产品编号 | 百分比利率 | 抽取用户佣金 | 金融产品销售额 |
|---|---|---|---|
| 1 | 9 | 75 | 500 |
| 2 | 7 | 30 | 370 |
| 3 | 7 | 20 | 375 |
| 4 | 5 | 30 | 270 |
| 5 | 6 | 0 | 360 |
| 6 | 7 | 21 | 379 |
| 7 | 8 | 50 | 440 |
| 8 | 6 | 20 | 300 |
| 9 | 9 | 60 | 510 |
| 10 | 11 | 50 | ? |
import pandas
data = pandas.read_csv(
'file:///Users/apple/Desktop/jacky_1.csv',encoding='GBK'
)
第一步 确定变量
根据预测目标,确定自变量和因变量
因变量:销售额
自变量:利率、佣金
第二步 确定类型
绘制散点图,确定回归模型类型
- 从散点图和相关系数结果表可以看出,产品利率和销售额是强正相关;佣金与销售额是强负相关;因此,我们可以使用多重线性模型来解决这个问题;
我们对自变量和因变量绘制散点图,因为需要绘制多个变量两两之间的散点图,在这里介绍一个更先进的绘图方法scatter_matrix:我们把自变量和因变量从data中选取出来,然后设置好对应的参数。第一个是图片的大小,如果变量太多,我们就要把图片的尺寸设置的足够大才能够展示出来;第二个参数diagonal是变量与变量本身的绘图方式,我们选择kde,是绘制直方图,这个参数是什么意思,我们执行代码就知道了,代码如下:
import matplotlib
from pandas.tools.plotting import scatter_matrix
font = {
'family':'SimHei'
}
matplotlib.rc('font',**font)
scatter_matrix(
data[["百分比利率","抽取用户佣金","金融产品销售额"],
figsize =(10,10),diagonal = 'kid'
)
data[["百分比利率","抽取用户佣金","金融产品销售额"]].corr()
x = data[["百分比利率","抽取用户佣金"]]
y = data[["金融产品销售额"]]
第三步 建立模型
估计模型参数,建立回归模型
- 多重线性回归模型参数的估计方法与简单线性回归模型参数的估计方法是相同的:都是采用最小二乘法进行估计(对最小二乘法更详细的解析,请参见Python回归分析五步曲(一)—简单线性回归)
#建模
from sklearn.linear_model import LinearRegression
lrModel = LinearRegression()
#训练模型
lrModel.fit(x,y)
第四步 模型检验
- 对回归模型进行检验
判定系数=相关系数R2=ESSTSS=1−RSSTSS
- jacky解析:拟合完方程的参数之后,我们就要对回归模型进行检验,在简单线性回归的分享中,我们用判定系数来验证方程的拟合程度,而在多重线性回归中,如果在模型中增加一个自变量,模型中R平方往往也会相应增加,这就会给我们一个错觉:要使得模型拟合的好,只要增加自变量即可。因此,使用判定系数R平方来验证方程的拟合程度是不够科学的,需要自变量个数进行修正和调整,也就是调整判定系数;以上,我们只要理解原理即可,公式记不住也不要紧,知道多重线性模型需要用调整判定系数来判定方程的拟合程度,会用Python看结果就可以了。
第五步 模型预测
利用回归模型进行预测
- 根据已有的自变量数据,预测需要的因变量对应的结果
#预测
lrModel.predict([11,50])
#查看参数
lrModel.coef_
#查看截距
lrModel.intercept_
总结-完整代码
#---author:朱元禄---
import pandas
data = pandas.read_csv(
'file:///Users/apple/Desktop/jacky_1.csv',encoding='GBK'
)
import matplotlib
from pandas.tools.plotting import scatter_matrix
font = {
'family':'SimHei'
}
matplotlib.rc('font',**font)
scatter_matrix(
data[["百分比利率","抽取用户佣金","金融产品销售额"],
figsize =(10,10),diagonal = 'kid'
)
data[["百分比利率","抽取用户佣金","金融产品销售额"]].corr()
x = data[["百分比利率","抽取用户佣金"]]
y = data[["金融产品销售额"]]
#建模
from sklearn.linear_model import LinearRegression
lrModel = LinearRegression()
#训练模型
lrModel.fit(x,y)
#预测
lrModel.predict([11,50])
#查看参数
lrModel.coef_
#查看截距
lrModel.intercept_Python回归分析五部曲(二)—多重线性回归的更多相关文章
- python回归分析五部曲
Python回归分析五部曲(一)—简单线性回归 https://blog.csdn.net/jacky_zhuyuanlu/article/details/78878405?ref=myread Py ...
- Python回归分析五部曲(一)—简单线性回归
回归最初是遗传学中的一个名词,是由英国生物学家兼统计学家高尔顿首先提出来的,他在研究人类身高的时候发现:高个子回归人类的平均身高,而矮个子则从另一方向回归人类的平均身高: 回归分析整体逻辑 回归分析( ...
- Python回归分析五部曲(三)—一元非线性回归
(一)基础铺垫 一元非线性回归分析(Univariate Nonlinear Regression) 在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条曲线近似表示,则称为一元非线性回归 ...
- SPSS实例教程:多重线性回归,你用对了么
SPSS实例教程:多重线性回归,你用对了么 在实际的医学研究中,一个生理指标或疾病指标往往受到多种因素的共同作用和影响,当研究的因变量为连续变量时,我们通常在统计分析过程中引入多重线性回归模型,来分析 ...
- Python的单元测试(二)
title: Python的单元测试(二) date: 2015-03-04 19:08:20 categories: Python tags: [Python,单元测试] --- 在Python的单 ...
- SPSS数据分析—多重线性回归
只有一个自变量和因变量的线性回归称为简单线性回归,但是实际上,这样单纯的关系在现实世界中几乎不存在,万事万物都是互相联系的,一个问题的产生必定多种因素共同作用的结果. 对于有多个自变量和一个因变量的线 ...
- 机器学习算法与Python实践之(二)支持向量机(SVM)初级
机器学习算法与Python实践之(二)支持向量机(SVM)初级 机器学习算法与Python实践之(二)支持向量机(SVM)初级 zouxy09@qq.com http://blog.csdn.net/ ...
- Python爬虫学习:二、爬虫的初步尝试
我使用的编辑器是IDLE,版本为Python2.7.11,Windows平台. 本文是博主原创随笔,转载时请注明出处Maple2cat|Python爬虫学习:二.爬虫的初步尝试 1.尝试抓取指定网页 ...
- python机器学习实战(二)
python机器学习实战(二) 版权声明:本文为博主原创文章,转载请指明转载地址 http://www.cnblogs.com/fydeblog/p/7159775.html 前言 这篇noteboo ...
随机推荐
- 如何理解归一化(Normalization)对于神经网络(深度学习)的帮助?
如何理解归一化(Normalization)对于神经网络(深度学习)的帮助? 作者:知乎用户链接:https://www.zhihu.com/question/326034346/answer/730 ...
- 关于RESTful API
添几篇文章: 一.What Is REST? 二.RESTful API最佳实践 三.MS Azure——API Design 这些文章里面也推荐了一些关联文章,微软那篇最详细,非常值得一读.
- hdu 4826 三维dp
dp的问题除了递推过程的设计之外 还有数据结构的选择以及怎样合理的填充数据 这个的填充是个坑..#include<iostream> #include<cstdio> #inc ...
- idea插件,配置
1.插件 2.配置 1.去除double shift 全局搜索的功能,反正不符合我的习惯 Help -> Find Action 搜索 registry ,勾选 double.click.ha ...
- UEditor编辑器
1.UEditor编辑器官网:http://ueditor.baidu.com/website/ 2.下载文件:选择 1.4.3.3 .Net版本 UTF-8板 3.建一个ueditor文件夹,将下 ...
- 复杂度n求数组的第K大值
利用快速排序的方法进行: #include<iostream> using namespace std; int test() { ; return a; } int quickSort( ...
- pthread 编程基础
Linux系统下的多线程遵循POSIX线程接口,称为pthread.编写Linux下的多线程程序,需要使用头文件pthread.h,连接时需要使用库libpthread.a.与vxworks上任务的概 ...
- sql server常用函数总结
1. 日期函数相关 日期格式格式化函数:),UpdateTime,) --第3个参数为是要转换成的日期的格式,不同的数字代表不同的格式: 日期加减函数: ,UpdateTime) --第一个参数是刻度 ...
- Stanford NLP 课程笔记之计算字符串距离
在自然语言处理任务中,有时候需要计算两个字符串之间的相似度,也可以称作是两者之间的距离,用最小编辑距离表示. 最小编辑距离用{Insertion,Deletion,Substitution}这三种操作 ...
- 小程序e.currentTarget与e.target 两个属性的区别
注册事件是获取小程序组件上面的自定义属性值 e.target是获取当前点击的标签上面的自定义属性 e.currentTarget是获取注册点击事件标签内的自定义属性