1.理解回归

确定一个唯一的因变量（需预测的值）和一个或多个数值型的自变量（预测变量）之间的关系。
回归分析对数据间复杂关系建立模型，用来估计一种处理方法对结果影响和推断未来。也可用于假设检验。
线性回归：直线回归模型
简单线性回归：单一自变量
多元回归：多变量

也可对分类变量做回归：

逻辑回归：对二元分类的结果建模
泊松回归：对整型的计数数据建模

线性回归、逻辑回归、泊松回归以及其他许多回归都属于广义线性模型（GLM）。

1）简单线性回归

方程就是一条直线：

做回归分析时，设计对α和β寻找参数估计（一般用a和b来表示）。

2）普通最小二乘估计

普通最小二乘法（OLS）：确定α和β的最优估计值，即斜率和截距的选择要使得误差（y的预测值与y的真实值之间的垂直距离，即残差）的平方和最小。

通过演算，使得误差平方最小的b值为：

即：

a的最优值为：

3）相关系数

Pearson相关系数：

经验规则（大拇指规则）来解释相关系数：

0.1-0.3弱相关；0.3-0.5中相关；0.5以上强相关，但必须根据上下文解释。

4）多元线性回归

多元回归方程：

可表示为：

经过推导（略），可计算向量β最佳估计：

可编写一个简单回归函数reg，输入y和x，返回一个估计的β系数矩阵：

reg <- function(y,x){

  x <- as.matrix(x)

  x <- cbind(Intercept=1,x)

  #solve执行矩阵逆运算， %*%两个矩阵相乘

  solve(t(x) %*% x) %*% t(x) %*% y

}

2.线性回归应用示例

预测医疗费用：利用病人的数据来预测他们的平均医疗费用，进而创建一个精算表来设定年度保费的价格。

1）收集数据

1338个案例，包括保险受益者，病人特点（年龄、性别、BMI、区域等）和历年计划计入的总医疗费用的特征。

数据下载：

链接: https://pan.baidu.com/s/1Hgn5jad2O1HCgNSJrzT9MA 提取码: vjr9

2）探索和准备数据

## Example: Predicting Medical Expenses ----

## Step 2: Exploring and preparing the data ----

insurance <- read.csv("insurance.csv", stringsAsFactors = TRUE)

str(insurance)

# summarize the charges variable

summary(insurance$expenses)

# histogram of insurance charges

hist(insurance$expenses)

# table of region

table(insurance$region)

# exploring relationships among features: correlation matrix

cor(insurance[c("age", "bmi", "children", "expenses")])

# visualing relationships among features: scatterplot matrix

pairs(insurance[c("age", "bmi", "children", "expenses")])

# more informative scatterplot matrix

library(psych)

pairs.panels(insurance[c("age", "bmi", "children", "expenses")])

两个变量相关性由椭圆形状表示：越拉伸相关性越强。每个变量的局部回归平滑曲线表示x轴和y轴变量之间的一般关系。倒U形（如age和bmi）

3）训练数据

## Step 3: Training a model on the data ----

ins_model <- lm(expenses ~ age + children + bmi + sex + smoker + region,

                data = insurance)

ins_model <- lm(expenses ~ ., data = insurance) # this is equivalent to above

# see the estimated beta coefficients

ins_model

截距很难解释，没有内在意义，在实际中常常被忽略。

指定6个变量，但输出了10个系数：因为lm函数将虚拟编码自动应用于因子类型的变量中。

估计的系数是相对于参照类别解释的。

4）评估模型

## Step 4: Evaluating model performance ----

# see more detail about the estimated beta coefficients

summary(ins_model)

5）提高模型性能

①添加非线性关系

如添加一个高阶项到回归模型中，把模型当成多项式处理。比如年龄对医疗费用的影响可能不是恒定的，越老的人，治疗费越高，考虑将age创建一个新的非线性变量age^2

②将一个数值型变量转换为二进制指标

当一个特征的影响不是累积的，而是当特征的取值达到一个给定的阈值后才产生影响。比如BMI只有大于30时才有影响。

③加入相互作用的影响

当两个特征存在共同影响时，可考虑相互作用，如肥胖指标bmi30和吸烟指标smoker可能存在相互作用。

④综合以上三点一起改进

## Step 5: Improving model performance ----

# add a higher-order "age" term

insurance$age2 <- insurance$age^2

# add an indicator for BMI >= 30

insurance$bmi30 <- ifelse(insurance$bmi >= 30, 1, 0)

# create final model

ins_model2 <- lm(expenses ~ age + age2 + children + bmi + sex +

                   bmi30*smoker + region, data = insurance)

summary(ins_model2)

R方从0.75提高到了0.87，即模型现在能解释医疗费用变化的87%。

https://www.sohu.com/a/228212348_349736

【机器学习与R语言】6-线性回归的更多相关文章

【机器学习与R语言】9- 支持向量机
目录 1.理解支持向量机(SVM) 1)SVM特点 2)用超平面分类 3)对非线性空间使用核函数 2. 支持向量机应用示例 1)收集数据 2)探索和准备数据 3)训练数据 4)评估模型 5)提高性能 ...
【机器学习与R语言】7-回归树和模型树
目录 1.理解回归树和模型树 2.回归树和模型树应用示例 1)收集数据 2)探索和准备数据 3)训练数据 4)评估模型 5)提高模型性能 1.理解回归树和模型树决策树用于数值预测: 回归树:基于到达 ...
【机器学习与R语言】1-机器学习简介
目录 1.基本概念 2.选择机器学习算法 3.使用R进行机器学习 1.基本概念机器学习:发明算法将数据转化为智能行为数据挖掘 VS 机器学习:前者侧重寻找有价值的信息,后者侧重执行已知的任务.后者 ...
【机器学习与R语言】13- 如何提高模型的性能？
目录 1.调整模型参数来提高性能 1.1 创建简单的调整模型 2.2 定制调整参数 2.使用元学习来提高性能 2.1 集成学习(元学习)概述 2.2 bagging 2.3 boosting 2.4 ...
【机器学习与R语言】12- 如何评估模型的性能？
目录 1.评估分类方法的性能 1.1 混淆矩阵 1.2 其他评价指标 1)Kappa统计量 2)灵敏度与特异性 3)精确度与回溯精确度 4)F度量 1.3 性能权衡可视化(ROC曲线) 2.评估未来的 ...
【机器学习与R语言】11- Kmeans聚类
目录 1.理解Kmeans聚类 1)基本概念 2)kmeans运作的基本原理 2.Kmeans聚类应用示例 1)收集数据 2)探索和准备数据 3)训练模型 4)评估性能 5)提高模型性能 1.理解Km ...
【机器学习与R语言】10- 关联规则
目录 1.理解关联规则 1)基本认识 2)Apriori算法 2.关联规则应用示例 1)收集数据 2)探索和准备数据 3)训练模型 4)评估性能 5)提高模型性能 1.理解关联规则 1)基本认识购物 ...
【机器学习与R语言】8- 神经网络
目录 1.理解神经网络 1)基本概念 2)激活函数 3)网络拓扑 4)训练算法 2.神经网络应用示例 1)收集数据 2)探索和准备数据 3)训练数据 4)评估模型 5)提高性能 1.理解神经网络 1) ...
【机器学习与R语言】5-规则学习算法
目录 1.分类规则原理 1.1 1R单规则算法 1.2 RIPPER算法 2. 规则学习应用示例 1)收集数据 2)探索和准备数据 3)训练数据 4)评估性能 5)提高性能 6)选择决策树中的分类规则 ...

随机推荐

防止SQL注入总结
1.预编译(占位符)可以很大程度上防止SQL注入预编译的原理是数据库厂商提供的JAR包中,对参数进行了转义 2.mybatis中,能用# 的地方,不用$,因为#是预编译占位符形式,可以防止SQL注入 ...
[技术博客] 通过ItemTouchHelper实现侧滑删除功能
通过ItemTouchHelper实现侧滑删除功能一.效果二.具体实现 demo中演示的这种左滑删除的效果在手机APP中比较常用,安卓也为我们提供了专门的辅助类ItemTouchHelper来帮助 ...
SpringBoot整合Prometheus
SpringBoot整合Prometheus 一.需求二.实现步骤 1.引入jar包 2.application.prometheus文件配置 3.查看指标数据 4.接入到 prometheus 中 ...
对dy和Δy的浅薄理解
一.导数定义当函数y=f(x)的自变量x在一点x0上产生一个增量Δx时,函数输出值的增量Δy与自变量增量Δx的比值在Δx趋于0时的极限a如果存在,a即为在x0处的导数,记作f'(x0)或df(x0) ...
查找最小生成树：克鲁斯克尔算法（Kruskal）算法
一.算法介绍 Kruskal算法是一种用来查找最小生成树的算法,由Joseph Kruskal在1956年发表.用来解决同样问题的还有Prim算法和Boruvka算法等.三种算法都是贪心算法的应用.和 ...
$.ajax、$.get和$.post方法成功，完成请求，错误或失败的回调
一.$.get和$.post的不同 1.get通过url提交的,post是通过http消息实体提交的 2.get提交大小限制为2kb,post不限制 3.get提交会被缓存下来,有安 ...
基于eNSP的NAT/NAPT协议仿真实践
一. 基本原理 eNSP(Enterprise Network Simulation Platform)是一款由华为提供的.可扩展的.图形化操作的网络仿真工具平台,主要对企业网络路由器.交换机进行软 ...
C++ 变量声明定义作用域链接性总结
变量定义变量的定义用于为变量分配存储空间,还可以为变量指定初始值.在一个程序中,变量有且仅有一个定义. 变量声明用于向程序表明变量的类型和名字.程序中变量可以声明多次,但只能定义一次. 变量的类型 ...
No versions available for io.grpc:grpc-core:jar:[1.13.1] within specified range
No versions available for i{0}:[1.13.1] within specified range maven打包的时候报错是由于同一个jar包有多个版本导致的版本冲突解决 ...
F5 BIG-IP 远程代码执行RCE(CVE-2020-5902)复现
漏洞简介 F5 BIG-IP 是美国``F5公司一款集成流量管理.DNS.出入站规则.web应用防火墙.web网关.负载均衡等功能的应用交付平台. 在F5 BIG-IP产品的流量管理用户页面 (TMU ...

【机器学习与R语言】6-线性回归