全文链接:http://tecdat.cn/?p=30914

最近我们被客户要求撰写关于广义线性模型(GLM)的研究报告,包括一些图形和统计输出。

我们正和一位朋友讨论如何在R软件中用GLM模型处理全国的气候数据。本文获取了全国的2021年全国的气候数据

采样时间:2021年1月1号~2021年12月31号

采样地点:全国各地。

本次调查搜集了2021年全国不同地区的风向、降雨量、风速、风速变化、最大风速、最大降雨量、闪电概率等数据。并对不同变量之间的相关性进行了调查,对国家数据预测的错误率进行了GLM模型拟合。

读取数据

library(car)
library(MuMIn)
head(data)

读取因变量

numberFaults=data$numblts

head(data1)

相关分析

调查的出的各指标数据用R软件进行处理并且用箱图进行对比显示。

部分指标的箱线图

查看各变量之间的相关系数

有显著的相关关系。从变量相关关系图和矩阵,可以看到temperatureMin和temperatureMax,windChillMin,windChillMax,以及gustSpeed和windSpeed之间,rainfall和changeInRainfall,以及lightningRisk和lightningCategory之间都有教明显的线性相关关系。yearDay和windChill之间也有一定的相关关系。

glm 线性回归模型

summary(glm.po)


点击标题查阅往期内容

数据分享|R语言用lme4多层次(混合效应)广义线性模型(GLM),逻辑回归分析教育留级调查数据

左右滑动查看更多

01

02

03

04

检验是否存在多重共线性问题

kappa(cor(data[,c(1:15,17:20)]), exact=T)
## [1] 3.020456e+18

判断多重共线性变量

进一步模型优化

step(glm.po2)

summary(glm.step)

vif

从模型中变量的VIF值来看,大多数变量之间不存在较强的多重共线性关系。从残差拟合图来看,大部分样本拟合值分布在0周围,说明拟合结果较理想。981,2331和524号样本可能为异常点。从正态分布qq图来看,大部分点分布在图中直线附近。说明样本点服从正态分布。同样,拟合值的标准残差也分布在红线周围,说明拟合效果较好。同样,大部分样本的cook’ distance距离在正常范围内,392,624,622号样本的cook’ distance较大,可能会对模型产生较大的影响。

全子集回归来选出最优的模型

全子集回归,即基于全模型获得可能的模型子集,并根据AIC值等对子集排序以从中获取最优子集。

重新拟合模型

优化模型

avg(ms1, subset = delta < 10,fit=T,rank = "AIC")

残差图

plot(pre-numberFaults)

计算R-squre值,查看模型拟合情况

Rsquare=ssr/sst

从逻辑回归结果来看,模型中部分自变量对因变量的影响较为明显,达到了0.01的显著性水平,具有一定的理论意义。然而从AIC的值来看,达到了4024.881,数值较大,说明模型的拟合度较差,有进一步改进的空间。一般认为计算条件数kappa(X),k<100,说明共线性程度小,如果1001000,存在严重的多重共线性。从结果来看,kappa值远远大于1000,因此判断该模型存在严重的共线性问题,即线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。changintemp,changinrainfall,windspeedmin,lightningcategory ,rainfallMax之间存在较高的相关关系会对模型的拟合失真并且难以用以估计和预测,因此,删掉这些变量后重新对模型进行拟合。删除部分共线性程度高的变量后可以看到模型的AIC降低了,因此,模型的拟合程度提高了。大部分样本的cook’ distance距离在正常范围内,392,624,622号样本的cook’ distance较大,可能会对模型产生较大的影响。

点击文末 “阅读原文”

获取全文完整代码数据资料。

本文选自《R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据》。

点击标题查阅往期内容

R语言用Rshiny探索lme4广义线性混合模型(GLMM)和线性混合模型(LMM)
R语言用潜类别混合效应模型(Latent Class Mixed Model ,LCMM)分析老年痴呆年龄数据
R语言贝叶斯广义线性混合(多层次/水平/嵌套)模型GLMM、逻辑回归分析教育留级影响因素数据R语言估计多元标记的潜过程混合效应模型(lcmm)分析心理测试的认知过程
R语言因子实验设计nlme拟合非线性混合模型分析有机农业施氮水平
R语言非线性混合效应 NLME模型(固定效应&随机效应)对抗哮喘药物茶碱动力学研究
R语言用线性混合效应(多水平/层次/嵌套)模型分析声调高低与礼貌态度的关系
R语言LME4混合效应模型研究教师的受欢迎程度R语言nlme、nlmer、lme4用(非)线性混合模型non-linear mixed model分析藻类数据实例
R语言混合线性模型、多层次模型、回归模型分析学生平均成绩GPA和可视化
R语言线性混合效应模型(固定效应&随机效应)和交互可视化3案例
R语言用lme4多层次(混合效应)广义线性模型(GLM),逻辑回归分析教育留级调查数据R语言 线性混合效应模型实战案例
R语言混合效应逻辑回归(mixed effects logistic)模型分析肺癌数据
R语言如何用潜类别混合效应模型(LCMM)分析抑郁症状
R语言基于copula的贝叶斯分层混合模型的诊断准确性研究
R语言建立和可视化混合效应模型mixed effect model
R语言LME4混合效应模型研究教师的受欢迎程度
R语言 线性混合效应模型实战案例
R语言用Rshiny探索lme4广义线性混合模型(GLMM)和线性混合模型(LMM)
R语言基于copula的贝叶斯分层混合模型的诊断准确性研究
R语言如何解决线性混合模型中畸形拟合(Singular fit)的问题
基于R语言的lmer混合线性回归模型
R语言用WinBUGS 软件对学术能力测验建立层次(分层)贝叶斯模型
R语言分层线性模型案例
R语言用WinBUGS 软件对学术能力测验(SAT)建立分层模型
使用SAS,Stata,HLM,R,SPSS和Mplus的分层线性模型HLM
R语言用WinBUGS 软件对学术能力测验建立层次(分层)贝叶斯模型
SPSS中的多层(等级)线性模型Multilevel linear models研究整容手术数据
用SPSS估计HLM多层(层次)线性模型模型

R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据|附代码数据的更多相关文章

  1. R语言-广义线性模型

    使用场景:结果变量是类别型,二值变量和多分类变量,不满足正态分布  结果变量是计数型,并且他们的均值和方差都是相关的 解决方法:使用广义线性模型,它包含费正太因变量的分析 1.Logistics回归( ...

  2. 从广义线性模型(GLM)理解逻辑回归

    1 问题来源 记得一开始学逻辑回归时候也不知道当时怎么想得,很自然就接受了逻辑回归的决策函数--sigmod函数: 与此同时,有些书上直接给出了该函数与将 $y$ 视为类后验概率估计 $p(y=1|x ...

  3. 【机器学习与R语言】7-回归树和模型树

    目录 1.理解回归树和模型树 2.回归树和模型树应用示例 1)收集数据 2)探索和准备数据 3)训练数据 4)评估模型 5)提高模型性能 1.理解回归树和模型树 决策树用于数值预测: 回归树:基于到达 ...

  4. R语言实战(四)回归

    本文对应<R语言实战>第8章:回归 回归是一个广义的概念,通指那些用一个或多个预测变量(也称自变量或解释变量)来预测响应变量(也称因变量.效标变量或结果变量)的方法.通常,回归分析可以用来 ...

  5. 广义线性模型 GLM

    Logistic Regression 同 Liner Regression 均属于广义线性模型,Liner Regression 假设 $y|x ; \theta$ 服从 Gaussian 分布,而 ...

  6. R语言实战读书笔记(八)回归

    简单线性:用一个量化验的解释变量预测一个量化的响应变量 多项式:用一个量化的解决变量预测一个量化的响应变量,模型的关系是n阶多项式 多元线性:用两个或多个量化的解释变量预测一个量化的响应变量 多变量: ...

  7. 广义线性模型(GLM, Generalized Linear Model)

    引言:通过高斯模型得到最小二乘法(线性回归),即:      通过伯努利模型得到逻辑回归,即:      这些模型都可以通过广义线性模型得到.广义线性模型是把自变量的线性预测函数当作因变量的估计值.在 ...

  8. R语言实现SOM(自组织映射)模型(三个函数包+代码)

    每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- SOM自组织映射神经网络模型 的R语言实现 笔 ...

  9. 基于R语言的数据分析和挖掘方法总结——中位数检验

    3.1 单组样本符号秩检验(Wilcoxon signed-rank test) 3.1.1 方法简介 此处使用的统计分析方法为美国统计学家Frank Wilcoxon所提出的非参数方法,称为Wilc ...

  10. 基于R语言的数据分析和挖掘方法总结——均值检验

    2.1 单组样本均值t检验(One-sample t-test) 2.1.1 方法简介 t检验,又称学生t(student t)检验,是由英国统计学家戈斯特(William Sealy Gosset, ...

随机推荐

  1. vue+mysql实现前端对接数据库

    下载引入相关依赖 1.cnpm install --save mysql 2.cnpm install --save axios 3.cnpm install --save body-parser 4 ...

  2. Cesium之基础控件

    1. 引言 Cesium是一款三维地球和地图可视化开源JavaScript库,使用WebGL来进行硬件加速图形,使用时不需要任何插件支持,基于Apache2.0许可的开源程序,可以免费用于商业和非商业 ...

  3. Python爬虫-爬取17K小说

    随笔记录方便自己和同路人查阅. #------------------------------------------------我是可耻的分割线--------------------------- ...

  4. python基本语法入门

    思维导图 https://gitee.com/starry-tong/python-data/blob/pyimage/day03.png python语法注释 """注 ...

  5. C# datatable group by分组

    DataTable dt = new DataTable(); dt.Columns.Add("A"); dt.Columns.Add("B"); dt.Col ...

  6. MySQL8.0 存储引擎(InnoDB )buffer pool的实现原理

      数据库为了高效读取和存储物理数据,通常都会采用缓存的方式来弥补磁盘IO与CPU运算速度差.InnoDB 作为一个具有高可靠性和高性能的通用存储引擎也不例外,Buffer Pool就是其用来在内存中 ...

  7. git手记

    参照的是http://www.liaoxuefeng.com/wiki/0013739516305929606dd18361248578c67b8067c8c017b000这里的,git教程确实写得不 ...

  8. 面向对象程序设计第二次blog

    一.前言 第四次题目集总结-- 题量:较多 难度:较高 知识点: 获取输入字符串的特定字符类型 获取并储存.计算 循环.选择.字符串.数组的使用 继承 类的设计 总结:题目比较难,题量较少,需要用到正 ...

  9. MongoDB升级

    因业务需要所以需要对mongoDB客户端jar包升级,在此记录一些过程 1.jar包替换,引入依赖 3.2.2: mongo-java-driver     |     4.6.1: mongo-dr ...

  10. docker 部署rocketmq 4.4

    1 mkdir -p /home/rocketmq/{name_server,broker,console} 2 mkdir -p /home/rocketmq/name_server/{logs,s ...