R 《回归分析与线性统计模型》page141,5.2

rm(list = ls()) library(car) library(MASS) library(openxlsx) A = read.xlsx("data141.xlsx") head(A) fm = lm(y~x1+x2+x3+x4 , data=A ) #判断多重共线性 vif(fm) > vif(fm) x1 x2 x3 x4 38.49621 254.42317 46.86839 282.51286 #具有多重共线性 #进行主成分回归 A.pr = princomp…

R语言线性回归分析实例《回归分析与线性统计模型》page72

y,X1,X2,X3 分别表示第 t 年各项税收收入(亿元),某国生产总值GDP(亿元),财政支出(亿元)和商品零售价格指数(%). (1) 建立线性模型: ① 自己编写函数: > library(openxlsx) > data = read.xlsx("22_data.xlsx",sheet = 1) > x = data[,-c(1,2)] > x = cbind(rep(1,17),x) > x_mat = as.matrix(x) > y…

R WLS矫正方差非齐《回归分析与线性统计模型》page115

rm(list = ls()) A = read.csv("data115.csv") fm = lm(y~x1+x2,data = A) coef(fm) A.cooks = cooks.distance(fm) #计算cook距离 new_A = cbind(A,A.cooks) #把原始数据与cook距离放在一个数据框中查看 new_A[order(A.cooks,decreasing = T),]#按cook距离降序排列显示西藏地区数据对应的cook统计量明显过大,不能放入建…

R 《回归分析与线性统计模型》page93.6

rm(list = ls()) #数据处理 library(openxlsx) library(car) library(lmtest) data = read.xlsx("xiti4.xlsx",sheet = 1) data attach(data) fm1 = lm(y~x1+x2+x3+x4+x5+x6+x7) #多元回归模型 coef(fm1) #残差图:残差分析 ei = resid(fm1) X = cbind(1,as.matrix(data[,2:8])) t = t…

R 《回归分析与线性统计模型》page164 单变量、多变量多项式模型

--多项式回归模型 --单变量多项式模型 --多变量多项式模型 rm(list = ls()) library(openxlsx) library(leaps) #单变量多项式模型# data = read.xlsx("table7-1.xlsx") head(data) plot(data$f,data$mw) attach(data) new_data = as.data.frame(cbind(mw,f,f**2,f**3)) names(new_data) = c("…

R 《回归分析与线性统计模型》page140，5.1

rm(list = ls()) library(car) library(MASS) library(openxlsx) A = read.xlsx("data140.xlsx") head(A) attach(A) fm = lm(y~x1+x2+x3 , data=A) #建立模型 vif(fm) #查看模型是否存在共线性 > vif(fm) #查看模型是否存在共线性 x1 x2 x3 21.631451 21.894402 1.334751 结果显示存在共线性 summar…

R 《回归分析与线性统计模型》page121,4.4

rm(list = ls()) A = read.xlsx("xiti_4.xlsx",sheet = 4) names(A) = c("ord","x","y") #进行回归 attach(A) fm = lm(y~x) summary(fm) coef(fm) #回归残差关于x的散点图 plot(x,resid(fm)) 成发射状,意味着方差随着x的增加而变大 #尝试用加权最小二乘 #先分类(可以聚类.手动分类) plot…

R 《回归分析与线性统计模型》page120,4.3

#P120习题4.3 rm(list = ls()) A = read.xlsx("xiti_4.xlsx",sheet = 3) names(A) = c("ord","Y","K","L") attach(A) fm = lm(Y~log(K)+log(L))#线性回归模型 ei = resid(fm) X = cbind(1,as.matrix(A[,3:4])) t = ti(ei,X) #外部学生…

R 《回归分析与线性统计模型》page119,4.2

rm(list = ls()) library(openxlsx) library(MASS) data = read.xlsx("xiti_4.xlsx",sheet = 2) data fm = lm(y~x1+x2+x3+x4+x5+x6+x7,data) par(mfrow = c(2,2),mar = 0.4+c(4,4,1,1),oma = c(0,0,2,0)) a1 = boxcox(fm,lambda = seq(0,1,by = 0.1)) #λ=0.76 l =…

R 对数变换《回归分析与线性统计模型》page103

BG:在box-cox变换中,当λ = 0时即为对数变换. 当所分析变量的标准差相对于均值而言比较大时,这种变换特别有用.对数据作对数变换常常起到降低数据波动性和减少不对称性的作用..这一变换也能有效消除异方差性 library(MASS) library(openxlsx) data= read.xlsx("data104.xlsx",sheet = 1) #导入数据 attach(data) op<-par(mfrow=c(2,2),mar=0.4+c(4,4,1,1),om…

R box-cox变换《回归分析与线性统计模型》page100

> rm(list = ls()) > library(openxlsx) > electric= read.xlsx("data101.xlsx",sheet = 1) #打开文件 > electric No x y 1 1 679 0.79 2 2 292 0.44 3 3 1012 0.56 4 4 493 0.79 5 5 582 2.70 6 6 1156 3.64 7 7 997 4.73 8 8 2189 9.50 9 9 1097 5.34 10…

R语言方差稳定化变换与线性变换《回归分析与线性统计模型》page96

> rm(list = ls()) > A=read.csv("data96.csv") > A Y N 1 11 0.0950 2 7 0.1920 3 7 0.0750 4 19 0.2078 5 9 0.1382 6 4 0.0540 7 3 0.1292 8 1 0.0503 9 3 0.0629 > attach(A) #将数据A的列名直接赋为变量 plot(N,Y) #绘制散点图 lm.air=lm(Y~N) #线性回归 summary(lm.air…

R语言多元线性回归分析

#线性模型中有关函数#基本函数 a<-lm(模型公式,数据源) #anova(a)计算方差分析表#coef(a)提取模型系数#devinace(a)计算残差平方和#formula(a)提取模型公式#plot(a)绘制模型诊断图#predict(a)用作预测#print(a)显示#residuals()计算残差#setp()逐步回归分析#summary()提取模型资料 #多元线性回归分析 #回归系数的估计 #显著性检验: 1回归系数的显著性检验 t检验就是检验某个变量系数是否为0 2回归方程的显…

利用R进行多元线性回归分析

对于一个因变量y,n个自变量x1,...,xn,要如何判断y与这n个自变量之间是否存在线性关系呢? 肯定是要利用他们的数据集,假设数据集中有m个样本,那么,每个样本都分别对应着一个因变量和一个n维的自变量: m个样本,就对应着一个m维的列向量Y,一个m×n维的矩阵X Y是X的每一列X1,...,Xn的函数那么,Y与X1,...,Xn之间到底是什么关系呢?是满足Y=a1*X1+...+an*Xn这样的线性关系还是Y=f(X1,...,Xn)这样的非线性关系呢? 为了解决这个问题,可以首先利用多元…

R语言︱线性混合模型理论与案例探究（固定效应&随机效应）

每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 线性混合模型与普通的线性模型不同的地方是除了有固定效应外还有随机效应. 笔者认为一般统计模型中的横截面回归模型中大致可以分为两个方向:一个是交互效应方向(调节.中介效应).一个是随机性方向(固定效应.随机效应). 两个方向的选择需要根据业务需求: 交互效应较多探究的是变量之间的网络关系,可能会有很多变量,多变量之间的关系: 而随机性探究的是变量…

十依据一个有用的算法来找到最小(最大)的k的数量-线性搜索算法

例如:进入1.2.3,4,5,6.7.8此8数字,最小的4图的1,2,3,4. 思路1:最easy想到的方法:先对这个序列从小到大排序.然后输出前面的最小的k个数就可以.假设选择高速排序法来进行排序,则时间复杂度:O(n*logn) 注:针对不同问题我们应该给出不同的思路.假设在应用中这个问题的规模不大.或者求解前k个元素的频率非常高,或者k是不固定的. 那么我们花费较多的时间对问题排序.在以后是使用中能够线性时间找到问题的解,整体来说,那么思路一的解法是最优的. 思路2:在思路1的基础上更进一…

R语言&页游渠道分析（转）

对着满屏的游戏后台数据,需要快速了解数据特征,一种茫然无从下手的感觉? 本文在游戏后台数据中,如何通过R语言快速的了解游戏后台的数据特征,以及统计各个数据之间的相关系数,并通过相关图来发现其中相关系数较高的数据,从而通过R得到高相关系数之间的线性回归方程,最后通过矩阵散点图来初步发现数据中的一些规律解决相应的问题.附:本文需要安装corrgram和car包具体代码如下: library(corrgram) library(car) summary(data9) cor(data9) scatt…

【R】多元线性回归

R中的线性回归函数比较简单,就是lm(),比较复杂的是对线性模型的诊断和调整.这里结合Statistical Learning和杜克大学的Data Analysis and Statistical Inference的章节以及<R语言实战>的OLS(Ordinary Least Square)回归模型章节来总结一下,诊断多元线性回归模型的操作分析步骤. 1.选择预测变量因变量比较容易确定,多元回归模型中难在自变量的选择.自变量选择主要可分为向前选择(逐次加使RSS最小的自变量),向后…

2017 ACM-ICPC Asia Xi'an Problem A XOR（异或线性基）

题目链接 2017西安赛区 Problem A 题意给定一个数列,和$q$个询问,每个询问中我们可以在区间$[L, R]$中选出一些数. 假设我们选出来的这个数列为$A[i_{1}]$, $A[i_{2}]$, ..., $A[i_{t}]$ 求$K$ $or$ $($$A[i_{1}]$ $xor$ $A[i_{2}]$ ... $xor$ $A[i_{t}]$$)$的最大值首先常规操作,每次在线段树上求出区间$[L, R]$代表的线性基. 然后把这个线性基中所有$K$的二进制表示为$…

ACM线性基学习笔记

https://www.cnblogs.com/31415926535x/p/11260897.html 概述最近的几场多校出现了好几次线性基的题目,,会想起之前在尝试西安区域赛的一道区间异或和最大的问题时,当时因为异或的性质知道这道题肯定用线段树来维护区间的最值,但是不知道用什么来处理异或和最大,,即使后来知道了可以用线性基来处理,看了一些博客也因为感觉太难收藏到书签就再也没看过,,,于是这几天,花了差不多4.5天的时间,大概看懂了这部分的内容,感觉这只是一种专门处理异或问题的一个工具,光这…

Comet OJ - Contest #3 D 可爱的菜菜子线段树+线性基

题意给你一个长度为 $n$ 的整数序列 $a_1, a_2, \ldots, a_n$,你需要实现以下两种操作,每个操作都可以用四个整数 $opt\ l\ r\ v$ 来表示: $opt=1$ 时,代表把一个区间 $[l, r]$ 内的所有数都 $xor$ 上 $v$. $opt=2$ 时, 查询一个区间 $[l, r]$ 内选任意个数(包括 $0$ 个)数 $xor$ 起来,这个值与 $v$ 的最大 $xor$ 和是多少. 分析线段树维护…

前缀和线性基HDU6579

Operation 题解:看到区间最大异或和,首先想到的是线性基: 线性基可以处理的操作是: 在数列末尾插入一个数查询全局的子集异或最大值由于线性基的长度很短,因此我们可以将数列所有前缀的线性基保存下来.1到x的线性基可以由1到x-1的线性基通过插入a[x]来求得,这样,我们就可以查询前缀区间的子集异或最大值.现在问题的关键在于,查询区间 [L, R] 时,如何避免 [1, L-1] 的干扰. 考虑线性基的插入过程,如果线性基当前位上已经有值,我们就不能把待插入的值放入这一位,因此线性基上每…

杭电多校HDU 6579 Operation （线性基区间最大）题解

题意: 强制在线,求$LR$区间最大子集异或和思路: 求线性基的时候,记录一个$pos[i]$表示某个$d[i]$是在某个位置更新进入的.如果插入时$d[i]$的$pos[i]$小于我当前插入的$pos[r]$,那么就用当前插入的数换出原来的$d[i]$,继续进行插入并更新$pos$,这样就能保证所有的异或和都没有丢失.这样我们只要每次保存出所有$dn[r][maxn]$表示最右边为$r$时的线性基就可以直接求出所有区间$[L,R]$,\(1 <=…

R-时空可视化

Robert J. Hijmans37 开发了 raster 包用于网格空间数据的读.写.操作.分析和建模,同时维护了空间数据分析的网站 https://www.rspatial.org Edzer Pebesma38 和 Roger Bivand 等创建了 sp 包定义了空间数据类型和方法,提供了大量的空间数据操作方法,同时维护了空间数据对象 sp 的绘图网站 https://edzer.github.io/sp/,他们也一起合作写了新书 Spatial Data Science,提供了在线 …

word2vec + transE 知识表示模型

本文主要工作是将文本方法 (word2vec) 和知识库方法 (transE) 相融合作知识表示,即将外部知识库信息(三元组)加入word2vec语言模型,作为正则项指导词向量的学习,将得到的词向量用于分类任务,效果有一定提升. 一. word2vec 模型 word2vec 是 Google 在 2013 年开源推出的一款将词表征为实数值向量的高效工具,使用的是 Distributed representation (Hinton, 1986) 的词向量表示方式,基本思想是通过训练将每个词映射…