R语言数据分析系列之四
R语言数据分析系列之四
说到统计分析我们就离不开随机变量,所谓随机变量就是数学家们为了更好的拟合现实世界的数据而建立的数学模型。有了她我们甚至能够来预測一个站点未来几天的日訪问用户,股票的未来走势等等。
那么本节我们来一起探讨下面经常使用的函数分布。以及流程控制语句。
常见分布有:正态分布(高斯分布),指数分布,beta分布,gamma分布等。
正态分布
若随机变量X服从一个数学期望为μ、方差为σ^2的正态分布。记为N(μ。σ^2)。其概率密度函数曲线,由正态分布的期望值μ决定了其位置。其标准差σ决定了分布的幅度。因其曲线呈钟形,因此人们又常常称之为钟形曲线。
我们通常所说的标准正态分布是μ = 0,σ = 1的正态分布。
par(mgp=c(0.6,0.6,0))
x <- seq(-5,5,length.out=100)
y <- dnorm(x,0,1)
plot(x,y,xlim=c(-4,4),col='red',ylim=c(0,0.8),type='l',ylab='density',xlab='x',main="The Normal Density Distribution")
lines(x,dnorm(x,0,2),col="blue")
lines(x,dnorm(x,-2,1),col="orange")
lines(x,dnorm(x,0,0.5),col="green")
watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvY29tYXBsZQ==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt="">
指数分布
很多电子产品的寿命分布一般服从指数分布。
有的系统的寿命分布也可用指数分布来近似。它在可靠性研究中是最经常使用的一种分布形式。产品的失效是偶然失效时。其寿命服从指数分布。
比如已知某原件已经使用了s小时,那么它能在使用t小时的条件概率。与从刚開始使用t小时的概率一样。这就是指数分布的无记忆性,它在可靠性研究中有着广泛的应用。
x<-seq(-1,2,length.out=100)
y<-dexp(x,0.5) plot(x,y,col="red",xlim=c(0,2),ylim=c(0,5),type='l',
xaxs="i", yaxs="i",ylab='density',xlab='x',
main="The Exponential Density Distribution")
lines(x,dexp(x,1),col="green")
lines(x,dexp(x,2),col="blue")
lines(x,dexp(x,5),col="orange")
gamma 伽马分布
伽马函数:
伽玛函数是阶乘在实数上的泛化。
伽马分布的概率密度函数:
x<-seq(0,10,length.out=100)
y<-dgamma(x,1,2) plot(x,y,col="red",xlim=c(0,10),ylim=c(0,2),type='l',
xaxs="i", yaxs="i",ylab='density',xlab='',
main="The Gamma Density Distribution") lines(x,dgamma(x,2,2),col="green")
lines(x,dgamma(x,3,2),col="blue")
lines(x,dgamma(x,5,1),col="orange")
lines(x,dgamma(x,9,1),col="black")
beta 贝塔分布
Beta分布的一个重要应该是作为伯努利分布和二项式分布的共轭先验分布出现。在机器学习和数理统计学中有重要应用。
该分布有两个參数,α,β (α,β>0).
x<-seq(-5,5,length.out=10000)
y<-dbeta(x,0.5,0.5) plot(x,y,col="red",xlim=c(0,1),ylim=c(0,6),type='l',
xaxs="i", yaxs="i",ylab='density',xlab='',
main="The Beta Density Distribution") lines(x,dbeta(x,5,1),col="green")
lines(x,dbeta(x,1,3),col="blue")
lines(x,dbeta(x,2,2),col="orange")
lines(x,dbeta(x,2,5),col="black")
legend("top",legend=paste("a=",c(.5,5,1,2,2),"b=",c(.5,1,3,2,5)),lwd=1,col=c("red","green","blue","orange","black"))
流程控制语句
分支语句
if else:
a < 5
if(a>10){
print('a>10')
} else if(a<10){
print('a<10')
} else{
print('a=10')
}
switch 分支语句:
case <- 4
switch(case,’低异常点’,’偏低’,’正常’,’偏高’,’高异常点’)
偏高
for 循环:
web.pv <- c(sample(100:5000,30))
web.day <-seq(as.Date('2015-01-01'),by=1,length=30)
web.data <- data.frame(web.day,web.pv)
for(item inweb.data$web.pv){print(paste(web.data$web.day[which(web.data$web.pv ==item)],'',item))}
while 循环:
while(i <length(web.pv)){print(web.pv[i]) ;i = i + 1} ;i=0
函数
定义一个函数表达式: y=a*x + b,然后我们还画出函数轨迹图:
demo.fun1 <- function(x,a,b) {
return(a * x + b)
}
a=3
b=7
y <- demo.fun1(x,a,b)
df <- data.frame(x,y)
g<-ggplot(df,aes(x,y))
g <- g + geom_line(col='red') # 一次方程曲线
g <- g + geom_hline(yintercept=0) +geom_vline(yintercept=0) #设置坐标轴
g <- g + ggtitle(paste('y=',a,' * x+',b)) # 加入标题
g
watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvY29tYXBsZQ==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt="">
定义一个多次方程函数:
demo.fun3 <- function(x,a,b,c,d){
return(a * x^3 + b * x^2 + c * x +d)
}
a=1
b=5
c=6
d=-10
x <- seq(-5,5,by=0.01)
y <- demo.fun3(x,a,b,c,d)
df <- data.frame(x,y)
g <- ggplot(df,aes(x,y))
g <- g + geom_line(col='green') #三次曲线
g <- g + geom_hline(yintercept=0) + geom_vline(yintercept=0) #设置坐标轴
g <- g + ggtitle(paste('y=',a,' *x^3 +',b,'*x^2 +',c,'* x +',d)) # 加入标题
g
watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvY29tYXBsZQ==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt="">
R语言数据分析系列之四的更多相关文章
- R语言数据分析系列六
R语言数据分析系列六 -- by comaple.zhang 上一节讲了R语言作图,本节来讲讲当你拿到一个数据集的时候怎样下手分析,数据分析的第一步.探索性数据分析. 统计量,即统计学里面关注的数据集 ...
- R语言数据分析系列之五
R语言数据分析系列之五 -- by comaple.zhang 本节来讨论一下R语言的基本图形展示,先来看一张效果图吧. watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi ...
- R语言数据分析利器data.table包—数据框结构处理精讲
R语言数据分析利器data.table包-数据框结构处理精讲 R语言data.table包是自带包data.frame的升级版,用于数据框格式数据的处理,最大的特点快.包括两个方面,一方面是写的快,代 ...
- R学习:《R语言数据分析与挖掘实战》PDF代码
分三个部分:基础篇.实战篇.提高篇.基础篇介绍了数据挖掘的基本原理,实战篇介绍了一个个真实案例,通过对案例深入浅出的剖析,使读者在不知不觉中通过案例实践获得数据挖掘项目经验,同时快速领悟看似难懂的数据 ...
- R语言数据分析
CSDN博客:包括R语言基础.R语言数据挖掘.hadoop大数据及spark等 http://blog.csdn.net/qq_16365849 R语言及数据分析 http://blog.csdn.n ...
- R语言数据分析利器data.table包 —— 数据框结构处理精讲
R语言data.table包是自带包data.frame的升级版,用于数据框格式数据的处理,最大的特点快.包括两个方面,一方面是写的快,代码简洁,只要一行命令就可以完成诸多任务,另一方面是处理 ...
- 中部:执具 | R语言数据分析(北京邮电大学)自整理笔记
第5章工欲善其事.必先利其器 代码,是延伸我们思想最好的工具. 第6章基础编程--用别人的包和函数讲述自己的故事 6.1编程环境 1.R语言的三段论 大前提:计算机语言程序=算法+数据结构 小前提:R ...
- 上部:问道 | R语言数据分析(北京邮电大学)自整理笔记
第1章 气象万千 数以等观 数据分析:发现数据背后的规律 等号的重要性,建立模型 第2章所谓学习.归类而已 2.1所谓学习,归类而已(1) ps:机器学习只是归归类? 有监督学习--分类:无监督学习- ...
- R语言入门系列1--数学狗还是做数据好了
nanana,作为一个不合格的数学专业学生,脑袋不好使,又穷逼,只好学点儿实用的东西,希望能养活自己~~~ 不瞎哔哔,想做数据方面工作的时候在犹豫是学R还是学python,一点儿python基础都没有 ...
随机推荐
- XCode下的iOS单元测试
XCode 内置了 OCUnit 单元测试框架,但目前最好用的测试框架应该是 GHUnit.通过 GHUnit + OCMock 组合,我们可以在 iOS 下进行较强大的单元测试功能.本文将演示如何在 ...
- (转载)EF 使用code first模式创建数据库和 填充种子数据
第一篇:来自 .net 开发菜鸟 博主的文章:https://www.cnblogs.com/dotnet261010/p/8035213.html 第二篇:来自 JustYong 博主的文章:htt ...
- Qt自己定义事件实现及子线程向主线程传送事件消息
近期在又一次学习Qt的时候,由于要涉及到子线程与主线程传递消息,所以便琢磨了一下.顺便把有用的记录下来,方便自己以后查询及各位同仁的參考! 特此声明,本篇博文主要讲述有用的,也就是直接说明怎么实现,就 ...
- C#拦截系统消息的方法-Application.AddMessageFilter
C#拦截系统消息的方法Application.AddMessageFilter Application.AddMessageFilter这个方法可以接收系统发出的消息: 首先定义一个类,继承IMess ...
- log4j教程 8、日志格式化
Apache log4j 提供了各种布局对象,每一个对象都可以根据各种布局格式记录数据.另外,也可以创建一个布局对象格式化测井数据中的特定应用的方法. 所有的布局对象 - Appender对象收到 L ...
- iOS8.0 使用Photos.framework对相册的常用操作
转载自:http://blog.csdn.net/longitachi/article/details/50130957 1.判断相册访问权限 首先我们访问相册,肯定有需要判断是否有访问权限的时候,然 ...
- 最新iOS发布App Store详细图文教程~
网上有很多关于iOS发布上架的教程,但大多比较旧而且不完整.不够清晰.所以整理了一个详细完整的iOS APP发布上架App Store的图文教程.分享给小白到大神路上前进的你我. 上架iOS需要一个苹 ...
- 文件压缩和解压 FileStream GZipStream
using (FileStream reader=new FileStream (@"c:\1.txt",FileMode.Open,FileAccess.Read)) { usi ...
- HTTP Analyzer过滤器使用
HTTP Analyzer简单易用,真实抓包居家必备啊,上一次分享了Fiddler的过滤条件,这次介绍下这款软件的过滤,首先按照肯定是按照软件类型分类喽: 1.按照软件过滤: 这样只会显示chrome ...
- 【LoadRunner】安装LoadRunner
LoadRunner安装 下载好LoadRunner安装包,点击运行 在点击安装后,会提示需要安装一下程序,直接点击[确定]安装即可. 上述程序安装完毕后,会自动弹出下面的窗口,点击[下一步] 选择[ ...