1.用qplot(x,data=data,geom.=”bar”,weight=y)+scale_y_continuous("y")画出y关于x的条形. 图中提示binwidth这里是指矩形的宽度,指定之后如下 qplot(x,data=data,geom="bar",weight=y,binwidth=0.2)+scale_y_continuous("y") 2.用qplot(x,data=data,geom.=”bar”)画出来的是频率直方图…
R语言入门级实例——用igragh包分析社群 引入—— 本文的主要目的是初步实现R的igraph包的基础功能,包括绘制关系网络图(social relationship).利用算法进行社群发现(community detecting).对于R语言零基础的同学非常友好.以下R代码中如有含义不清的,建议尝试先在R编辑器中输入?xxx()进行查询(xxx是函数或语句名).此外,stackflow论坛也帮博主小白看懂了不少报错信息. 主要参考资料为<R语言与网站分析>[李明著][机械工业出版社][20…
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者寄语:与前面的RsowballC分词不同的地方在于这是一个中文的分词包,简单易懂,分词是一个非常重要的步骤,可以通过一些字典,进行特定分词.大致分析步骤如下: 数据导入--选择分词字典--分词 但是下载步骤比较繁琐,可参考之前的博客: R语言·文本挖掘︱Rwordseg/rJava两包的安装(安到吐血) ------------------…
R语言实战实现基于用户的简单的推荐系统(数量较少) a<-c(1,1,1,1,2,2,2,2,3,3,3,4,4,4,5,5,5,5,6,6,7,7) b<-c(1,2,3,4,2,3,4,5,4,1,2,3,2,4,5,2,6,4,1,2,3,4) da<-data.frame(a,b) a<-c(1,1,2,2,3,3,3,3,3,4,4,5,5,5,6,6,7,7) b<-c(2,5,7,2,6,4,7,1,8,6,3,3,4,1,2,4,4,9) da2<-da…
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- R语言·文本挖掘︱Rwordseg/rJava两包的安装 笔者:文本挖掘中这两个包可谓是"老顽固",做文本挖掘必须要过的关卡,今天倒腾了一天,桌面下了一堆东西,终于弄出来了.故此,赶紧记录下来,以后可用: 关于这两个包的安装问题,有很多很多教程,很多方法,我就不一一介绍,如果我介绍的方法你安装不了,那你就得去下面的参考链接找找其他的方…
R语言数据分析利器data.table包-数据框结构处理精讲 R语言data.table包是自带包data.frame的升级版,用于数据框格式数据的处理,最大的特点快.包括两个方面,一方面是写的快,代码简洁,只要一行命令就可以完成诸多任务,另一方面是处理快,内部处理的步骤进行了程序上的优化,使用多线程,甚至很多函数是使用C写的,大大加快数据运行速度.因此,在对大数据处理上,使用data.table无疑具有极高的效率.这里我们主要讲的是它对数据框结构的快捷处理. 和data.frame的高度兼容…
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者寄语:本文大多内容来自未出版的<数据挖掘之道>的情感分析章节.本书中总结情感分析算法主要分为两种:词典型+监督算法型. 监督算法型主要分别以下几个步骤: 构建训练+测试集+特征提取(TFIDF指标)+算法模型+K层交叉验证.可与博客对着看:R语言︱词典型情感分析文本操作技巧汇总(打标签.词典与数据匹配等) ----------------…
假设我们现在有CC,CG,GG三种基因型及三种基因型对应的表型,我们现在想要画出不同的基因型对应表型的棒状图及误差棒.整个命令最重要的就是最后一句了,用arrows函数画误差棒.用到的R语言如下: data<-read.csv("E:/model/data.csv",sep=" ",header=T)#导入数据data mean_CC<-mean(data[,1])#计算CC基因型对应的表型的平均值 mean_GG<-mean(data[,2])…
    R语言data.table包是自带包data.frame的升级版,用于数据框格式数据的处理,最大的特点快.包括两个方面,一方面是写的快,代码简洁,只要一行命令就可以完成诸多任务,另一方面是处理快,内部处理的步骤进行了程序上的优化,使用多线程,甚至很多函数是使用C写的,大大加快数据运行速度.因此,在对大数据处理上,使用data.table无疑具有极高的效率.这里我们主要讲的是它对数据框结构的快捷处理. 和data.frame的高度兼容 DT = data.table(x=rep(c("b&…
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者看到微信公众号探数寻理中提到郎大为Chiffon老师的wordcloud2,于是尝鲜准备用一下.但是在下载的时候,遇见很多问题,安装问题困扰着... 包中函数本身很好用,很简单,而且图形众多. -------------------------------------------- 一.wordcloud2包的安装 官方郎大为老师githu…
如何判断我们的线性回归模型是正确的? 1.回归诊断的基本方法opar<-par(no.readOnly=TRUE) fit <- lm(weight ~ height, data = women)par(mfrow = c(2, 2))plot(fit)par(opar) 为理解这些图形,我们来回顾一下OLS回归的统计假设.(1)正态性(主要使用QQ图) 当预测变量值固定时,因变量成正态分布,则残差值也应该是一个均值为0的正态分布.正态Q-Q图(Normal Q-Q,右上)是在正态分布对应的值…
现在项目需要R语言做几个线性拟合,画一些点图,突然需要画误差线,网上找了下,可以用代码实现..效果如下 xx1<-c(xxxxxx,xxxx,xxxxx) yy1<-c(xxxxxx,xxxx,xxxxx) std1<-c(xxxxxx,xxxx,xxxxx) std2<-c(xxxxxx,xxxx,xxxxx) plot_stdy <- function(x, y, sd, len = 1, col = "black") { len <- len…
R语言分高水平作图函数和低水平作图函数 高水平作图函数:可以独立绘图,例如plot() 低水平作图函数:必须先运行高水平作图函数绘图,然后再加画在已有的图上面 第一种方法:plot()函数 > sales<-read.csv("dailysales.csv", header=TRUE) #读取文件和列名 > plot(sales$units~as.Date(sales$date,"%d/%m/%y"), #修改日期格式 + type="l…
1.在linux中安装好R 2.准备好画曼哈顿图的R脚本即manhattan.r,manhattan.r内容如下: #!/usr/bin/Rscript #example : Rscript plot_manhatom.r XXX.assoc XXX.pdf argv <- commandArgs() #define the function to plot the manhatton and quantitle-quantitle plot plot_manhatton<-function(…
plot()函数 plot(cars$dist~cars$speed,           # y~x main="XXX",                                   # 画标题 xlab="XXX",                                    #X坐标轴标题 ylab="XXX",                                    #Y坐标轴标题 xlim=c(0,30…
本文以1950年到2010年期间我国的火灾统计数据为例,数据如下所示: (0)加载数据 data<-read.csv("E:\\MyDocument\\p\\Data\\1950~2010火灾情况.csv") x=t(data[1]) y=t(data[2]) z=t(data[3]) w=t(data[4]) maxy=max(y) maxz=max(z)  maxw=max(w) (1)将火灾数.直接损失.死伤人数,分别按年份作图 plot(x,y,type="o&…
1)条形图 条形图或许是最常用图形,常用来展示分类(different categories on the x-axis)和数值(numeric values on the y-axis)之间的关系.sometimes the bar heights represent counts of cases in the data set, and sometimes they represent values in the data set(有时条形图高度代表数据集中的频数(count),有时候代表…
glue包介绍 glue包可用于自定义变量,然后通过传参的方式,对字符串部分内容进行自适应修改. 例如:可将日期赋值为:date = as.Date("2019-12-05"),然后通过字符串拼接的形式,实现文件名称自动更新,glue("The day is {date}.". 具体用法 ## glue包 ## 功能:用于将变量传入字符串并解释变量 ## 安装 install.packages("glue") devtools::install_…
在使用堆积条形图时候,新增一个百分比堆积条形图,可以加深读者印象. 封装一个function函数后只需要在调用的数据上改一下pos=‘fill’的代码即可.比较方便. 案例: # 封装函数 fun1<-function(data,xlab,fillc,pos,xname,yname){ ggplot(data,aes(x=xlab,fill=fillc))+ geom_bar(position = pos)+ labs(x=xname,y=yname)+ coord_flip()+ theme_…
install.packages('模块包名称') 或者 install.packages('模块包名称',repos='http://cran.us.r-project.org')…
install.packages('wordcloud') library(wordcloud) colors=c('red','blue','green','yellow','purple') data=read.csv("data.csv") wordcloud(data$words, data$freq, scale=c(10,0.5),min.freq=-Inf,max.words=Inf,colors=colors,random.order=F,random.color=F,…
正弦曲线一个周期是2π,我们要先生成x的取值范围. 可以用seq函数生成一个等差序列,步进为0.01 x=seq( 0,  2*pi,  0.01 )   pi表示π y=sin(x) plot(x,y,type='l')         type='l'表示图形显示为线段,line…
barplot()函数 1.柱形图 > sales<-read.csv("citysales.csv",header=TRUE) #读取数据 > barplot(sales$ProductA,names.arg=sales$City, #设置Y轴,X轴 +col="black") #设置颜色 结果如下图: 2.水平柱形图 > sales<-read.csv("citysales.csv",header=TRUE) #…
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- tmcn包目前托管在在R-forge 上开发和发布.下载方式以及Rforge相关链接: install.packages("tmcn", repos = "http://R-Forge.R-project.org") tmcn 包是一个进行中文文本挖掘的R包.包含了中文编码处理.文字操作. 文本挖掘模型和算法的一些…
R语言网络爬虫初学者指南(使用rvest包) 钱亦欣 发表于 今年 06-04 14:50   5228 阅读   作者 SAURAV KAUSHIK 译者 钱亦欣 引言 网上的数据和信息无穷无尽,如今人人都用百度谷歌来作为获取知识,了解新鲜事物的首要信息源.所有的这些网上的信息都是直接可得的,而为了满足日益增长的数据需求,我坚信网络数据爬取已经是每个数据科学家的必备技能了.在本文的帮助下,你将会突破网络爬虫的技术壁垒,实现从不会到会. 大部分网上呈现的信息都是以非结构化的格式存储(html)且…
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- R语言H2o包的几个应用案例 笔者寄语:受启发想了解H2o平台的一些R语言实现,网上已有一篇H2o的demo文件.笔者在这多贴一些案例,并且把自己实践的一些小例子贴出来. 关于H2o平台长啥样,可以看H2o的官网,关于深度学习长啥样,可以看一些教程,比如ParallelR博客之中的解析. 下面主要是贴几个案例,让大家看看. ----------…
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- SOM自组织映射神经网络模型 的R语言实现 笔者前言: 最近发现这个被发明于1982年的方法在如今得到了极为广泛的应用,在提倡深度学习的时候,基于聚类的神经网络方法被众多人青睐.但是呢, 网上貌似木有人贴出关于SOM模型的R语言实现,我就抛砖引玉一下.一.SOM模型定义与优劣 自组织映射 ( Self Organization Map, SOM…
在数据分析中,整理数据的本质可以归纳为:对数据进行分割(Split),然后应用(Apply)某些处理函数,最后将结果重新组合(Combine)成所需的格式返回,简单描述为:Split - Apply - Combine.这个过程可以通过Basic包的apply家族函数来实现,apply家族函数包括了apply.sapply.lapply.tapply.aggregate等,可以应用于数据分析的各个阶段.plyr包是apply家族函数的升级,使用plyr包可以实现:在一个函数内同时完成“Split…
最近遇到一些程序员同学向我了解R语言,有些更是想转行做数据分析,故开始学习R或者Python之类的语言.在有其他编程语言的背景下,学习R的语法的确是一件十分简单的事.霸特,如果以为仅仅是这样的话那就图样图森破. 首先,数据分析是一个非常庞杂的职能,也许岗位抬头均为数据分析师的两人,做的事情却大不相同——比如使用hadoop做日志统计和使用Excel处理报表,这简直是两个领域,相互之间的职能了解,可能仅为对方工作的冰山一角. 其次,无论任何行业的数据分析,其日常工作主要为以下几块: 数据获取——数…
散点图简介 散点图通常是用来表述两个连续变量之间的关系,图中的每个点表示目标数据集中的每个样本. 同时散点图中常常还会拟合一些直线,以用来表示某些模型. 绘制基本散点图 本例选用如下测试数据集: 绘制方法是首先调用ggplot函数选定数据集,并在aes参数中指明横轴纵轴.然后调用散点图函数geom_point()便可绘制出基本散点图.R语言示例代码如下: # 基函数 ggplot(ah, aes(x = ageYear, y = heightIn)) + # 散点图函数 geom_point()…