R语言文本数据挖掘(三)】的更多相关文章

处理文本是每一种计算机语言都应该具备的功能,但不是每一种语言都侧重于处理文本.R语言是统计的语言,处理文本不是它的强项,perl语言这方面的功能比R不知要强多少倍.幸运的是R语言的可扩展能力很强,DNA/RNA/AA等生物序列现在已经可以使用R来处理. nchar 字符的个数 toupper 转换为大写字符 tolower 转换为小写字符 substr 求字符串的字串 grep 基于正则表达式的匹配 sub 基于正则表达式的替换 strsplit 字符串分割 paste 字符向量连接 match…
本文对应<R语言实战>第6章:基本图形:第7章:基本统计分析 ================================================================================================================================================== 本章讨论的图形,主要用于分析数据前,对数据的初步掌握.想要对数据有一个初步的印象,最好的方式就是观察它,也就是将数据可视化.在这个过程中,我们…
数据框(data.frame)是最常用的数据结构,用于存储二维表(即关系表)的数据,每一列存储的数据类型必须相同,不同数据列的数据类型可以相同,也可以不同,但是每列的行数(长度)必须相同.数据框的每列都有唯一的名字,在已创建的数据框上,用户可以添加计算列,这样,R引擎根据同一行的数据列,计算出表达式的值,并把该值作为计算列的值.数据框是数据分析中最重要的数据对象,必须熟练掌握数据框的操作. 一,创建数据框 创建数据框,常用的方式是:读取文件.读取关系表和使用函数创建,用户应根据实际的需要,选择合…
R的数据读入非常灵活,即可以在R软件中直接输入,也可以读入外部数据. 一.直接输入数据 ①c()函数 ②scan()函数 其功能类似c()函数,scan()实际上是一种键盘输入数据函数.当输入scan()并回车后,开始输入数据,数据之间用空格分开(c()函数用逗号分开).输入完成后,连续两次回车,结束输入. scan()函数还可以读入外部文本: 例如:x=scan(file="dat.txt") 如果源文件数据之间有逗号等分隔符,则读入时去掉分隔符: x=scan(file="…
3.1 使用图形 plot:基础绘图 abline:添加回归直线 hist:绘制直方图 boxplot:绘制箱线图 dev.new():returns the return value of the device opened, usually invisible NULL. dev.cur(): returns a length-one named integer vector giving the number and name of the active device, or 1, the…
1.线性回归 线性回归就是使用下面的预测函数预测未来观测量: 其中,x1,x2,...,xk都是预测变量(影响预测的因素),y是需要预测的目标变量(被预测变量). 线性回归模型的数据来源于澳大利亚的CPI数据,选取的是2008年到2011年的季度数据. rep函数里面的第一个参数是向量的起始时间,从2008-2010,第二个参数表示向量里面的每个元素都被4个小时间段. year <- rep(2008:2010, each=4) quarter <- rep(1:4, 3) cpi <-…
1.使用包party建立决策树 这一节学习使用包party里面的函数ctree()为数据集iris建立一个决策树.属性Sepal.Length(萼片长度).Sepal.Width(萼片宽度).Petal.Length(花瓣长度)以及Petal.Width(花瓣宽度)被用来预测鸢尾花的Species(种类).在这个包里面,函数ctree()建立了一个决策树,predict()预测另外一个数据集. 在建立模型之前,iris(鸢尾花)数据集被分为两个子集:训练集(70%)和测试集(30%).使用随机种…
创建图形,保存图形,修改特征:标题,坐标轴,标签,颜色,线条,符号,文本标注. 1. 一个简单的例子 #输出到图形到pdf文件 pdf("mygrapg.pdf") attach(mtcars) #散点图 plot(wt~mpg) #添加趋势线 abline(lm(mpg~wt)) #添加标题 title("Regresion of mpg on weight") #输出到终端 dev.off() 2. 修改图形参数 par() 函数指定选项 符号和线条:pch:…
一.模拟随机游走数据示例 x <- matrix(0,1000,1) for(i in 1:1000){ x[i+1] <- x[i]+rnorm(1) } plot(x,type="l") 输出结果 二.语法分解 1.plot()函数 plot(x, y, ...),参数x为x轴数据,参数y为y轴数据,后面的参数可以用type="l"(直线),type="p"(点) 2.rnorm()函数 rnorm(200),产生200个服从正态…
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者寄语:情感分析中对文本处理的数据的小技巧要求比较高,笔者在学习时候会为一些小技巧感到头疼不已. 主要包括以下内容: 1.批量读取txt字符文件(导入.文本内容逐行读取.加入文档名字). 2.文本清洗(一级清洗,去标点:二级清洗去内容:三级清洗,去停用词) 3.词典之间匹配(有主键join.词库匹配%in%) 4.分词之后档案id+label…