博客总目录:http://www.cnblogs.com/weibaar/p/4507801.html 前言 延续之前的用R语言读琅琊榜小说,继续讲一下利用R语言做一些简单的文本处理.分词的事情.其实就是继续讲一下用R语言读书的事情啦,讲讲怎么用它里面简单的文本处理方法,来优化我们的读书体验,如果读邮件和读代码也算阅读的话..用的代码超级简单,不涉及其他包 这里讲两个示例,结尾再来吐槽和总结. 1)R-Blogger订阅邮件拆分 2) R代码库快速阅读方法 不在博客园上阅读时才会看到的,这篇博文…
R语言csv与txt文本读入区分 R语言用来处理数据很方便,而处理数据的第一步是把数据读入内存空间,平时最常用的文本数据储存格式有两种: 一种是CSV(逗号分隔符文本)另一种是TXT(Tab分隔符或空格分隔符),有时候读这两种文件格式读入容易混淆. 1,我们读入数据的时候,一般写文件名有两种方式: (1)将储存数据的文件所在的目录设置为工作目录(setwd(“file path")),读文件时只需要写文件名即可 setwd('C:/Data/mydata') data <- read.ta…
笔者寄语:小规模的读取数据的方法较为简单并且多样,但是,批量读取目前看到有以下几种方法:xlsx包.RODBC包.批量转化成csv后读入. R语言中还有一些其他较为普遍的读入,比如代码包,R文件,工作空间等. source  #读取R代码dget    #读取R文件load    #读取工作空间 -------------------------------- SPSS-STATA格式的读入包--foreign 读取其他软件的格式foreigninstall.packages("foreign&…
Part4文本分类 Part3文本聚类提到过.与聚类分类的简单差异. 那么,我们需要理清训练集的分类,有明白分类的文本:測试集,能够就用训练集来替代.预測集,就是未分类的文本.是分类方法最后的应用实现. 1.       数据准备 训练集准备是一个非常繁琐的功能,临时没发现什么省力的办法,依据文本内容去手动整理.这里还是使用的某品牌的官微数据,依据微博内容.我将它微博的主要内容分为了:促销资讯(promotion).产品推介(product).公益信息(publicWelfare).生活鸡汤(l…
路径问题 原始文件路径C:\Users\air\Desktop\1.txt R中有两种方法读取该路径 C:\\Users\\air\\Desktop\\1.txt C:/Users/air/Desktop/1.txt 1.(最易实现,不易出错)从剪贴板里读取 步骤:全选EXCEL里的内容,复制,在R中输入命令 2.转换成文本文件读取 此处报错,文本中包含嵌入的NULL符号,所以无法读取 解决方法:将内容从EXCEL拷贝到文本文件,而非直接另存为*.txt格式 下面仍有报错的话,是最后一行没有换行…
假设我们正在研究生理发育问 题,并收集了10名婴儿在出生后一年内的月龄和体重数据(见表1-).我们感兴趣的是体重的分 布及体重和月龄的关系. 可以使用函数c()以向量的形式输入月龄和体重数据,此函 数可将其参数组合成一个向量或列表.然后用mean().sd()和cor()函数分别获得体重的均值 和标准差,以及月龄和体重的相关度.最后使用plot()函数,从而用图形展示月龄和体重的关 系,这样就可以用可视化的方式检查其中可能存在的趋势.函数q()将结束会话并允许你退出R. age <- c(1,3…
library(MASS) library(ISLR) lm.fit <- lm(medv~lstat,data=Boston) attach(Boston) lm.fit = lm(medv~lstat) summary(lm.fit) coef(lm.fit) confint(lm.fit) predict(lm.fit,data.frame(lstat=(c(5,10,15))),interval = "confidence") plot(lstat,medv) ablin…
R语言中文社区历史文章整理(类型篇)   R包: R语言交互式绘制杭州市地图:leafletCN包简介 clickpaste包介绍 igraph包快速上手 jiebaR,从入门到喜欢 Catterplots包,让你绘制不一样的图 今天再来谈谈REmap包 ggplot2你需要知道的都在这... R访问数据库管理系统(通过RODBC包和RMySQL包两种方式) NLP——自然语言处理(三)text2vec包 Rattle:数据挖掘的界面化操作 借助caret包实现特征选择的工作 R语言的高质量图形…
加载rJava的同时,要下载JAVA的JRE并且配置环境变量JAVA_HOME,因为rJava的调用需要java运行环境. 1.下载JRE 64位版本的JRE官网下载:http://www.java.com/en/download/manual.jsp 如果你的R是64位版本的,那么JRE也必须是64位的.       参考 关于R语言加载rJava失败解决方法 2.配置环境变量 用R命令直接设置java_home,命令如:Sys.setenv(JAVA_HOME='C:\Program Fil…
在折腾完爬虫还有一些感兴趣的内容后,我最近在看用R语言进行简单机器学习的知识,主要参考了<机器学习-实用案例解析>这本书. 这本书是目前市面少有的,纯粹以R语言为基础讲解的机器学习知识,书中涉及11个案例.分12章.作者备注以及代码部分都讲得比较深.不过或许因为出书较早,在数据处理方面,他使用更多的是plyr包,而我用下来,dplyr包效果更好.所以许多涉及数据处理的代码,其实可以用更简洁的方法重写.但是思路却是实打实的精华. 我之前在某长途动车上啃完了前三章,两个案例.但越往后读,越觉得后面…