R语言文本挖掘 tm包使用

#清除内存空间

rm(list=ls())

#导入tm包

library(tm)

library(SnowballC)

#查看tm包的文档

#vignette("tm")

##1.Data Import  导入自带的路透社的20篇xml文档

#找到/texts/crude的目录，作为DirSource的输入，读取20篇xml文档

reut21578 <- system.file("texts", "crude", package = "tm")

reuters <- Corpus(DirSource(reut21578), readerControl = list(reader = readReut21578XML))

##2.Data Export  将生成的语料库在磁盘上保存成多个纯文本文件

writeCorpus(reuters)

##3.Inspecting Corpora 查看语料库

#can use inspect(),print(),summary()

#由于是从xml读取过来，所以现在的corpus还是非常杂乱

inspect(reuters)

print(reuters)

summary(reuters)

##4.Transformations

#对于xml格式的文档用tm_map命令对语料库文件进行预处理，将其转为纯文本并去除多余空格，

#转换小写，去除常用词汇、合并异形同意词汇，如此才能得到类似txt文件的效果

#可以用inspect(reuters)查看此时的效果，明显好很多

reuters <- tm_map(reuters, as.PlainTextDocument)#将reuters转化为纯文本文件，去除标签

reuters <- tm_map(reuters, stripWhitespace)#去掉空白

reuters <- tm_map(reuters, tolower)#转换为小写

reuters <- tm_map(reuters, removeWords, stopwords("english"))#去停用词

#采用Porter's stemming 算法 提取词干

#Stem words in a text document using Porter's stemming algorithm

#install.packages("SnowballC")

tm_map(reuters, stemDocument)

##5.Creating Term-Document Matrices

#将处理后的语料库进行断字处理，生成词频权重矩阵(稀疏矩阵)也叫词汇文档矩阵

dtm <- DocumentTermMatrix(reuters)

#查看词汇文档矩阵

inspect(dtm[1:5, 100:105])

#Non-/sparse entries: 1990/22390     ---非0/是0

#Sparsity           : 92%            ---稀疏性  稀疏元素占全部元素的比例

#Maximal term length: 17             ---切词结果的字符最长那个的长度

#Weighting          : term frequency (tf)

#如果需要考察多个文档中特有词汇的出现频率，可以手工生成字典，

#并将它作为生成矩阵的参数

d<-c("price","crude","oil","use")

inspect(DocumentTermMatrix(reuters,control=list(dictionary=d)))

##6.Operations on Term-Document Matrices

#找出次数超过5的词

findFreqTerms(dtm, 5)

#找出与‘opec’单词相关系数在0.8以上的词

findAssocs(dtm,"opec",0.8)

#因为生成的矩阵是一个稀疏矩阵，再进行降维处理，之后转为标准数据框格式

#我们可以去掉某些出现频次太低的词。

dtm1<- removeSparseTerms(dtm, sparse=0.6)

inspect(dtm1)

data <- as.data.frame(inspect(dtm1))

#再之后就可以利用R语言中任何工具加以研究了，下面用层次聚类试试看

#先进行标准化处理，再生成距离矩阵，再用层次聚类

data.scale <- scale(data)

d <- dist(data.scale, method = "euclidean")

fit <- hclust(d, method="ward.D")

#绘制聚类图

#可以看到在20个文档中，489号和502号聚成一类，与其它文档区别较大。

plot(fit,main ="文件聚类分析")

#主成分分析

ozMat <- TermDocumentMatrix(makeChunks(reuters, 50),

                            list(weighting = weightBin))

k <- princomp(as.matrix(ozMat), features = 2)

screeplot(k,npcs=6,type='lines')

windows()

biplot(k)

R语言文本挖掘 tm包使用的更多相关文章

R语言︱文本挖掘——jiabaR包与分词向量化的simhash算法（与word2vec简单比较）
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- <数据挖掘之道>摘录话语:虽然我比 ...
R语言︱文本挖掘套餐包之——XML+SnowballC+tm包
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- R语言︱文本挖掘套餐包之--XML+tm+Sn ...
R语言︱文本挖掘之中文分词包——Rwordseg包(原理、功能、详解)
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者寄语:与前面的RsowballC分词不同的 ...
R语言·文本挖掘︱Rwordseg/rJava两包的安装（安到吐血）
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- R语言·文本挖掘︱Rwordseg/rJava ...
R语言中文分词包jiebaR
R语言中文分词包jiebaR R的极客理想系列文章,涵盖了R的思想,使用,工具,创新等的一系列要点,以我个人的学习和体验去诠释R的强大. R语言作为统计学一门语言,一直在小众领域闪耀着光芒.直到大数据 ...
R语言︱H2o深度学习的一些R语言实践——H2o包
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- R语言H2o包的几个应用案例笔者寄语:受启发 ...
R语言：recommenderlab包的总结与应用案例
R语言:recommenderlab包的总结与应用案例 1. 推荐系统:recommenderlab包整体思路 recommenderlab包提供了一个可以用评分数据和0-1数据来发展和测试推荐算 ...
使用R语言的RTCGA包获取TCGA数据--转载
转载生信技能树 https://mp.weixin.qq.com/s/JB_329LCWqo5dY6MLawfEA TCGA数据源 - R包RTCGA的简单介绍 - 首先安装及加载包 - 指定任意基因 ...
R语言文本挖掘+词云显示（jiebaR包+wordcloud2包）
利用2018年政府工作报告的例子向大家展示一下R语言如何进行文本挖掘的~用到的包有jiebaR和wordcloud2. 1.安装并加载jiebaR install.packages("jie ...

随机推荐

c# Char && string
char 支持的方法字符串声明字符串 String str = [null]; 可以用此方法声明一个空字符串连接字符串 str +"" + str1; 比较两个字符串 C ...
cmake编译安装mysql 5.6.12
cmake安装mysql 5.6.12 从mysql 5.5 开始就要用cmake编译安装下载mysql 下载地址:http://pan.baidu.com/s/1o68xxqE 一.安装mysql ...
java 虚拟机--新生代与老年代GC [转]
原文链接:http://www.360doc.com/content/12/1023/16/9615799_243296263.shtml 1． Java堆中各代分布: 图1:Java堆中各代分布 Y ...
python---协程学习笔记
协程协程又称为微线程,协程是一种用户态的轻量级线程协程拥有自己的寄存器和栈.协程调度切换的时候,将寄存器上下文和栈都保存到其他地方,在切换回来的时候,恢复到先前保存的寄存器上下文和栈,因此:协程能 ...
【深度学习】批归一化（Batch Normalization）
BN是由Google于2015年提出,这是一个深度神经网络训练的技巧,它不仅可以加快了模型的收敛速度,而且更重要的是在一定程度缓解了深层网络中"梯度弥散"的问题,从而使得训练深层网 ...
gitlab手动安装
[博客园淡水的天空]] 老版新版 Omnibus package installation Manually
Mac下安装php5.6/7.1
安装环境 OS X EI Capitan 10.11.4 Homebrew安装 homebrew是一个类似于ubuntu中apt-get的一个软件管理器,安装比较简单,在命令行中输入如下代码: rub ...
阿里云 virtual memory exhausted: 无法分配内存
在阿里云买了个云服务器,内存1G.编译php时出现下面的错误: virtual memory exhausted: Cannot allocate memory 问题原因:由于物理内存本身很小,且阿里 ...
R语言-来自Prosper的贷款数据探索
案例分析:Prosper是美国的一家P2P在线借贷平台,网站撮合了一些有闲钱的人和一些急用钱的人.用户若有贷款需求,可在网站上列出期望数额和可承受的最大利率.潜在贷方则为数额和利率展开竞价. 本项目拟 ...
C/C++语言简介之程序结构
C语言的模块化程序结构用函数来实现,即将复杂的C程序分为若干模块,每个模块都编写成一个C函数,然后通过主函数调用函数及函数调用函数来实现一大型问题的C程序编写,因此常说:C程序=主函数+子函数.因此, ...

R语言 文本挖掘 tm包 使用

R语言 文本挖掘 tm包 使用的更多相关文章

随机推荐

热门专题

R语言文本挖掘 tm包使用

R语言文本挖掘 tm包使用的更多相关文章