每每以为攀得众山小，可、每每又切实来到起点，大牛们，缓缓脚步来俺笔记葩分享一下吧，please~

———————————————————————————

R语言︱文本挖掘套餐包之——XML+tm+SnowballC包

笔者寄语：文本挖掘、情感分析是目前非结构数据非常好用、有效的分析方式。

先针对文本挖掘这个套餐包做个简单了解。一般来说一个完整的文本挖掘解决流程是：

网页爬取数据——数据格式转化（分隔）——建立语料库——词频去噪——提取词干——创建文档-词频矩阵——后续分析（聚类、词云等）

XML包可以实现：网页爬取（还有Rcurl包）、格式转化

tm包可以实现：建立语料库、创建文档-词频矩阵、去噪（还有Rwordseg包是中文分词包）

SnowballC包可以实现：提取词干

本篇暂时不介绍XML包的数据爬取，先来看后面两个包的实现。

本文以一个案例介绍SnowballC包+tm包，使用的数据是R语言中自带的数据集，案例部分来源于参考西门吹风博客。

一、函数调用、数据导入、生成语料库

library(SnowballC)
library(tm)
#vignette("tm")   #调用函数包文件

##1.Data Import  导入自带的路透社的20篇xml文档
#找到/texts/crude的目录，作为DirSource的输入，读取20篇xml文档
reut21578 <- system.file("texts", "crude", package = "tm")
reuters <- Corpus(DirSource(reut21578), readerControl = list(reader = readReut21578XML))
#Corpus命令读取文本并生成语料库文件

##2.Data Export  将生成的语料库在磁盘上保存成多个纯文本文件
writeCorpus(reuters)

##3.Inspecting Corpora 查看语料库
#can use inspect(),print(),summary()
#由于是从xml读取过来，所以现在的corpus还是非常杂乱
inspect(reuters)
print(reuters)
summary(reuters)

还有查看语料库的几个函数:inspect(),print(),summary()三个。

二、格式转化、去噪

##4.Transformations
#对于xml格式的文档用tm_map命令对语料库文件进行预处理，将其转为纯文本并去除多余空格，
#转换小写，去除常用词汇、合并异形同意词汇，如此才能得到类似txt文件的效果
#可以用inspect(reuters)查看此时的效果，明显好很多
reuters <- tm_map(reuters, PlainTextDocument)#将reuters转化为纯文本文件，去除标签
reuters <- tm_map(reuters, stripWhitespace)#去掉空白
reuters <- tm_map(reuters, tolower)#转换为小写
reuters <- tm_map(reuters, removeWords, stopwords("english"))#去停用词

</pre><pre code_snippet_id="1633870" snippet_file_name="blog_20160404_2_6556358" name="code" class="plain">#采用Porter's stemming 算法 提取词干
#Stem words in a text document using Porter's stemming algorithm
#install.packages("SnowballC")
tm_map(reuters, stemDocument)

三、创建文档-词频矩阵

关于下面的DocumentTermMatrix，前面一定要跟tm_map(reuters,PlainTextDocument)，注意与前面的区别，以及执行代码的顺序。

##5.创建文档矩阵 Creating Term-Document Matrices
#将处理后的语料库进行断字处理，生成词频权重矩阵(稀疏矩阵)也叫词汇文档矩阵

reuters <- tm_map(reuters, PlainTextDocument)#将reuters转化为纯文本文件，去除标签
dtm <- DocumentTermMatrix(reuters)
#报错可看http://www.bubuko.com/infodetail-345849.html
#需先执行一下reuters <- tm_map(reuters, PlainTextDocument)

#查看词汇文档矩阵内容
inspect(dtm[1:5, 100:105])
#Non-/sparse entries: 1990/22390     ---非0/是0
#Sparsity           : 92%            ---稀疏性  稀疏元素占全部元素的比例
#Maximal term length: 17             ---切词结果的字符最长那个的长度
#Weighting          : term frequency (tf)---词频率
#如果需要考察多个文档中特有词汇的出现频率，可以手工生成字典，
#并将它作为生成矩阵的参数

d<-c("price","crude","oil","use")   #以这几个关键词为查询工具
inspect(DocumentTermMatrix(reuters,control=list(dictionary=d)))

DocumentTermMatrix生成的矩阵是文档-词频的稀疏矩阵，横向是文档文件，纵向是分出来的词，矩阵里面代表词频，如下图。

创建好文档词频矩阵之后，可以通过一些方式查看这个矩阵的内容，或者用函数筛选出你想要的结果等。

##6.在文本矩阵上实践 Operations on Term-Document Matrices
#找出次数超过50的词
findFreqTerms(dtm, 50)
#找出与‘opec’单词相关系数在0.8以上的词
findAssocs(dtm,"opec",0.8)

#因为生成的矩阵是一个稀疏矩阵，再进行降维处理，之后转为标准数据框格式
#我们可以去掉某些出现频次太低的词。
dtm1<- removeSparseTerms(dtm, sparse=0.6)
inspect(dtm1)
data <- as.data.frame(inspect(dtm1))

四、后续分析——层次聚类

#再之后就可以利用R语言中任何工具加以研究了，下面用层次聚类试试看
#先进行标准化处理，再生成距离矩阵，再用层次聚类
data.scale <- scale(data)
d <- dist(data.scale, method = "euclidean")
fit <- hclust(d, method="ward.D")

#绘制聚类图
#可以看到在20个文档中，489号和502号聚成一类，与其它文档区别较大。
plot(fit,main ="文件聚类分析")

聚类说明了根据词频统计，哪些文档较为相近，说明这些文档存在同质。

——————————————————————————————————————————————————————————————————————————

应用一：snowball包中的词干与记号化去哪儿？

词干化：去掉ing，s之类的词，目前适用于英文，中文不适用

SnowballStemmer(c('functions', 'stemming', 'liked', 'doing'))

[1] "function" "stem" "like" "do"

记号化：将一段文本分割成叫做token(象征)过程，token可能是单词、短语、符号或其他有意义的元素。

NGramTokenizer(' 中华人民共和国成立于1949年')

[1] "中华人民共和国成立于" "成立于1949年" "中华人民共和国成立"

[4] "成立于" "于1949年" "中华人民共和国"

[7] "成立" "于" "1949年"

snowball现在这个包已经无法加载了，tm包调用SnowballC可以词干化，函数名字叫：stemDocument；

记号化在tm包中叫做getTokenizers函数。

每每以为攀得众山小，可、每每又切实来到起点，大牛们，缓缓脚步来俺笔记葩分享一下吧，please~

———————————————————————————

R语言︱文本挖掘套餐包之——XML+SnowballC+tm包的更多相关文章

R语言·文本挖掘︱Rwordseg/rJava两包的安装（安到吐血）
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- R语言·文本挖掘︱Rwordseg/rJava ...
R语言︱文本挖掘之中文分词包——Rwordseg包(原理、功能、详解)
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者寄语:与前面的RsowballC分词不同的 ...
R语言文本挖掘 tm包使用
#清除内存空间 rm(list=ls()) #导入tm包 library(tm) library(SnowballC) #查看tm包的文档 #vignette("tm") ##1. ...
R语言︱文本挖掘——jiabaR包与分词向量化的simhash算法（与word2vec简单比较）
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- <数据挖掘之道>摘录话语:虽然我比 ...
R语言-文本挖掘
---恢复内容开始--- 案例1:对主席的新年致辞进行分词,绘制出词云掌握jieba分词的用法 1.加载包 library(devtools) library(tm) library(jiebaR) ...
R语言一套内容从入门到放弃
[怪毛匠子整理] 1.下载 wget http://mirror.bjtu.edu.cn/cran/src/base/R-3/R-3.0.1.tar.gz 2.解压: tar -zxvf R-3.0. ...
R语言文本挖掘+词云显示（jiebaR包+wordcloud2包）
利用2018年政府工作报告的例子向大家展示一下R语言如何进行文本挖掘的~用到的包有jiebaR和wordcloud2. 1.安装并加载jiebaR install.packages("jie ...
R语言︱文本挖掘——词云wordcloud2包
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者看到微信公众号探数寻理中提到郎大为Chif ...
R语言︱缺失值处理之多重插补——mice包
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者寄语:缺失值是数据清洗过程中非常重要的问题 ...

随机推荐

Python之算法
一.什么算法算法:一个计算过程,解决问题的方法二.时间复杂度看代码: ...
CSS中的字体属性和文本属性
1.CSS字体的属性 font 简写,作用是把所有的针对字体的属性设置在一个声明中 font-family 设置字体系列 font-size 设置字体尺寸 font-style 设置字体风格,ital ...
python各种运算优先级一览表
##python各种运算的优先级运算符描述 lambda Lambda表达式 or 布尔"或" and 布尔"与" not x 布尔"非" ...
Ubuntu14.04 安装vmware虚拟机
下载VMware 链接:VMware 14 密码:5okh 移动VMware14 到 /opt #mv VMware-Workstation-Full-14.0.0-6661328.x86_64.b ...
Matplotlib快速入门笔记
我正以Python作为突破口,入门机器学习相关知识.出于机器学习实践过程中的需要,快速了解了一下matplotlib绘图库.下图是我学习过程中整理的一些概念. 本文将以该图为线索梳理相关概念. 简介 ...
济南清北学堂游记 Day 0.
(摄于千佛山山顶,济南城区风光) 看似稳得一比,实则慌如老狗= = 我可能是报到最早的且实力最弱的一只. 早晨六点二十被从床上拉起来,然后在火车站附近匆忙吃了点东西就坐火车去济南了. 路途不算远,大概 ...
Linux 虚拟IP
虚拟IP Linux网卡上绑定另一个虚拟ip,即网卡上一个真实ip一个虚拟ip.当然通过这2个ip都可以连接到该主机. 实现原理主要是靠TCP/IP的ARP协议.因为ip地址只是一个逻辑地址,在以太 ...
maven的下载安装，配置本地仓库
maven的下载安装下载地址:http://maven.apache.org/download.cgi 下载完成后解压到某一个目录配置环境变量第一个环境变量 MAVEN_HOME A:\mave ...
原码,反码,补码与（&）或（|）非(~) 异或(^) 左移 << 右移 >> 无符号右移 >>>
原码数字在计算机中以二进制表示,8位的字长,最高位是符号位, 正数为0,负数为1.比如,3为0000 0011: -3为1000 0011. 注意,Java中int为32位.3的16进制表示为3,- ...
Eclipse搭建Maven项目之准备工作
Maven是优秀的Java项目对象模型解决方案,意为知识的积累(意地绪文),Maven可以方便的解决Java项目包依赖问题,通过配置pom.xml引入依赖,并自动引入其他依赖. 操作系统版本:wind ...

R语言︱文本挖掘套餐包之——XML+SnowballC+tm包

一、函数调用、数据导入、生成语料库

二、格式转化、去噪

四、后续分析——层次聚类

R语言︱文本挖掘套餐包之——XML+SnowballC+tm包的更多相关文章

随机推荐

热门专题