R语言文本挖掘+词云显示（jiebaR包+wordcloud2包）

利用2018年政府工作报告的例子向大家展示一下R语言如何进行文本挖掘的~用到的包有jiebaR和wordcloud2。

1、安装并加载jiebaR

install.packages("jiebaR")

library(jiebaR)

2、以2018年政府工作报告为文本，进行分词

（1）首先要将2018年政府工作报告以txt的形式下载到R语言的工作路径中

读取文本：

text<-readLines("E:/R-3.4.4/bin/workdirection/report.txt");text    #readLines（）用来读取不规则文本

（2）分词处理：

seg<-worker();seg<=text

segment(text,seg)  #方法2

（3）词性标注（不是必要的步骤）

seg2<-worker("tag")

segment(text,seg2)

（4）关键词提取

seg3<-worker(type="keywords",topn=)

seg3<=text

发现报错了：Error in key_ptr(topn, dict, hmm, idf, stop_word, user) : std::bad_alloc

应该是段落太多了，尝试另外一种方法

for(i in text){a<-seg3<=i;print(a)}

4.95979
"代表"
11.7392 11.7392 9.43974 8.55357
"过五" "请予" "提出" "全国政协"
8.40548 7.26211 6.71757 6.4807
"工作" "审议" "委员" "国务院"
6.16263 5.87811
"大会" "意见"

这是一部分的关键词，这样就可以了。

（5）对文本去除一些不必要的

text1<-gsub('[a-zA-Z]','',text) #去除所有英文字母

text2<-gsub("[的|和|了|来|与|到|由|等|从|以|一|为|在|上|各|去|对|侧|多|并|千|万|年|更|向|这是]","",text1)

再进行分词：

seg<-worker()

seg<=text2

（6）建立词频

freq<-freq(segment(text2,seg))

排序！很重要：

index <- order(-freq[,])

order2<-freq[index, ];order2

这是降序排的，如果升序排最后显示的词云图词频大的词在外边

（7）制作词云图

library(wordcloud2)

wordcloud2(order2,size = ,minRotation = -pi/, maxRotation = pi/,rotateRatio = 0.8,fontFamily = "微软雅黑", color = "random-light")

展示一下主旋律嘻嘻嘻

————————————————————————————

第一篇写的很匆忙，很多都没有扩展，下次会继续加油的！！

：）

R语言文本挖掘+词云显示（jiebaR包+wordcloud2包）的更多相关文章

R语言︱文本挖掘——词云wordcloud2包
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者看到微信公众号探数寻理中提到郎大为Chif ...
R语言进行词云统计分析
R语言进行词云统计分析本文章从爬虫.词频统计.可视化三个方面讲述了R语言的具体应用,欢迎大家共同谈论学习 1.使用 rvest 进行数据的爬取 #如果没有,先安装rvest包 install.pac ...
R语言︱文本挖掘套餐包之——XML+SnowballC+tm包
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- R语言︱文本挖掘套餐包之--XML+tm+Sn ...
R语言之词云：wordcloud&wordcloud2安装及参数说明
一.wordcloud安装说明 install.packages("wordcloud"); 二.wordcloud2安装说明 install.packages("dev ...
R语言︱文本挖掘——jiabaR包与分词向量化的simhash算法（与word2vec简单比较）
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- <数据挖掘之道>摘录话语:虽然我比 ...
R语言︱文本挖掘之中文分词包——Rwordseg包(原理、功能、详解)
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者寄语:与前面的RsowballC分词不同的 ...
R语言·文本挖掘︱Rwordseg/rJava两包的安装（安到吐血）
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- R语言·文本挖掘︱Rwordseg/rJava ...
R语言文本挖掘 tm包使用
#清除内存空间 rm(list=ls()) #导入tm包 library(tm) library(SnowballC) #查看tm包的文档 #vignette("tm") ##1. ...
R语言-文本挖掘
---恢复内容开始--- 案例1:对主席的新年致辞进行分词,绘制出词云掌握jieba分词的用法 1.加载包 library(devtools) library(tm) library(jiebaR) ...

随机推荐

Pig脚本 .pig
pig脚本就是一个文件,保存了多条pig命令,通常后缀是.pig(不强制). 多行注释:/**/ 单行注释:-- 下面是一个名字是test.pig的脚本的例子: /* ...
zookeeper应用 - FIFO 队列分布式队列
使用ZooKeeper实现的FIFO队列,这个队列是分布式的. package fifo; import java.util.Collections; import java.util.List; i ...
spring多线程初探
6月14号晴最高温度37 今天很热的一天啊,开发的任务现在正在测试阶段,手头没有什么工作任务,忙里偷闲,丰富一下我的blog. 前两天有个需求:调用第三方接口,这个接口的响应时间有点长,需 ...
将远程UI分支克隆到本地UI分支
git checkout -b UI git remote add origin <url> git fetch origin git branch --track UI origin/U ...
es知识点
版权声明:本文为博主原创文章,未经博主允许不得转载.转载请务必加上原作者:铭毅天下,原文地址:blog.csdn.net/laoyang360 https://blog.csdn.net/wojius ...
SQL Server 登录名、用户、角色与权限
1.在SQL Server中,用户和角色是分为服务器级别和数据库级别的 2.服务器级别登录名:指有权限登录到某服务器的用户,例如超级管理员的登录名是sa: 登录名具体位置在数据库——>安全 ...
Unity调用安卓中的方法遇到的问题
最近在用U3D做一个简单的迷宫游戏,在项目中利用Unity制作游戏场景,在android中调用游戏场景,并在游戏结束后调用安卓方法,传递参数,退出游戏场景查找网上资料,基本上Unity调用安卓的写法 ...
Linux 环境部署记录（二） - NFS文件共享
NFS文件共享服务假设现有两台服务器IP地址分别为 192.168.0.2 和 192.168.0.3,192.168.0.2作为Server,192.168.0.3为Client,则: 两台机器都 ...
CSS-定位属性
Css学习——定位属性定位可以看作是一种分层,通过对页面中的各种元素进行定位,可以将某些元素放到其他元素的上层,并在浏览器的窗口中设置这些元素的具体位置. position属性以及Css所提供的4中 ...
October 06th 2017 Week 40th Friday
The greatest ideal man can set before himself is self-perfection. 一个人最高的理想是自我完善. To be better than t ...

R语言文本挖掘+词云显示（jiebaR包+wordcloud2包）

R语言文本挖掘+词云显示（jiebaR包+wordcloud2包）的更多相关文章

随机推荐

热门专题