R语言文本挖掘+词云显示（jiebaR包+wordcloud2包）

利用2018年政府工作报告的例子向大家展示一下R语言如何进行文本挖掘的~用到的包有jiebaR和wordcloud2。

1、安装并加载jiebaR

install.packages("jiebaR")

library(jiebaR)

2、以2018年政府工作报告为文本，进行分词

（1）首先要将2018年政府工作报告以txt的形式下载到R语言的工作路径中

读取文本：

text<-readLines("E:/R-3.4.4/bin/workdirection/report.txt");text    #readLines（）用来读取不规则文本

（2）分词处理：

seg<-worker();seg<=text

segment(text,seg)  #方法2

（3）词性标注（不是必要的步骤）

seg2<-worker("tag")

segment(text,seg2)

（4）关键词提取

seg3<-worker(type="keywords",topn=)

seg3<=text

发现报错了：Error in key_ptr(topn, dict, hmm, idf, stop_word, user) : std::bad_alloc

应该是段落太多了，尝试另外一种方法

for(i in text){a<-seg3<=i;print(a)}

4.95979
"代表"
11.7392 11.7392 9.43974 8.55357
"过五" "请予" "提出" "全国政协"
8.40548 7.26211 6.71757 6.4807
"工作" "审议" "委员" "国务院"
6.16263 5.87811
"大会" "意见"

这是一部分的关键词，这样就可以了。

（5）对文本去除一些不必要的

text1<-gsub('[a-zA-Z]','',text) #去除所有英文字母

text2<-gsub("[的|和|了|来|与|到|由|等|从|以|一|为|在|上|各|去|对|侧|多|并|千|万|年|更|向|这是]","",text1)

再进行分词：

seg<-worker()

seg<=text2

（6）建立词频

freq<-freq(segment(text2,seg))

排序！很重要：

index <- order(-freq[,])

order2<-freq[index, ];order2

这是降序排的，如果升序排最后显示的词云图词频大的词在外边

（7）制作词云图

library(wordcloud2)

wordcloud2(order2,size = ,minRotation = -pi/, maxRotation = pi/,rotateRatio = 0.8,fontFamily = "微软雅黑", color = "random-light")

展示一下主旋律嘻嘻嘻

————————————————————————————

第一篇写的很匆忙，很多都没有扩展，下次会继续加油的！！

：）

R语言文本挖掘+词云显示（jiebaR包+wordcloud2包）的更多相关文章

R语言︱文本挖掘——词云wordcloud2包
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者看到微信公众号探数寻理中提到郎大为Chif ...
R语言进行词云统计分析
R语言进行词云统计分析本文章从爬虫.词频统计.可视化三个方面讲述了R语言的具体应用,欢迎大家共同谈论学习 1.使用 rvest 进行数据的爬取 #如果没有,先安装rvest包 install.pac ...
R语言︱文本挖掘套餐包之——XML+SnowballC+tm包
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- R语言︱文本挖掘套餐包之--XML+tm+Sn ...
R语言之词云：wordcloud&wordcloud2安装及参数说明
一.wordcloud安装说明 install.packages("wordcloud"); 二.wordcloud2安装说明 install.packages("dev ...
R语言︱文本挖掘——jiabaR包与分词向量化的simhash算法（与word2vec简单比较）
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- <数据挖掘之道>摘录话语:虽然我比 ...
R语言︱文本挖掘之中文分词包——Rwordseg包(原理、功能、详解)
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者寄语:与前面的RsowballC分词不同的 ...
R语言·文本挖掘︱Rwordseg/rJava两包的安装（安到吐血）
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- R语言·文本挖掘︱Rwordseg/rJava ...
R语言文本挖掘 tm包使用
#清除内存空间 rm(list=ls()) #导入tm包 library(tm) library(SnowballC) #查看tm包的文档 #vignette("tm") ##1. ...
R语言-文本挖掘
---恢复内容开始--- 案例1:对主席的新年致辞进行分词,绘制出词云掌握jieba分词的用法 1.加载包 library(devtools) library(tm) library(jiebaR) ...

随机推荐

关于easyUI
<input class="easyui-combobox" id="s_dataDicName" data-options="panelHei ...
iOS中block类型大全
iOS中block类型大全 typedef的block 作为属性的block 作为变量的block 作为方法变量入参的block 作为方法参数的block 无名block 内联函数的block 递归调 ...
sudo实例--企业生产环境用户权限集中管理方案实例
根据角色的不同,给不同的用户分配不同的角色1.创建初级工程师3个,网络工程师1个,中级工程师1个,经理1个 # 批量创建用户 for user in chuji{01..03} net01 ...
IIS 7 反向代理 URL重写转发动态请求
一.反向代理是什么有一篇文章说的挺好的 Nginx 反向代理.负载均衡.页面缓存.URL重写及读写分离详解 http://www.server110.com/nginx/201402/5534.ht ...
if 里面嵌套一个if&else (我自己又细分了别的条件,加了elif)
场景: 一个陌生人敲门..... gender = input("你是男的是女的?") if gender == "女": print("请进&quo ...
反射工具类.提供调用getter/setter方法, 访问私有变量, 调用私有方法, 获取泛型类型Class,被AOP过的真实类等工具函数.java
import org.apache.commons.lang3.StringUtils; import org.apache.commons.lang3.Validate; import org.ap ...
upper_bound()与lower_bound()的使用
upper_bound()与lower_bound()的使用 c++中的许多库函数可以使我们的代码量大大减少,也可使问题简单化.很早之前就接触了upper_bound()与lower_bound(), ...
Mina使用总结(二)Handler
Handler的基本作用,处理接收到的客户端信息一个简单的Handler实现如下: package com.bypay.mina.handler; import java.util.Date; im ...
chrome开发者工具那点事
Elements:查找网页源代码HTML中的任一元素,手动修改任一元素的属性和样式且能实时在浏览器里面得到反馈. Console:记录开发者开发过程中的日志信息,且可以作为与JS进行交互的命令行She ...
Linux 上安装MyEclipse
操作系统ubuntu14.04,亲测安装MyEclipse2014成功,且破解成阿功.在安装myeclipse之前,您当然需要安装jdk了,jdk在这里不做介绍下载下载linux版本的MyEcli ...

R语言文本挖掘+词云显示（jiebaR包+wordcloud2包）

R语言文本挖掘+词云显示（jiebaR包+wordcloud2包）的更多相关文章

随机推荐

热门专题