使用R语言将微信记录制作成词云(简洁)--情人节奥义
一、导出并读入微信聊天记录
参照百度的方法,使用同步助手。安装同步助手--连接手机(安卓苹果均可)--点击“其他功能“--点击微信图标即可进入聊天记录导出界面(非常简单)。
导出数据后直接用read.table读入表格
命令:
dat <- read.table("message.txt",skip=4,header=F,fill=TRUE) #skip跳过前面四行不用的信息;导出时候的信息缺失(语音图片信息等)导致表格不规则,设置fill=TRUE强制读取。聊天记录信息位于第七列。
二、使用Rwordseg包
2.1 使用之前要先安装
install.packages("rJava") #需要java环境
install.packages("Rwordseg", repos = "http://R-Forge.R-project.org")
2.2 Rwordseg具有强大的中文分词功能
segmentCN(strwords) #strwords 是中文字符串,还可以文本路径,返回值是一个向量。
> a <- segmentCN("你好R")
> str(a)
chr [1:2] "你好" "R"
2.3 Rwordseg还具有导入词库的功能
支持普通词库(txt格式)和搜狗细胞词库( scel 格式),使用方法:
先从网上下载搜狗的细胞词库(scel格式),再安装
installDict(dictFile,dicttype = c("text", "scel"), load = TRUE)
例如:
installDict("/home/ywliao/Tmp/日常用语大词库.scel",dicttype = "scel", "richang",load = TRUE)
2.4 自定义词典
insertWords("捂脸") #让某词组放入内存
deleteWords(c("捂脸")) #删除某词
三 、使用wordcloud2包
3.1 安装
install.packages('devtools')
devtools::install_github("lchiffon/wordcloud2")
3.2 使用
wordcloud2(data, size = 1, minSize = 0, gridSize = 0,
fontFamily = NULL, fontWeight = 'normal',
color = 'random-dark', backgroundColor = "white",
minRotation = -pi/4, maxRotation = pi/4, rotateRatio = 0.4,
shape = 'circle', ellipticity = 0.65, widgetsize = NULL)
参数:
(1)data:词云生成数据,包含具体词语以及频率;
(2)size:字体大小,默认为1,一般来说该值越小,生成的形状轮廓越明显;
(3)fontFamily:字体,如‘微软雅黑’;
(4)fontWeight:字体粗细,包含‘normal’,‘bold’以及‘600’;;
(5)color:字体颜色,可以选择‘random-dark’以及‘maxRontatin:字体旋转角度范围的最小值以及最大值,选定后,字体会在该范围内随机旋转;(三角形),‘pentagon’(五边形);
例如:wordcloud2(freq_dat, size = 1,shape = 'star')#生成星星状的词云
四、实例
情人节将到,将你和TA的聊天记录生成词云发送给TA定会给TA一个惊喜。
分析:
将我和gf的聊天记录生成文件oak_message.txt,在网上下载搜狗细胞词库“网络日常用语大词库.scel”和“网络日常用语.scel”,安装了所需要的rJava,Rwordseg和wordcloud2包。R代码如下:
library(rJava)
library(Rwordseg)
library(wordcloud2)
#加入日常用语细胞词库
installDict("/home/ywliao/Tmp/日常用语大词库.scel",dicttype = "scel", "richang",load = TRUE)
installDict("/home/ywliao/Tmp/网络日常用语.scel",dicttype = "scel", "wangluorichang",load = TRUE)
insertWords(c("捂脸","亲亲"))
dat <- read.table("oak_message.txt",skip=4,header=F,na.strings = "NA",fill=TRUE)
all_message <- ""
for (msg in dat$V7){
all_message <- c(all_message,segmentCN(msg))
}
all_message <- all_message[all_message != ""] #去掉空信息""
freq_dat <- as.data.frame(table(all_message))
wordcloud2(freq_dat,size = 2, minRotation = -pi/6, maxRotation = -pi/6,
rotateRatio = 1) #板报词云
wordcloud2(freq_dat, size = 1,shape = 'star') #星状词云
wordcloud2(freq_dat, size = 2, fontFamily = "微软雅黑",
color = "random-light", backgroundColor = "grey") # 海报词云
结果输出为网页文件,打开网页后可截图
什么?博主的gf聊天词云呢?怎么是这个?没错,博主就是学霸哈哈哈哈!最后祝大家情人节快乐!(不管怎样,自己都要快乐!)
参考资料:
电脑上导出微信聊天记录:http://www.cr173.com/html/64463_1.htm
Rwordseq包:http://blog.csdn.net/sinat_26917383/article/details/51056068 ; http://blog.csdn.net/sinat_26917383/article/details/51056068
wordcloud2包:http://blog.csdn.net/sinat_26917383/article/details/51620019
使用R语言将微信记录制作成词云(简洁)--情人节奥义的更多相关文章
- R语言将数据框转成xts
R语言初学者,不怎么会,今天碰到的问题,查了好久才找到,原来如此简单 尼玛,下次再忘记抽自己3巴掌
- R语言---热图的制作
>install.packages("gplots") > library("gplots")> p <- data.frame(rea ...
- R 语言学习过程全记录 ~
RStudio介绍超详细的教程:https://www.jianshu.com/p/132919ca2ca9 前辈的心得:https://blog.csdn.net/kMD8d5R/article/d ...
- python 制作wordcloud词云
pip install wordcloud 需要用到numpy pillow matplotlib 安装完成以后 wordcloud_cli --text in.txt --imagefile ou ...
- R语言-文本挖掘
---恢复内容开始--- 案例1:对主席的新年致辞进行分词,绘制出词云 掌握jieba分词的用法 1.加载包 library(devtools) library(tm) library(jiebaR) ...
- 在线词云制作tagxedo
最近在用python制作词云的时候发现了一个更加方便快捷很好玩的词云制作网站 http://www.tagxedo.com/app.html 所以今天就来大致介绍下是怎么使用的 1.先来介绍下tagx ...
- R系列:分词、去停用词、画词云(词云形状可自定义)
附注:不要问我为什么写这么快,是16年写的. R的优点:免费.界面友好(个人认为没有matlab友好,matlab在我心中就是统计软件中极简主义的代表).小(压缩包就几十M,MATLAB.R2009b ...
- 闲来无事,在微信推文中看到一个炫酷的具有动态特效的中国地图,是用R语言做的,于是尝试了一下
目录 最终的效果图如下: 1.环境准备 2.需要安装的包: 3.进一步配置: end 最终的效果图如下: 1.环境准备 既然是用R语言作图,那么这几个软件是一定需要安装的: R语言的编译器:https ...
- 利用R语言制作出漂亮的交互数据可视化
利用R语言制作出漂亮的交互数据可视化 利用R语言也可以制作出漂亮的交互数据可视化,下面和大家分享一些常用的交互可视化的R包. rCharts包 说起R语言的交互包,第一个想到的应该就是rCharts包 ...
随机推荐
- python----mysql链接汉字编码的问题
解决python连接mysql,UTF-8乱码问题 1. Python文件设置编码 utf-8 (文件前面加上 #encoding=UTF-8) 2. MySQL数据库charset=utf ...
- octave之奇巧淫技向量化计算实现寻找样本点所属聚类下标
前面有文章提到过,K-means算法,第一步骤是找出样本点的的所属聚类.下面用两种方式实现,一种是普通的循环,一种是完全向量化计算. 假设 : X 是m×n样本矩阵,其每一行是一个样本,m表示样本数目 ...
- android 点滴记录
1.AndroidM环境下,在framework层添加代码会对jar包的package name进行检查,并提示”unknown package name of class file”怎么解决? 产生 ...
- STM32单片机在Keil5下仿真的问题解决及GPIO口初始化、使用
STM32单片机在Keil5下仿真的问题解决及GPIO口初始化.使用 最近看了视频,里面有仿真,可以清楚看到GPIO口的数据变化,也想尝试下,DUG时却出现*** error 65: access v ...
- UISlider小结
滑块(UISlider)是常用的界面组件,能够让用户可以用可视化方式设置指定范围内的值,比如音量设置,比如灵敏度控制等诸如此类的用途. - (void)viewDidLoad { [super vie ...
- iOS开源库--最全的整理 分类: ios相关 2015-04-08 09:20 486人阅读 评论(0) 收藏
youtube下载神器:https://github.com/rg3/youtube-dl 我擦咧 vim插件:https://github.com/Valloric/YouCompleteMe vi ...
- iOS 消息推送原理及实现总结 分类: ios技术 2015-03-01 09:22 70人阅读 评论(0) 收藏
在实现消息推送之前先提及几个于推送相关概念,如下图: 1. Provider:就是为指定IOS设备应用程序提供Push的服务器,(如果IOS设备的应用程序是客户端的话,那么Provider可以理解为服 ...
- JavaScript高级程序设计-13:事件
JavaScript与HTML之间的交互是通过事件实现的. 一.事件流 首先我们要明白事件流的概念.当我们点击一个按钮时,也点击了按钮的容器元素,甚至也点击了整个事件.事件流描述就是从页面中接收事件的 ...
- [Usaco2008 Dec]Secret Message 秘密信息
2794: [Usaco2008 Dec]Secret Message 秘密信息 Time Limit: 1 Sec Memory Limit: 128 MBSubmit: 7 Solved: 3 ...
- Angular - - ngClass、ngClassEven、ngClassOdd、ngStyle
这几个都关于样式及类名修改的,所以先把样式代码贴上吧. .red{color:red} .blue{color:blue} 写案例用到的样式就这么简单的两个,下面进入正题. ngClass ngCla ...