QQ聊天记录分析

今天我们用R语言来处理一下。我们会用到一下技术：、

（1）正则表达式

（2）词频统计

（3）文本可视化

（4）ggplot2绘图

（5）中文分词

一.数据处理

首先我们要讲QQ聊天记录导出成txt文件，至于怎么导，我相信大家都会，不会自行百度。导出来之后我们打开文件看看

首先读入数据

root<-"C:/Users/henry wang/Documents/"

file<-paste(root,"18考研备战群.txt",sep="")

#读取数据

file.data<-scan(file,what = "",sep="\n",encoding = "UTF-8")

通过head(file.data)查看数据如下，可以看到前5行都是一些没有的信息，我们需要删掉。

file.data<-file.data[-1:-5]#删除文件开头的说明内容

现在我们要通过正则表达式提取聊天记录里面的时间，用户，聊天消息。

数据框进行合并。

#message第一行na，所以不读如第一行

data<- data.frame(time=time,user=user,message=message[-1])

head(data)

我们可以看到数据框中有na存在，所以接下来我们要删掉这些行。

for(i in 1:dim(data)[1])

  if(is.na(data[i,1]))

  {

    if(is.na(data[i,2]))

    {

      if(is.na(data[i,3]))

      {

        data<- data[-i,]

      }

    }

  }

head(data)#查看删掉NA之后的数据

现在我们数据处理基本完成。

二. 分析讨论话题

library(rJava)

library(Rwordseg)

library(dplyr)

text<-as.character(data$message)

text<-enc2utf8(text) #转utf-8

text<-text[Encoding(text)!='unknown']#删除无法识别的字符

#下面这几个词在分词是会被分开

insertWords(c("何凯文","泪奔","卖萌","考研"),save=TRUE)

word.message<-segmentCN(text)#分词

#删除停用词

stop_words=readLines('停词.txt')

target_words <- unlist(word.message)

seg_word=target_words[which(is.element(target_words,stop_words)==FALSE)]  

#分词结束，现在开始统计词频

p=as.data.frame(table(unlist(seg_word)))%>% arrange(desc(Freq))

head(p)

library(wordcloud2)

wordcloud2(p)

为什么会有一个飘字。打开聊天记录我们会发现，有一个叫天天考研的管理员人用这个在刷屏

那也许就有人会有疑问，那为什么没有过字，那是因为我们的停用词中有“过”，所以在删除停用词的时候就给删了。因此我们需要要把“飘”字删除，然后重新绘制。

seg_word=gsub(pattern="[飘]","",seg_word);

q=as.data.frame(table(unlist(seg_word)))%>% arrange(desc(Freq))

wordcloud2(q)

看来图片和表情才是大家聊天的主要方式，怪不得表情包那么火。

三. .讨论时间点

现在，我们来一起讨论在这个群里大家一般在几点比较活跃。直接给出代码。

user.time<-data$time

user.time<-as.character(user.time)

user.time.h<-c()

for(i in 1:length(user.time))

{

  user.time.h[i]<-substr(user.time[i],12,19)

}

#如果上面substr(user.time[i],12,19)写成substr(user.time[i],12,13)在

#后面会出错的，因为当时间在10点到23点之间没错，但如果是0点到9点，

#它也会把后面的那个冒号读进去。

user.time.h<- as.POSIXct(user.time.h,format="%H:%M:%S")   #提取时分秒

hour <- format(user.time.h,"%H")   #统计出小时发言

hour <- as.data.frame(table(hour))

library(ggplot2)

ggplot(data=hour,aes(x=hour,y=Freq,group=1))+geom_bar(stat = 'identity')+geom_line(color="red");#折线图和条形图叠加

结果如下图：

看来大家一般在11点下午2点和晚上8点左右比较活跃。11点左右一般是快要下课了。2点左右上快要上课了。晚上8点我估计是刚刚做到图书馆准备复习吧。这些还是比较大学生的习惯。

三.分析谁是话痨

一般在任何QQ群或者讨论组里面都有几个特别活跃的人家，现在我们就来分析一下。

#统计发言频率

user.n<-as.data.frame(table(user))

user.n.20<-user.n[order(user.n[,2],decreasing=T),]

user.n.20<-user.n.20[1:20,]

ggplot(data=user.n.20,aes(x=user,y=Freq))+

          geom_bar(stat='identity')+coord_flip()

#coord_flip()的作用就是讲条形图这些这样90度的旋转。

结果这这样的：

由此可知，测控技术与仪器-六花这个人可真是话痨啊。

QQ聊天记录分析的更多相关文章

文本分析实例---QQ聊天记录分析
对QQ聊天记录进行分析,由于每天产生的聊天记录比較多,所以选取的是从2月份整月的聊天记录数据.分析要产生的结果有三个,聊天记录中发消息的人前top15.统计24小时时间段那个时间段发贴人最多,还有对消 ...
如何找回QQ聊天记录、语音、图片？
多图长图预警,本教程适用于安卓手机认真仔细看完答案的成功几率翻倍哟! 请各位认真看答案!求您了~ 2020年/4/4日更新人民不会忘记,祖国不会忘记,我们不会忘记,先烈不朽. 调整答案顺序,使 ...
用python做些有意思的事——分析QQ聊天记录——私人订制
之前,写了这篇文章,用python提取全部群成员的发言时间,并简单做了下分析.先补充一下,针对特定单个群成员(这里以小小白为例)消息记录的获取. 代码比较简单,主要是正则表达式的书写.(附: ...
用python做些有意思的事——分析QQ聊天记录
####################################### 已更新续集,戳这里. ######################################## 是这样的,有位学 ...
把QQ聊天记录插入数据库中
最近在做毕设,其中一个环节是分析qq聊天记录,在分析之前需要先把qq聊天记录导出,然后存入数据库中,qq聊天记录导出后是文本文档,导出方式: 1.登录qq后,点击任意一个好友,查看与他的聊天记录,点击 ...
重装系统后QQ聊天记录恢复方法
重装系统后QQ聊天记录恢复方法近日又一次安装了系统,又一次安装了腾讯的.TM,TM也是安装在之前的文件夹底下,可是聊天记录和之前的自己定义表情都不见了,看来没有自己主动恢复回来. 我这里另一个特殊的 ...
Android解析qq聊天记录表情
偶然在一个需求中需要解析qq聊天记录表情,表情的格式是以/开始,比如:你好啊?/微笑,在网上找了半天,也没能找到一个比较合适的,所以准备自己实现一下,首先要将表情图片和表情字符对上号,我想了几种解决方 ...
QQ聊天记录备份助手 v1.0——搜索、备份、恢复QQ聊天记录文件，重装系统必备
项目地址 https://github.com/guoyaohua/QQBackUp 开发环境 Netbean JAVA 功能描述自动搜索硬盘中的QQ聊天记录文件可选择的备份QQ数据记录还原QQ ...
QQ聊天记录快速迁移
QQ聊天记录快速迁移在工作中大家经常会用到QQ来沟通,但是很多时候在其它设备上登录QQ就无法查看到之前的聊天记录和图片,这是因为电脑上的QQ聊天记录一般都是保存在电脑本地硬盘里,所以我们在换设备登录 ...

随机推荐

Marshmallow权限使用
Google发布Android 6.0后对用权限的控制更加严格,在Android5.1或更低的版本中用户能在App的安装期间或使用设置应用程序权限来同意或拒绝某个权限,而在Android6.0或更高的 ...
【SQL server基础】SQL存储过程和函数的区别
本质上没区别.只是函数有如:只能返回一个变量的限制.而存储过程可以返回多个.而函数是可以嵌入在sql中使用的,可以在select中调用,而存储过程不行.执行的本质都一样. 函数限制比较多,比 ...
python beautiful soup
官方文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/ 使用前需要先安装模块,并安装解析器 pip install beautif ...
vmware上安装centos7虚拟机
1.1 Linux 的安装安装采用在虚拟机中安装 , 以方便不同班级授课时 , 需要重复安装的情况. 1.1.1 配置虚拟机 1. 在 VMware W ...
OKR群：为什么说每个程序员都应该有自己的个人OKR
个人OKR OKR,即Object and Key Result,是IT大厂最近争相推广的目标管理工具,例如腾讯.百度和头条(字节跳动). 其实,OKR并不是仅仅只适用于公司和部门内部,我们个人也可以 ...
遇到不支持的 Oracle 数据类型 USERDEFINED
以前都是sql查询mdb空间数据没有什么问题,今天在用sql方式查询Oracle中的空间数据时候,出现错误.它不支持geometry.空间数据都带有shape属性.只要不查询shape字段就没问题.但 ...
java多态的实现原理（JVM调用过程）（综合多篇文章，参考见文末）
一个对象变量可以指示多种实际类型的现象称为多态允许不同类的对象对同一消息做出响应.方法的重载.类的覆盖正体现了多态. 1.多态的机制 1.1 本质上多态分两种 1.编译时多态(又称静态多态) 2.运 ...
linux无法安装应用
需安装flex 和bison 一般需要更新软件源 root权限下 apt-get update apt-get upgrade 如果出现以下问题,先查看网络是否畅通: ping 192.168.0. ...
day 20
目录一.继承初体验二.寻找继承关系三.继承背景下对象属性查找顺序四.派生五.子类派生出新的属性,并重复父类的属性六.新式类与经典类(了解) 一.继承初体验父类: class Parent ...
简单cookie入侵
在当前网站,按下F12键进入开发者模式,在console控制台输入:document.cookie获取cookie值如: 复制你得到cookie值,你或通过每种方式获取Cookie,例如:当别人点击你 ...

QQ聊天记录分析

QQ聊天记录分析的更多相关文章

随机推荐

热门专题