R——启程——豆瓣影评分析

　　　　专业统计的我，自然免不了学R的，今天仔细看了这篇教程（感谢学姐的推荐@喜欢算法的女青年），就学着用R仿照着做一个，作为R语言学习的起点吧。

影评数据是用python爬的，之后会在python爬虫系列补充上爬虫程序。

　　　　这里选取的影片是《完美陌生人》，豆瓣评分挺高的，并未看过。。。。爬好的数据为了方便同样写入xlsx文件。这里直接将xlsx后缀改为csv,方便导入R。

原始的EXCEL文件是这样的：

　　　　接下来，就是导入数据，并分析了，这里差不多全是抄的上面提到教程的代码，就贴一下，不在赘述。

data <- read.csv("完美陌生人.csv", header=T)

# 日期处理

date <- as.Date(data$date)

plot(table(as.Date(date)), xlab = "评论日期",

     ylab = "评论数量", main = "《完美陌生人》豆瓣短评评论趋势", col = 2:5)

star <- data$star

starx <- sort(table(star), decreasing = T)

na <- length(star) - sum(starx)

# paste拼接字符串; round控制小数位数

print(paste("参与评分人数--->",sum(starx),"约占总人数的",round(sum(starx)/length(star),4)))

rate = starx/sum(starx)

par(mar = c(0,1,2,1))

pie(rate, labels = paste(names(rate)," 星 ",

    format(rate * 100,digits=3),"%",sep=''),col=rainbow(5))

　　输出如下：

输出打印信息：

　　　　在按照教程操作时，遇到一个问题，就是那个Rwordseg包无法Install，这里请参考这篇文章，感谢作者，问题得到解决。

这是关于分词的代码：

# 分词分析

comment <- data$comment

short <- data[is.na(comment)&nchar(comment)>1,]

comment <- as.character(data$comment)

cmt.len <- nchar(comment)

par(mar=c(5,2,2,1))

hist(cmt.len,freq=F,ylim=c(0,0.025),col = "goldenrod2",

     xlab="短评文本的长度",main="短评长度的分布直方图")

lines(density(cmt.len), col = 'tomato')

f_cut <- function(x) {

  library(Rwordseg)

  unlist(strsplit(segmentCN(x, nature = T), " "))

}

# 定义词语长度至少为2

word_cut <- function(x, n = 1) {

  x <- gsub("[a-z]|\\.", "", x)

  x[nchar(x) > n]

}

comment.words <- lapply(comment, f_cut)

words <- lapply(comment.words, word_cut, 1)  

# 去掉words词汇量为0的文本

cw.len <- unlist(lapply(words,length))

short2 <- data[cw.len > 0,]

star2 <- short2$star

words2 <- words[cw.len > 0]

cw.len <- cw.len[cw.len > 0]

par(mar=c(5,2,2,1))

hist(cw.len,freq=F,ylim=c(0,0.096),col='chocolate2',

     main="短评词汇数量分布直方图",xlab="短评词汇数量")

lines(density(cw.len), col="red")

　　输出如下：

　　　　在看到词云时，实在有些懵，打算另寻其他方法，于是就有了wordcloud2的登场。

# 词频统计

all.words <- unlist(words2)

all_freq <- as.data.frame(table(all.words))

wordcloud2(all_freq)

　　简单几行代码搞定！而且效果也很好。

all_freq的格式：

最后词云图：

　　　　词云图也是可以显示数据的：

　　　　到这里，算是对影评有了一个初步的分析了，R果然强大啊。

R——启程——豆瓣影评分析的更多相关文章

通过哪吒动漫豆瓣影评，带你分析python爬虫与BeautifulSoup快速入门【华为云技术分享】
久旱逢甘霖西安连着几天温度排行全国三甲,也许是<哪吒之魔童降世>的剧组买通了老天,从踩着风火轮的小朋友首映开始,就全国性的持续高温,还好今天凌晨的一场暴雨,算是将大家从中暑边缘拯救回来了 ...
python爬取花木兰豆瓣影评，并进行词云分析
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...
【python数据挖掘】使用词云分析来分析豆瓣影评数据
概述: 制作词云的步骤: 1.从文件中读取数据 2.根据数据追加在一个字符串里面,然后用jieba分词器将评论分开 3.设置WordCloud词云参数 4.保存最后的结果数据:使用爬取的豆瓣影评数据 ...
python3爬虫再探之豆瓣影评数据抓取
一个关于豆瓣影评的爬虫,涉及:模拟登陆,翻页抓取.直接上代码: import re import time import requests import xlsxwriter from bs4 imp ...
Scrapy 通过登录的方式爬取豆瓣影评数据
Scrapy 通过登录的方式爬取豆瓣影评数据爬虫 Scrapy 豆瓣 Fly 由于需要爬取影评数据在来做分析,就选择了豆瓣影评来抓取数据,工具使用的是Scrapy工具来实现.scrapy工具使用起来 ...
Python爬取《冰雪奇缘2》豆瓣影评
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 刘铨@CCIS Lab PS:如有需要Python学习资料的小伙伴可 ...
python爬虫及结巴分词《攀登者》影评分析
<攀登者>影评爬取及分析 0.项目结构其中simkai.ttf为字体文件,Windows查看系统自带的字体 C:\Windows\Fonts 一.爬取豆瓣影评数据 # -*- codin ...
Python爬虫之抓取豆瓣影评数据
脚本功能: 1.访问豆瓣最受欢迎影评页面(http://movie.douban.com/review/best/?start=0),抓取所有影评数据中的标题.作者.影片以及影评信息 2.将抓取的信息 ...
【python数据挖掘】爬取豆瓣影评数据
概述: 爬取豆瓣影评数据步骤: 1.获取网页请求 2.解析获取的网页 3.提速数据 4.保存文件源代码: # 1.导入需要的库 import urllib.request from bs4 impo ...

随机推荐

DSP28377S - ADC学习编程笔记
DSP28377S - ADC学习编程笔记彭会锋 2016-08-04 20:19:52 1 ADC类型导致的配置区别 F28377S的ADC类型是Type 4类型,我的理解是不同类型的ADC采 ...
菜单滑动-menu swipe
http://tympanus.net/codrops/ http://www.idangero.us/sliders/swiper/index.php //触摸滑动
218. The Skyline Problem *HARD* -- 矩形重叠
A city's skyline is the outer contour of the silhouette formed by all the buildings in that city whe ...
python 循环设计
for循环 1.range()用法 for循环后的in跟随一个序列的画,循环每次使用的序列元素而不是序列的下标例:s='abcdefg' for i in range(0,len(s),3): pr ...
5月23日 JavaScript练习：累加求和
第一种方法: 第二种方法:
matalab(绘图）
plot(x) % 绘图语句F = getframe(gcf); %抓取图片imwrite(F.cdata,'myfile.jpg'); %保存图片然后就可以在默认路径也就是matlab工作目录中找 ...
Maven 系列二：Maven 常用命令，手动创建第一个 Maven 项目【转】
1.根据 Maven 的约定,我们在D盘根目录手动创建如下目录及文件结构: 2.打开 pom.xml 文件,添加如下内容: <project xmlns="http://maven.a ...
[转]CentOS更改yum源与更新系统
[1] 首先备份/etc/yum.repos.d/CentOS-Base.repo mv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/Cent ...
Octopus系列之HttpCustom2.0模板引擎的处理，一个bug的分析
实现的目标是: 1.实现手机和PC模板请求的区分:使得来自两种不同设备请求的时候,各自路由到不同的目录中去 2.保持只有一个引擎实例对象最后发现一个bug就是,当我从PC访问时初始化了PC的目录,呈 ...
TableLayout练习
<?xml version="1.0" encoding="utf-8"?> <TableLayout xmlns:android=" ...

R——启程——豆瓣影评分析

R——启程——豆瓣影评分析的更多相关文章

随机推荐

热门专题