专业统计的我,自然免不了学R的,今天仔细看了这篇教程(感谢学姐的推荐@喜欢算法的女青年),就学着用R仿照着做一个,作为R语言学习的起点吧。

影评数据是用python爬的,之后会在python爬虫系列补充上爬虫程序。

    这里选取的影片是《完美陌生人》,豆瓣评分挺高的,并未看过。。。。爬好的数据为了方便同样写入xlsx文件。这里直接将xlsx后缀改为csv,方便导入R。

原始的EXCEL文件是这样的:

    接下来,就是导入数据,并分析了,这里差不多全是抄的上面提到教程的代码,就贴一下,不在赘述。

data <- read.csv("完美陌生人.csv", header=T)

# 日期处理
date <- as.Date(data$date)
plot(table(as.Date(date)), xlab = "评论日期",
ylab = "评论数量", main = "《完美陌生人》豆瓣短评评论趋势", col = 2:5) star <- data$star
starx <- sort(table(star), decreasing = T)
na <- length(star) - sum(starx)
# paste拼接字符串; round控制小数位数
print(paste("参与评分人数--->",sum(starx),"约占总人数的",round(sum(starx)/length(star),4)))
rate = starx/sum(starx)
par(mar = c(0,1,2,1))
pie(rate, labels = paste(names(rate)," 星 ",
format(rate * 100,digits=3),"%",sep=''),col=rainbow(5))

  输出如下:

输出打印信息:

    在按照教程操作时,遇到一个问题,就是那个Rwordseg包无法Install,这里请参考这篇文章,感谢作者,问题得到解决。

这是关于分词的代码:

# 分词分析
comment <- data$comment
short <- data[is.na(comment)&nchar(comment)>1,]
comment <- as.character(data$comment)
cmt.len <- nchar(comment) par(mar=c(5,2,2,1))
hist(cmt.len,freq=F,ylim=c(0,0.025),col = "goldenrod2",
xlab="短评文本的长度",main="短评长度的分布直方图")
lines(density(cmt.len), col = 'tomato') f_cut <- function(x) {
library(Rwordseg)
unlist(strsplit(segmentCN(x, nature = T), " "))
}
# 定义词语长度至少为2
word_cut <- function(x, n = 1) {
x <- gsub("[a-z]|\\.", "", x)
x[nchar(x) > n]
}
comment.words <- lapply(comment, f_cut)
words <- lapply(comment.words, word_cut, 1) # 去掉words词汇量为0的文本
cw.len <- unlist(lapply(words,length))
short2 <- data[cw.len > 0,] star2 <- short2$star
words2 <- words[cw.len > 0]
cw.len <- cw.len[cw.len > 0] par(mar=c(5,2,2,1))
hist(cw.len,freq=F,ylim=c(0,0.096),col='chocolate2',
main="短评词汇数量分布直方图",xlab="短评词汇数量")
lines(density(cw.len), col="red")

  输出如下:

    在看到词云时,实在有些懵,打算另寻其他方法,于是就有了wordcloud2的登场。

# 词频统计
all.words <- unlist(words2)
all_freq <- as.data.frame(table(all.words))
wordcloud2(all_freq)

  简单几行代码搞定!而且效果也很好。

all_freq的格式:

最后词云图:

    词云图也是可以显示数据的:

    到这里,算是对影评有了一个初步的分析了,R果然强大啊。

R——启程——豆瓣影评分析的更多相关文章

  1. 通过哪吒动漫豆瓣影评,带你分析python爬虫与BeautifulSoup快速入门【华为云技术分享】

    久旱逢甘霖 西安连着几天温度排行全国三甲,也许是<哪吒之魔童降世>的剧组买通了老天,从踩着风火轮的小朋友首映开始,就全国性的持续高温,还好今天凌晨的一场暴雨,算是将大家从中暑边缘拯救回来了 ...

  2. python爬取花木兰豆瓣影评,并进行词云分析

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...

  3. 【python数据挖掘】使用词云分析来分析豆瓣影评数据

    概述: 制作词云的步骤: 1.从文件中读取数据 2.根据数据追加在一个字符串里面,然后用jieba分词器将评论分开 3.设置WordCloud词云参数 4.保存最后的结果 数据:使用爬取的豆瓣影评数据 ...

  4. python3爬虫再探之豆瓣影评数据抓取

    一个关于豆瓣影评的爬虫,涉及:模拟登陆,翻页抓取.直接上代码: import re import time import requests import xlsxwriter from bs4 imp ...

  5. Scrapy 通过登录的方式爬取豆瓣影评数据

    Scrapy 通过登录的方式爬取豆瓣影评数据 爬虫 Scrapy 豆瓣 Fly 由于需要爬取影评数据在来做分析,就选择了豆瓣影评来抓取数据,工具使用的是Scrapy工具来实现.scrapy工具使用起来 ...

  6. Python爬取《冰雪奇缘2》豆瓣影评

    前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 刘铨@CCIS Lab PS:如有需要Python学习资料的小伙伴可 ...

  7. python爬虫及结巴分词《攀登者》影评分析

    <攀登者>影评爬取及分析 0.项目结构 其中simkai.ttf为字体文件,Windows查看系统自带的字体 C:\Windows\Fonts 一.爬取豆瓣影评数据 # -*- codin ...

  8. Python爬虫之抓取豆瓣影评数据

    脚本功能: 1.访问豆瓣最受欢迎影评页面(http://movie.douban.com/review/best/?start=0),抓取所有影评数据中的标题.作者.影片以及影评信息 2.将抓取的信息 ...

  9. 【python数据挖掘】爬取豆瓣影评数据

    概述: 爬取豆瓣影评数据步骤: 1.获取网页请求 2.解析获取的网页 3.提速数据 4.保存文件 源代码: # 1.导入需要的库 import urllib.request from bs4 impo ...

随机推荐

  1. 《javascript高级程序设计》 第25章 新兴的API

    25.1 requestAnimationFrame() 25.1.1 早期动画循环 25.1.2 循环间隔的问题 25.1.3 mozRequestAnimation-Frame.webkitReq ...

  2. Thread类的使用

    在前面2篇文章分别讲到了线程和进程的由来.以及如何在Java中怎么创建线程和进程.今天我们来学习一下Thread类,在学习Thread类之前,先介绍与线程相关知识:线程的几种状态.上下文切换,然后接着 ...

  3. hdu-----(3746)Cyclic Nacklace(kmp)

    Cyclic Nacklace Time Limit: 2000/1000 MS (Java/Others)    Memory Limit: 32768/32768 K (Java/Others)T ...

  4. JavaWeb学习之环境搭建

    1. HTML(Hyper Text Markup Language) , 超文本标记语言. HTML文件的后缀名一般是: .htm , .html 表单(form): 浏览器内核: WebKit , ...

  5. C#语言基础——7月21日

    C#语言基础 一.语言基础 (一).函数的四要素:      名称,输入,输出,加工(二).主函数.输出语句.输入语句:     Static void Main(string[] args)//下划 ...

  6. WPF RichTextBox读取存储文本的方法和常用属性

    1. 取得已被选中的内容: (1)使用 RichTextBox.Document.Selection属性(2)访问RichTextBox.Document.Blocks属性的“blocks”中的Tex ...

  7. SSL证书请求文件(CSR)生成指南 - Tomcat

    SSL证书请求文件(CSR)生成指南 - Tomcat http://www.zhenssl.com/support/CSRgen/tomcat_CSR.htm   重要注意事项 An Importa ...

  8. Android为ViewPager增加切换动画——使用属性动画.

    ViewPager作为Android最常用的的组件之一,相信大家在项目中会频繁的使用到的,例如利用ViewPager制作引导页.轮播图,甚至做整个app的表现层的框架等等. Android3.0以下不 ...

  9. Windows安装配置php+memcached的方法

    Windows下Memcached的安装配置方法 1.将第一个包解压放某个盘下面,比如在c:\memcached. 2.在终端(也即cmd命令界面)下输入 'c:\memcached\memcache ...

  10. 安装Adobe Dreamweaver CS6 免序列号 官方破解版

    Adobe Dreamweaver CS6 免序列号 官方破解版 Adobe Dreamweaver CS6是世界顶级软件厂商Adobe推出的一套可视化的网页开发工具,Dreamweaver CS6最 ...