前言

继《隐秘的角落》后，又一部“爆款剧”——《三十而已》获得了口碑收视双丰收，王漫妮、顾佳、钟晓芹三个女主角的故事线频频登上微博热搜。该剧于2020年7月17日在东方卫视首播，并在腾讯视频同步播出。为了了解吃瓜群众们对这部剧的看法，我爬了爬腾讯视频关于这部剧的评论，并做了简单文本可视化分析。

PS：如有需要Python学习资料的小伙伴可以加下方的群去找免费管理员领取

可以免费领取源码、项目实战视频、PDF文件等

一、数据获取

1.分析评论页面

腾讯视频评论要点击查看更多评论才能加载更多数据，很明显是一个动态网页，评论内容使用了Ajax动态加载技术。因此，我们需要找到真实URL，然后再请求数据。

找到真实URL其实不难，按照以下步骤即可找到。当然，你也可以使用抓包工具fiddler，同样可以轻松找到。

2.寻找参数规律

我们多刷新几次，找几个真实的URL看看这些参数有什么变化。下图是我刷新了3次得到的真实的URL：

第1次刷新：

https://video.coral.qq.com/varticle/5572751505/comment/v2?callback=_varticle5572751505commentv2&orinum=10&oriorder=o&pageflag=1&cursor=6689895369036463828&scorecursor=0&orirepnum=2&reporder=o&reppageflag=1&source=132&_=1595994099261

第2次刷新：

https://video.coral.qq.com/varticle/5572751505/comment/v2?callback=_varticle5572751505commentv2&orinum=10&oriorder=o&pageflag=1&cursor=6689950633282796870&scorecursor=0&orirepnum=2&reporder=o&reppageflag=1&source=132&_=1595994099262

第3次刷新：

https://video.coral.qq.com/varticle/5572751505/comment/v2?callback=_varticle5572751505commentv2&orinum=10&oriorder=o&pageflag=1&cursor=6690046095919619518&scorecursor=0&orirepnum=2&reporder=o&reppageflag=1&source=132&_=1595994099263

很显然，只有cursor=？和_=？有变化，_=？为公差为1的等差数列，而cursor=？貌似没有什么规律。根据以往经验，这类参数有可能藏在上一个真实URL中。我们尝试将第1个URL在浏览器中打开，然后搜索第2个真实URL的中的cursor值。

还真有！一般情况下，我们还要多试几次，对我们的猜想进行验证。既然规律已经找到，接下来就很简单了。限于篇幅，以下给出部分代码：

def main():

    #初始页面的_=?

    page=1595991084333

    #初始待刷新页面的cursor=？

    lastId=""

    for i in range(1,1000):

        time.sleep(1)

        html = get_content(page,lastId)

        #获取评论数据

        commentlist=get_comment(html)

        print("------第"+str(i)+"轮页面评论------")

        k = 0

        for j in range(1,len(commentlist)):

            comment = commentlist[j]

            k += 1

            print('第%s条评论：%s'%(k,comment))

        #获取下一轮刷新页ID

        lastId=get_lastId(html)

        page += 1

if __name__ == '__main__':

    main()

二、数据处理

1.导入相关包

#基础数据分析库

import numpy as np

import pandas as pd

#分词库

import jieba

import re

#绘图库

import matplotlib.pyplot as plt

from pyecharts.charts import *

from pyecharts import options as opts

from pyecharts.globals import ThemeType

import stylecloud

from IPython.display import Image

2.导入评论数据

df = pd.read_csv('/Users/我是J哥/Documents/技术公号/公号项目/2.spider/腾讯/comment.csv',names=['评论内容'])

df.sample(5)

3.数据类型转换

df.info()

df['评论内容'] = df['评论内容'].astype('str')

4.删除重复评论

df = df.drop_duplicates()

5.增加评论类型

cut = lambda x : '短评' if len(x) <= 20 else ('中评' if len(x) <=50 else '长评')

df['评论类型'] = df['评论内容'].map(cut)

6.提取演员关键词

result = []

for i in df['评论内容']:

    result.append(re.split('[:：,，.。!！~·`\;；……、]',i))

def actor_comment(df,result):

    actors = pd.DataFrame(np.zeros(6 * len(df)).reshape(len(df),6),

                      columns = ['王漫妮','顾佳','钟晓芹','江疏影','童瑶','毛晓彤'])

    for i in range(len(result)):

        words = result[i]

        for word in words:

            if '王漫妮' in word or '王曼妮' in word:

                actors.iloc[i]['王漫妮'] = 1

            if '顾佳' in word:

                actors.iloc[i]['顾佳'] = 1

            if '钟晓芹' in word:

                actors.iloc[i]['钟晓芹'] = 1

            if '江疏影' in word:

                actors.iloc[i]['江疏影'] = 1

            if '童瑶' in word or '童谣' in word:

                actors.iloc[i]['童瑶'] = 1

            if '毛晓彤' in word:

                actors.iloc[i]['毛晓彤'] = 1

    final_result = pd.concat([df,actors],axis = 1)

    return final_result

df1 = actor_comment(df,result)

df1.head(10)

三、数据可视化

1.整体评论情况

df2 = df1.groupby('评论类型')['评论内容'].count()

df2 = df2.sort_values(ascending=False)

regions = df2.index.to_list()

values = df2.to_list()

c = (

        Pie(init_opts=opts.InitOpts(theme=ThemeType.CHALK))

        .add("", zip(regions,values),radius=["40%", "70%"])

        .set_global_opts(title_opts=opts.TitleOpts(title="评论类型占比",subtitle="数据来源：腾讯视频",pos_top="2%",pos_left = 'center'))

        .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}:{d}%",font_size=18))

    )

c.render_notebook()

通过对一万多条热评内容绘制词云图，我们很容易看出大家对《三十而已》的喜欢，以及对主要角色和演员的关注。家庭与工作如何兼得？婚姻与爱情如何共处？这些问题都被广大观众所热议。

2.评论类型分布

df2 = df1.groupby('评论类型')['评论内容'].count()

df2 = df2.sort_values(ascending=False)

regions = df2.index.to_list()

values = df2.to_list()

c = (

        Pie(init_opts=opts.InitOpts(theme=ThemeType.CHALK))

        .add("", zip(regions,values),radius=["40%", "70%"])

        .set_global_opts(title_opts=opts.TitleOpts(title="评论类型占比",subtitle="数据来源：腾讯视频",pos_top="2%",pos_left = 'center'))

        .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}:{d}%",font_size=18))

    )

c.render_notebook()

从评论类型来看，以短评居多，占比72.52%。另外，有4.15%的评论者给出了50字以上的评论，表达出自己对《三十而已》的独到见解。

3.演员角色提及

df3 = df1.iloc[:,2:].sum().reset_index().sort_values(0,ascending = True)

df3.columns = ['角色','次数']

df3['占比'] = df3['次数'] / df3['次数'].sum()

c = (

    Bar(init_opts=opts.InitOpts(theme=ThemeType.CHALK))

    .add_xaxis(df3['角色'].to_list())

    .add_yaxis("",df3['次数'].to_list()).reversal_axis() #X轴与y轴调换顺序

    .set_global_opts(title_opts=opts.TitleOpts(title="主演及其饰演的角色被提及次数",subtitle="数据来源：腾讯视频",pos_top="2%",pos_left = 'center'),

                       xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(font_size=16)), #更改横坐标字体大小

                       yaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(font_size=16)), #更改纵坐标字体大小

                       )

    .set_series_opts(label_opts=opts.LabelOpts(font_size=16,position='right'))

    )

c.render_notebook()

童瑶及其饰演的顾佳被评论者提及的次数最多，都超过500次。江疏影，人气也较高，获得了300多次的评论。王漫妮和钟晓芹提及次数相对少一些，随着剧情的推进应该会有所提升。

4.对王漫妮的评论

王漫妮是众人眼中的标准都市女性，大家普遍认为她长得好看又努力上进，甚至有人觉得她是完美的存在。身为柜姐的她对顾客进行极致化服务，却遭到现实的嘲讽。感情上，想要好好过日子的她却遇到不该遇到的男人。

5.对顾佳的评论

顾佳作为一名全职太太，在观众看来是个优秀的居家女人。双商在线能力强，将自己的孩子和丈夫的公司都打理得井井有条。与此同时，幸福的生活出现了入侵者，顾佳没有被现实打倒，勇敢应战。另外，顾佳因为长得像章子怡，也被众多观众所提及。

6.对钟晓芹的评论

钟晓芹被认为是标准化的大多数，嫁给事业单位铁饭碗的男人，安心做一个平凡妻子，过一个普通生活。却因写作爱好偶然卖出高价版权，家庭情况变得复杂，钟晓芹面临艰难抉择。

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

以上文章来源于菜J学Python ，作者：J哥

Python爬取10000条“爆款剧”——《三十而已》热评，并做可视化的更多相关文章

Python爬取《你好李焕英》豆瓣短评并基于SnowNLP做情感分析
爬取过程在这里: Python爬取你好李焕英豆瓣短评并利用stylecloud制作更酷炫的词云图本文基于前文爬取生成的douban.txt,基于SnowNLP做情感分析. 依赖库: 豆瓣镜像比较快: ...
python爬取网易云周杰伦所有专辑，歌曲，评论，并完成可视化分析
---恢复内容开始--- 去年在网络上有一篇文章特别有名:我分析42万字的歌词,为搞清楚民谣歌手们在唱些什么.这篇文章的作者是我大学的室友,随后网络上出现了各种以为爬取了XXX,发现了XXX为名的文章 ...
用Python爬取了考研吧1000条帖子，原来他们都在讨论这些！
写在前面考研在即,想多了解考研er的想法,就是去找学长学姐或者去网上搜索,贴吧就是一个好地方.而借助强大的工具可以快速从网络鱼龙混杂的信息中得到有价值的信息.虽然网上有很多爬取百度贴吧的教程和例子, ...
python爬取《龙岭迷窟》的数据，看看质量剧情还原度到底怎么样
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:简单 PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行 ...
Python爬取招聘网站数据，给学习、求职一点参考
1.项目背景随着科技的飞速发展,数据呈现爆发式的增长,任何人都摆脱不了与数据打交道,社会对于“数据”方面的人才需求也在不断增大.因此了解当下企业究竟需要招聘什么样的人才?需要什么样的技能?不管是对于 ...
用python爬取杭电oj的数据
暑假集训主要是在杭电oj上面刷题,白天与算法作斗争,晚上望干点自己喜欢的事情! 首先,确定要爬取哪些数据: 如上图所示,题目ID,名称,accepted,submissions,都很有用. 查看源代码 ...
python爬取免费优质IP归属地查询接口
python爬取免费优质IP归属地查询接口具体不表,我今天要做的工作就是: 需要将数据库中大量ip查询出起归属地刚开始感觉好简单啊,毕竟只需要从百度找个免费接口然后来个python脚本跑一晚上就o ...
Python爬取豆瓣指定书籍的短评
Python爬取豆瓣指定书籍的短评 #!/usr/bin/python # coding=utf-8 import re import sys import time import random im ...
Python学习-使用Python爬取陈奕迅新歌《我们》网易云热门评论
<后来的我们>上映也有好几天了,一直没有去看,前几天还爆出退票的事件,电影的主题曲由陈奕迅所唱,特地找了主题曲<我们>的MV看了一遍,还是那个感觉.那天偶然间看到Python中 ...

随机推荐

python—模块optparse的用法
1.什么是optparse: 在工作中我们经常要制定运行脚本的一些参数,因为有些东西是随着我么需求要改变的,所以在为们写程序的时候就一定不能把写死,这样我们就要设置参数 optparse用于处理命令行 ...
DLL注入之修改PE静态注入
DLL注入之修改PE静态注入 0x00 前言我们要注入的的力量功能是下载baidu首页数据.代码如下: #include "stdio.h" #include"stdi ...
Mysql 实例：mysql语句练习50题（普通sql写法）
为了练习sql语句,在网上找了一些题,自己做了一遍,收益颇多.很多地方换一种思路,有更好的写法,欢迎指正. 题目地址:https://blog.csdn.net/fashion2014/article ...
爬虫04 /asyncio、selenium规避检测、动作链、无头浏览器
爬虫04 /asyncio.selenium规避检测.动作链.无头浏览器目录爬虫04 /asyncio.selenium规避检测.动作链.无头浏览器 1. 协程asyncio 2. aiohttp ...
Python之爬虫（七）正则的基本使用
什么是正则表达式正则表达式是对字符串操作的一种逻辑公式,就是事先定义好的一些特定字符.及这些特定字符的组合,组成一个“规则字符”,这个“规则字符” 来表达对字符的一种过滤逻辑. 正则并不是pyth ...
educoder SML程序设计题线下编译环境搭建
背景最近<串并行数据结构与算法设计>的老师在educoder上布置了一些SML程序设计题,虽然网站上有在线编译功能,但还是在线下编译调试方便,特记录编译环境过程如下(我用的GVIM,但N ...
DEX文件解析--3、dex文件字符串解析
一.前言前两篇文章链接: 1.DEX文件头解析 2.DEX文件校验和解析 PS:前几天检查文件夹的时候发现DEX文件解析还只写了开头,正好找点事情来做,就去接着解析DEX ...
图解：如何实现最小生成树（Prim算法与Kruskal算法）
这是图算法的第四篇文章图解:如何实现最小生成树文章目录: 1.概念和性质 2.思路探索 3.Kruskal算法 4.Prim算法 5.代码实现 1.概念和性质今天我们考虑的模型是加权无向图,问题 ...
Web Scraping using Python Scrapy_BS4 - using Scrapy and Python(2)
Scrapy Architecture Creating a Spider. Spiders are classes that you define that Scrapy uses to scrap ...
git分支间切换注意点和bug分支的处理
目录备注: 知识点记一次分支合并问题状况从分支点开始,不同分支修改工作区的内容(不添加到暂存区和提交),切换分支,工作区的内容是一样的. 必须在提交或者暂存当前暂存区的状态后,再切换或合并分支 ...

Python爬取10000条“爆款剧”——《三十而已》热评，并做可视化

前言

一、数据获取

二、数据处理

三、数据可视化

Python爬取10000条“爆款剧”——《三十而已》热评，并做可视化的更多相关文章

随机推荐

热门专题