一、背景介绍

您好，我是@马哥python说，一枚10年程序猿。

自从2023.3月以来，"淄博烧烤"现象持续占领热搜流量，体现了后疫情时代众多网友对人间烟火气的美好向往，本现象级事件存在一定的数据分析实践意义。

我用Python爬取并分析了B站众多网友的评论，并得出一系列分析结论。

二、爬虫代码

2.1 展示爬取结果

首先，看下部分爬取数据：

爬取字段含：视频链接、评论页码、评论作者、评论时间、IP属地、点赞数、评论内容。

2.2 爬虫代码讲解

导入需要用到的库：

import requests  # 发送请求

import pandas as pd  # 保存csv文件

import os  # 判断文件是否存在

import time

from time import sleep  # 设置等待，防止反爬

import random  # 生成随机数

定义一个请求头：

# 请求头

headers = {

    'authority': 'api.bilibili.com',

    'accept': 'application/json, text/plain, */*',

    'accept-language': 'zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6',

    # 需定期更换cookie，否则location爬不到

    'cookie': "需换成自己的cookie值",

    'origin': 'https://www.bilibili.com',

    'referer': 'https://www.bilibili.com/video/BV1FG4y1Z7po/?spm_id_from=333.337.search-card.all.click&vd_source=69a50ad969074af9e79ad13b34b1a548',

    'sec-ch-ua': '"Chromium";v="106", "Microsoft Edge";v="106", "Not;A=Brand";v="99"',

    'sec-ch-ua-mobile': '?0',

    'sec-ch-ua-platform': '"Windows"',

    'sec-fetch-dest': 'empty',

    'sec-fetch-mode': 'cors',

    'sec-fetch-site': 'same-site',

    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36 Edg/106.0.1370.47'

}

请求头中的cookie是个很关键的参数，如果不设置cookie，会导致数据残缺或无法爬取到数据。

那么cookie如何获取呢？打开开发者模式，见下图：

由于评论时间是个十位数：

所以开发一个函数用于转换时间格式：

def trans_date(v_timestamp):

    """10位时间戳转换为时间字符串"""

    timeArray = time.localtime(v_timestamp)

    otherStyleTime = time.strftime("%Y-%m-%d %H:%M:%S", timeArray)

    return otherStyleTime

向B站发送请求：

response = requests.get(url, headers=headers, )  # 发送请求

接收到返回数据了，怎么解析数据呢？看一下json数据结构：

0-19个评论，都存放在replies下面，replies又在data下面，所以，这样解析数据：

data_list = response.json()['data']['replies']  # 解析评论数据

这样，data_list里面就是存储的每条评论数据了。

接下来吗，就是解析出每条评论里的各个字段了。

我们以评论内容这个字段为例：

comment_list = []  # 评论内容空列表

# 循环爬取每一条评论数据

for a in data_list:

    # 评论内容

    comment = a['content']['message']

    comment_list.append(comment)

其他字段同理，不再赘述。

最后，把这些列表数据保存到DataFrame里面，再to_csv保存到csv文件，持久化存储完成：

# 把列表拼装为DataFrame数据

df = pd.DataFrame({

    '视频链接': 'https://www.bilibili.com/video/' + v_bid,

    '评论页码': (i + 1),

    '评论作者': user_list,

    '评论时间': time_list,

    'IP属地': location_list,

    '点赞数': like_list,

    '评论内容': comment_list,

})

# 把评论数据保存到csv文件

df.to_csv(outfile, mode='a+', encoding='utf_8_sig', index=False, header=header)

注意，加上encoding='utf_8_sig'，否则可能会产生乱码问题！

下面，是主函数循环爬取部分代码：（支持多个视频的循环爬取）

# 随便找了几个"淄博烧烤"相关的视频ID

bid_list = ['BV1dT411p7Kd', 'BV1Ak4y1n7Zb', 'BV1BX4y1m7jP']

# 评论最大爬取页（每页20条评论）

max_page = 30

# 循环爬取这几个视频的评论

for bid in bid_list:

    # 输出文件名

    outfile = 'b站评论_{}.csv'.format(now)

    # 转换aid

    aid = bv2av(bid=bid)

    # 爬取评论

    get_comment(v_aid=aid, v_bid=bid)

三、可视化代码

为了方便看效果，以下代码采用jupyter notebook进行演示。

3.1 读取数据

用read_csv读取刚才爬取的B站评论数据：

查看前3行及数据形状：

3.2 数据清洗

处理空值及重复值：

3.3 可视化

3.3.1 IP属地分析-柱形图

结论：从柱形图来看，山东位居首位，说明淄博烧烤也受到本地人大力支持，其次是四川、广东等地讨论热度最高。

3.3.2 评论时间分析-折线图

结论：从折线图来看，4月26日左右达到讨论热度顶峰，其次是5月1号即五一劳动节假期第一天，大量网友的"进淄赶烤"也制造了新的讨论热度。

3.3.3 点赞数分布-箱线图

由于点赞数大部分为0或个位数情况，个别点赞数到达成千上万，箱线图展示效果不佳，因此，仅提取点赞数<10的数据绘制箱线图。

结论：从箱线图来看，去除超过10个点赞数评论数据之后，大部分评论集中在0-3个点赞之间，也就是只有少量评论引起网友的点赞共鸣和认可。

3.3.4 评论内容-情感分布饼图

针对中文评论数据，采用snownlp开发情感判定函数：

情感分布饼图，如下：

结论：从饼图来看，积极和消极分别占比不到一半，说明广大网友在认可淄博烧烤现象的同时，也有大量负面讨论存在，比如讨论烧烤的价格略高、住宿条件欠佳、环境污染等负面话题。

3.3.5 评论内容-词云图

由于评论内容中存在很多"啊"、"的"、"了"等无意义的干扰词，影响高频词的提取，因此，采用哈工大停用词表作为停用词词典，对干扰词进行屏蔽：

然后，绘制词云图：

结论：从词云图来看，"淄博"、"烧烤"、"山东"、"好吃"、"城市"、"好"、"物价"等正面词汇字体较大，体现出众多网友对以「淄博烧烤」为代表的后疫情时代人间烟火的美好向往。

四、技术总结

「淄博烧烤」案例完整开发流程：

requests爬虫
json解析
pandas保存csv
pandas数据清洗
snownlp情感分析
matplotlib可视化，含：

1）IP属地分析-柱形图Bar

2）评论时间分析-折线图Line

3）点赞数分布-箱线图Boxplot

4）评论内容-情感分布饼图Pie

5）评论内容-词云图WordCloud

五、演示视频

代码演示视频：https://www.bilibili.com/video/BV18s4y1B71z

六、完整源码

完整源码：【爬虫+数据清洗+可视化分析】舆情分析"淄博烧烤"的B站评论

我是 @马哥python说，持续分享python源码干货中！

【爬虫+数据清洗+可视化】用Python分析“淄博烧烤“的评论数据的更多相关文章

【爬虫+数据清洗+可视化分析】舆情分析哔哩哔哩"狂飙"的评论
目录一.背景介绍二.爬虫代码 2.1 展示爬取结果 2.2 爬虫代码讲解三.可视化代码 3.1 读取数据 3.2 数据清洗 3.3 可视化 3.3.1 IP属地分析-柱形图 3.3.2 评论时间 ...
【可视化分析案例】用python分析B站Top100排行榜数据
一.数据源之前,我分享过一期爬虫,用python爬取Top100排行榜: 最终数据结果,是这样的: 在此数据基础上,做python可视化分析. 二.数据读取首先,读取数据源: # 读取csv数据 ...
用Python分析北京市蛋壳公寓租房数据
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理近期,蛋壳公寓"爆雷"事件持续发酵,期间因拖欠房东房租与租客退款,蛋壳公寓陷入讨 ...
EDG夺冠！用Python分析22.3万条数据：粉丝都疯了!
一.EDG夺冠信息 11月6日,在英雄联盟总决赛中,EDG战队以3:2战胜韩国队,获得2021年英雄联盟全球总决赛冠军,这个比赛在全网各大平台也是备受瞩目: 1.微博热搜第一名,截止2021-11-1 ...
2020不平凡的90天，Python分析三个月微博热搜数据带你回顾
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:刘早起早起 PS:如有需要Python学习资料的小伙伴可以加点击下方链 ...
【Python爬虫案例学习】Python爬取天涯论坛评论
用到的包有requests - BeautSoup 我爬的是天涯论坛的财经论坛:'http://bbs.tianya.cn/list.jsp?item=develop' 它里面的其中的一个帖子的URL ...
Python爬虫入门教程 32-100 B站博人传评论数据抓取 scrapy
1. B站博人传评论数据爬取简介今天想了半天不知道抓啥,去B站看跳舞的小姐姐,忽然看到了评论,那就抓取一下B站的评论数据,视频动画那么多,也不知道抓取哪个,选了一个博人传跟火影相关的,抓取看看.网址 ...
Python爬虫实战练习：爬取美团旅游景点评论数据
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 今年的国庆节还有半个月就要来了,相信很多的小伙伴还是非常期待这个小长假的.国庆节是一年中的小 ...
一篇文章教会你用Python爬取淘宝评论数据（写在记事本）
[一.项目简介] 本文主要目标是采集淘宝的评价,找出客户所需要的功能.统计客户评价上面夸哪个功能多,比如防水,容量大,好看等等. 很多人学习python,不知道从何学起.很多人学习python,掌握了 ...
五月天的线上演唱会你看了吗？用Python分析网友对这场线上演唱会的看法
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:CDA数据分析师豆瓣9.4分!这场线上演唱会到底多好看? 首先让我 ...

随机推荐

咕咕list
做完以后会留在榜上一天,这样显得咕咕list长一些 CF666E Forensic Examination(done on 2023.2.6) dp选做
如何通过Java更改Word中的页面大小和页面方向
新建的 Word 文档,默认纸张为 A4 纸,大小为 21 厘米 × 29.7 厘米,没特殊要求的文档用 A4 纸即可,但有时文档中的内容比较宽,需要用比 A4 纸更宽的纸张,例如制作一些宽的表格,就 ...
你可能需要的 6 个 React 开发小技巧
这是一个可怕的问题,在React中,我们经常会编写条件语句来显示不同的视图,比如这个简单的例子. const App = () => { return ( <> { loadin ...
pip更新一直time out 的解决方法
python -m pip install -U --force-reinstall pip 或者指定安装的镜像, 这里以安装numpy为例,运行pip install numpy -i http:/ ...
Edge解决默认Bing搜索跳转到国内版的问题
近期BingGPT申请通过以后,每次用PC端Edge去跳转的时候不管是否念Proxy咒都会进入国内版本Bing,排查得到默认Bing参数如下因此,在edge://settings/searchEng ...
THM-被动侦察和主动侦查
被动与主动侦察在计算机系统和网络出现之前,孙子兵法在孙子兵法中教导说:"知己知彼,必胜不疑." 如果您扮演攻击者的角色,则需要收集有关目标系统的信息.如果你扮演防御者的角色,你需 ...
PDF打开后显示的名称不是其文件名怎么办？
本文介绍打开PDF文件时,PDF阅读器所显示的文件名称与文件实际名称不一致的解决办法. 就在刚刚准备一篇空间三维建模相关的博客时,偶然发现了如下一个问题: 在打开这个图中名称为空间三维建模 ...
二进制安装Kubernetes（k8s） v1.23.3
声明:微信公众号不支持富文本格式,代码缩进有问题参考我其他平台文档: https://www.oiox.cn/index.php/archives/90/ https://juejin.cn/pos ...
Java设计模式 —— 建造者模式
8 建造者模式 8.1 建造者模式概述 Builder Pattern:将一个复杂对象的构建与它的表示分离,使得同样的构建过程可以创建不同的表示. 建造者模式可以将部件本身和它们的组装过程分开,关注如 ...
Ubuntu系统Flameshot使用问题
Ubuntu系统Flameshot使用问题系统:Ubuntu22.04 问题:使用Flameshot,每次都会先截取整个屏幕,提示需要先分享,再使用Flameshot的功能安装Flameshot ...

【爬虫+数据清洗+可视化】用Python分析“淄博烧烤“的评论数据