一、背景介绍

最近一段时间,刘畊宏真是火出了天际,引起一股全民健身的热潮,毕竟锻炼身体,是个好事!

针对此热门事件,我用Python的爬虫和情感分析技术,针对小破站的弹幕数据,分析了众多网友弹幕的舆论导向,下面我们来看一下,是如何实现的分析过程。

二、代码讲解-爬虫部分

2.1 分析弹幕接口

首先分析B站弹幕接口。

经过分析,得到的弹幕地址有两种:

第一种:http://comment.bilibili.com/{cid}.xml

第二种:https://api.bilibili.com/x/v1/dm/list.so?oid={cid}

这两种返回的结果一致!但都不全,都是只有部分弹幕!

以B站视频 https://www.bilibili.com/video/BV1Pa411v7vg 为例,查看网页源代码,可以找到对应的cid为574147025,所以该视频对应的弹幕接口地址是:http://comment.bilibili.com/574147025.xml

既然这样,就好办了,开始撸代码!

2.2 讲解爬虫代码

首先,导入需要用到的库:

import re  # 正则表达式提取文本
import requests # 爬虫发送请求
from bs4 import BeautifulSoup as BS # 爬虫解析页面
import time
import pandas as pd # 存入csv文件
import os

然后,向视频地址发送请求,解析出cid号:

r1 = requests.get(url=v_url, headers=headers)
html1 = r1.text
cid = re.findall('cid=(.*?)&aid=', html1)[0] # 获取视频对应的cid号
print('该视频的cid是:', cid)

根据cid号,拼出xml接口地址,并再次发送请求:

danmu_url = 'http://comment.bilibili.com/{}.xml'.format(cid)  # 弹幕地址
print('弹幕地址是:', danmu_url)
r2 = requests.get(danmu_url)

解析xml页面:标签的文本内容为弹幕,标签内p属性值(按逗号分隔)的第四个字段是时间戳:

soup = BS(html2, 'xml')
danmu_list = soup.find_all('d')
print('共爬取到{}条弹幕'.format(len(danmu_list)))
video_url_list = [] # 视频地址
danmu_url_list = [] # 弹幕地址
time_list = [] # 弹幕时间
text_list = [] # 弹幕内容
for d in danmu_list:
data_split = d['p'].split(',') # 按逗号分隔
temp_time = time.localtime(int(data_split[4])) # 转换时间格式
danmu_time = time.strftime("%Y-%m-%d %H:%M:%S", temp_time)
video_url_list.append(v_url)
danmu_url_list.append(danmu_url)
time_list.append(danmu_time)
text_list.append(d.text)
print('{}:{}'.format(danmu_time, d.text))

保存时应注意,为了避免多次写入csv标题头,像这样:

这里,我写了一个处理逻辑,大家看注释,应该能明白:

if os.path.exists(v_result_file):  # 如果文件存在,不需写入字段标题
header = None
else: # 如果文件不存在,说明是第一次新建文件,需写入字段标题
header = ['视频地址', '弹幕地址', '弹幕时间', '弹幕内容']
df.to_csv(v_result_file, encoding='utf_8_sig', mode='a+', index=False, header=header) # 数据保存到csv文件

需要注意的是,encoding参数赋值为utf_8_sig,不然csv内容可能会产生乱码,避免踩坑!

三、代码讲解-情感分析部分

3.1 整体思路

针对情感分析需求,我主要做了三个步骤的分析工作:

用SnowNLP给弹幕内容打标:积极、消极,并统计占比情况

用jieba.analyse分词,并统计top10高频词

用WordCloud绘制词云图

首先,导入csv数据,并做数据清洗工作,不再赘述。

下面,正式进入情感分析代码部分:

3.2 情感分析打标

情感分析计算得分值、分类打标,并画出饼图。

# 情感判定
for comment in v_cmt_list:
tag = ''
sentiments_score = SnowNLP(comment).sentiments
if sentiments_score < 0.5:
tag = '消极'
neg_count += 1
elif sentiments_score > 0.5:
tag = '积极'
pos_count += 1
else:
tag = '中性'
mid_count += 1
score_list.append(sentiments_score) # 得分值
tag_list.append(tag) # 判定结果
df['情感得分'] = score_list
df['分析结果'] = tag_list

这里,我设定情感得分值小于0.5为消极,大于0.5为积极,等于0.5为中性。(这个分界线,没有统一标准,根据数据分布情况和分析经验自己设定分界线即可)

情感判定结果:

画出占比饼图的代码:

grp = df['分析结果'].value_counts()
print('正负面评论统计:')
print(grp)
grp.plot.pie(y='分析结果', autopct='%.2f%%') # 画饼图
plt.title('刘畊宏弹幕_情感分布占比图')
plt.savefig('刘畊宏弹幕_情感分布占比图.png') # 保存图片

饼图结果:

从占比结果来看,大部分网友还是很认可刘畊宏的。

3.3 统计top10高频词

代码如下:

# 2、用jieba统计弹幕中的top10高频词
keywords_top10 = jieba.analyse.extract_tags(v_cmt_str, withWeight=True, topK=10)
print('top10关键词及权重:')
pprint(keywords_top10)

这里需要注意,在调用jieba.analyse.extract_tags函数时,要导入的是import jieba.analyse 而不是 import jieba

统计结果为:(分为10组关键词及其权重,权重按倒序排序)

3.4 绘制词云图

注意别踩坑:

想要通过原始图片的形状生成词云图,原始图片一定要白色背景(实在没有的话,PS修图修一个吧),否则生成的是满屏词云!!

try:
stopwords = v_stopwords # 停用词
backgroud_Image = np.array(Image.open('刘畊宏_背景图.png')) # 读取背景图片
wc = WordCloud(
background_color="white", # 背景颜色
width=1500, # 图宽
height=1200, # 图高
max_words=1000, # 最多字数
font_path='/System/Library/Fonts/SimHei.ttf', # 字体文件路径,根据实际情况(Mac)替换
# font_path="C:\Windows\Fonts\simhei.ttf", # 字体文件路径,根据实际情况(Windows)替换
stopwords=stopwords, # 停用词
mask=backgroud_Image, # 背景图片
)
jieba_text = " ".join(jieba.lcut(v_str)) # jieba分词
wc.generate_from_text(jieba_text) # 生成词云图
wc.to_file(v_outfile) # 保存图片文件
print('词云文件保存成功:{}'.format(v_outfile))
except Exception as e:
print('make_wordcloud except: {}'.format(str(e)))

得到的词云图,和原始背景图对比一下:

3.5 情感分析结论

  1. 打标结果中,积极和中性评价占约72%,远远大于消极评价!
  2. top10关键词统计结果中,"哈哈哈"、"打卡"、"加油"、"666"等好评词汇占据多数!
  3. 词云图中,"哈哈"、"打卡"、"厉害"、"加油"等好评词看上去更大(词频高)!

    综上所述,经分析"刘畊宏"相关弹幕,得出结论:

众多网友对刘畊宏的评价都很高,毕竟不但带领全面健身这样正能量的事,还是杰伦的好兄弟,谁能不爱呢!

给他点赞!!

四、同步演示视频

演示代码执行过程:

https://www.zhihu.com/zvideo/1506383713600036864


by 马哥python说

【爬虫+情感判定+Top10高频词+词云图】“刘畊宏“热门弹幕python舆情分析的更多相关文章

  1. 【爬虫+情感判定+Top10高频词+词云图】“谷爱凌”热门弹幕python舆情分析

    一.背景介绍 最近几天,谷爱凌在冬奥会赛场上夺得一枚宝贵的金牌,为中国队贡献了自己的荣誉! 针对此热门事件,我用Python的爬虫和情感分析技术,针对小破站的弹幕数据,分析了众网友弹幕的舆论导向,下面 ...

  2. 【爬虫+情感判定+Top10高频词+词云图】"王心凌"热门弹幕python舆情分析

    目录 一.背景介绍 二.代码讲解-爬虫部分 2.1 分析弹幕接口 2.2 讲解爬虫代码 三.代码讲解-情感分析部分 3.1 整体思路 3.2 情感分析打标 3.3 统计top10高频词 3.4 绘制词 ...

  3. python爬虫之採集——360联想词W2版本号

    http://blog.csdn.net/recsysml/article/details/30541197,我的这个博文介绍了对应的简单的方法做一个联想词的爬虫,并且还承诺了下面优化: 下一版本号的 ...

  4. Java爬取B站弹幕 —— Python云图Wordcloud生成弹幕词云

    一 . Java爬取B站弹幕 弹幕的存储位置 如何通过B站视频AV号找到弹幕对应的xml文件号 首先爬取视频网页,将对应视频网页源码获得 就可以找到该视频的av号aid=8678034 还有弹幕序号, ...

  5. python爬虫实践--求职Top10城市

    前言 从智联招聘爬取相关信息后,我们关心的是如何对内容进行分析,获取用用的信息.本次以上篇文章“5分钟掌握智联招聘网站爬取并保存到MongoDB数据库”中爬取的数据为基础,分析关键词为“python” ...

  6. paip.输入法编程---词库多意义条目分割 python实现.

    paip.输入法编程---词库多意义条目分割 python实现. ==========子标题 python mysql 数据库操作 多字符分隔,字符串分割 字符列表循环  作者 老哇的爪子 Attil ...

  7. 特朗普退出《巴黎协定》:python词云图舆情分析

    1 前言 2017年6月1日,美国特朗普总统正式宣布美国退出<巴黎协定>.宣布退出<巴黎协定>后,特朗普似乎成了“全球公敌”. 特斯拉总裁马斯克宣布退出总统顾问团队 迪士尼董事 ...

  8. python利用爬虫获取百度翻译,爱词霸翻译结果,制作翻译小工具

    先看效果展示(仅作学习使用,非商业) 效果图是采用的 爱词霸 翻译,百度翻译 也实现了,只不过被注释了. 学计算机很多时候碰到生词,每次打开手机/浏览器翻译总觉得很麻烦,就想着自己写一个软件,自己去实 ...

  9. Python爬虫——Python 岗位分析报告

    前两篇我们分别爬取了糗事百科和妹子图网站,学习了 Requests, Beautiful Soup 的基本使用.不过前两篇都是从静态 HTML 页面中来筛选出我们需要的信息.这一篇我们来学习下如何来获 ...

随机推荐

  1. Redis 相比 Memcached 有哪些优势?

    1.Memcached 所有的值均是简单的字符串,redis 作为其替代者,支持更为丰 富的数据类 2.Redis 的速度比 Memcached 快很 3.Redis 可以持久化其数据

  2. 相对路径在IEAD中的位置

    相对路径在IEAD中的位置 工具栏-->Run -->Edit Configurations -->Working directory-->就是了 这里是直接到软件的地址:剩下 ...

  3. 论文解读( N2N)《Node Representation Learning in Graph via Node-to-Neighbourhood Mutual Information Maximization》

    论文信息 论文标题:Node Representation Learning in Graph via Node-to-Neighbourhood Mutual Information Maximiz ...

  4. volist标签的各种属性

    volist标签通常用于查询数据集(select方法)的结果输出,通常模型的select方法返回的结果是一个二维数组,可以直接使用volist标签进行输出. 在控制器中首先对模版赋值: $User = ...

  5. 基于HTML5的网络拓扑图(1)

    什么是网络拓扑 网络拓扑,指构成网络的成员间特定的排列方式.分为物理的,即真实的.或者逻辑的,即虚拟的两种.如果两个网络的连接结构相同,我们就説它们的网络拓扑相同,尽管它们各自内部的物理接线.节点间距 ...

  6. 原生js实现架子鼓特效

    这是代码完成的效果,按下abcd会出现对应的架子鼓音乐的效果. 简单的介绍下代码思路,html和css部分就不多说了. 重要的是js部分. 大致是这样的, 首先获取到所有的按钮为一个数组,然后遍历整个 ...

  7. [FireshellCTF2020]ScreenShooter 1

    此题关键在于理清逻辑,本地将url发送给服务器,服务器请求sereenshooter以后将结果返回 所以应该在服务器查看日志. 发现了PhantomJS 引擎一下 <!DOCTYPE html& ...

  8. 单例模式的实现Singleton和MonoSingleton

    using System.Collections; using System.Collections.Generic; using UnityEngine; /// <summary> / ...

  9. Android普通工具类获取Context

    在普通工具类中定义一个构造方法,类成员context,用于接收传过来的context 在activity中定义: 将context传过去. 在工具类中也可以使用SharePreferences,get ...

  10. java中请给出一个return this的例子。

    [新手可忽略不影响继续学习]下面例子中setYear中的return this;返回了一个指向对象的指针,this.setMonth(8).setDay(20);是合法的,如果像原来的例子一样什么都不 ...