python爬虫爬取B站视频字幕，词频统计，使用pyecharts画词云(wordcloud)

我们使用beatifulsop爬取到B站视频的字幕：https://www.cnblogs.com/becks/p/14540355.html

然后将爬取的字幕，使用pandas处理后写到CSV文件中：https://www.cnblogs.com/becks/p/14738496.html

本篇，实现将字幕分词处理后词云化显示，可更加直观的了解字幕的核心词汇都有哪些

思路，爬到字幕后，将字幕分词处理，统计词频（所有词的出现频率），然后根据出现频率设置词的显示大小

需要用到以下库

from bs4 import BeautifulSoup#爬虫

import requests

import pandas as pd#数据处理

import jieba#分词

from collections import Counter#分词后词频统计

from pyecharts.charts import WordCloud#词云

如果出现下图中no module named‘pandas’，提示，即缺少上面需要的库，可通过cmd执行pip install xxx（这里是pandas）来安装

安装pyecharts时需要注意，本案例使用的是1.9.0版本，0.x.x版本与1.9.0版本差别很大互不兼容，可能会出现很多错误或者方法不可用，请注意版本

爬取和数据提取在前面两篇文章已经介绍过了，直接贴代码部分

#获取弹幕

url = 'http://comment.bilibili.com/309778762.xml'

html = requests.get(url)

html.encoding='utf8'

soup = BeautifulSoup(html.text,'lxml')

results = soup.find_all('d')

#对弹幕数据进行处理，主要是提取弹幕内容，去掉标签和其他html符号

comments = [comment.text for comment in results]#从爬取的数据中取出弹幕数据，返回文本内容

分词和统计词频，中间的步骤如果需要了解的话，建议每一步后面print一下定义的变量，这样才可以更加直观的看到数据在所有步骤中是如何转换的

#分词及统计词频

text = ''.join(comments)#对获取的comments数据进行处理，去除中间的‘，’，具体参考https://blog.csdn.net/weixin_42986099/article/details/83447926

words = list(jieba.cut(text))#jieba分词

ex_sw_words = []

for word in words:

    if len(word)>1:#去掉字数不足2个的词

        ex_sw_words.append(word)

c = Counter()

c = Counter(ex_sw_words)#统计分词后所有词语出现的频率

wc_data = pd.DataFrame({'word':list(c.keys()), 'counts':list(c.values())}).sort_values(by='counts', ascending=False).head(100)
#重建数据，具体参考https://www.cnblogs.com/andrew-address/p/13040035.html


a = wc_data['word'].values.tolist()

b = wc_data['counts'].values.tolist()

name_tulpe = list(zip(a,b))#创建集合，使数据满足wordcloud对传入数据的要求

重建数据及创建集合的另外一种写法

c = Counter()

c = Counter(ex_sw_words)#统计分词后所有词语出现的频率

list_1=[]

list_2=[]

for i in c.keys():

    list_1.append(i)

for h in c.values():

    list_2.append(h)

name_tulpe = list(zip(list_1,list_2))

生成词云，wordcloud 对传入参数有严格的要求，具体参考文内的链接

#wordcloud对传入参数的要求参考

# https://gallery.pyecharts.org/#/WordCloud/wordcloud_custom_mask_image

# https://pyecharts.org/#/zh-cn/basic_charts?id=wordcloud：词云图

#将分词和统计词频后的内容用词云显示出来

wordcloud = WordCloud()

wordcloud.add("",name_tulpe,word_size_range=[15, 80])

wordcloud.render('wordcloud.html')

执行脚本后生成的词云效果

附全部脚本

# -*- coding: utf-8 -*-

from bs4 import BeautifulSoup#爬虫

import requests

import pandas as pd#数据处理

import jieba#分词

from collections import Counter#分词后词频统计

from pyecharts.charts import WordCloud#词云

#获取弹幕

url = 'http://comment.bilibili.com/309778762.xml'

html = requests.get(url)

html.encoding='utf8'

soup = BeautifulSoup(html.text,'lxml')

results = soup.find_all('d')

#对弹幕数据进行处理，主要是提取弹幕内容，去掉标签和其他html符号

comments = [comment.text for comment in results]#从爬取的数据中取出弹幕数据，返回文本内容

#分词及统计词频

text = ''.join(comments)#对获取的comments数据进行处理，去除中间的‘，’，具体参考https://blog.csdn.net/weixin_42986099/article/details/83447926

words = list(jieba.cut(text))#jieba分词

ex_sw_words = []

for word in words:

    if len(word)>1:#去掉字数不足2个的词

        ex_sw_words.append(word)

c = Counter()

c = Counter(ex_sw_words)#统计分词后所有词语出现的频率

wc_data = pd.DataFrame({'word':list(c.keys()), 'counts':list(c.values())}).sort_values(by='counts', ascending=False).head(100)#重建数据，具体参考https://www.cnblogs.com/andrew-address/p/13040035.html

a = wc_data['word'].values.tolist()

b = wc_data['counts'].values.tolist()

name_tulpe = list(zip(a,b))#创建集合，使数据满足wordcloud对传入数据的要求

#wordcloud对传入参数的要求参考

# https://gallery.pyecharts.org/#/WordCloud/wordcloud_custom_mask_image

# https://pyecharts.org/#/zh-cn/basic_charts?id=wordcloud：词云图

#将分词和统计词频后的内容用词云显示出来

wordcloud = WordCloud()

wordcloud.add("",name_tulpe,word_size_range=[15, 80])

wordcloud.render('c:/wordcloud.html')

关于词云绘制的另外一个案例，文内没有词频操作，但是可以自定义词云的显示样式，相对来说较简单

https://www.cnblogs.com/wkfvawl/p/11585986.html

python爬虫爬取B站视频字幕，词频统计，使用pyecharts画词云(wordcloud)的更多相关文章

python爬虫:爬取慕课网视频
前段时间安装了一个慕课网app,发现不用注册就可以在线看其中的视频,就有了想爬取其中的视频,用来在电脑上学习.决定花两天时间用学了一段时间的python做一做.(我的新书<Python爬虫开发与 ...
Python 自动爬取B站视频
文件名自定义(文件格式为.py),脚本内容: #!/usr/bin/env python #-*-coding:utf-8-*- import requests import random impor ...
python爬虫——爬取B站用户在线人数
国庆期间想要统计一下bilibili网站的在线人数变化,写了一个简单的爬虫程序.主要是对https://api.bilibili.com/x/web-interface/online返回的参数进行分析 ...
爬虫---爬取b站小视频
前面通过python爬虫爬取过图片,文字,今天我们一起爬取下b站的小视频,其实呢,测试过程中需要用到视频文件,找了几个网站下载,都需要会员什么的,直接写一篇爬虫爬取视频~~~ 分析b站小视频 1.进入 ...
爬虫之爬取B站视频及破解知乎登录方法（进阶）
今日内容概要爬虫思路之破解知乎登录爬虫思路之破解红薯网小说爬取b站视频 Xpath选择器 MongoDB数据库爬取b站视频 """ 爬取大的视频网站资源的时候,一 ...
Python爬虫 - 爬取百度html代码前200行
Python爬虫 - 爬取百度html代码前200行 - 改进版, 增加了对字符串的.strip()处理源代码如下: # 改进版, 增加了 .strip()方法的使用 # coding=utf-8 ...
用Python爬虫爬取广州大学教务系统的成绩（内网访问）
用Python爬虫爬取广州大学教务系统的成绩(内网访问) 在进行爬取前,首先要了解: 1.什么是CSS选择器? 每一条css样式定义由两部分组成,形式如下: [code] 选择器{样式} [/code ...
使用Python爬虫爬取网络美女图片
代码地址如下:http://www.demodashi.com/demo/13500.html 准备工作安装python3.6 略安装requests库(用于请求静态页面) pip install ...
Python爬虫|爬取喜马拉雅音频
"GOOD Python爬虫|爬取喜马拉雅音频喜马拉雅是知名的专业的音频分享平台,用户规模突破4.8亿,汇集了有声小说,有声读物,儿童睡前故事,相声小品等数亿条音频,成为国内发展最快.规模 ...
python爬虫爬取内容中，-xa0，-u3000的含义
python爬虫爬取内容中,-xa0,-u3000的含义 - CSDN博客 https://blog.csdn.net/aiwuzhi12/article/details/54866310

随机推荐

LeetCode刷题：AddressSanitizer: heap-buffer-overflow问题请教||全局变量和引用传递的区别
在刷 https://leetcode.cn/problems/sudoku-solver/description/ 遇到AddressSanitizer: heap-buffer-overflow的 ...
ESP32 idf常用脚本命令及git命令
一.Linux环境 1.下载并安装相关的工具 ./install.sh 2.添加ESP-IDF工具到PATH中 . ./export.sh 3.打开配置界面 idf.py menuconfig 4.设 ...
小程序 uni-app动态更改标题
uni-app动态更改顶部标题 uni-app uni.setNavigationBarTitle({ title: '编辑班级荣誉' }) 小程序 wx.setNavigationBarTitle( ...
Q:如何在Linux系统中查看实时网卡流量
Linux查看实时网卡流量的几种方式来源 https://www.jianshu.com/p/b9e942f3682c 在工作中,我们经常需要查看服务器的实时网卡流量.通常,我们会通过这几种方式查 ...
mybatis之生命周期及作用域
SqlSessionFactoryBuilder 一旦创建了SqlSessionFactory之后就没有作用了局部变量 SqlSessionFactory 可以理解为数据库的连接池 SqlSessi ...
.NET Core 托管堆内存泄露/CPU异常的常见思路
常见的思路内存泄露托管内存暴涨大多数原因都是因为对象被GC Root(stack,gchandle,finalizequeue)持有,所以一直无法释放,所以观察的重点都在对象的可疑GC Root ...
autMan奥特曼机器人-跳过注册页面直接进入登陆页面
1.将下面4行内容存成txt文件[注意将"账号"和"密码"等字眼替换为自己的真正账号和密码],文件名改成sets.conf,放到autman主文件夹,见下图最下 ...
大模型本地部署搭建【ollama + deepseek + dify】
大模型本地部署搭建[在线] 一.ollama的下载.安装.配置 ollama是管理和运行所有开源大模型的平台下载地址:https://ollama.com/download 或github下载:ht ...
ocr识别过程中报错 tesseract is not installed
这个问题无论在初始编译时或者在后来坏境变更调试时都会遇到的问题. 解决:问题原因是源码中的默认路径位置与文件位置不同,需要更改一下
【vscode】vscode配置Java
[vscode]vscode配置Java 前言 ‍ 配环境,需要记录,避免反复踩坑. ‍ 步骤 ‍ step1:官网走 ‍ 配环境为什么不直接上官网教程,Visual Studio Code - Co ...

python爬虫爬取B站视频字幕，词频统计，使用pyecharts画词云(wordcloud)

python爬虫爬取B站视频字幕，词频统计，使用pyecharts画词云(wordcloud)的更多相关文章

随机推荐

热门专题