爬取B站弹幕并且制作词云

爬取弹幕
- 1. 从手机端口进入网页爬取找到接口
- 2.代码
制作词云
- 1.文件读取
- 2.代码

爬取弹幕

1. 从手机端口进入网页爬取找到接口

2.代码

import requests

from lxml import etree

import numpy as np

url='https://api.bilibili.com/x/v1/dm/list.so?oid=198835779'

headers= {

    'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Mobile Safari/537.36',

     }

response = requests.get(url,headers= headers)

# response.encoding='utf-8'

# print(response.text)

# print(response.content)

print(type(response.text))

html=etree.HTML(response.content)

t=etree.tostring(html)

# print(t)

words = html.xpath('/html//d/text()')

with open('word.txt','w')as f:

    for word in words:

        f.write(word+' ')

print(words)

每一次的都是不同的弹幕所以不用担心弹幕数量过少

制作词云

利用的是wordcloud库

1.文件读取

2.代码

#coding:utf-8

from matplotlib import pyplot as plt

from wordcloud import WordCloud

import jieba

f=open(r'word.txt','r',encoding='gbk').read()

font = r'C:\Windows\Fonts\FZSTK.TTF'

cloud=WordCloud(

    font_path=font,

    width=1000,

    height=800,

    margin=2

).generate(f)

plt.imshow(cloud)

plt.axis('off')

plt.show()

爬取B站弹幕并且制作词云的更多相关文章

萌新学习Python爬取B站弹幕+R语言分词demo说明
代码地址如下:http://www.demodashi.com/demo/11578.html 一.写在前面之前在简书首页看到了Python爬虫的介绍,于是就想着爬取B站弹幕并绘制词云,因此有了这样 ...
Java爬取B站弹幕 —— Python云图Wordcloud生成弹幕词云
一 . Java爬取B站弹幕弹幕的存储位置如何通过B站视频AV号找到弹幕对应的xml文件号首先爬取视频网页,将对应视频网页源码获得就可以找到该视频的av号aid=8678034 还有弹幕序号, ...
手把手教你爬取B站弹幕！
效果输入要爬取的视频的BV号即可爬取该视频的弹幕. 过程基本思路基本的思路很简单,还是老步骤: 1.构造爬取的url 2.解析返回的数据 3.使用json或Xpath或正则表达式提取数据 4.保 ...
Python爬取b站任意up主所有视频弹幕
爬取b站弹幕并不困难.要得到up主所有视频弹幕,我们首先进入up主视频页面,即https://space.bilibili.com/id号/video这个页面.按F12打开开发者菜单,刷新一下,在ne ...
Python爬取B站耗子尾汁、不讲武德出处的视频弹幕
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 前言耗子喂汁是什么意思什么梗呢?可能很多人不知道,这个梗是出自马保国,经常上网的人可能听说过这个 ...
python爬取B站视频弹幕分析并制作词云
1.分析网页视频地址: www.bilibili.com/video/BV19E… 本身博主同时也是一名up主,虽然已经断更好久了,但是不妨碍我爬取弹幕信息来分析呀. 这次我选取的是自己唯一的爆款 ...
python 爬取B站视频弹幕信息
获取B站视频弹幕,相对来说很简单,需要用到的知识点有requests.re两个库.requests用来获得网页信息,re正则匹配获取你需要的信息,当然还有其他的方法,例如Xpath.进入你所观看的视频 ...
用Python爬取B站、腾讯视频、爱奇艺和芒果TV视频弹幕！
众所周知,弹幕,即在网络上观看视频时弹出的评论性字幕.不知道大家看视频的时候会不会点开弹幕,于我而言,弹幕是视频内容的良好补充,是一个组织良好的评论序列.通过分析弹幕,我们可以快速洞察广大观众对于视频 ...
用python 抓取B站视频评论，制作词云
python 作为爬虫利器,与其有很多强大的第三方库是分不开的,今天说的爬取B站的视频评论,其实重点在分析得到的评论化作嵌套的字典,在其中取出想要的内容.层层嵌套,眼花缭乱,分析时应细致!步骤分为以下 ...

随机推荐

[JavaWeb基础] 001.简单的JavaWeb代码和Tomcat配置部署
简介: 其实说明白了就是J2EE应用开发,前端可以有很多的展现方式,后端由Java做逻辑运算和数据支撑.适用于创建服务器应用程序和服务,为搭建具有可伸缩性.灵活性.易维护性的商务系统提供了良好的机制. ...
7z命令行简单使用
7z命令行简单使用网上有很多博客都有记录7z的命令行使用方式,但看起来乱起八糟的,不知所云. 急于使用者可以直接看实例注:我仅仅记录我认为常用的命令,毕竟没有那么多的精力去学习不常用的东西. 简介 ...
【Python】组合数据类型
集合类型集合类型定义集合是多个元素的无序组合集合类型与数学中的集合概念一致集合元素之间无序,每个元素唯一,不存在相同元素集合元素不可更改,不能是可变数据类型理解:因为集合类型不重复,所以不 ...
前后端分离，如何在前端项目中动态插入后端API基地址？（in docker）
开门见山,本文分享前后端分离,容器化前端项目时动态插入后端API基地址,这是一个很赞的实践,解决了前端项目容器化过程中受制后端调用的尴尬. 尴尬从何而来常见的web前后端分离:前后端分开部署,前端项 ...
Java实现 LeetCode 235 二叉搜索树的最近公共祖先
235. 二叉搜索树的最近公共祖先给定一个二叉搜索树, 找到该树中两个指定节点的最近公共祖先. 百度百科中最近公共祖先的定义为:"对于有根树 T 的两个结点 p.q,最近公共祖先表示为一个 ...
Java实现蓝桥杯VIP 算法提高质因数2
算法提高质因数2 时间限制:1.0s 内存限制:256.0MB 将一个正整数N(1<N<32768)分解质因数,把质因数按从小到大的顺序输出.最后输出质因数的个数. 输入格式一行,一个 ...
Java实现蓝桥杯VIP 算法提高邮票面值设计
算法提高邮票面值设计时间限制:1.0s 内存限制:256.0MB 问题描述给定一个信封,最多只允许粘贴N张邮票,计算在给定K(N+K≤13)种邮票的情况下(假定所有的邮票数量都足够),如何设计邮 ...
关于C#委托三种调用的分享
一.同步调用 1.同步调用会按照代码顺序来执行2.同步调用会阻塞线程,如果是要调用一项繁重的工作(如大量IO操作),可能会让程序停顿很长时间,造成糟糕的用户体验,这时候异步调用就很有必要了. 举个栗子 ...
记一次discuz修改首页图片路径问题
1.找到图片路径拼装文件首先打开根目录下的template目录找到首页文件打开后找到图片列表的拼装位置 // 链接示例: <!--{eval $imagelistkey = getforum ...
.NET开发者省份分布排名
什么叫.NET开发者省份分布排名呢? 顾名思义,这几个词大家都认识,.NET开发者都集中在城市,涵盖一线城市到五线城市.排名的方法非常简单粗暴,就是根据本公众号(dotnet跨平台)的省份订阅读者数量 ...

爬取B站弹幕并且制作词云

爬取弹幕

1. 从手机端口进入网页爬取找到接口

2.代码

制作词云

1.文件读取

2.代码

爬取B站弹幕并且制作词云的更多相关文章

随机推荐

热门专题