Python爬虫b站视频弹幕并生成词云图分析

爬虫：requests，beautifulsoup

词云：wordcloud，jieba

代码加注释：

 # -*- coding: utf-8 -*-

 import xlrd#读取excel

 import xlwt#写入excel

 import requests

 import linecache

 import wordcloud

 import jieba

 import matplotlib.pyplot as plt

 from bs4 import BeautifulSoup

 if __name__=="__main__":

     yun=""

     n=0#ID编号

     target='https://api.bilibili.com/x/v1/dm/list.so?oid=132084205'#b站oid页

     user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36'

     headers = {'User-Agent':user_agent}#伪装浏览器

     req=requests.get(url=target)

     html=req.text

     html=html.encode('ISO 8859-1')

     #html=html.replace('<br>',' ').replace('<br/>',' ').replace('/>','>')

     bf=BeautifulSoup(html,"html.parser")   

     texts=bf.find('i')

     texts_div=texts.find_all('d')

     #print(texts_div)

     for item in texts_div:

         n=n+1

         item_name=item.text#标题

         yun+=str(item_name)

     yun=yun.replace(" ","")

     yun=yun.replace("哈","")

     yun=yun.replace("啊","")

     yun=yun.replace("一","")#去除无意义弹幕

     # 结巴分词，生成字符串，wordcloud无法直接生成正确的中文词云

     cut_text = " ".join(jieba.cut(yun))

     wc = wordcloud.WordCloud(

     #设置字体，不然会出现口字乱码，文字的路径是电脑的字体一般路径，可以换成别的

     font_path="C:/Windows/Fonts/simfang.ttf",

     #设置了背景，宽高

     background_color="white",width=1000,height=880).generate(cut_text)

     plt.imshow(wc, interpolation="bilinear")

     plt.axis("off")

     plt.show()

     print("Done!")

运行结果图：

Python爬虫b站视频弹幕并生成词云图分析的更多相关文章

python 爬取B站视频弹幕信息
获取B站视频弹幕,相对来说很简单,需要用到的知识点有requests.re两个库.requests用来获得网页信息,re正则匹配获取你需要的信息,当然还有其他的方法,例如Xpath.进入你所观看的视频 ...
python爬虫抓站的一些技巧总结
使用python爬虫抓站的一些技巧总结:进阶篇一.gzip/deflate支持现在的网页普遍支持gzip压缩,这往往可以解决大量传输时间,以VeryCD的主页为例,未压缩版本247K,压缩了以后45 ...
转载：用python爬虫抓站的一些技巧总结
原文链接:http://www.pythonclub.org/python-network-application/observer-spider 原文的名称虽然用了<用python爬虫抓站的一 ...
用python爬虫抓站的一些技巧总结 zz
用python爬虫抓站的一些技巧总结 zz 学用python也有3个多月了,用得最多的还是各类爬虫脚本:写过抓代理本机验证的脚本,写过在discuz论坛中自动登录自动发贴的脚本,写过自动收邮件的脚本, ...
python 爬取豆瓣电影短评并wordcloud生成词云图
最近学到数据可视化到了词云图,正好学到爬虫,各种爬网站 [实验名称] 爬取豆瓣电影<千与千寻>的评论并生成词云 1. 利用爬虫获得电影评论的文本数据 2. 处理文本数据生成词云图第一步, ...
python根据文本生成词云图
python根据文本生成词云图效果代码 from wordcloud import WordCloud import codecs import jieba #import jieba.analy ...
Python模块---Wordcloud生成词云图
wordcloud是Python扩展库中一种将词语用图片表达出来的一种形式,通过词云生成的图片,我们可以更加直观的看出某篇文章的故事梗概. 首先贴出一张词云图(以哈利波特小说为例): 在生成词云图之前 ...
[转]用python爬虫抓站的一些技巧总结 zz
来源网站:http://www.pythonclub.org/python-network-application/observer-spider 学用python也有3个多月了,用得最多的还是各类爬 ...
用 python 爬虫抓站的一些技巧总结
学用python也有3个多月了,用得最多的还是各类爬虫脚本:写过抓代理本机验证的脚本,写过在discuz论坛中自动登录自动发贴的脚本,写过自动收邮件的脚本,写过简单的验证码识别的脚本,本来想写goog ...

随机推荐

sdcf day1 qwq比赛题解
目录写在前面 A 链接思路代码 B 链接翻译思路代码 C 链接翻译思路代码写在前面来到夏令营的第一场比赛,全是水题(第一题除外,不过是原题还是之前做过的,而且是并查集的果题,咕咕 ...
使用jstack命令查看CPU高占用的问题记录
笔记: 1.top命令找出最高占用的进程(command为java) 2.查看高负载进程下的高负载线程:top -Hp [PID] (或 ps -mp PID -o THREAD,tid,time) ...
CSS3 之loading动画实现思路
效果大致如下: 主要实现方式: 该效果主要用到animation-timing-function中的steps()函数,该函数主要用于分步隐藏不同模块. 实现思路: 第一步动画: 第二步动画: 第三步 ...
「HNOI2016」序列
传送门 Description 有 $q$ 个询问,每个询问给定两个数$l$ 和$r$,求 $a[l:r]$ 的不同子序列的最小值之和 Solution 校内模拟赛用了这道题,但是莫 ...
【cf补题记录】A. Hotelier
思考之后再看题解,是与别人灵魂之间的沟通与碰撞 A. Hotelier 题意给出长度为n的字符串,字符串由'L'.'R'以及数字0~9组成.旅馆有10间房子,L代表客人从左边入住,R代表客人从右边入 ...
avalon数据已更新,视图未更新的bug修复
$computed: { pinlei() { var key = this.currentProduct.key || 'youpin'; console.log(key, "我是key& ...
Linux+Apache环境下安装SSL证书
一.安装证书 (温馨提示:安装证书前请先备份您需要修改的服务器配置文件) 1.确认证书文件及证书路径. 例证书文件为:zzidc.com.jks,放置目录为Tomcat的conf目录下. 2.配置 ...
新版本Mariadb安装后相关问题的解决
给新机器Ubuntu安装的Mariadb后无法登录,通过网上各种方法修改root用户密码,仍然无法解决,耗费几个小时! 经过看日志和查手册,发现原因如下: ubuntu确实安装没有启用root用户,所 ...
TCP/IP协议栈中的TimeStamp选项
原文转自:http://www.cnblogs.com/lovemyspring/articles/4271716.html TCP应该是以太网协议族中被应用最为广泛的协议之一,这里就聊一聊TCP协议 ...
Software Engineering Continuous Integration Eclipse Mylyn

Python爬虫b站视频弹幕并生成词云图分析

Python爬虫b站视频弹幕并生成词云图分析的更多相关文章

随机推荐

热门专题