最近受人之托研究了下b站的数据爬取做个小工具，最后朋友说不需要了，本着开源共享的原则，将研究成果与大家分享一波，话不多说直接上干货

需求分析

给定up主uid和用户uid，爬取用户在该up主所有视频中发的所有弹幕

需求拆解

获取up主所有视频

打开b站，随便搜索一个up主，打开所有视频页面，f12看异步请求就一目了然了

接口地址:https://space.bilibili.com/ajax/member/getSubmitVideos?mid=up主的uid&pagesize=30&tid=0&page=1&keyword=&

直接通过GET请求访问，该接口限制pagesize为100，数目超过就会返回错误，但是该接口会返回一个总数与页数，所以我们首先请求一次，获取相关参数再分批次请求，获取到数据后对vlist进行json数据解析就可以，我们主要获取的是aid，也就是av号

获取视频所有弹幕

使用firefox浏览器打开视频，f12后搜索list.so请求会发现弹幕xml文件，同样也是GET请求

接口地址:https://api.bilibili.com/x/v1/dm/list.so?oid=112062851 http://comment.bilibili.com/{cid}..xml

但是在百度的过程中发现了一个直接读取xml文件的地址，更加方便

接口地址：http://comment.bilibili.com/{cid}.xml

这个cid就是弹幕xml的文件编号，通过分析异步请求，发现了返回这个cid的返回接口

接口地址：https://api.bilibili.com/x/player/pagelist?aid=视频av号&jsonp=jsonp

需要注意的是返回的是一个数组，这说明如果视频弹幕过多的话可能有多个xml文件，我们需要遍历获取

弹幕xml文件分析

文件格式内容如下所示

可以看到里面d标签的文字内容就是发送的弹幕，但是我们还需要对弹幕的发送者与我们给定的用户进行对比，所以需要对d标签的属性p进行分析，p属性使用逗号隔开的一系列数据，其中各个参数属性如下

我们只需要获取里面的第7个参数用户的唯一标识即可

难点分析

用户id转换

在弹幕xml文件中获取的用户标识是用户uid经过hash后的编码，所以我们需要进行转换后才能对比校验，经过使用在线hash网站中的一个个hash函数尝试比对，发现hash算法为crc32b，crc32是一个常见算法，用于文件校验，但是crc32b百度了一圈也搜索不到是个啥东西，无奈出国google了一下，crc32b只是将crc32算法加密后的结果转换成了16进制，下面提供c#实现的功能函数

        /// <summary>

        /// CRC32校验算法

        /// </summary>

        protected static ulong[] Crc32Table;

        //生成CRC32码表

        public static void GetCRC32Table()

        {

            ulong Crc;

            Crc32Table = new ulong[];

            int i, j;

            for (i = ; i < ; i++)

            {

                Crc = (ulong)i;

                for (j = ; j > ; j--)

                {

                    if ((Crc & ) == )

                        Crc = (Crc >> ) ^ 0xEDB88320;

                    else

                        Crc >>= ;

                }

                Crc32Table[i] = Crc;

            }

        }

        //获取字符串的CRC32校验值

        public static ulong GetCRC32Str(string sInputString)

        {

            //生成码表

            GetCRC32Table();

            byte[] buffer = System.Text.ASCIIEncoding.ASCII.GetBytes(sInputString); ulong value = 0xffffffff;

            int len = buffer.Length;

            for (int i = ; i < len; i++)

            {

                value = (value >> ) ^ Crc32Table[(value & 0xFF) ^ buffer[i]];

            }

            return value ^ 0xffffffff;

        }

        public static string GetCRC32bStr(string sInputString)

        {

            return GetCRC32Str(sInputString).ToString("x");

        }

通过代码GET请求保存xml文件

在保存xml文件的过程中发现输出流转为文字永远是乱码，经过查看请求网页中header中的值，发现返回的xml数据流是压缩格式的

所以我们对GET请求的方法进行了一些设置，首先Accept-Encoding需要与真正的访问请求保持一致，然后设置自动解压，下面提供c#示例

        public static String HttpGet_BiliBiliXmlFile(string Url)

        {

            HttpWebRequest request = (HttpWebRequest)WebRequest.Create(Url);

            request.Method = "GET";

            request.ContentType = "text/html;charset=UTF-8";

            request.Headers[HttpRequestHeader.AcceptEncoding] = "gzip, deflate, br";

            request.Headers[HttpRequestHeader.AcceptLanguage] = "zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2";

            //自动解压

            request.AutomaticDecompression = DecompressionMethods.GZip | DecompressionMethods.Deflate;

            HttpWebResponse response = (HttpWebResponse)request.GetResponse();

            Stream myResponseStream = response.GetResponseStream();

            StreamReader myStreamReader = new StreamReader(myResponseStream, Encoding.UTF8);

            string retString = myStreamReader.ReadToEnd();

            myStreamReader.Close();

            myResponseStream.Close();

            return retString;

        }

功能到这里就全部分析完毕了，最后打个广告，自己写的ASP.NET MVC快速开发框架，希望支持一波

地址：https://gitee.com/grassprogramming/FastExecutor

bilibili弹幕爬取与比对分析的更多相关文章

bilibili弹幕爬取
随便进入一个视频页面,打开开发者工具,清空network空间,进入XHR,刷新抓包. 双击查看弹幕
Java爬虫——B站弹幕爬取
如何通过B站视频AV号找到弹幕对应的xml文件号首先爬取视频网页,将对应视频网页源码获得就可以找到该视频的av号aid=8678034 还有弹幕序号,cid=14295428 弹幕存放位置为 h ...
python预课05 爬虫初步学习+jieba分词+词云库+哔哩哔哩弹幕爬取示例（数据分析pandas）
结巴分词 import jieba """ pip install jieba 1.精确模式 2.全模式 3.搜索引擎模式 """ txt ...
B站弹幕爬取
B站弹幕爬取单个视频弹幕的爬取 B站弹幕都是以xml文件的形式存在的,而xml文件的请求地址是如下形式: http://comment.bilibili.com/233182992.xml ...
[python] 常用正则表达式爬取网页信息及分析HTML标签总结【转】
[python] 常用正则表达式爬取网页信息及分析HTML标签总结转http://blog.csdn.net/Eastmount/article/details/51082253 标签: pytho ...
B站弹幕爬取 / jieba分词 - 全站第一的视频弹幕都在说什么？
前言本次爬取的视频av号为75993929(11月21的b站榜首),讲的是关于动漫革命机,这是一部超魔幻现实主义动漫(滑稽),有兴趣的可以亲身去感受一下这部魔幻大作. 准备工作 B站弹幕的爬取的接口 ...
使用Python爬取、清洗并分析前程无忧的大数据职位
爬取前程无忧的数据(大数据职位) # -*- coding: utf-8 -*- """ Created on Wed Nov 1 14:47:27 2019 @auth ...
04爬取拉勾网Python岗位分析报告
# 导入需要的包import requestsimport time,randomfrom openpyxl import Workbookimport pymysql.cursors#@ 连接数据库 ...
b站弹幕的爬取以及词云的简单使用
一.B站弹幕的爬取 1.分析发现,其弹幕都是通过list.so?=cid这个文件加载出来的,所以我们找到这个文件的请求头的请求url, 2. 打开url就能看到所有的评论 3. 上代码,解析 #!/u ...

随机推荐

小白开学Asp.Net Core 《一》
在开篇中介绍了项目的搭建以及项目中所用到的第三方工具本篇介绍SqlSugar和Dapper在本项目的实现一.SqlSugar SqlSuagr的介绍就直接浏览官方网站,官网地址将在底部给出. 在本 ...
Redis（四）--- Redis的命令参考
1.简述数据类型也称数据对象,包含字符串对象(string).列表对象(list).哈希对象(hash).集合对象(set).有序集合对象(zset). 2.String数据类型命令 string ...
[转]PHP的类自动加载机制，spl_autoload_register使用介绍
转自 http://blog.csdn.net/hguisu/article/details/7463333: 在PHP开发过程中,如果希望从外部引入一个class,通常会使用include和requ ...
web-inf与meta-inf
/WEB-INF/web.xml Web应用程序配置文件,描述了 servlet 和其他的应用组件配置及命名规则. /WEB-INF/classes/包含了站点所有用的 class 文件,包括 ser ...
java数组扩容
有些时候使用数组代替栈,玩意数组容量不够需要扩容则: 1.Array.toString();直接遍历打印数组 2.数组扩容采用Array.copyOf(),直接实现数组扩容功能,非常强大 (实际 ...
灵活使用Maven Profile
项目中一直应用Maven的profile特性解决不同环境的部署问题.最近在尝试解决本地调试环境的时候碰到一些问题,顺便仔细研究了一下.因为项目仍然在用普通SpringMVC架构,没有切换到Spring ...
Ubuntu18.04服务器使用netplan网络构建桥接kvm虚拟机
参考链接 Ubuntu 18.04 LTS安装KVM虚拟机如何在 Ubuntu 18.04 服务器上安装和配置 KVM KVM日常管理和克隆 KVM详解 1.准备工作首先需要检查一下CPU是否支持 ...
HelloDjango 系列教程：第 04 篇：Django 迁移、操作数据库
文中涉及的示例代码,已同步更新到 HelloGitHub-Team 仓库我们已经编写了博客数据库模型的代码,但那还只是 Python 代码而已,django 还没有把它翻译成数据库语言,因此实际上这 ...
Extjs的文件上传问题
最近做一个ExtJs4.0的文件上传.发现在没有添加 xtype:filefield, 时提交数据form的数据,修改form都能提交,而且返回正常.但是当加入xtype:filefield后,返 ...
微服务SpringCloud之Spring Cloud Config配置中心SVN
在回来的路上看到一个个的都抱着花,吃了一路的狗粮,原本想着去旁边的工业园里跑跑步呢,想想还是算了,人家过七夕,俺们过巴西.上一博客学习了Spring Cloud Config使用git作为配置中心,本 ...

bilibili弹幕爬取与比对分析