用 Python 获取 B 站播放历史记录

最近 B 站出了一个年度报告，统计用户一年当中在 B 站上观看视频的总时长和总个数。过去一年我居然在 B 站上看了2600+个视频，总计251个小时，居然花了这么多时间，吓得我差点把 Bilibili App 卸载了...

然而我又很好奇，到底我在 B 站上都看了些什么类型小姐姐的视频，用几行 Python 代码实现了一下。

获取请求 Api 接口与 Cookie

实现起来非常容易，获取 cookie 模拟请求即可

使用 chrome 浏览器
登陆B 站，进入历史记录https://www.bilibili.com/account/history
在网页任意位置，鼠标右键检查

按照下图所示，进入Network页面，筛选框输入history，对结果进行筛选，页面滚轮往下即可看到浏览过程中的历史记录请求的Header

将 Header 下， cookie 一行的字符串复制出来到一个cookie.txt文本里

Python 代码实现

伪造浏览器请求

import json
import requests

def read_cookies_file(filename):
    """read cookie txt file
    :param filename: (str) cookies file path
    :return: (dict) cookies
    """
    with open(filename, 'r') as fp:
        cookies = fp.read()
        return cookies

def get_header(filename):
    cookie = read_cookies_file(filename)
    headers = {
        'Accept': '*/*',
        'Accept-Encoding': 'gzip, deflate, br',
        'Accept-Language': 'zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7',
        'Connection': 'keep-alive',
        'Cookie': cookie,
        'Host': 'api.bilibili.com',
        'Referer': 'https://www.bilibili.com/account/history',
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_2) AppleWebKit/537.36 '
                      '(KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'
    }
    return headers

def req_get(headers, url):
    resp = requests.get(url, headers=headers)
    return json.loads(resp.text)

使用 cookie 模拟请求

def get_all_bili_history(cookie_file):
    headers = bilibili.get_header(cookie_file)
    history = {'all': []}
    for page_num in range(MAX_PAGE):
        time.sleep(0.6)
        url = 'https://api.bilibili.com/x/v2/history?pn={pn}&ps={ps}&jsonp=jsonp'.format(pn=page_num, ps=PAGE_PER_NUM)
        result = bilibili.req_get(headers, url)
        print('page = {} code = {} datalen = {}'.format(page_num, result['code'], len(result['data'])))
        if len(result['data']) == 0:
            break
        history['all'].append(result)

    return history

代码非常简单，完整代码加群973783996

存在的问题

本来想拿到所有的播放记录，做一些统计和预测，但是经过实测，B 站只能获取到最近1000条或者最近3个月的播放记录
如果想获得更多，只能做一个监测程序，不停地从接口获取数据

安全问题

尽量不要使用不安全的 wifi 网络，有可能会被别有用心之人获取网络请求的 Package，易泄露个人隐私。

用 Python 获取 B 站播放历史记录的更多相关文章

python爬虫抓站的一些技巧总结
使用python爬虫抓站的一些技巧总结:进阶篇一.gzip/deflate支持现在的网页普遍支持gzip压缩,这往往可以解决大量传输时间,以VeryCD的主页为例,未压缩版本247K,压缩了以后45 ...
python CSRF跨站请求伪造
python CSRF跨站请求伪造 <!DOCTYPE html> <html lang="en"> <head> <meta chars ...
Python 获取车票信息
提示:该代码仅供学习使用,切勿滥用!!! 先来一个git地址:https://gitee.com/wang_li/li_wang 效果图: 逻辑: 1.获取Json文件的内容 2.根据信息生成URL ...
转载：用python爬虫抓站的一些技巧总结
原文链接:http://www.pythonclub.org/python-network-application/observer-spider 原文的名称虽然用了<用python爬虫抓站的一 ...
HTTP协议与使用Python获取数据并写入MySQL
一.Http协议二.Https协议三.使用Python获取数据 (1)urlib (2)GET请求 (3)POST请求四.爬取豆瓣电影实战 1.思路 (1)在浏览器中输入https://movi ...
用Python爬E站本
用Python爬E站本一.前言参考并改进自 OverJerry 大佬的教你怎么用Python爬取E站的本子_OverJerry. 本文为技术学习记录,不提供访问无存在网站的任何方法,也不包含不和 ...
用python爬虫抓站的一些技巧总结 zz
用python爬虫抓站的一些技巧总结 zz 学用python也有3个多月了,用得最多的还是各类爬虫脚本:写过抓代理本机验证的脚本,写过在discuz论坛中自动登录自动发贴的脚本,写过自动收邮件的脚本, ...
基于python对B站收藏夹按照视频发布时间进行排序
基于python对B站收藏夹按照视频发布时间进行排序前言在最一开始,我的B站收藏一直是存放在默认收藏夹中,但是随着视频收藏的越来越多,没有分类的视频放在一起,想在众多视频中找到想要的视频非常困难, ...
Python音频操作+同时播放两个音频
对于python而言,音频的操作可以使用pygame包中的sound 和 music对象,本博客主要讲解这两个对象. 1.sound对象 Sound对象适合处理较短的音乐,如OGG和WAV格式的音频文 ...

随机推荐

SQLI DUMB SERIES-22
(1)根据题目知道此处是双引号注入,其余的与上一关相同. 登录成功后,用burp抓包,再刷新浏览器页面.寻找闭合方式: 闭合方式果然为双引号. (2)其payload与21关相同,需要对payload ...
PAT乙级考前总结（一)
数学相关的题目 1001 害死人不偿命的(3n+1)猜想 (15 分) 直接一步步计数 1005 继续(3n+1)猜想 (25 分) 卡拉兹(Callatz)猜想已经在1001中给出了描述.在这个题目 ...
eclipse中js报错简单快捷的解决方式
eclipse中对正确的js文件报错十分常见,我的项目中只要是以.js结尾的必会报错,作为一名小小的程序员,看到“满江红”甚是烦躁!今天就给大家分享一个方便又快捷的解决方案. 瞄准被报错的js文件点鼠 ...
PY序
Python实现机器学习依赖于两个类库——SciPy和scikit-learn 一)SciPy SciPy是数学运算的基本类库,在机器学习的过程中,主要运用NumPy.Matplotlib和Panda ...
21. Wireless tools （无线工具 5个）
AircrackKismetNetStumblerinSSIDerKisMAC
[C++]_ELVE_Windows下QT5.12连接MySql8.0解决方案
#0x01 准备 1)要保证QT和MySQL都是一样的位数,我的就是都安装的64位. 2)安装Qt5.12,这里主要提一点,在安装时候,有个选择插件那块,尽量都选上,里面有个database选项,记得 ...
Android Studio学习之build.gradle文件
参考书籍:第一行代码最外层目录下的build.gradle buildscript{repositories{ jcenter() //代码托管仓库 } dependencies{ classpat ...
js入门关于函数
一,函数·关键字(function)复习var·js关键字.用于声明变量.生命在内存模块完成,定义(=)在执行模块完成.var(可以在内存模块提前完成,所以有变量提升的功能.function也是js的 ...
Mybatis逆向工程的配置
源码github下载地址:https://github.com/wcyong/mybatisGeneratorCustom.git 参考文章:https://www.cnblogs.com/whgk/ ...
ruoyi管理系统建立子项目，卡住
这个一定不要勾选,不然依赖加了还是引用不到.

用 Python 获取 B 站播放历史记录

用 Python 获取 B 站播放历史记录

获取请求 Api 接口与 Cookie

Python 代码实现

存在的问题

安全问题

用 Python 获取 B 站播放历史记录的更多相关文章

随机推荐

热门专题