基于python对B站收藏夹按照视频发布时间进行排序
基于python对B站收藏夹按照视频发布时间进行排序
前言
在最一开始,我的B站收藏一直是存放在默认收藏夹中,但是随着视频收藏的越来越多,没有分类的视频放在一起,想在众多视频中找到想要的视频非常困难,因此就对收藏夹里面的视频进行了分类。但是分类之后紧接着又出现了一个新的问题:原来存放在默认收藏夹里面视频的相对顺序被打乱了——明明前几天刚收藏的视频却要翻很多很多页才能找到,因此有了这个程序。
程序的作用
因为我们看到的视频大部分都是通过推荐得到的,而推荐的视频大部分都是刚发布不久,因此大部分收藏的视频的顺序也基本是按照视频发布的顺序来的。那么通过程序对收藏夹中的视频按照发布时间重新排序,那么就和我们收藏视频的顺序几乎一致了。
机理
利用b站的API获取收藏夹中视频的视频的编号,用python中的request库获得视频对应网页的html,之后利用正则表达式得到视频发布的时间。将发布时间和视频的编号绑定,按照视频发布时间从小到大排序,再次利用b站的API将视频收藏到指定收藏夹。
出现的问题
b站视频的av号在八位以下的时候是按照视频发布顺序编排的,但是当到达九位的时候就不是按照发布顺序编排的了,因此只能通过访问视频主页来得到视频发布时间。
b站的API如果长时间比较高频率的访问会出现错误码,因此每次调用API之后都sleep了一下。
中间程序可能因为各种原因挂掉,因此在中间加入了储存中间状态的功能,否则每次挂掉都要重新爬速度非常慢。
使用方法
在创建Sort类对象时,将userAgent,cookie,fid,toFid,csrf传入类的构造函数中,之后调用类中的sortVideos()方法即可完成排序。
import requests, json, time, re, datetime, random
class WriteLog(object):
def __getCurrentTime(self):
return str(time.ctime(time.time()))
def writeFile(self, fileName, l):
with open(self.__getCurrentTime() + fileName, 'w') as f:
for i in l:
f.write(str(i) + '\n')
class Sort(WriteLog):
def __init__(self, fid, toFid, csrf, userAgent, cookie, MinSleepTime=5, MaxSleepTime=10):
self.MinSleepTime = MinSleepTime
self.MaxSleepTime = MaxSleepTime
self.fid = str(fid)
self.toFid = str(toFid)
self.csrf = csrf
self.DeadVideo = []
self.headers = {'User-Agent': userAgent, 'cookie': cookie}
def __Sleep(self):
sleepTime = random.randint(self.MinSleepTime, self.MaxSleepTime)
time.sleep(sleepTime)
def __getAllVideoId(self):
print('Start get all video ID')
fid = self.fid
res = []
cnt = 0
for i in range(100):
if i == 0:
continue
url = 'https://api.bilibili.com/x/v3/fav/resource/list?media_id=' + fid + '&pn=' + str(i) + '&ps=20&keyword=&order=mtime&type=0&tid=0&platform=web&jsonp=jsonp'
html = requests.get(url=url, headers=self.headers)
te = json.loads(html.text)
te = te['data']['medias']
if te != None:
for j in te:
res.append(j['id'])
print('num: ', cnt, '\tvideoID: ', j['id'])
cnt = cnt + 1
self.__Sleep()
else:
break
print('Finish get all video ID, in total %d' % (len(res)))
return res
def __addVideoToFavorite(self, vid):
fid = self.toFid
csrf = self.csrf
url = 'https://api.bilibili.com/x/v3/fav/resource/deal'
data = {
'rid': vid,
'type': '2',
'add_media_ids': fid,
'del_media_ids': '',
'jsonp': 'jsonp',
'csrf': csrf,
'platform': 'web',
}
requests.post(url=url, data=data, headers=self.headers)
print('finish add video %s to folder %s' % (vid, fid))
def __getVideoPostTime(self, vid):
vid = str(vid)
url = 'https://www.bilibili.com/video/av' + vid
text = requests.get(url).text
'''
data-vue-meta="true" itemprop="uploadDate" content="2021-04-07 23:29:21"><meta data-vue-meta="true" itemprop="datePublished" c
'''
reg = re.compile('content="([0-9]+)-([0-9]+)-([0-9]+)\s([0-9]+):([0-9]+):([0-9]+)"')
text = reg.findall(text)
if len(text) == 0:
return -1
text = text[0]
if len(text) < 6:
return -1
t = ""
for i in text:
t = t + str(i)
print('finish get video %s post time, it\'s post time is: %s' % (vid, t))
return int(t)
def __Unique(self, l):
size = len(l)
if size == 0:
return []
res = [l[0]]
for i in range(size):
if i == 0:
continue
if l[i] != l[i - 1]:
res.append(l[i])
return res
def __addVideo(self, res):
cnt = 0
for i in res:
self.__addVideoToFavorite(vid=i)
self.__Sleep()
cnt = cnt + 1
def __getVideosTime(self, res):
videos = []
cnt = 0
for i in res:
t = self.__getVideoPostTime(i)
if t == -1:
continue
item = {
'vid': str(i),
'postTime': t
}
videos.append(item)
cnt = cnt + 1
return videos
def sortVideos(self):
fid = self.fid
toFid = self.toFid
res = self.__getAllVideoId()
self.writeFile('getAllVideoId' + fid + 'to' + toFid, res)
videos = self.__getVideosTime(res)
videos = sorted(videos, key=lambda x: x['postTime'])
res = []
for i in videos:
res.append(i['vid'])
res = self.__Unique(res)
self.writeFile('getVideosTime' + fid + 'to' + toFid, res)
self.__addVideo(res)
self.writeFile('err' + fid + 'to' + toFid, self.DeadVideo)
if __name__=='__main__':
userAgent = ''
cookie = ''
fid = ''
toFid = ''
csrf = ''
sortVideo = Sort(fid=fid, toFid=toFid, csrf=csrf, userAgent=userAgent, cookie=cookie)
sortVideo.sortVideos()
鸣谢
在此特别感谢ZLQ在本人书写此程序时提供的技术支持,大佬的博客:ZlycerQan.
基于python对B站收藏夹按照视频发布时间进行排序的更多相关文章
- Python网络爬虫实战(五)批量下载B站收藏夹视频
我们除了爬取文本信息,有的时候还需要爬媒体信息,比如视频图片音乐等.就拿B站来说,我的收藏夹内的视频可能随时会失效,所以把它们下载到本地是非常保险的一件事. 对于这种大量列表型的数据,可以猜测B站收藏 ...
- 基于Python——实现解压文件夹中的.zip文件
[背景]当一个文件夹里存好好多.zip文件需要解压时,手动一个个解压再给文件重命名是一件很麻烦的事情,基于此,今天介绍一种使用python实现批量解压文件夹中的压缩文件并给文件重命名的方法—— [代码 ...
- 基于Python——实现两个文件夹中的文件拷贝
[背景]当复制一个文件夹中的某文件到另一个文件夹中时是一件很容易的事情,可是如果存在很多文件夹中的文件需要一一拷贝,就会变的很繁琐,稍有不慎就会遗漏,今天就用Python来解决这个问题—— [代码实现 ...
- 基于 python imageai 对象检测 目标检测 识别 视频
1.视频连接如下: http://www.iqiyi.com/w_19s6vownit.html
- python基础课程_学习笔记13:标准库:有些收藏夹——sys
标准库:有些收藏夹 sys sys这个模块可以让你访问和python解释器联系紧密的变量和函数. sys模块中一些重要的函数和变量 函数/变量 描写叙述 argv 命令行參数,包含脚本名称 exit( ...
- 基于Metronic的Bootstrap开发框架经验总结(13)--页面链接收藏夹功能的实现2(利用Sortable进行拖动排序)
在上篇随笔<基于Metronic的Bootstrap开发框架经验总结(12)--页面链接收藏夹功能的实现>上,我介绍了链接收藏夹功能的实现,以及对收藏记录的排序处理.该篇随笔主要使用功能按 ...
- 基于Metronic的Bootstrap开发框架经验总结(12)--页面链接收藏夹功能的实现
在一个系统里面,往往有很多菜单项目,每个菜单项对应一个页面,一般用户只需要用到一些常用的功能,如果每次都需要去各个层次的菜单里面去找对应的功能,那确实有点繁琐.特别是在菜单繁多,而客户又对系统整体不熟 ...
- 【Python】iiblogs ——命令行下的网页收藏夹
昨天和集训队的几位大大聊天,聊着聊着就聊到了博客的问题,发现几个人要么在CSDN 要么在博客园上, 要记住他们的所有的地址还真是不便,于是灵机一动,何不自己写一款小工具来存储打开他们的博客呢?于是将这 ...
- python基础课程_学习笔记15:标准库:有些收藏夹——fileinput
标准库:有些收藏夹 fileinput 重要功能 性能 叙述性说明 input([files[,inplace[,backup]]) 便于遍历多个输入流中的行 filename() 返回当前文件的名称 ...
随机推荐
- 一些DevTools的小技巧-让你不止会console.log()
转载请注明出处:葡萄城官网,葡萄城为开发者提供专业的开发工具.解决方案和服务,赋能开发者. 原文参考:https://www.sitepoint.com/beyond-console-log-leve ...
- 使用KeepAlived来实现高可用的DR模型
环境 VMware 16 CentOS8 相关软件 keepalived ipvsadm httpd 准备工作 准备四个节点,如上图,Node01 ~ Node04, 本文默认你会在VMWare上安装 ...
- 【2020.8.23NOIP模拟赛】失落
[ 2020.8.23 N O I P 模 拟 赛 ] 失 落 [2020.8.23NOIP模拟赛]失落 [2020.8.23NOIP模拟赛]失落 题目描述 出题人心情很失落,于是他直接告诉你让你求出 ...
- [枚举]P1085 不高兴的津津
不高兴的津津 题目描述 津津上初中了.妈妈认为津津应该更加用功学习,所以津津除了上学之外,还要参加妈妈为她报名的各科复习班.另外每周妈妈还会送她去学习朗诵.舞蹈和钢琴.但是津津如果一天上课超过八个小时 ...
- ECharts地理坐标系属性介绍
在 ECharts 地理坐标系的属性设置中,如果您要将地理坐标系组件显示出来,那么,请使用 geo 组件的 show 属性.在 geo 组件中提供了两种类型的地图数据:javascript 文件与 J ...
- 带你全面认识CMMI V2.0(终)——实施落地
引入CMMI的方法 一共有四个阶段将您的业务过程和最佳实践最终融合在一起,并在该范围内重新创造整个组织的"完成方式".这四个阶段是: 战略探索:此阶段的重点是了解当前状态并计划过渡 ...
- 安装Dynamics CRM Report出错二
提示账户不是本地用户且不受支持 找到所需的服务,使用域管理员用户更改服务运行的账户.应用和确定 重新启动服务 重新运行安装向导,环境验证成功
- 结合k8s和pipeline的流水线,并通过k8s接口完成镜像升级
现在这家单位的CICD比较的混乱,然后突发奇想,想改造下,于是就用pipeline做了一个简单的流水线,下面是关于它的一些介绍 写一个简单的流水线 大概就是这么个流程简单来说就是:拉代码---> ...
- .Net程序内存泄漏解析
一.概要 大概在今年三月份的时候突然被紧急调到另外一个项目组解决线上内存泄漏问题.经过两周的玩命奋战终于解决了这个问题这里把心路历程及思路分享给大家.希望可以帮助到各位或现在正遇到这样事情的小伙伴提供 ...
- python对BP神经网络实现
python对BP神经网络实现 一.概念理解 开始之前首先了解一下BP神经网络,BP的英文是back propagationd的意思,它是一种按误差反向传播(简称误差反传)训练的多层前馈网络,其算法称 ...