今天找到一片电影，想把它下载下来。

先开Networks工具分析一下：

初步分析发现，视频加载时会拉取TS格式的文件，推测这是一个m3u8的索引，记录着几百段TS文件，这样方便快进时加载。

但是实际分析m3u8文件时，发现这并不是一个有效的索引文件，应该只是载入一个形式，实际的handler在其他地方：

但这样分析js太麻烦了。通过几次尝试，发现了规律：视频文件名是由y8TL59oh4680xxx.ts组成的，xxx是序号，这样就简单多了！

把之前爬音乐文件的爬虫改一改，得到这样一个程序：

import requests
import os
import re
from tkinter import Tk
from tkinter.simpledialog import askinteger, askfloat, askstring
from tkinter.filedialog import askopenfilename, askopenfilenames, asksaveasfilename, askdirectory
from tkinter.messagebox import showinfo, showwarning, showerror

def downloadSong(SongID, FileName):
    headers = {"user-agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36"}
    r = requests.get("https://www.mmicloud.com/20190406/I1RrJf8s/2000kb/hls/y8TL59oh" + str(SongID) + ".ts",headers=headers);
    #print("State:")
    #print(r)
    filepath=os.path.join(str(SongID) + ".ts")
    with open(filepath,"wb") as file:
        file.write(r.content)
    print(SongID)

for i in range(4680000, 4680900):
    downloadSong(i, str(i))

这个程序循环爬取文件名从y8TL59oh4680000.ts到y8TL59oh4680899.ts的900个视频文件。

程序中的循环最大值之所以定在4680900，是因为我发现影片有860多段，于是就多下载一些，如果下载不了就是下完了，出错倒也无所谓。

让他开始运行，看起来工作良好，有在顺利的下载文件：

于是我就放下手头的事，先休息去了。过了大约半个小时，他已经下载了300多个文件了：

我就放下心来，这个爬虫应该是没什么问题了，于是我就用VSCode写了一些代码。当我再次看到任务栏时，爬虫已经不见了！

我再次启动爬虫，过了一会又会有同样的问题！难道是变量i溢出了？试着debug一下，把i的范围缩小试试：

import requests
import os
import re
from tkinter import Tk
from tkinter.simpledialog import askinteger, askfloat, askstring
from tkinter.filedialog import askopenfilename, askopenfilenames, asksaveasfilename, askdirectory
from tkinter.messagebox import showinfo, showwarning, showerror

def downloadSong(SongID, FileName):
    headers = {"user-agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36"}
    r = requests.get("https://www.mmicloud.com/20190406/I1RrJf8s/2000kb/hls/y8TL59oh4680" + str(SongID) + ".ts",headers=headers);
    #print("State:")
    #print(r)
    filepath=os.path.join(str(SongID) + ".ts")
    with open(filepath,"wb") as file:
        file.write(r.content)
    print(SongID)

for i in range(566, 900):
    downloadSong(i, str(i))

经过debug，发现程序应该是没有问题，只是因为控制台窗口最小化时，爬虫会被内存回收掉，所以导致了程序退出。

折腾了半天！

我换成用IDLE编辑器自带的Run Modules，有普通窗口的话就不容易被回收掉把：

过了一阵子，爬虫终于把文件爬完了。一看文件夹，又出问题了：

文件名不一致！

还记得之前我们debug的时候把变量i的范围改小了吗？这就是原因！

那好吧，选中所有名字长的文件，右键，重命名，命名成a，然后文件就可以自动命名为a (1), a (2), a (3), a (4), a (5), ...这样。

问题。。解决了？

我拿着这些命名为a (1), a (2), a (3), a (4), a (5), ...的文件去转码，合并，来来回回整了一个小时多。当合并之后，才发现，

文件顺序全是乱的！！！

啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊天煞的Windows！！！！！！！！！！

没办法，有气出不来，只好继续写代码。。。

还好我留了一份没有重命名过的文件夹，那就用python写一个批量重命名程序吧：

import os
PROJECT_DIR_PATH = os.path.dirname(os.path.abspath(os.path.abspath(__file__)))
DIR_PATH = os.path.join(PROJECT_DIR_PATH, 'data')
files = os.listdir(DIR_PATH)
for filename in files:
    name, suffix = os.path.splitext(filename)
    new_name = os.path.join(DIR_PATH, name[4:7])
    old_name = os.path.join(DIR_PATH, filename)
    os.rename(old_name, new_name)

把文件目录改成这样，就可以使用上面的程序了：

爽爽快快的运行完程序，发现命名是成功了，但后缀名没有了。。。

失误失误！再写一个补救程序：

import os
PROJECT_DIR_PATH = os.path.dirname(os.path.abspath(os.path.abspath(__file__)))
DIR_PATH = os.path.join(PROJECT_DIR_PATH, 'data')
files = os.listdir(DIR_PATH)
for filename in files:
    name, suffix = os.path.splitext(filename)
    new_name = os.path.join(DIR_PATH, filename + ".ts")
    old_name = os.path.join(DIR_PATH, filename)
    os.rename(old_name, new_name)

心惊胆战的运行完，目录终于正常了：

然后又是转码、合并，又是一个多小时。最后，总算拿到了胜利的果实：

太难了！

下载这篇电影花费了我一整天的时间。上午和中午找片源，下午写代码+写爬虫+爬资源，晚上还得操心重命名和转码的问题，这中间都够我看6-7片电影了。ε=(´ο｀*)))唉。。。

不多说了，电影只能明天看了。各位，晚安！

记录一个不同的流媒体网站实现方法，和用Python爬虫爬它的坑的更多相关文章

一个简单的python爬虫,爬取知乎
一个简单的python爬虫,爬取知乎主要实现爬取一个收藏夹里所有问题答案下的图片文字信息暂未收录,可自行实现,比图片更简单具体代码里有详细注释,请自行阅读项目源码: # -*- cod ...
Python爬虫爬取美剧网站
一直有爱看美剧的习惯,一方面锻炼一下英语听力,一方面打发一下时间.之前是能在视频网站上面在线看的,可是自从广电总局的限制令之后,进口的美剧英剧等貌似就不在像以前一样同步更新了.但是,作为一个宅diao ...
批量下载小说网站上的小说（python爬虫）
随便说点什么因为在学python,所有自然而然的就掉进了爬虫这个坑里,好吧,主要是因为我觉得爬虫比较酷,才入坑的. 想想看,你可以批量自动的采集互联网上海量的资料数据,是多么令人激动啊! 所以我就被 ...
【记录一个问题】用毫无用处的方法解决了libtask的asm.S在ndk下编译的问题
昨天提到,libtask中的asm.S使用的是ARM 32位的语法,因此在ARM 64下无法编译通过. 于是查了一下资料,改写了一下汇编代码,使得可以在64位下编译通过.源码如下 #if define ...
记录一个引用文件所有js文件的方法
在项目api声明的时候,避免每次添加新的js都要对应去处理首先我在项目api文件下新建一个files的文件夹,然后再api文件夹下的index.js这样写: var api = {}; const ...
python爬虫爬取ip记录网站信息并存入数据库
import requests import re import pymysql #10页仔细观察路由 db = pymysql.connect("localhost",&quo ...
7月17日——高校就业信息网站功能及数据获取之python爬虫
本周我们小组在分析上周用户需求之后,确定了网站的主要框架和功能.数据收集和存储方式,以及项目任务分配. 一.网站的主要框架和功能. 网站近期将要实现的主要功能有,先重点收集高校(华东五校)就业宣讲会的 ...
python爬虫--爬取某网站电影下载地址
前言:因为自己还是python世界的一名小学生,还有很多路要走,所以本文以目的为向导,达到目的即可,对于那些我自己都没弄懂的原理,不做去做过多解释,以免误人子弟,大家可以网上搜索. 友情提示:本代码用 ...
写一个python 爬虫爬取百度电影并存入mysql中
目标是利用python爬取百度搜索的电影在类型地区年代各个标签下电影的名字评分和图片连接以及电影连接首先我们先在mysql中建表 create table liubo4( id in ...

随机推荐

vs2017 tfs服务器迁移更换服务器IP地址方法
今天公司服务器换了IP地址,然后发现tfs的服务器删除不了,也添加不了.最后参考了其他vs版本提供的方法,找到了解决的方法. 一共需要修改两个地方: 1.找到项目的sln文件,使用其他文本编辑器打开, ...
.ArrayList是如何实现的，ArrayList和LinkedList的区别？ArrayList如何实现扩容?
ArrayList比较简单,主要是通过数组来实现的需要注意的是其初始容量是10 /** * Default initial capacity. */ private static final int ...
浅析TCP/IP协议
浅析TCP/IP协议 0x00 什么是TCP/IP协议? 想一想人与人之间交流需要什么?我们是不是要掌握一种我们都能体会到对方意思的语言.那么计算机与网络设备之间进行通信,是不是不同设备之间是不是 ...
web前端——美化效果总结
概述项目开发过程中使用到了不少web前端美化效果的方法,总结一下 1 图片作为背景要实现的效果是,任意一张图片"img-page-background.png",不需要调整图片 ...
【Python challenge】通关代码及攻略（0-11）
前言: 最近找到一个有关python的游戏闯关,这是游戏中的思考及通关攻略最开始位于:http://www.pythonchallenge.com/pc/def/0.html 第0关题目分析提示 ...
django 引入静态文件（前端样式等）
1.首先在主项目目录下settings.py文件中添加如下代码 2.然后在主项目目录,app项目同级目录下新建static文件夹并在文件夹中新建css文件夹,用于存放css文件,如下: 3.前端渲染时 ...
内存管理 malloc free 的实现
libc 中提供非常好用的 malloc free 功能,如果自己实现一个,应该怎么做. 要实现 malloc free 需要有可以分配内存使用的堆,和记录内存使用情况的链表. 如下图所示,堆从高 ...
最简单的???ubuntu 通过crontab定时执行一个程序
crontab在liunx系统中下载,我默认是认为下载安装了的.. crontab貌似只能在liunx系统中存在,如果是windows系统我不知道创建一个名为jiaoben的文件夹存储sh文件,进入 ...
利用Python爬取OPGG上英雄联盟英雄胜率及选取率信息
一.分析网站内容本次爬取网站为opgg,网址为:” http://www.op.gg/champion/statistics” 由网站界面可以看出,右侧有英雄的详细信息,以Garen为例,胜率为53 ...
python学习基础知识
学习python前最好知道的知识点: python之父:Guido van Rossum python是一种面向对象语言目前python最新的版本是3.8,python2已经逐渐淘汰 python的 ...

记录一个不同的流媒体网站实现方法，和用Python爬虫爬它的坑

文件顺序全是乱的！！！

记录一个不同的流媒体网站实现方法，和用Python爬虫爬它的坑的更多相关文章

随机推荐

热门专题