python爬虫--爬取某网站电影下载地址

前言：因为自己还是python世界的一名小学生，还有很多路要走，所以本文以目的为向导，达到目的即可，对于那些我自己都没弄懂的原理，不做去做过多解释，以免误人子弟，大家可以网上搜索。

友情提示：本代码用到的网址仅供交流学习使用，如有不妥，请联系删除。

背景：自己有台电脑要给老爸用，老爷子喜欢看一些大片，但是家里网络环境不好，就想批量下载一些存到电脑里。但是目前大部分的网站都是这样的，

需要一个个地点进去，才能看到下载地址

如果我要下载100部电影，那肯定手都要点断了，于是便想把这些地址给爬取出来，迅雷批量下载。

工具：python（版本3.x）

爬虫原理：网页源代码中含有下载地址，把这些零散的地址批量保存到文件中，方便使用。

干货：首先上代码，迫不及待的你可以先运行一下，再看详细介绍。

import requests

import re

#changepage用来产生不同页数的链接

def changepage(url,total_page):

    page_group = ['https://www.dygod.net/html/gndy/jddy/index.html']

    for i in range(2,total_page+1):

        link = re.sub('jddy/index','jddy/index_'+str(i),url,re.S)

        page_group.append(link)

    return page_group

#pagelink用来产生页面内的视频链接页面

def pagelink(url):

    base_url = 'https://www.dygod.net/html/gndy/jddy/'

    headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'}

    req = requests.get(url , headers = headers)

    req.encoding = 'gbk'#指定编码，否则会乱码

    pat = re.compile('<a href="/html/gndy/jddy/(.*?)" class="ulink" title=(.*?)/a>',re.S)#获取电影列表网址

    reslist = re.findall(pat, req.text)

    finalurl = []

    for i in range(1,25):

        xurl = reslist[i][0]

        finalurl.append(base_url + xurl)

    return finalurl #返回该页面内所有的视频网页地址

#getdownurl获取页面的视频地址

def getdownurl(url):

    headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'}

    req = requests.get(url , headers = headers)

    req.encoding = 'gbk'#指定编码，否则会乱码

    pat = re.compile('<a href="ftp(.*?)">ftp',re.S)#获取下载地址

    reslist = re.findall(pat, req.text)

    furl = 'ftp'+reslist[0]

    return furl

if __name__ == "__main__" :

    html = "https://www.dygod.net/html/gndy/jddy/index.html"

    print('你即将爬取的网站是：https://www.dygod.net/html/gndy/jddy/index.html')

    pages = input('请输入需要爬取的页数：')

    p1 = changepage(html,int(pages))

    with open ('电影天堂下载地址.lst','w') as f :

        j = 0

        for p1i in p1 :

            j = j + 1

            print('正在爬取第%d页,网址是 %s ...'%(j,p1i))

            p2 = pagelink(p1i)

            for p2i in p2 :

                p3 = getdownurl(p2i)

                if len(p3) == 0 :

                    pass

                else :

                    finalurl = p3

                    f.write(finalurl + '\n')

    print('所有页面地址爬取完毕!')

核心模块getdownurl函数：通过requests来获取页面信息，可以认为这个信息的text就是页面源代码（几乎任何一款浏览器右键都有查看网页源代码的选项），再通过re.compile正则表达式匹配的方式来匹配到网页源代码中的网址部分，可以看下图

这部分怎么提取呢？通过正则表达式匹配。怎么写这个正则表达式呢？这里用到一个简单粗暴的方法：

<a href="ftp(.*?)">ftp

爬虫中经常用到.*?来做非贪婪匹配（专业名词请百度），你可以简单认为这个(.*?)就代表你想要爬取出来的东西，这样的东西在每个网页源码中都是夹在<a href="ftp和">ftp之间的。有人可能会问，那这个匹配出来的不是网址啊，比如上图中出来的就是://d:d@dygodj8.com:12311/[电影天堂www.dy2018.com]请以你的名字呼唤我BD中英双字.mp4，前面少了个ftp啊？

是的，不过这是故意为之，如果正则表达式写成<a href="(.*?)">ftp，可能夹在<a href="和">ftp之间的东西就太多了，二次处理的成本还不如先用你觉得最快最直接的方式抽取有用信息，然后再进行拼接来得快。

代码详解：

一、getdownurl

#getdownurl获取页面的视频地址

def getdownurl(url):

    headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'}

    req = requests.get(url , headers = headers)

    req.encoding = 'gbk'#指定编码，否则会乱码

    pat = re.compile('<a href="ftp(.*?)">ftp',re.S)#获取下载地址

    reslist = re.findall(pat, req.text)

    furl = 'ftp'+reslist[0]

    return furl

其中headers是用来将你的脚本访问网址伪装成浏览器访问，以防有些网站进行了反爬虫的措施。这个headers在很多浏览器中也可以很容易得到，以Firefox为例，直接F12或查看元素，在网络标签，右侧的消息头中右下角即可看到。

requests模块：requests.get(url , headers = headers)是用伪装成firefox的形式获取该网页的信息。
re模块：可以参考python正则表达式的一些东西，这里用re.complile来写出匹配的模式，re.findall根据模式在网页源代码中找到相应的东西。
二、pagelink

#pagelink用来产生页面内的视频链接页面

def pagelink(url):

    base_url = 'https://www.dygod.net/html/gndy/jddy/'

    headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'}

    req = requests.get(url , headers = headers)

    req.encoding = 'gbk'#指定编码，否则会乱码

    pat = re.compile('<a href="/html/gndy/jddy/(.*?)" class="ulink" title=(.*?)/a>',re.S)#获取电影列表网址

    reslist = re.findall(pat, req.text)

    finalurl = []

    for i in range(1,25):

        xurl = reslist[i][0]

        finalurl.append(base_url + xurl)

    return finalurl #返回该页面内所有的视频网页地址

第一步getdownurl是用于爬取一个网页的网址，这一步用于获取同一页面内所有网页的网址，像下面的网页包含很多电影链接

源码是这样的：

聪明的你一看就知道需要哪些信息，这个页面正文有25个电影链接，我这里用到一个list来存放这些网址，其实range（1,25）不包含25，也就是说我只存放了24个网址，原因是我的正则表达式写的不好，爬出来的第一个网址有问题，如果有兴趣可以研究下怎么完善。

需要一提的是这个正则表达式用到了两处.*?，所以匹配到的reslist是二维的。

三、changepage

#changepage用来产生不同页数的链接

def changepage(url,total_page):

    page_group = ['https://www.dygod.net/html/gndy/jddy/index.html']

    for i in range(2,total_page+1):

        link = re.sub('jddy/index','jddy/index_'+str(i),url,re.S)

        page_group.append(link)

    return page_group

这里也比较简单，点击下一页，抬头看看网址栏的网址是什么，这里是index/index_2/index_3...很容易拼接

四、main

if __name__ == "__main__" :

    html = "https://www.dygod.net/html/gndy/jddy/index.html"

    print('你即将爬取的网站是：https://www.dygod.net/html/gndy/jddy/index.html')

    pages = input('请输入需要爬取的页数：')

    p1 = changepage(html,int(pages))

    with open ('电影天堂下载地址.lst','w') as f :

        j = 0

        for p1i in p1 :

            j = j + 1

            print('正在爬取第%d页,网址是 %s ...'%(j,p1i))

            p2 = pagelink(p1i)

            for p2i in p2 :

                p3 = getdownurl(p2i)

                if len(p3) == 0 :

                    pass

                else :

                    finalurl = p3

                    f.write(finalurl + '\n')

    print('所有页面地址爬取完毕!')

main里面几乎没什么好说的，反正就是循环读取，再往文件里写进行了。

五、运行及结果

然后迅雷就可以直接导入了。（后缀为downlist或lst迅雷可以直接导入）

后记：有些可能会觉得这样一股脑的把电影都下载下来，可能有些电影太烂，下载下来就是浪费时间和资源，而手工筛选又太费事，后续会通过数据库的方式来存储影片的信息，从而筛选出需要的地址。

python爬虫--爬取某网站电影下载地址的更多相关文章

python爬虫--爬取某网站电影信息并写入mysql数据库
书接上文,前文最后提到将爬取的电影信息写入数据库,以方便查看,今天就具体实现. 首先还是上代码: # -*- coding:utf-8 -*- import requests import re im ...
使用Python爬虫爬取网络美女图片
代码地址如下:http://www.demodashi.com/demo/13500.html 准备工作安装python3.6 略安装requests库(用于请求静态页面) pip install ...
用Python爬虫爬取广州大学教务系统的成绩（内网访问）
用Python爬虫爬取广州大学教务系统的成绩(内网访问) 在进行爬取前,首先要了解: 1.什么是CSS选择器? 每一条css样式定义由两部分组成,形式如下: [code] 选择器{样式} [/code ...
Python爬虫|爬取喜马拉雅音频
"GOOD Python爬虫|爬取喜马拉雅音频喜马拉雅是知名的专业的音频分享平台,用户规模突破4.8亿,汇集了有声小说,有声读物,儿童睡前故事,相声小品等数亿条音频,成为国内发展最快.规模 ...
Python爬虫爬取全书网小说，程序源码+程序详细分析
Python爬虫爬取全书网小说教程第一步:打开谷歌浏览器,搜索全书网,然后再点击你想下载的小说,进入图一页面后点击F12选择Network,如果没有内容按F5刷新一下点击Network之后出现如下 ...
python爬虫—爬取英文名以及正则表达式的介绍
python爬虫—爬取英文名以及正则表达式的介绍爬取英文名: 一. 爬虫模块详细设计 (1)整体思路对于本次爬取英文名数据的爬虫实现,我的思路是先将A-Z所有英文名的连接爬取出来,保存在一个cs ...
Python爬虫 - 爬取百度html代码前200行
Python爬虫 - 爬取百度html代码前200行 - 改进版, 增加了对字符串的.strip()处理源代码如下: # 改进版, 增加了 .strip()方法的使用 # coding=utf-8 ...
python爬虫爬取内容中，-xa0，-u3000的含义
python爬虫爬取内容中,-xa0,-u3000的含义 - CSDN博客 https://blog.csdn.net/aiwuzhi12/article/details/54866310
一个简单的python爬虫,爬取知乎
一个简单的python爬虫,爬取知乎主要实现爬取一个收藏夹里所有问题答案下的图片文字信息暂未收录,可自行实现,比图片更简单具体代码里有详细注释,请自行阅读项目源码: # -*- cod ...

随机推荐

BZOJ 1856: [Scoi2010]字符串 [Catalan数]
1856: [Scoi2010]字符串 Time Limit: 5 Sec Memory Limit: 64 MBSubmit: 1418 Solved: 790[Submit][Status][ ...
树莓派上运行.net core 2.0程序
记录中参考: https://www.cnblogs.com/songxingzhu/p/7399991.html https://www.cnblogs.com/goodfulcom/p/7624 ...
训练 smallcorgi/Faster-RCNN_TF 模型（附ImageNet model百度云下载地址）
1. 下载训练.验证.测试数据和 VOCdevkit,下载地址: http://host.robots.ox.ac.uk/pascal/VOC/voc2007/VOCtrainval_06-Nov-2 ...
[Python Study Notes]psutil模块
系统性能信息模块psutil psutil是一个跨平台库,能够轻松实现获取系统运行的进程和系统利用率(CPU,内存,磁盘,网络等)信息,主要应用于系统监控,分析和限制系统资源及进程的管理,它实现了同等 ...
jumpserver在centos 7上的部署
cd /opt/git clone https://github.com/jumpserver/jumpserver.gitcd jumpservergit checkout master 准备安装: ...
谈谈语音通信中的各种tone
今天谈的这个主题(tone)存在于我们的日常打电话过程中.先举两个场景:1,你拿起固话话筒准备打电话,按电话号码前先从话筒里听到"嗡"的连续音,这叫dial tone(拨号音,表示 ...
Mysql(一):初识数据库
一数据库管理软件的由来基于我们之前所学,数据要想永久保存,都是保存于文件中,毫无疑问,一个文件仅仅只能存在于某一台机器上. 如果我们暂且忽略直接基于文件来存取数据的效率问题,并且假设程序所有的组件 ...
Android －传统蓝牙通信聊天
概述 Android 传统蓝牙的使用,包括开关蓝牙.搜索设备.蓝牙连接.通信等. 详细代码下载:http://www.demodashi.com/demo/10676.html 原文地址: Andr ...
Java经典编程题50道之三十八
编写一个函数:输入n为偶数时,调用函数求1/2+1/4+...+1/n:当输入n为奇数时,调用函数1/1+1/3+...+1/n. public class Example38 { public ...
MySQL主从复制_复制过滤
关于主从过滤,建议只在从服务器做设定,在Master 端为保证二进制日志的完整, 不建议使用二进制日志过滤. Master 可用参数: binlog-do-db= #定义白名单,仅将制定数据库的相关操 ...

python爬虫--爬取某网站电影下载地址

python爬虫--爬取某网站电影下载地址的更多相关文章

随机推荐

热门专题