【一、项目背景】

相信大家都有一种头疼的体验,要下载电影特别费劲,对吧?要一部一部的下载,而且不能直观的知道最近电影更新的状态。

今天小编以电影天堂为例,带大家更直观的去看自己喜欢的电影,并且下载下来。

【二、项目准备】

首先 我们第一步我们要安装一个Pycharm的软件。Pycharm软件安装可以看这篇教程:Python环境搭建—安利Python小白的Python和Pycharm安装详细教程

电影天堂网的网址:

https://www.ygdy8.net/html/gndy/dyzz/list_23_1.html

我们需要下载几个库,怎么下载呢?首先打开Pycharm点击File再点开setting。

打开后会出现这个界面点击你的项目名字(project:(你的项目名字))project  interpreter点击加号下载我们需要的库本项目需要(requests,requests,time,re模块),如下图所示。

如果不会加载解释器的话,可以参考这篇手把手教程:安装好Pycharm后如何配置Python解释器简易教程

如果还缺少相应库的话,可以按照如下方式进行下载和安装。

【三、项目实施】

我们需要(requests,requests,time,re模块 ),如下图所示。

用封装方法去实现各个部分功能。首先要写一个框架 :构造一个类FilmSky 然后定义一个—init方法里继承(self),再定义一个主方法(main)。最后实现这个main方法。代码如下:

这个time是用于防止反爬,设置的时间延时。

首先我们来分析一下这个网址下一页得到特点。

通过点击了三页我们会发现地址都是在原有的基础上“23—3,4,5”这样的变化。

我们可以用{}去代替变化的值就像这样:

https://www.ygdy8.net/html/gndy/dyzz/list_23_{}.html

这样我们在inti方法初始化url地址和构造请求头。

在主方法main函数里边用for循环实现遍历网址。

得到下图这样的结果:

说明你已经成功一半了加油!!

现在我们需要对这些网址发生请求,为了更直观的看出来,我们用一个类写。

我们用requests发生请求 这个网站的编码是gbk (怎么看网站的编码?)。

打开一个网站右键检查在header的标签,以这个网站为例,可以看到charset=“gb312”。

这个gb2312就是编码 我们常见的编码方式有2种(utf_8,  gbk)。

我们可以验证一下是不是真的请求到了。使用Print(html)看到这个结果(一个完整的html网页)说明请求成功。

我们再定义这个方法(对我们的网页代码进行解析)。

我们用正则表达式 来解析数据 我们右键检查可以看到我们要的网站在table里面的
标签的标签的标签的href。

所以我们可以先找到table,一层一层的去找,可以参考一下下面的图。

正则表达式就是(.?)里面就是你想要得到的内容,“.?”就是可以省略其中的标签,取到你想要地区那一层。for循环遍历得到每个网址,点击这些网址我们要对二级页面发生请求,并解析它。

因为在网页网址上的链接有一些是空的 ,所有这样会导致电影下载的链接不匹配。所以我们要加个判断,如果下载链接的长度大于0那么就照常显示,否则就给它一个空值,这样就不会不对应了。最后返回这个结果,如下图所示。

点开第二级页面如图右键点击下载链接,如下图所示:

我们用正则表达式解析 得到我们下载链接地址,如下图所示:

看去了不是很美观,我们把链接处理一下,如下图所示:

得到结果,如下图所示:

最后我们用把数据保存在一个字典加上下载链接和电影名字:

最后我们优化一下请求的代码有点重复 我们优化一下;

用一个值去保存说明请求头的内容以后请求我们只有调用这个方法进行请求就好,如下图所示:

程序运行之后可以看到效果图,如下图所示:

点击蓝色的链接就可以这个下载(要下载迅雷 迅雷下载更快哇)

这样是不是能够更直观的看出你要电影啦?点击即可下载噢!

【五、总结】

  1. 本文基于Python网络爬虫技术,提供了一种更直观的去看自己喜欢的电影并且方便下载的方式。

  2. 不建议抓取太多,容易使得服务器负载。

  3. 需要本文代码的话,后台回复“电影天堂”四个字即可获取。

    看完本文有收获?请转发分享给更多的人

IT共享之家

入群请在微信后台回复【入群】

往期精彩文章推荐:

想学习更多Python网络爬虫与数据挖掘知识,可前往专业网站:http://pdcfighting.com/

一篇文章教会你利用Python网络爬虫获取电影天堂视频下载链接的更多相关文章

  1. 一篇文章带你用Python网络爬虫实现网易云音乐歌词抓取

    前几天小编给大家分享了数据可视化分析,在文尾提及了网易云音乐歌词爬取,今天小编给大家分享网易云音乐歌词爬取方法. 本文的总体思路如下: 找到正确的URL,获取源码: 利用bs4解析源码,获取歌曲名和歌 ...

  2. 一篇文章教会你理解Scrapy网络爬虫框架的工作原理和数据采集过程

    今天小编给大家详细的讲解一下Scrapy爬虫框架,希望对大家的学习有帮助. 1.Scrapy爬虫框架 Scrapy是一个使用Python编程语言编写的爬虫框架,任何人都可以根据自己的需求进行修改,并且 ...

  3. 利用Python网络爬虫抓取微信好友的签名及其可视化展示

    前几天给大家分享了如何利用Python词云和wordart可视化工具对朋友圈数据进行可视化,利用Python网络爬虫抓取微信好友数量以及微信好友的男女比例,以及利用Python网络爬虫抓取微信好友的所 ...

  4. 如何利用Python网络爬虫抓取微信朋友圈的动态(上)

    今天小编给大家分享一下如何利用Python网络爬虫抓取微信朋友圈的动态信息,实际上如果单独的去爬取朋友圈的话,难度会非常大,因为微信没有提供向网易云音乐这样的API接口,所以很容易找不到门.不过不要慌 ...

  5. 如何利用Python网络爬虫爬取微信朋友圈动态--附代码(下)

    前天给大家分享了如何利用Python网络爬虫爬取微信朋友圈数据的上篇(理论篇),今天给大家分享一下代码实现(实战篇),接着上篇往下继续深入. 一.代码实现 1.修改Scrapy项目中的items.py ...

  6. 利用Python网络爬虫爬取学校官网十条标题

    利用Python网络爬虫爬取学校官网十条标题 案例代码: # __author : "J" # date : 2018-03-06 # 导入需要用到的库文件 import urll ...

  7. 利用Python网络爬虫抓取微信好友的所在省位和城市分布及其可视化

    前几天给大家分享了如何利用Python网络爬虫抓取微信好友数量以及微信好友的男女比例,感兴趣的小伙伴可以点击链接进行查看.今天小编给大家介绍如何利用Python网络爬虫抓取微信好友的省位和城市,并且将 ...

  8. 如何利用Python网络爬虫抓取微信好友数量以及微信好友的男女比例

    前几天给大家分享了利用Python网络爬虫抓取微信朋友圈的动态(上)和利用Python网络爬虫爬取微信朋友圈动态——附代码(下),并且对抓取到的数据进行了Python词云和wordart可视化,感兴趣 ...

  9. 利用Python网络爬虫采集天气网的实时信息—BeautifulSoup选择器

    相信小伙伴们都知道今冬以来范围最广.持续时间最长.影响最重的一场低温雨雪冰冻天气过程正在进行中.预计,今天安徽.江苏.浙江.湖北.湖南等地有暴雪,局地大暴雪,新增积雪深度4-8厘米,局地可达10-20 ...

随机推荐

  1. python在linux调用shell脚本实时打印输出信息并对信息进行判断

    核心代码 def run(command): #实时获取打印的命令 process = Popen(command, stdout=PIPE, shell=True) while True: line ...

  2. Python快速编程入门,打牢基础必须知道的11个知识点 !

    Python被誉为全世界高效的编程语言,同时也被称作是“胶水语言”,那它为何能如此受欢迎,下面我们就来说说Python入门学习的必备11个知识点,也就是它为何能够如此受欢迎的原因. Python 简介 ...

  3. htaccess 一般配置

    一.Apache服务器 <IfModule mod_rewrite.c> Options +FollowSymlinks -Multiviews RewriteEngine on Rewr ...

  4. opencv-7-鼠标绘制自定义图形

    opencv-7-鼠标绘制自定义图形 opencvc++qt 开始之前 昨天写了具体的基本的图形绘制, 然后我们使用相应的函数接口进行调用, 便能够在图像上绘制出来相应的图形, 我们以图像绘制为例, ...

  5. 怎么在java 8的map中使用stream

    怎么在java 8的map中使用stream 简介 Map是java中非常常用的一个集合类型,我们通常也需要去遍历Map去获取某些值,java 8引入了Stream的概念,那么我们怎么在Map中使用S ...

  6. Spring绑定请求参数过程以及使用@InitBinder来注册自己的属性处理器

    在工作中,经常会出现前台的请求参数由于无法被正常转型,导致请求无法进到后台的问题. 比如,我有一个User.其性别的属性被定义成了枚举,如下: public enum Gender { MALE(&q ...

  7. Math.Round和四舍五入

    Math.Round方法并不是像想象中的四舍五入, 可以从下面的输出结果看出来: Math.Round(3.44, 1); //Returns 3.4. Math.Round(3.45, 1); // ...

  8. CSS3轻松实现彩色旋转六面体动画

    一.效果预览: 二.基本思路: 1.首先这个一个自动触发的动画,因此应使用animation设计,包括自动组装和组装完成后自动旋转的过程: 2.当鼠标放上去的时候六个面及上面的字体均变色,应在六个面设 ...

  9. 使用cpplint检测代码规范

    0. cpplint - python脚本, google使用它作为自己的C++代码规范检查工具: 1. 安装 方法一: $sudo apt-get install python-pip $pip i ...

  10. IEEE 754标准--维基百科

    IEEE二进制浮点数算术标准(IEEE 754) 是20世纪80年代以来最广泛使用的浮点数运算标准,为许多CPU与浮点运算器所采用.这个标准定义了表示浮点数的格式(包括负零-0)与反常值(denorm ...