Python + PyQt5 实现美剧爬虫可视工具

美剧《权力的游戏》终于要开播最后一季了，作为马丁老爷子的忠实粉丝，为了能够看得懂第八季复杂庞大的剧情架构，本人想着将前几季再稳固一下，所以就上美剧天堂下载来看，可是每次都上去下载太麻烦了，于是干脆自己写个爬虫爬下来得了。

话不多说，先上图片。

本人才疏学浅，就写了个简单的可视化软件，关键是功能实现就行了嘛。

实现语言：Python ，版本 3.7.1

实现思路：首先运用 Python 工具爬取到数据再实现图形化软件。

由于这里只是实现简单的爬取数据，并没有牵扯到 cookie 之类的敏感信息，也没有设置代理，所以在选择 Python 库上并没有引入 Selenium 或者更高级的 Scrapy 框架，只是拿到数据就可以了，没必要那么麻烦。

所以选择了 urllib 这个库，在 Python 2.X 中应该是 urllib 和 urllib2 同时引入，由于本人选用的版本的 Python 3.X ，在 Python 3.X 中上面两个库已经被合并为 urllib 一个库，语法上有些不同，但语言这种东西都是大同小异的嘛。

先贴代码，缓和一下尴尬的气氛。

 import urllib.request

 from urllib import parse

 from lxml import etree

 import ssl

 from PyQt5.QtWidgets import QApplication, QWidget, QLineEdit, QTextEdit, QVBoxLayout, QPushButton, QMessageBox

 import sys

 # 取消代理验证

 ssl._create_default_https_context = ssl._create_unverified_context

 class TextEditMeiJu(QWidget):

     def __init__(self, parent=None):

         super(TextEditMeiJu, self).__init__(parent)

         # 定义窗口头部信息

         self.setWindowTitle('美剧天堂')

         # 定义窗口的初始大小

         self.resize(500, 600)

         # 创建单行文本框

         self.textLineEdit = QLineEdit()

         # 创建一个按钮

         self.btnButton = QPushButton('确定')

         # 创建多行文本框

         self.textEdit = QTextEdit()

         # 实例化垂直布局

         layout = QVBoxLayout()

         # 相关控件添加到垂直布局中

         layout.addWidget(self.textLineEdit)

         layout.addWidget(self.btnButton)

         layout.addWidget(self.textEdit)

         # 设置布局

         self.setLayout(layout)

         # 将按钮的点击信号与相关的槽函数进行绑定，点击即触发

         self.btnButton.clicked.connect(self.buttonClick)

     # 点击确认按钮

     def buttonClick(self):

         # 爬取开始前提示一下

         start = QMessageBox.information(

             self, '提示', '是否开始爬取《' + self.textLineEdit.text() + "》",

             QMessageBox.Ok | QMessageBox.No, QMessageBox.Ok

         )

         # 确定爬取

         if start == QMessageBox.Ok:

             self.page = 1

             self.loadSearchPage(self.textLineEdit.text(), self.page)

         # 取消爬取

         else:

             pass

     # 加载输入美剧名称后的页面

     def loadSearchPage(self, name, page):

         # 将文本转为 gb2312 编码格式

         name = parse.quote(name.encode('gb2312'))

         # 请求发送的 url 地址

         url = "https://www.meijutt.com/search/index.asp?page=" + str(page) + "&searchword=" + name + "&searchtype=-1"

         # 请求报头

         headers = {"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36"}

         # 发送请求

         request = urllib.request.Request(url, headers=headers)

         # 获取请求的 html 文档

         html = urllib.request.urlopen(request).read()

         # 对 html 文档进行解析

         text = etree.HTML(html)

         # xpath 获取想要的信息

         pageTotal = text.xpath('//div[@class="page"]/span[1]/text()')

         # 判断搜索内容是否有结果

         if pageTotal:

             self.loadDetailPage(pageTotal, text, headers)

         # 搜索内容无结果

         else:

             self.infoSearchNull()

     # 加载点击搜索页面点击的本季页面

     def loadDetailPage(self, pageTotal, text, headers):

         # 取出搜索的结果一共多少页

         pageTotal = pageTotal[0].split('/')[1].rstrip("页")

         # 获取每一季的内容（剧名和链接）

         node_list = text.xpath('//a[@class="B font_14"]')

         items = {}

         items['name'] = self.textLineEdit.text()

         # 循环获取每一季的内容

         for node in node_list:

             # 获取信息

             title = node.xpath('@title')[0]

             link = node.xpath('@href')[0]

             items["title"] = title

             # 通过获取的单季链接跳转到本季的详情页面

             requestDetail = urllib.request.Request("https://www.meijutt.com" + link, headers=headers)

             htmlDetail = urllib.request.urlopen(requestDetail).read()

             textDetail = etree.HTML(htmlDetail)

             node_listDetail = textDetail.xpath('//div[@class="tabs-list current-tab"]//strong//a/@href')

             self.writeDetailPage(items, node_listDetail)

         # 爬取完毕提示

         if self.page == int(pageTotal):

             self.infoSearchDone()

         else:

             self.infoSearchContinue(pageTotal)

     # 将数据显示到图形界面

     def writeDetailPage(self, items, node_listDetail):

         for index, nodeLink in enumerate(node_listDetail):

             items["link"] = nodeLink

             # 写入图形界面

             self.textEdit.append(

                 "<div>"

                     "<font color='black' size='3'>" + items['name'] + "</font>" + "\n"

                     "<font color='red' size='3'>" + items['title'] + "</font>" + "\n"

                     "<font color='orange' size='3'>第" + str(index + 1) + "集</font>" + "\n"

                     "<font color='green' size='3'>下载链接：</font>" + "\n"

                     "<font color='blue' size='3'>" + items['link'] + "</font>"

                     "<p></p>"

                 "</div>"

             )

     # 搜索不到结果的提示信息

     def infoSearchNull(self):

         QMessageBox.information(

             self, '提示', '搜索结果不存在，请重新输入搜索内容',

             QMessageBox.Ok, QMessageBox.Ok

         )

     # 爬取数据完毕的提示信息

     def infoSearchDone(self):

         QMessageBox.information(

             self, '提示', '爬取《' + self.textLineEdit.text() + '》完毕',

             QMessageBox.Ok, QMessageBox.Ok

         )

     # 多页情况下是否继续爬取的提示信息

     def infoSearchContinue(self, pageTotal):

         end = QMessageBox.information(

             self, '提示', '爬取第' + str(self.page) + '页《' + self.textLineEdit.text() + '》完毕，还有' + str(int(pageTotal) - self.page) + '页，是否继续爬取',

             QMessageBox.Ok | QMessageBox.No, QMessageBox.No

         )

         if end == QMessageBox.Ok:

             self.page += 1

             self.loadSearchPage(self.textLineEdit.text(), self.page)

         else:

             pass

 if __name__ == '__main__':

     app = QApplication(sys.argv)

     win = TextEditMeiJu()

     win.show()

     sys.exit(app.exec_())

以上是实现功能的所有代码，可以运行 Python 的小伙伴直接复制到本地运行即可。都说 Python 是做爬虫最好的工具，写完之后发现确实是这样。

我们一点点分析代码：

 import urllib.request

 from urllib import parse

 from lxml import etree

 import ssl

 from PyQt5.QtWidgets import QApplication, QWidget, QLineEdit, QTextEdit, QVBoxLayout, QPushButton, QMessageBox, QLabel

 import sys

以上为我们引入的所需要的库，前 4 行是爬取美剧天堂官网所需要的库，后两个是实现图形化应用所需的库。

我们先来看一下如何爬取网站信息。

由于现在美剧天堂使用的是 https 协议，进入页面需要代理验证，为了不必要的麻烦，我们干脆取消代理验证，所以用到了 ssl 模块。

然后我们就可以正大光明的进入网站了：https://www.meijutt.com/

令人遗憾的是 url 链接为 https://www.meijutt.com/search/index.asp ，显然没有为我们提供任何有用的信息，当我们刷新页面时，如下图：

当我们手动输入 ulr 链接 https://www.meijutt.com/search/index.asp 进行搜索时：

很明显了，当我们在首页输入想看的美剧并搜索时网站将我们的请求表单信息隐藏了，并没有给到 url 链接里，但是本人可不想每次都从首页进行搜索再提交表单获取信息，很不爽，还好本人发现了一个更好的方法。如下图：

在页面顶部有一个页面跳转的按钮，我们可以选择跳转的页码，当选择跳转页码后，页面变成了如下：

url 链接已经改变了：https://www.meijutt.com/search/index.asp?page=&searchword=%C8%A8%C1%A6%B5%C4%D3%CE%CF%B7&searchtype=-1

我们再将 page 中动态添加为 page=1 ，页面效果不变。

经过搜索多个不同的美剧的多次验证发现只有 page 和 searchword 这两个字段是改变的，其中 page 字段默认为 1 ，而其本人搜索了许多季数很长的美剧，比如《老友记》、《生活大爆炸》、《邪恶力量》，这些美剧也就一页，但仍有更长的美剧，比如《辛普森一家》是两页，《法律与秩序》是两页，这就要求我们对页数进行控制，但是需要特别注意的是如果随意搜索内容，比如在搜索框只搜索了一个 ”i“，整整搜出了 219 页，这要扒下来需要很长的时间，所以就需要对其搜索的页数进行控制。

我们再来看一下 searchword 字段，将 searchword 字段解码转成汉字：

没错，正是我们想要的，万里长征终于实现了第一步。

 # 加载输入美剧名称后的页面

 def loadSearchPage(self, name, page):

     # 将文本转为 gb2312 编码格式

     name = parse.quote(name.encode('gb2312'))

     # 请求发送的 url 地址

     url = "https://www.meijutt.com/search/index.asp?page=" + str(page) + "&searchword=" + name + "&searchtype=-1"

     # 请求报头

     headers = {"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36"}

     # 发送请求

     request = urllib.request.Request(url, headers=headers)

     # 获取请求的 html 文档

     html = urllib.request.urlopen(request).read()

     # 对 html 文档进行解析

     text = etree.HTML(html)

     # xpath 获取想要的信息

     pageTotal = text.xpath('//div[@class="page"]/span[1]/text()')

     # 判断搜索内容是否有结果

     if pageTotal:

         self.loadDetailPage(pageTotal, text, headers)

     # 搜索内容无结果

     else:

         self.infoSearchNull()

接下来我们只需要将输入的美剧名转化成 url 编码格式就可以了。如上代码，通过 urllib 库对搜索的网站进行操作。

其中我们还需要做判断，搜索结果是否存在，比如我们搜索行尸跑肉，结果不存在。

当搜索结果存在时：

我们通过谷歌的 xpath 插件对页面内的 dom 进行搜索，发现我们要选取的 class 类名，关于谷歌插件本人之前的文章讲过一些 https://www.cnblogs.com/weijiutao/p/10608107.html，这里就不多说了。

我们根据获取到的页数，找到所有页面里我们要搜索的信息：

 # 加载点击搜索页面点击的本季页面

 def loadDetailPage(self, pageTotal, text, headers):

     # 取出搜索的结果一共多少页

     pageTotal = pageTotal[0].split('/')[1].rstrip("页")

     # 获取每一季的内容（剧名和链接）

     node_list = text.xpath('//a[@class="B font_14"]')

     items = {}

     items['name'] = self.textLineEdit.text()

     # 循环获取每一季的内容

     for node in node_list:

         # 获取信息

         title = node.xpath('@title')[0]

         link = node.xpath('@href')[0]

         items["title"] = title

         # 通过获取的单季链接跳转到本季的详情页面

         requestDetail = urllib.request.Request("https://www.meijutt.com" + link, headers=headers)

         htmlDetail = urllib.request.urlopen(requestDetail).read()

         textDetail = etree.HTML(htmlDetail)

         node_listDetail = textDetail.xpath('//div[@class="tabs-list current-tab"]//strong//a/@href')

         self.writeDetailPage(items, node_listDetail)

     # 爬取完毕提示

     if self.page == int(pageTotal):

         self.infoSearchDone()

     else:

         self.infoSearchContinue(pageTotal)

我们根据获取到的链接，再次通过 urllib 库进行页面访问，即我们手动点击进入其中的一个页面，比如权利的游戏第一季，再次通过 xpath 获取到我们所需要的下载链接：

至此我们就将所有我们搜索到的权力的游戏的下载链接拿到手了，接下来就是写图形界面了。

本人选用了 PyQt5 这个框架，它内置了 QT 的操作语法，对于本人这种小白用起来也很友好。至于如何使用本人也都在代码上添加了注释，在这儿做一下简单的说明，就不过多解释了。

 from PyQt5.QtWidgets import QApplication, QWidget, QLineEdit, QTextEdit, QVBoxLayout, QPushButton, QMessageBox, QLabel

 import sys

将获取的信息写入搜索结果内：

 # 将数据显示到图形界面

 def writeDetailPage(self, items, node_listDetail):

     for index, nodeLink in enumerate(node_listDetail):

         items["link"] = nodeLink

         # 写入图形界面

         self.textEdit.append(

             "<div>"

                 "<font color='black' size='3'>" + items['name'] + "</font>" + "\n"

                 "<font color='red' size='3'>" + items['title'] + "</font>" + "\n"

                 "<font color='orange' size='3'>第" + str(index + 1) + "集</font>" + "\n"

                 "<font color='green' size='3'>下载链接：</font>" + "\n"

                 "<font color='blue' size='3'>" + items['link'] + "</font>"

                 "<p></p>"

             "</div>"

         )

因为可能有多页情况，所以我们得做一次判断，提示一下剩余多少页，可以选择继续爬取或停止，做到人性化交互。

 # 搜索不到结果的提示信息

 def infoSearchNull(self):

     QMessageBox.information(

         self, '提示', '搜索结果不存在，请重新输入搜索内容',

         QMessageBox.Ok, QMessageBox.Ok

     )

 # 爬取数据完毕的提示信息

 def infoSearchDone(self):

     QMessageBox.information(

         self, '提示', '爬取《' + self.textLineEdit.text() + '》完毕',

         QMessageBox.Ok, QMessageBox.Ok

     )

 # 多页情况下是否继续爬取的提示信息

 def infoSearchContinue(self, pageTotal):

     end = QMessageBox.information(

         self, '提示', '爬取第' + str(self.page) + '页《' + self.textLineEdit.text() + '》完毕，还有' + str(int(pageTotal) - self.page) + '页，是否继续爬取',

         QMessageBox.Ok | QMessageBox.No, QMessageBox.No

     )

     if end == QMessageBox.Ok:

         self.page += 1

         self.loadSearchPage(self.textLineEdit.text(), self.page)

     else:

         pass

demo 图形化软件操作如下：

在搜索框内输入要搜索的美剧名，点击确认。提示一下是否要爬取，点击 No 不爬取，点击 OK 爬取。

判断一下是否存在搜索结果，比如吧 ”辛普森一家“ 换成了 ”吉普森一家“，搜索内容不存在。

如果搜索内容存在，在搜索完成第一页后提示一下是否需要继续爬取，点击 No 表示停止爬取，点击 OK 表示继续爬取。

最后爬取完毕后提示爬取完毕：

由于本人对 Python 了解不深，代码中有很多不足之处，需要不断学习改进，代码中有任何要改进的地方请各位大佬批评指教！

最后本人做了一套包含 Mac 和 windows 版的图形化美剧天堂抓包程序，只需要在对应电脑上点击运行即可，需要的小伙伴可以在本人的公众号后台回复美剧天堂就可以拿到了，注：在 windows 上打包生成的 .exe 软件第一打开时被 360 阻止，大家允许操作就可以了，Mac 无此提示。

好记性不如烂笔头，特此记录，与君共勉！

Python + PyQt5 实现美剧爬虫可视工具的更多相关文章

Python + PyQt5 实现美剧爬虫可视工具（二）
美剧<权力的游戏>终于开播最后一季了,在上周写了个简单的可视化美剧的爬虫软件来爬取美剧,链接:https://www.cnblogs.com/weijiutao/p/10614694.ht ...
Python 爬虫批量下载美剧 from 人人影视 HR-HDTV
本人比較喜欢看美剧.尤其喜欢人人影视上HR-HDTV 的 1024 分辨率的高清双字美剧,这里写了一个脚本来批量获得指定美剧的全部 HR-HDTV 的 ed2k下载链接.并依照先后顺序写入到文本文件, ...
Python爬虫爬取美剧网站
一直有爱看美剧的习惯,一方面锻炼一下英语听力,一方面打发一下时间.之前是能在视频网站上面在线看的,可是自从广电总局的限制令之后,进口的美剧英剧等貌似就不在像以前一样同步更新了.但是,作为一个宅diao ...
简单的抓取淘宝关键字信息、图片的Python爬虫|Python3中级玩家：淘宝天猫商品搜索爬虫自动化工具（第一篇）
Python3中级玩家:淘宝天猫商品搜索爬虫自动化工具(第一篇) 淘宝改字段,Bugfix,查看https://github.com/hunterhug/taobaoscrapy.git 由于Gith ...
Python 爬虫的工具列表附Github代码下载链接
Python爬虫视频教程零基础小白到scrapy爬虫高手-轻松入门 https://item.taobao.com/item.htm?spm=a1z38n.10677092.0.0.482434a6E ...
Python 爬虫的工具列表大全
Python 爬虫的工具列表大全这个列表包含与网页抓取和数据处理的Python库.网络通用 urllib -网络库(stdlib). requests -网络库. grab – 网络库(基于pyc ...
Node.js 爬虫批量下载美剧 from 人人影视 HR-HDTV
这两天发现了一个叫看知乎的站点.是知乎的苏莉安做的,当中爬虫使用的 Node.js.这里就针对上一篇博客中的美剧小爬虫,改用 nodejs 进行实现一下.体验一下强大的 Node.js. 假设之前没实 ...
Python 爬虫的工具列表
Python 爬虫的工具列表这个列表包含与网页抓取和数据处理的Python库网络通用 urllib -网络库(stdlib). requests -网络库. grab – 网络库(基于pycur ...
python 爬取豆瓣的美剧
pc版大概有500条记录,mobile大概是50部,只有热门的,所以少一点 url构造很简单,主要参数就是page_limit与page_start,每翻一页,start+=20即可,tag是&quo ...

随机推荐

pytesser3 使用说明
需要环境 Python3.x以上需要安装PIL以及tesseract-ocr引擎.点我下载tesseract-ocr引擎如何使用 1. pip install pytesser3 如图: [可 ...
Postman用法简介
转自:http://blog.csdn.net/flowerspring/article/details/52774399 Postman用法简介转载 2016年10月10日 09:04:10 10 ...
Elasticsearch笔记二之Curl工具基本操作
Elasticsearch笔记二之Curl工具基本操作简介: Curl工具是一种可以在命令行访问url的工具,支持get和post请求方式.-X指定http请求的方法,-d指定要传输的数据. 创建索 ...
C++中将整型数与字符串型之间的类型转换
整数转换成字符串类型: 方法一: 这里用到了char *itoa(int value, char *string, int radix); 函数当中参数为:int value 被转换的整数,char ...
STL--multiset用法
multiset: multiset<int>s; 定义正向迭代器与正向遍历: multiset<int>::iterator it; for(it=s.begin();it! ...
BZOJ_2427_[HAOI2010]软件安装_tarjan+树形DP
BZOJ_2427_[HAOI2010]软件安装_tarjan+树形DP 题意: 现在我们的手头有N个软件,对于一个软件i,它要占用Wi的磁盘空间,它的价值为Vi.我们希望从中选择一些软件安装到一台磁 ...
【爆料】-《伯明翰大学学院毕业证书》UCB一模一样原件
☞伯明翰大学学院毕业证书[微/Q:865121257◆WeChat:CC6669834]UC毕业证书/联系人Alice[查看点击百度快照查看][留信网学历认证&博士&硕士&海归 ...
HTTP协议中GET和POST区别
GET一般用于获取和查询资源信息:POST一般用于更新信息,表示可能修改服务器上资源的请求 GET请求一般是幂等的 GET请求数据会附加在url之后,POST请求数据放到request-body中 G ...
前端ArcGIS学习之路-引言
本系列主要关注ArcGIS Server以及ArcGIS API for Javascript,由于我本人是从前端方面向GIS方面学习,希望能够给更多需要了解GIS的程序员同学更多的参考．另外本系列会 ...
从源码解读线程（Thread）和线程池（ThreadPoolExecutor）的状态
线程是比进程更加轻量级的调度执行单位,理解线程是理解并发编程的不可或缺的一部分:而生产过程中不可能永远使用裸线程,需要线程池技术,线程池是管理和调度线程的资源池.因为前不久遇到了一个关于线程状态的问题 ...

Python + PyQt5 实现美剧爬虫可视工具

Python + PyQt5 实现美剧爬虫可视工具的更多相关文章

随机推荐

热门专题