python学习笔记（11）--爬虫下载漫画图片

说明：

1. 某本子网站爬虫，现在只实现了扒取一页，已经凌晨两点了，又饿又困，先睡觉，明天再写总结吧！

2. 我是明天，我来写总结了！

3. 这个网站的结构是这样的：

主页：

主页-第1页-漫画1封面-漫画1地址

          -漫画2封面-漫画2地址

          -漫画3封面-漫画3地址

          -漫画4封面-漫画4地址

          -漫画5封面-漫画5地址

          -.........

    -第2页-漫画1封面-漫画1地址

          -漫画2封面-漫画2地址

          -漫画3封面-漫画3地址

          -漫画4封面-漫画4地址

          -漫画5封面-漫画5地址

          -.........

    -第3页-漫画1封面-漫画1地址

          -漫画2封面-漫画2地址

          -漫画3封面-漫画3地址

          -漫画4封面-漫画4地址

          -漫画5封面-漫画5地址

          -.........

     ...............

漫画封面点进去之后：

漫画1-第1页-图片地址1

     -第2页-图片地址2

     -第3页-图片地址3

     -第4页-图片地址4

     -.....

     -第n页-图片地址n

4. 首先获取主页的html，因为上部和侧边栏都有一些推荐漫画，这些是不需要的，所以处理一下html，只保留主体漫画的html代码。

5. 正则匹配主页html，获取每个封面漫画的名字和地址，名字用来给文件夹取名，地址用来打开每个漫画并获取每个漫画的html。

6. 遍历主页第一页的所有封面漫画，正则匹配每个漫画的html，获取总页数（数组），第一张图片的真实地址（数组），其中真实地址需要提取出两个数字。

7. 开始新建文件夹，跳转到此文件夹（记得把每个文件夹的图片下载完后，跳转到上层文件夹，不然会一直创建子文件夹，导致目录太深，系统报错）

8. 遍历总页数，拼接每个漫画的每张图片的真实地址，下载到当前创建的文件夹里。同时print一下下载进度（正在下载的名字，页数）

9. 遍历完返回上级目录。

注意：

1. 想要增加退出功能，现在运行中只能是通过任务管理器关闭，我是用sublime的REPL运行的，如果是IDLE可能直接关闭就好了。不过我想要按esc退出，空格暂停功能，不知道能不能实现。

2. 现在只是主页的第一页，后面需要增加多页下载，给定一个参数n，下载n页。

3. 整理成函数。

 import urllib.request

 import re

 import os

 # 获取漫画网首页html

 url = "http://www.yaoqmh.net/shaonvmanhua/list_4_1.html"

 headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0'}

 req = urllib.request.Request(url=url,headers=headers)

 response = urllib.request.urlopen(url)

 html = response.read().decode("utf-8")

 # 处理一下html，只保留中间的本子，侧边和顶部的本子不要

 startNum = html.find("mainleft")

 endNum = html.find("mainright")

 html = html[startNum:endNum]

 # 从html获取本子编号，名字

 # <a href="/shaonvmanhua/8389.html" class="pic show" title="里番H少女漫画之發情關係" target="_blank"><span class="bt">里番H少女漫画之發情關係</span> <span class="bg"></span><img class="scrollLoading" src="http://pic.taov5.com/1/615/183-1.jpg" xsrc="http://pic.taov5.com/1/615/183-1.jpg" alt="里番H少女漫画之發情關係" style="background:url(/static/images/loading.gif) no-repeat center;" width="150" height="185"></a>

 #

 # <img class="scrollLoading" src="http://pic.taov5.com/1/615/183-1.jpg" xsrc="http://pic.taov5.com/1/615/183-1.jpg" alt="里番H少女漫画之發情關係" style="background:url(/static/images/loading.gif) no-repeat center;" width="150" height="185">

 regBookNum = r'href="/shaonvmanhua/(\d+)\.html"'

 regName = r'title="(.+?)"'

 bookNums = re.findall(regBookNum, html)

 bookNames = re.findall(regName, html)

 # print(bookNums)

 # print(bookNames)

 # 打开每个本子网页，获取总页数，第一张图片的网址

 # <img alt="里番H少女漫画之發情關係" src="http://pic.taov5.com/1/615/143.jpg">

 for i in range(len(bookNums)):

     urlBook = "http://www.yaoqmh.net/shaonvmanhua/"+bookNums[i]+".html"

     reqBook = urllib.request.Request(url=urlBook,headers=headers)

     responseBook = urllib.request.urlopen(reqBook)

     htmlBook = responseBook.read().decode("utf-8")

     regPageNums = r"共(\d+)页:"

     regImgStart1 = r"http://pic\.taov5\.com/1/(\d+)/\d+?\.jpg"

     regImgStart2 = r"http://pic\.taov5\.com/1/\d+?/(\d+?)\.jpg"

     pageNums = re.findall(regPageNums,htmlBook)#总页数，获得一个二维数组，有两个总页数标签

     imgStart1 = re.findall(regImgStart1, htmlBook)#图片目录的第一个数字,findall返回一个数组

     imgStart2 = re.findall(regImgStart2, htmlBook)#图片目录的第二个数字

     # 每个本子新建文件夹，下载完一个本子要返回上一级目录！！不然会一直新建子文件夹！

     os.mkdir(bookNames[i])#新建文件夹

     os.chdir(bookNames[i])#跳转到指定目录

     #记得后面要返回上级目录！！

     # 开始页码和结束页码

     rangeMin = int(imgStart2[0])

     rangeMax = int(imgStart2[0]) + int(pageNums[0])

     pageNums = int(pageNums[0])

     # print(rangeMin)

     # print(rangeMax)

     # print(type(rangeMin))

     # 打开每页，下载保存到这个名字的文件夹里

     print("正在下载："+bookNames[i])#给个下载提示本子名

     for j in range(pageNums):

         urlImg = "http://pic.taov5.com/1/"+imgStart1[0]+"/"+str(rangeMin+j)+".jpg"

         reqImg = urllib.request.Request(url=urlImg,headers=headers)

         responseImg = urllib.request.urlopen(reqImg)

         img = open(str(j)+".jpg","wb")

         img.write(responseImg.read())

         img.close()

         print("已下载%d页，共%d页"%(j+1,pageNums))#提示下载几页了，放在后面比较好

         # os.system("pause")

     os.chdir(os.path.dirname(os.getcwd()))#返回上级目录

 # 退出功能，下载哪一页,python按键停止运行

python学习笔记（11）--爬虫下载漫画图片的更多相关文章

python学习笔记（14）--爬虫下载漫画图片修改版
说明: 1. 2017.3.12,周六从中午吃完包子12点多折腾了一下午加一个晚上,试了4个网站的爬虫,发现都不能下载!甚至前几天测试能下载的都不能用了! 2. 到晚上发现煎蛋网的可以用了,立即试了下 ...
python学习笔记11 ----线程、进程、协程
进程.线程.协程的概念进程和线程是操作系统中两个很重要的概念,对于一般的程序,可能有若干个进程,每一个进程有若干个同时执行的线程.进程是资源管理的最小单位,线程是程序执行的最小单位(线程可共享同一进 ...
吴裕雄--python学习笔记：爬虫基础
一.什么是爬虫爬虫:一段自动抓取互联网信息的程序,从互联网上抓取对于我们有价值的信息. 二.Python爬虫架构 Python 爬虫架构主要由五个部分组成,分别是调度器.URL管理器.网页下载器.网 ...
吴裕雄--python学习笔记：爬虫
import chardet import urllib.request page = urllib.request.urlopen('http://photo.sina.com.cn/') #打开网 ...
python学习笔记11 ----网络编程
网络编程网络编程需要知道的概念网络体系结构就是使用这些用不同媒介连接起来的不同设备和网络系统在不同的应用环境下实现互操作性,并满足各种业务需求的一种粘合剂.网络体系结构解决互质性问题彩是分层方法. ...
Python学习笔记22:Django下载并安装
Django它是一个开源Web应用程序框架.由Python书面. 通过MVC软件设计模式,这种模式M,视图V和控制器C. 它最初是一个数字新闻内容为主的网站已经发展到管理劳伦斯出版集团.那是,CMS( ...
Python 学习笔记11
如何要飞得高,就该把天空忘掉.如果时时想着梦想,那就寸步难行.因为会产生很强的挫败感.倾空自己的杯子,把自己放空,才能放得进去东西. 这两天一直在鼓捣要用python写一个博客出来.先是下载了一个放到 ...
python学习笔记："爬虫+有道词典"实现一个简单的英译汉程序
1.有道的翻译网页:www.youdao.com Fig1 Fig2 Fig3 Fig4 再次点击"自动翻译"->选中'Network'->选中'第一项',如下: F ...
Python学习笔记之爬虫
爬虫调度端:启动爬虫,停止爬虫,监视爬虫运行情况 URL管理器:对将要爬取的和已经爬取过的URL进行管理:可取出带爬取的URL,将其传送给“网页下载器”网页下载器:将URL指定的网页下载,存储成一个字 ...

随机推荐

java 内存泄漏和内存溢出
参考:https://blog.csdn.net/eff666/article/details/52784724 1.内存溢出内存溢出:OOM(OutOfMemoryError)异常,即程序需要内 ...
HDU 4528 BFS 小明系列故事——捉迷藏
原题直通车:HDU 4528 小明系列故事——捉迷藏分析: 标记时加两种状态就行. 代码: #include<iostream> #include<cstring> #inc ...
JS中括号的用法
转自:http://blog.csdn.net/hongmin118/article/details/4584023 我们在一些JS代码中经常可以看到这样的用法 :(function(){})();那 ...
UNIX网络编程读书笔记：select函数
select函数概况: select函数允许进程指示内核等待多个事件中的任何一个发生,并仅在有一个或多个事件发生或经历一段指定的时间后才唤醒它. 作为一个例子,我们可以调用select,告知内核仅在下 ...
unity3d 版本控制场景合并。
Editor→ProjectSettings→Editor Version Control Mode 设置为 "Visible Meta Files" Asset Serializ ...
算法笔记_140:最小费用最大流问题(Java)
目录 1 问题描述 2 解决方案 1 问题描述在最大流有多组解时,给每条边在附上一个单位费用的量,问在满足最大流时的最小费用是多少? 2 解决方案下面代码所使用的测试数据如下图: 具体代码如下 ...
How to make a custom WIDGET in OpenERP
转自:http://sahotaparamjitsingh.blogspot.com/2012/04/how-to-make-custom-widget-in-openerp.html Hello ...
Windows Phone ProgressRing 控件
在windows phone 8中,只有ProgressBar的控件,而没有圆环形的等待控件.今天我突发奇想,从Windows Store 的ProgressRing控件上copy下来的XAML 代码 ...
（二）hibernate进阶
1.hibernate.cfg.xml常用配置以上节代码为例 <session-factory> <property name="connection.username&q ...
Android 使用Scroller实现绚丽的ListView左右滑动删除Item效果
转帖请注明本文出自xiaanming的博客(http://blog.csdn.net/xiaanming/article/details/17539199),请尊重他人的辛勤劳动成果,谢谢! 我在上一 ...

python学习笔记（11）--爬虫下载漫画图片

python学习笔记（11）--爬虫下载漫画图片的更多相关文章

随机推荐

热门专题