说明:

1. 某本子网站爬虫,现在只实现了扒取一页,已经凌晨两点了,又饿又困,先睡觉,明天再写总结吧!

2. 我是明天,我来写总结了!

3. 这个网站的结构是这样的:

主页:

主页-第1页-漫画1封面-漫画1地址
-漫画2封面-漫画2地址
-漫画3封面-漫画3地址
-漫画4封面-漫画4地址
-漫画5封面-漫画5地址
-.........
-第2页-漫画1封面-漫画1地址
-漫画2封面-漫画2地址
-漫画3封面-漫画3地址
-漫画4封面-漫画4地址
-漫画5封面-漫画5地址
-.........
-第3页-漫画1封面-漫画1地址
-漫画2封面-漫画2地址
-漫画3封面-漫画3地址
-漫画4封面-漫画4地址
-漫画5封面-漫画5地址
-.........
...............

漫画封面点进去之后:

漫画1-第1页-图片地址1
-第2页-图片地址2
-第3页-图片地址3
-第4页-图片地址4
-.....
-第n页-图片地址n

4. 首先获取主页的html,因为上部和侧边栏都有一些推荐漫画,这些是不需要的,所以处理一下html,只保留主体漫画的html代码。

5. 正则匹配主页html,获取每个封面漫画的名字和地址,名字用来给文件夹取名,地址用来打开每个漫画并获取每个漫画的html。

6. 遍历主页第一页的所有封面漫画,正则匹配每个漫画的html,获取总页数(数组),第一张图片的真实地址(数组),其中真实地址需要提取出两个数字。

7. 开始新建文件夹,跳转到此文件夹(记得把每个文件夹的图片下载完后,跳转到上层文件夹,不然会一直创建子文件夹,导致目录太深,系统报错)

8. 遍历总页数,拼接每个漫画的每张图片的真实地址,下载到当前创建的文件夹里。同时print一下下载进度(正在下载的名字,页数)

9. 遍历完返回上级目录。

注意:

1. 想要增加退出功能,现在运行中只能是通过任务管理器关闭,我是用sublime的REPL运行的,如果是IDLE可能直接关闭就好了。不过我想要按esc退出,空格暂停功能,不知道能不能实现。

2. 现在只是主页的第一页,后面需要增加多页下载,给定一个参数n,下载n页。

3. 整理成函数。

 import urllib.request
import re
import os # 获取漫画网首页html
url = "http://www.yaoqmh.net/shaonvmanhua/list_4_1.html"
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0'}
req = urllib.request.Request(url=url,headers=headers)
response = urllib.request.urlopen(url)
html = response.read().decode("utf-8")
# 处理一下html,只保留中间的本子,侧边和顶部的本子不要
startNum = html.find("mainleft")
endNum = html.find("mainright")
html = html[startNum:endNum] # 从html获取本子编号,名字
# <a href="/shaonvmanhua/8389.html" class="pic show" title="里番H少女漫画之發情關係" target="_blank"><span class="bt">里番H少女漫画之發情關係</span> <span class="bg"></span><img class="scrollLoading" src="http://pic.taov5.com/1/615/183-1.jpg" xsrc="http://pic.taov5.com/1/615/183-1.jpg" alt="里番H少女漫画之發情關係" style="background:url(/static/images/loading.gif) no-repeat center;" width="150" height="185"></a>
#
# <img class="scrollLoading" src="http://pic.taov5.com/1/615/183-1.jpg" xsrc="http://pic.taov5.com/1/615/183-1.jpg" alt="里番H少女漫画之發情關係" style="background:url(/static/images/loading.gif) no-repeat center;" width="150" height="185">
regBookNum = r'href="/shaonvmanhua/(\d+)\.html"'
regName = r'title="(.+?)"'
bookNums = re.findall(regBookNum, html)
bookNames = re.findall(regName, html)
# print(bookNums)
# print(bookNames) # 打开每个本子网页,获取总页数,第一张图片的网址
# <img alt="里番H少女漫画之發情關係" src="http://pic.taov5.com/1/615/143.jpg">
for i in range(len(bookNums)):
urlBook = "http://www.yaoqmh.net/shaonvmanhua/"+bookNums[i]+".html"
reqBook = urllib.request.Request(url=urlBook,headers=headers)
responseBook = urllib.request.urlopen(reqBook)
htmlBook = responseBook.read().decode("utf-8")
regPageNums = r"共(\d+)页:"
regImgStart1 = r"http://pic\.taov5\.com/1/(\d+)/\d+?\.jpg"
regImgStart2 = r"http://pic\.taov5\.com/1/\d+?/(\d+?)\.jpg"
pageNums = re.findall(regPageNums,htmlBook)#总页数,获得一个二维数组,有两个总页数标签
imgStart1 = re.findall(regImgStart1, htmlBook)#图片目录的第一个数字,findall返回一个数组
imgStart2 = re.findall(regImgStart2, htmlBook)#图片目录的第二个数字
# 每个本子新建文件夹,下载完一个本子要返回上一级目录!!不然会一直新建子文件夹!
os.mkdir(bookNames[i])#新建文件夹
os.chdir(bookNames[i])#跳转到指定目录
#记得后面要返回上级目录!! # 开始页码和结束页码
rangeMin = int(imgStart2[0])
rangeMax = int(imgStart2[0]) + int(pageNums[0])
pageNums = int(pageNums[0])
# print(rangeMin)
# print(rangeMax)
# print(type(rangeMin))
# 打开每页,下载保存到这个名字的文件夹里
print("正在下载:"+bookNames[i])#给个下载提示本子名
for j in range(pageNums):
urlImg = "http://pic.taov5.com/1/"+imgStart1[0]+"/"+str(rangeMin+j)+".jpg"
reqImg = urllib.request.Request(url=urlImg,headers=headers)
responseImg = urllib.request.urlopen(reqImg)
img = open(str(j)+".jpg","wb")
img.write(responseImg.read())
img.close()
print("已下载%d页,共%d页"%(j+1,pageNums))#提示下载几页了,放在后面比较好
# os.system("pause")
os.chdir(os.path.dirname(os.getcwd()))#返回上级目录
# 退出功能,下载哪一页,python按键停止运行

python学习笔记(11)--爬虫下载漫画图片的更多相关文章

  1. python学习笔记(14)--爬虫下载漫画图片修改版

    说明: 1. 2017.3.12,周六从中午吃完包子12点多折腾了一下午加一个晚上,试了4个网站的爬虫,发现都不能下载!甚至前几天测试能下载的都不能用了! 2. 到晚上发现煎蛋网的可以用了,立即试了下 ...

  2. python学习笔记11 ----线程、进程、协程

    进程.线程.协程的概念 进程和线程是操作系统中两个很重要的概念,对于一般的程序,可能有若干个进程,每一个进程有若干个同时执行的线程.进程是资源管理的最小单位,线程是程序执行的最小单位(线程可共享同一进 ...

  3. 吴裕雄--python学习笔记:爬虫基础

    一.什么是爬虫 爬虫:一段自动抓取互联网信息的程序,从互联网上抓取对于我们有价值的信息. 二.Python爬虫架构 Python 爬虫架构主要由五个部分组成,分别是调度器.URL管理器.网页下载器.网 ...

  4. 吴裕雄--python学习笔记:爬虫

    import chardet import urllib.request page = urllib.request.urlopen('http://photo.sina.com.cn/') #打开网 ...

  5. python学习笔记11 ----网络编程

    网络编程 网络编程需要知道的概念 网络体系结构就是使用这些用不同媒介连接起来的不同设备和网络系统在不同的应用环境下实现互操作性,并满足各种业务需求的一种粘合剂.网络体系结构解决互质性问题彩是分层方法. ...

  6. Python学习笔记22:Django下载并安装

    Django它是一个开源Web应用程序框架.由Python书面. 通过MVC软件设计模式,这种模式M,视图V和控制器C. 它最初是一个数字新闻内容为主的网站已经发展到管理劳伦斯出版集团.那是,CMS( ...

  7. Python 学习笔记11

    如何要飞得高,就该把天空忘掉.如果时时想着梦想,那就寸步难行.因为会产生很强的挫败感.倾空自己的杯子,把自己放空,才能放得进去东西. 这两天一直在鼓捣要用python写一个博客出来.先是下载了一个放到 ...

  8. python学习笔记:"爬虫+有道词典"实现一个简单的英译汉程序

    1.有道的翻译 网页:www.youdao.com Fig1 Fig2 Fig3 Fig4 再次点击"自动翻译"->选中'Network'->选中'第一项',如下: F ...

  9. Python学习笔记之爬虫

    爬虫调度端:启动爬虫,停止爬虫,监视爬虫运行情况 URL管理器:对将要爬取的和已经爬取过的URL进行管理:可取出带爬取的URL,将其传送给“网页下载器”网页下载器:将URL指定的网页下载,存储成一个字 ...

随机推荐

  1. 9款HTML5实现的超酷特效

    之前我们推荐了8款HTML5实现的特效和应用,今天我们带来的这9款热门的HTML5特效同样会带给你全新的视角和体验. HTML5是HTML的升级版,HTML5有两大特点:首先,强化了 Web 网页的表 ...

  2. angularjs库及ionic库下载地址

    angularjs库下载地址: 下载地址:https://code.angularjs.org/ 引用地址:http://www.bootcdn.cn/angular.js/ ionic库下载地址: ...

  3. matlab练习程序(三阶张量T-QR分解)

    转自:http://www.cnblogs.com/tiandsp/archive/2012/10/31/2747971.html 这里所谓的张量和黎曼那里的张量是不一样的,那个张量更多的用在物理上, ...

  4. Linux 安装tomcat 及过程中遇到的问题

    Linux 安装tomcat(tomcat能用的前提是系统已经安装jdk) 1.下载linux系统版tomcat,解压后通过ftp上传到Linux服务器     例:tomcat放在 /opt/tom ...

  5. iOS 本地通知 操作

    iOS 本地通知 操作 1:配置通知:然后退出程序: UILocalNotification *localNotif = [[UILocalNotification alloc] init]; loc ...

  6. GMM高斯混合模型 学习(2)

    watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvaHpxMjAwODExMjExMDc=/font/5a6L5L2T/fontsize/400/fill/I0 ...

  7. Linux 监测网络常用的工具sar iftop netstat ping nping fping mtr

    Linux 监测网络常用的工具sar iftop netstat ping nping fping mtr # sar -n DEV 1 2 # iftop # netstat -i # ping n ...

  8. percona XTRADB Cluster 5.6在ubuntu安装

    installing-perconaXTRADB Cluster 5.6 in-ubuntu-13-10-wheezy First of all, I would recommend login as ...

  9. 31、Arrays数组排序(续)——自定义排序

    自定义的类要按照一定的方式进行排序,比如一个Person类要按照年龄进行从小到大排序,比如一个Student类要按照成绩进行由高到低排序. 这里我们采用两种方式,一种是使用Comparable接口:让 ...

  10. 【HTML入门】Html中块状元素和内联元素解析

    [HTML入门]Html中块状元素和内联元素解析 块元素(block element)一般是其他元素的容器元素,块元素一般都从新行开始,它可以容纳内联元素和其他块元素,内联元素(inline elem ...