适用的图片网站:美桌

源代码:

import requests
import re
import urllib
from bs4 import BeautifulSoup def get_html_text(url):
'''
获取网址url的HTML代码,以字符串形式返回html代码 '''
try:
res = requests.get(url, timeout = 6)
res.raise_for_status()
res.encoding = res.apparent_encoding
return res.text
except:
return ''
print('请求异常') def get_grupic_url(page_url, grupic_url_list, key_url, key_word):
'''
获取每张页面中每个图册的url链接,每个图册的url都有共同
且有别于其他链接的url,我们把部分特征的字符串放在key_url
中,通过它我们就可以筛选出页面中所有图册的url '''
page_html = get_html_text(page_url)
#解析页面的html代码
soup = BeautifulSoup(page_html, 'html.parser')
#获取该页面html代码中的所有<a>标签
a_tags = soup.find_all('a', attrs = {'href':True}) select_atag(grupic_url_list, a_tags, key_url, key_word) def get_allpages_url(cover_url, pages_url_list):
'''通过递归获取所有页面的链接,
直到该页面不存在class = 'next'的<a>标签 '''
html = get_html_text(cover_url)
soup = BeautifulSoup(html, 'html.parser')
#找到属性class = 'next'的<a>标签
a_tags = soup.find_all('a', class_ = 'next')
#如果<a>标签存在,就将该标签的url加入列表
if a_tags:
nextpage_url = a_tags[0].get('href')
pages_url_list.append(nextpage_url)
#递归获取下一个页面的<a>标签
get_allpages_url(nextpage_url, pages_url_list)
#当不存在属性class = 'next'的<a>标签时,说明这是最后一页,结束递归
return None def download_each_page(grupic_url_list, file_path1, page):
'''
通过调用download_each_group()函数,
下载每一页中的所有组图 '''
print('\n\n第 {0} 页开始下载:\n'.format(str(page))) gup = 1 #组数标记
#下载该页面中每个小相册的所有图片
for grupic_url in grupic_url_list:
file_path2 = file_path1 + '_{0}'.format(str(gup))
#获取该页面的h1标题
h1_string = get_h1_string(grupic_url)
try:
download_each_group(grupic_url, file_path2, h1_string, gup)
gup += 1
except:
print("下载异常")
gup += 1
continue def download_all_page(pages_url_list, file_path, key_url, key_word):
'''通过调用函数download_each_page(),
来下载所有页面的图片 '''
pages_num = len(pages_url_list)
print('\n相册一共有 {0} 页,已经开始下载请您耐心等待...'.format(str(pages_num))) page = 1 #页数标记
for page_url in pages_url_list:
grupic_url_list = []
get_grupic_url(page_url, grupic_url_list, key_url, key_word)
file_path1 = file_path + r'\{0}'.format(str(page))
download_each_page(grupic_url_list, file_path1, page)
page += 1 def download_each_group(grupic_url, file_path, h1_string, gup, n = 1):
'''
进入链接为grupic_url的图册,下载我们需要的大图片,
并递归进入下一个页面开始下载,直到图册的h1标题发生改变 '''
new_file_path = file_path + '_{0}.jpg'.format(str(n))
n += 1
html = get_html_text(grupic_url)
soup = BeautifulSoup(html, 'html.parser')
#当该页面的h1标题和小相册封面的h1标题相同时开始下载
if h1_string == soup.h1.string:
#找到属性class_ = 'pic-large'的img标签
img_tags = soup.find_all('img', class_ = 'pic-large')
img_tag = img_tags[0]
#下载该img标签属性data-original提供的url链接,即为目标图片的链接
urllib.request.urlretrieve(img_tag.get('data-original'), new_file_path)
#获取下一个页面的链接
next_url = img_tag.parent.get('href')
print('第 {0} 组:{1}, 第 {2} 张下载完成啦'.format(str(gup), h1_string, str(n-1)))
#递归下载下一个页面的目标图片
download_each_group(next_url, file_path, h1_string, gup, n)
#当h1标题不同时,说明进入到了另一个小相册,结束递归
return None def get_h1_string(url):
'''
获取网址为url网站的h1标签内容 '''
try:
html = get_html_text(url)
soup = BeautifulSoup(html, 'html.parser')
return soup.h1.string
except:
print('h1标题获取异常')
return '' def select_atag(grupic_url_list, atags, key_url, key_word):
for atag in atags:
atag_string = str(atag)
soup = BeautifulSoup(atag_string, 'html.parser')
p = soup.p
url = atag.get('href')
if soup.img and p and re.search(key_word, p.string) and re.match(key_url, url):
grupic_url_list.append(atag.get('href')) def main():
'''
主函数 '''
#封面的url链接,也就是第一页的url链接
cover_url = 'http://www.win4000.com/mt/yangzi.html'
#小相册链接中有别于其他链接的特征字符串
key_url = r'http://www.win4000.com/meinv'
key_word = '杨紫'
#图片存放的目录
file_path = r'G:\pictures\yangzi' #存放所有页面链接的列表
pages_url_list = []
#先将封面,即第一页加入列表
pages_url_list.append(cover_url) #获取其他页面的链接
get_allpages_url(cover_url, pages_url_list) #下载所有页面中所有图片的函数
download_all_page(pages_url_list, file_path, key_url, key_word) main()

python爬虫入门---第三篇:自动下载图片的更多相关文章

  1. python爬虫入门---第三篇:保存一张图片

    import requests import os url = 'http://imgsrc.baidu.com/forum/w%3D580%3B/sign=749ed018cecec3fd8b3ea ...

  2. python 爬虫入门----案例爬取上海租房图片

    前言 对于一个net开发这爬虫真真的以前没有写过.这段时间学习python爬虫,今天周末无聊写了一段代码爬取上海租房图片,其实很简短就是利用爬虫的第三方库Requests与BeautifulSoup. ...

  3. Python爬虫入门教程 25-100 知乎文章图片爬取器之一

    1. 知乎文章图片写在前面 今天开始尝试爬取一下知乎,看一下这个网站都有什么好玩的内容可以爬取到,可能断断续续会写几篇文章,今天首先爬取最简单的,单一文章的所有回答,爬取这个没有什么难度. 找到我们要 ...

  4. Python爬虫入门教程 26-100 知乎文章图片爬取器之二

    1. 知乎文章图片爬取器之二博客背景 昨天写了知乎文章图片爬取器的一部分代码,针对知乎问题的答案json进行了数据抓取,博客中出现了部分写死的内容,今天把那部分信息调整完毕,并且将图片下载完善到代码中 ...

  5. Python爬虫入门这一篇就够了

    何谓爬虫 所谓爬虫,就是按照一定的规则,自动的从网络中抓取信息的程序或者脚本.万维网就像一个巨大的蜘蛛网,我们的爬虫就是上面的一个蜘蛛,不断的去抓取我们需要的信息. 爬虫三要素 抓取 分析 存储 基础 ...

  6. Python 爬虫入门(三)—— 寻找合适的爬取策略

    写爬虫之前,首先要明确爬取的数据.然后,思考从哪些地方可以获取这些数据.下面以一个实际案例来说明,怎么寻找一个好的爬虫策略.(代码仅供学习交流,切勿用作商业或其他有害行为) 1).方式一:直接爬取网站 ...

  7. python爬虫入门(三)XPATH和BeautifulSoup4

    XML和XPATH 用正则处理HTML文档很麻烦,我们可以先将 HTML文件 转换成 XML文档,然后用 XPath 查找 HTML 节点或元素. XML 指可扩展标记语言(EXtensible Ma ...

  8. python爬虫入门---第四篇:网站对爬虫的限制及突破测试

    大部分网站对网络爬虫都有限制,限制方式有两种: 一.Robots协议:二.网站通过判断对网站访问http的头部信息来查看是否是爬虫,并对爬虫做相关拦截 第一种限制是书面限制,第二种是强制性阻拦限制.那 ...

  9. 3.Python爬虫入门三之Urllib和Urllib2库的基本使用

    1.分分钟扒一个网页下来 怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它是一段HTML代码,加 JS.CSS ...

随机推荐

  1. 压测工具之JMeter之环境配置及运行

    一.下载JMeter 地址:http://jmeter.apache.org/download_jmeter.cgi 系统:win7 x64 在 Binaries 目录下选择一个合适自己系统的版本,不 ...

  2. 自适应Simpson法与积分初步

    前言 不知道为什么,今天感觉想要写一下数学的东西,然后就看了一下我还有这个模板不会,顺手写了一下. 没有学过微积分的最好还是看一下求导为好. 求导 听说很多人都不会求导,我写一下吧qwq 令\(f(x ...

  3. Spring集合注入

    1.集合注入 上一篇博客讲了spring得属性注入,通过value属性来配置基本数据类型,通过<property>标签的 ref 属性来配置对象的引用.如果想注入多个数据,那我们就要用到集 ...

  4. Android热修复——Tinker的集成

    前言 做前端开发的都知道,当我们项目做完了以后,都会把应用上传到应用市场上供用户下载使用,比如上传到应用宝啊,应用汇啊,360啊,小米,华为,魅族啊,等等但是,有时候我们会经常遇到一些很扯淡的事情,刚 ...

  5. 一致性hash理解、拜占庭将军问题解读和CAP理论总结

    一致性hash理解 白话概述: 比如说存储图片,有10台服务器用来存储,对图片名进行hash(pic_name)%10得到的值就是图片存放的服务器序号.这是正常的hash算法分散图片存储.但是有一天, ...

  6. C语言中const关键字的用法

    关键字const用来定义常量,如果一个变量被const修饰,那么它的值就不能再被改变,我想一定有人有这样的疑问,C语言中不是有#define吗,干嘛还要用const呢,我想事物的存在一定有它自己的道理 ...

  7. Origin的使用问题集锦

    在空间上看见同学转的一篇关于学术研究的文章,由于不常常上空间,更别说在上面看一些好的文章,所以特意将那篇文章整理到自己的博客中,方便以后做科研的时候能够用到,原文出处:http://user.qzon ...

  8. Liferay7 BPM门户开发之11: Activiti工作流程开发的一些统一规则和实现原理(完整版)

    注意:以下规则是我为了规范流程的处理过程,不是Activiti公司的官方规定. 1.流程启动需要设置启动者,在Demo程序中,“启动者变量”名统一设置为initUserId 启动时要做的: ident ...

  9. .NetCore使用skywalking实现实时性能监控

    一.简介 很久之前写了一篇 <.Net Core 2.0+ InfluxDB+Grafana+App Metrics 实现跨平台的实时性能监控>关于NetCore性能监控的文章,使用Inf ...

  10. 如何更优雅的在kubernetes平台下记录日志

    背景 传统项目里面记录日志大多数都是将日志记录到日志文件,升级到分布式架构以后,日志开始由文件转移到elasticsearch(es)中来存储,达到集中管理.在kubernetes平台里面把日志记录到 ...