python下载指定页面的所有图片

实现步骤：

1.下载页面源码

2.对页面进行解析，获取页面中所有的图片路径

3.下载图片到指定路径

代码实例：

# coding: utf-8

import urllib2     # 该模块用于打开页面地址

import urllib      # 用于下载图片(为什么需要同时引进urllib和urllib2,请参考：https://www.cnblogs.com/wly923/archive/2013/05/07/3057122.html)

import re          # 用于正则表达式

import urlparse    # 将src拼接成一个可以直接访问的图片地址

import os          # 用于指定文件的保存地址

from bs4 import BeautifulSoup   # 用于将文档转为固定编码文件，便于从网页抓取数据

class Downloader(object):

    def html_download(self, url):    # 页面源码下载

        if url is None:

            return

        response = urllib2.urlopen(url)

        if response.getcode() != 200:      # 判断页面是否访问成功

            return

        html_cont = response.read()

        self.html_parse(url, html_cont)

    def html_parse(self, url, html_cont):   # 源码解析，提取需要的数据

        img_urls = []

        if url is None or html_cont is None:

            return

        soup = BeautifulSoup(html_cont, 'html.parser', from_encoding='utf-8')

        imgs = soup.find_all('img', src=re.compile("/image/2017index/(.*)"))  # 根据src得到所有的img标签

        for img in imgs:

            new_url = img['src']  # 获取所有的链接

            new_full_url = urlparse.urljoin(url, new_url)  # 让new_url按照page_url的格式拼接成一个完整的url

            img_urls.append(new_full_url)

        self.img_download(img_urls)

    def img_download(self, img_urls):    # 文件下载保存

        if img_urls is None or len(img_urls) == 0:

            print 'no img can download'

            return

        cur_path = os.path.abspath(os.curdir)   # 获取当前绝对路径

        goal_path = cur_path + '\\' + 'imgs'   # 想将文件保存的路径

        if not os.path.exists(goal_path):      # os.path.isfile('test.txt') 判断文件夹/文件是否存在

            os.mkdir(goal_path)      # 创建文件夹

        count = 1    # 用于给图片命名

        for img in img_urls:

            print img

            urllib.urlretrieve(img, goal_path+'/'+str(count) + '.jpg')      # 下载图片，并进行命名（刚开始写这句的时候老是报错，后来才发现没有用str()进行类型转换，因为习惯了js的自动转换的思想，哈哈）

            count = count+1

if __name__ == '__main__':     # 程序运行入口

    root_url = 'http://www.quanjing.com/'   # 页面地址

    downloader = Downloader()

    downloader.html_download(root_url)

Bingo, 这样子就可以把一个页面所有的美女图片下载到你的硬盘上啦！

python下载指定页面的所有图片的更多相关文章

python下载指定的版本包
首先我们很多时候在执行pip的时候是不行的有时候很难成功,这个时候我们就要想其他的版本了一.是不是这个包需要指定版本, 比如python2的和mysql链接的是,而python3则是mysqlc ...
Java 编写小程序，下载指定网页上的所有图片
使用Java编写一个小程序,可以根据指定的网页地址,下载网页中的所有图片:使用到网络编程.线程池.IO和UUID的技术.具体代码如下: import java.io.File; import java ...
微信如何实现自动跳转到用其他浏览器打开指定页面下载APP
不管是app的下载链接还是普通文件的链接在微信内置浏览器或者QQ内置浏览器都会被屏蔽.这是微信对第三方下载域名实施的拦截政策.被拦截了用户在微信内打开就会提示“已停止访问该网页”. 那么当我们遇到这个 ...
Python下载网页的几种方法
get和post方式总结 get方式:以URL字串本身传递数据参数,在服务器端可以从'QUERY_STRING'这个变量中直接读取,效率较高,但缺乏安全性,也无法来处理复杂的数据(只能是字符串,比如在 ...
在PHP中如何实现在做了么个操作后返回到指定页面
我们经常会碰到类似用户在没有登录的情况下进行提问.评论,需要用户登录后返回刚才浏览的网页,这种功能用cookie保存当前url地址来实现.我用的是jquery,读者需要懂点jquery中的ajax请求 ...
WebClient+Fiddler2完美搭配下载远程页面信息
WebClient可以下载远程页面信息,这个大家应该都知道,核心代码如下: WebClient web = new WebClient(); string url = String.Format(&q ...
Python下载漫画
上午起来提不起劲,于是就用电脑看漫画,但是在线看漫画好烦,就想下下来看.一个一个点太麻烦,于是花了点时间用python写了个demo,把爱漫画的漫画下载下来,这样就可以随时随地看了.这也是我首次尝试用 ...
一种基于自定义代码的asp.net网站首页根据IP自动跳转指定页面的方法！
一种基于自定义代码的asp.net网站首页根据IP自动跳转指定页面的方法! 对于大中型网站,为了增强用户体验,往往需要根据不同城市站点的用户推送或展现相应个性化的内容,如对于一些大型门户网站的新闻会有 ...
从官网下载指定版本的JDK
从官网下载指定版本的JDK 一.百度搜索jdk,进入最新版Downloads界面百度搜索jdk,或者jdk下载,点击进入jdk官网最新版本下载界面,可以看到当前最新版本为jdk12 二.找到JDK历 ...

随机推荐

angular-ui-bootstrap各版本下载地址
http://www.bootcdn.cn/angular-ui-bootstrap/
Coundn't load memtrack module (No such file or directory)
Coundn't load memtrack module (No such file or directory) 去仔细看日志,是包名有问题一.出现症状提示找logcat logcat里面发现C ...
spring3: Aspectj后置返回通知
Aspectj后置返回通知接口: package chapter1.server; public interface IHelloService2 { public int sayAfterRetu ...
GO学习笔记：struct的匿名字段
我们上面介绍了如何定义一个struct,定义的时候是字段名与其类型一一对应,实际上Go支持只提供类型,而不写字段名的方式,也就是匿名字段,也称为嵌入字段. 当匿名字段是一个struct的时候,那么这个 ...
@ResponseBody与@RestController的作用与区别
在使用springmvc框架的时候,在处理json的时候需要用到spring框架特有的注解@ResponseBody或者@RestController注解,这两个注解都会处理返回的数据格式,使用了该类 ...
来自lombok的注解(解决idea中的找不到get,set方法，找不到log的问题)
今天看代码,发现idea报错,仔细一看调用的get,set方法bean中都没有,但是运行起来却没有问题,这个让我很疑惑.后来发现在类上有一个以前没见过的注解@Data,大概就是因为有他的原因.这个注解 ...
【spark】示例：求Top值
我们有这样的两个文件第一个数字为行号,后边为三列数据.我们来求第二列数据的Top(N) (1)我们先读取数据,创建Rdd (2)过滤数据,取第二列数据. 我们用filter()来过滤数据 line. ...
css清除浮动float的几种方法
摘要: css清除浮动float的三种方法总结,为什么清浮动?浮动会有那些影响? 一.抛一块问题砖(display: block)先看现象: 这里我没有给最外层的DIV.outer 设置高度, ...
Solr集群安装
1.JDK安装版本:jdk1.8.0 安装原文件路径:10.58.111.35(10.58.111.36.10.58.111.44)堡垒机 [/opt/jdk-8u101-linux-x64.tar. ...
canvas操作图片，进行面板画图，旋转等
HTML5 <canvas> 标签用于绘制图像(通过脚本,通常是 JavaScript). 不过,<canvas> 元素本身并没有绘制能力(它仅仅是图形的容器) - 您必须使用 ...

python下载指定页面的所有图片

python下载指定页面的所有图片的更多相关文章

随机推荐

热门专题