python爬虫学习-爬取某个网站上的所有图片

最近简单地看了下python爬虫的视频。便自己尝试写了下爬虫操作，计划的是把某一个网站上的美女图全给爬下来，不过经过计算，查不多有好几百G的样子，还是算了。就首先下载一点点先看看。

本次爬虫使用的是python2.7的版本，并且本次的目标网站并没有采用js来加载图片，所以没有涉及对js脚本的解析，都是通过来分析html文件通过正则来一步步提取图片网址，然后存起来。

首先这个网站有很多分类，到美女图这个子网页，可以发现有很多页，同时每页有多个相册，每个相册点进去就会有多个页，每页有多张照片

流程大概是这样

找到所有页数

----遍历所有的页数

----遍历当前页的所有相册(给每个相册建立一个目录)

----遍历当前相册的所有图片(遍历此相册的所有页(遍历当前页的所有照片并找到图片的url))

----获得图片url就存起来

不说了，直接上代码

这个版本是windows上的运行版本

import urllib

import re

import os

import time

import socket

def get_html(url):

    socket.setdefaulttimeout(10)

    papg = urllib.urlopen(url)

    html = papg.read()

    html = unicode(html, "gbk").encode("utf8")

    return html

def get_img(html):

    imgre = re.compile(r'<img src="(.*?)"')

    imglist = re.findall(imgre, html)

    for imgurl in imglist:

        print imgurl

        global x

        urllib.urlretrieve(imgurl, '.\\photo\%05d.jpg'%x)

        x += 1

        print("正在下载第%s张图片"%x)

def get_tag_list(html):

    szurlre = re.compile(r'<a href="(http://www.5442.com/tag/.*?.html)" class')

    tag_list = re.findall(szurlre, html)

    return tag_list

def get_page_num(html):

    szurlre = re.compile(r'(\d+).html\'>末页')

    szresult = re.findall(szurlre, html)

    if len(szresult) == 0:

        page_num = 0

    else:

        page_num = int(szresult[0])

    print page_num

    return page_num

def get_page_num2(html):

    szurlre = re.compile(r'共(\d+)页')

    szresult = re.findall(szurlre, html)

    if len(szresult) == 0:

        page_num = 0

    else:

        page_num = int(szresult[0])

    print page_num

    return page_num

#获得单页的相册

def get_ablum_list(html):

    szurlre = re.compile(r'(http://www.5442.com/meinv/2\d+/\d+.html)" target=')

    ablum_list = re.findall(szurlre, html);

    return ablum_list

#获得相册的名称

def get_ablum_name(html):

    szurlre = re.compile(r'<title>(\S+)</title>')

    ablum_name = re.findall(szurlre, html)

    return ablum_name[0]

#获得单页的图片

def get_photo(html, dir, photo_num):

    imgre = re.compile(r'点击图片进入下一页\' ><img src=\'(http://\S+.jpg)\' alt=')

    imglist = re.findall(imgre, html)

    for imgurl in imglist:

        try:

            socket.setdefaulttimeout(2)

            urllib.urlretrieve(imgurl, unicode('.\\photo\\%s\%05d.jpg'%(dir, photo_num), "utf8"))

            print("正在下载第%s张图片"%photo_num)

            photo_num = photo_num + 1

        except:

            continue

    return photo_num

url = "http://www.5442.com/meinv/"

baseurl = "http://www.5442.com"

html = get_html(url)

page_num = get_page_num(html)

print ("一共有%s页"%page_num)

ablum_num = 0

try:

    os.mkdir("photo")

except:

    print "目录已经存在，继续下载"

#遍历所有的页

for i in range(1, page_num):

    if i != 1:

        url = "http://www.5442.com/meinv/list_1_%s.html"%i

        try:

            html = get_html(url)

        except:

            continue

    ablum_list = get_ablum_list(html)

    #遍历当前页的所有相册

    for ablum_url in ablum_list:

        ablum_num = ablum_num + 1

        try:

            photo_html = get_html(ablum_url)

        except:

            continue

        url_part = ablum_url[0:-5]

        photo_page_num = get_page_num2(photo_html)

        #获取相册名有点问题，直接以数字来创建更加方便，便于分

        #ablum_name = get_ablum_name(photo_html)

        ablum_name = "编程资料" + "%05d" % ablum_num

        print ablum_name

        photo_num = 0

        #创建相册对应的目录

        ui_ablum_name = unicode(ablum_name, "utf8")

        try:

            os.mkdir(".\\photo\\"+ui_ablum_name)

        except:

            continue

        for i in range(1, photo_page_num):

            if i != 1:

                ablum_url = url_part + "_%d"%i + ".html"

                try:

                    photo_html = get_html(ablum_url)

                except:

                    continue

            #进行存储操作

            photo_num = get_photo(photo_html, ablum_name, photo_num)

运行效果截图:

这样就运行成功了。

以下是linux下的运行代码，主要是编码和存储的路径格式不一样

#!/usr/bin/python

# -*- coding:utf8 -*-

import urllib

import re

import os

import time

import socket

def get_html(url):

    socket.setdefaulttimeout(2)

    papg = urllib.urlopen(url)

    html = papg.read()

    html = unicode(html, "gbk").encode("utf8")

    return html

def get_img(html):

    imgre = re.compile(r'<img src="(.*?)"')

    imglist = re.findall(imgre, html)

    for imgurl in imglist:

        print imgurl

        global x

        urllib.urlretrieve(imgurl, '.\\photo\%05d.jpg'%x)

        x += 1

        print("正在下载第%s张图片"%x)

def get_tag_list(html):

    szurlre = re.compile(r'<a href="(http://www.5442.com/tag/.*?.html)" class')

    tag_list = re.findall(szurlre, html)

    return tag_list

def get_page_num(html):

    szurlre = re.compile(r'(\d+).html\'>末页')

    szresult = re.findall(szurlre, html)

    if len(szresult) == 0:

        page_num = 0

    else:

        page_num = int(szresult[0])

    print page_num

    return page_num

def get_page_num2(html):

    szurlre = re.compile(r'共(\d+)页')

    szresult = re.findall(szurlre, html)

    if len(szresult) == 0:

        page_num = 0

    else:

        page_num = int(szresult[0])

    print page_num

    return page_num

#获得单页的相册

def get_ablum_list(html):

    szurlre = re.compile(r'(http://www.5442.com/meinv/2\d+/\d+.html)" target=')

    ablum_list = re.findall(szurlre, html);

    return ablum_list

#获得相册的名称

def get_ablum_name(html):

    szurlre = re.compile(r'<title>(\S+)</title>')

    ablum_name = re.findall(szurlre, html)

    return ablum_name[0]

#获得单页的图片

def get_photo(html, dir, photo_num):

    imgre = re.compile(r'点击图片进入下一页\' ><img src=\'(http://\S+.jpg)\' alt=')

    imglist = re.findall(imgre, html)

    for imgurl in imglist:

        try:

            socket.setdefaulttimeout(2)

            urllib.urlretrieve(imgurl, './photo//%s//%05d.jpg'%(dir, photo_num))

            print("正在下载第%s张图片"%photo_num)

            photo_num = photo_num + 1

        except:

            continue

    return photo_num

url = "http://www.5442.com/meinv/"

baseurl = "http://www.5442.com"

html = get_html(url)

page_num = get_page_num(html)

print ("一共有%s页"%page_num)

ablum_num = 0

try:

    os.mkdir("./photo")

except:

    print "目录已经存在"

for i in range(1, page_num):

    if i != 1:

        url = "http://www.5442.com/meinv/list_1_%s.html"%i

        try:

            html = get_html(url)

        except:

            continue

    ablum_list = get_ablum_list(html)

    for ablum_url in ablum_list:

        ablum_num = ablum_num + 1

        try:

            photo_html = get_html(ablum_url)

        except:

            continue

        url_part = ablum_url[0:-5]

        photo_page_num = get_page_num2(photo_html)

        ablum_name = "编程资料" + "%05d" % ablum_num

        print ablum_name

        photo_num = 0

        #创建相册对应的目录

        ui_ablum_name = ablum_name

        try:

            os.mkdir("./photo/"+ui_ablum_name)

        except:

            continue

        for i in range(1, photo_page_num):

            if i != 1:

                ablum_url = url_part + "_%d"%i + ".html"

                try:

                  photo_html = get_html(ablum_url)

                except:

                  continue

            photo_num = get_photo(photo_html, ablum_name, photo_num)

运行效果:

保存目录

python爬虫学习-爬取某个网站上的所有图片的更多相关文章

初次尝试python爬虫，爬取小说网站的小说。
本次是小阿鹏,第一次通过python爬虫去爬一个小说网站的小说. 下面直接上菜. 1.首先我需要导入相应的包,这里我采用了第三方模块的架包,requests.requests是python实现的简单易 ...
python爬虫学习---爬取微软必应翻译（中英互译）
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理.作者:OSinooO 本人属于python新手,刚学习的 python爬虫基础 ...
Python爬虫：爬取某网站关键词对应商品ID，且存入DB2数据库
公司研发不给力,我就自己写了一个,专门爬关键词对应的商品ID. 其中还学会了用Python操作DB2数据库.Python发送邮件.写日志文件.处理浏览器访问限制. #!/usr/bin/python# ...
[Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)
转载自:http://blog.csdn.net/eastmount/article/details/51231852 一. 文章介绍源码下载地址:http://download.csdn.net/ ...
python爬虫实战---爬取大众点评评论
python爬虫实战—爬取大众点评评论(加密字体) 1.首先打开一个店铺找到评论很多人学习python,不知道从何学起.很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手.很多已经 ...
Python爬虫之爬取慕课网课程评分
BS是什么? BeautifulSoup是一个基于标签的文本解析工具.可以根据标签提取想要的内容,很适合处理html和xml这类语言文本.如果你希望了解更多关于BS的介绍和用法,请看Beautiful ...
Python爬虫之爬取站内所有图片
title date tags layut Python爬虫之爬取站内所有图片 2018-10-07 Python post 目标是 http://www.5442.com/meinv/ 如需在非li ...
Python爬虫之爬取淘女郎照片示例详解
这篇文章主要介绍了Python爬虫之爬取淘女郎照片示例详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧本篇目标抓取淘宝MM ...
from appium import webdriver 使用python爬虫,批量爬取抖音app视频（requests+Fiddler+appium）
使用python爬虫,批量爬取抖音app视频(requests+Fiddler+appium) - 北平吴彦祖 - 博客园 https://www.cnblogs.com/stevenshushu/p ...

随机推荐

libevent在windows平台下通过vs进行编译
1.vs中新建一个静态库项目 2.配置头文件目录,将./compat../include../WIN32-Code三个目录添加到文件目录中 3.用记事本打开Makefile.nmake文件,可以看到里 ...
ACM/ICPC 之伞兵-最小割转最大流(POJ3308)
//以行列建点,伞兵位置为单向边-利用对数将乘积转加法 //最小割转最大流 //Time:63Ms Memory:792K #include<iostream> #include<c ...
使用Angular2理由
1. 组件化组件化编程是web 发展的一个趋势,Angular2提供高效简单的组件开发方式,使程序开发更加关注业务逻辑的实现,而不用关心如何加载组件和模块,如何引用及依赖注入的实现等. 如下代码所示 ...
Openstack4j 在 Maven 中的构建
什么是 Openstack4j ? OpenStack的官方SDK是基于Python语言的,对于Java程序猿来说,将Python翻译过来未免麻烦.在Openstack官方的Wiki中(戳我直达),我 ...
[MongoDB]安装MongoDB
汇总: 1. [MongoDB]安装MongoDB2. [MongoDB]Mongo基本使用:3. [MongoDB]MongoDB的优缺点及与关系型数据库的比较4. [MongoDB]MongoDB ...
添加已运行daemon进程(falcon-agent)到supervisor测试
falcon-agent now is running already, pid= falcon-agent now is running already, pid= falcon-agent now ...
[数据库]redis与redis操作
网上搜了以下redis的入门操作,全TM的关于怎么安装配置和性能特点的. 基本的CRUD(Create, Read, Update, Delete)就谁也没说,简直气疯了. 先记录下自己常用的命令,后 ...
Tornado 学习笔记13 TCPServer
为了实现TCPServer的功能,定义一个类用于继承TCPServer并实现handle_stream方法.HttpServer就是一个很好的例子. 13.1 构造函数 def __init ...
socket是什么？（翻译）
根据stackoverflow的答案: 原文:A socket represents a single connection between two network applications. The ...
jQuery实现全选效果【转】
这是一段用jquery实现全选的代码,主要思路如下: 1.所有的复选框都有单击事件,所有效果都是在单击事件下实现的 2.全选复选框所实现的功能与其他复选选项实现的功能不同,所有在单击事件内做一个判断, ...

python爬虫学习-爬取某个网站上的所有图片

python爬虫学习-爬取某个网站上的所有图片的更多相关文章

随机推荐

热门专题