python3爬取1024图片

这两年python特别火，火到博客园现在也是隔三差五的出现一些python的文章。各种开源软件、各种爬虫算法纷纷开路，作为互联网行业的IT狗自然看的我也是心痒痒，于是趁着这个雾霾横行的周末瞅了两眼，作为一名老司机觉得还是应该以练带学，1024在程序员界这么流行的网站，当然拿来先练一练。

python自称是以自然语言的视角来编程，特点是开发快，语言简洁，没那么多技巧，大名鼎鼎的豆瓣、youtube都是使用python开发的网站，看来python在大规模使用这个方面来讲应该没有啥子问题；python也不是没有缺点在性能方面就Java、C++等老前辈还是没得比的，另外python和nodejs一样只能使用CPU单核，也是性能方面影响是因素之一。但python在特定领域表现突出，特别是脚本、爬虫、科学算法等。

好了,还是说正事如何爬取1024网站的图片

## 分析

### 列表页面

首先进入1024的导航网站，随便点击一个地址进入选择图片区或者在网站地址后面添加thread0806.php?fid=16&search=&page=,这就是1024网站的图片区，这个爬虫就是主要抓取这个区域的所有图片，使用浏览器debug分析一下这个页面发现基本都是列表页,格式如下：

在地址栏http://xxxxxx.biz/thread0806.php?fid=16&search=&page=后面拼1、2、3等于就是访问图片区第一页、第二页、第三页的列表页。根据这些列表页就可以爬出具体的每一个图片页的地址，类似上图的地址：htm_data/16/1611/2114702.html 在地址的前面拼接上主站地址就是具体的图片页了。所以根据以上的分析：通过循环地址栏找到不同的列表页在根据列表页找到具体的图片页

地址栏->图片列表->图片页地址

获取列表页图片地址代码如下：

import urllib.request,socket,re,sys,os

baseUrl='http://xxxx.biz/'

def getContant(Weburl):

    Webheader= {'Upgrade-Insecure-Requests':'1',

                'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.103 Safari/537.36',}

    req = urllib.request.Request(url = Weburl,headers=Webheader)

    respose = urllib.request.urlopen(req)

    _contant = respose.read()

    respose.close()

    return str(_contant)

def getUrl(URL):

    pageIndex = 1

    for i in range(1,int(pageIndex)+1):

        Weburl = URL + str(i)

        contant = getContant(Weburl)

        comp = re.compile(r'<a href="htm_data.{0,30}html" target="_blank" id=""><font color=g')

        urlList1 = comp.findall(contant)

        comp = re.compile(r'a href="(.*?)"')

        urlList2 = comp.findall(str(urlList1))

        urlList = []

        for url1 in urlList2:

            url2 = baseUrl+url1

            urlList.append(url2)

        return urlList

URL = baseUrl+'thread0806.php?fid=16&search=&page='

UrlList = getUrl(URL)

print(UrlList)

在这个地址后面拼接1到N就是不同的列表页

### 图片页面

利用浏览器debug一下页面，图片基本上都是外链地址，以http或者https开头以jpg、png、gif结尾，写个正则表达式匹配这些地址，然后交给程序下载就OK了。

页面代码如下：

在下载过程中遇到了几个问题，就是有的页面会报403禁止访问等，应该是网站加了一些防止爬虫的手段，网上找了下加上header参数来模拟浏览器访问就解决了;

下载单个页面代码如下：

import urllib.request,socket,re,sys,os

#定义文件保存路径

targetPath = "D:\\temp\\1024\\1"

def openUrl(url):

	headers = {

	              'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '                            'Chrome/51.0.2704.63 Safari/537.36'

	           }

	req = urllib.request.Request(url=url, headers=headers)

	res = urllib.request.urlopen(req)

	data = res.read()

	downImg(data)

def downImg(data):

	for link,t in set(re.findall(r'([http|https]:[^\s]*?(jpg|png|gif))', str(data))):

	    if link.startswith('s'):

	    	link='http'+link

	    else:

	        link='htt'+link

	    print(link)

	    try:

	        opener=urllib.request.build_opener()

	        opener.addheaders=[('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/36.0.1941.0 Safari/537.36')]

	        urllib.request.install_opener(opener)

	        urllib.request.urlretrieve(link,saveFile(link))

	    except:

	        print('失败')

def saveFile(path):

    #检测当前路径的有效性

    if not os.path.isdir(targetPath):

        os.mkdir(targetPath)

    #设置每个图片的路径

    pos = path.rindex('/')

    t = os.path.join(targetPath,path[pos+1:])

    return t

url = "http://xxxx.biz/htm_data/16/1611/2115193.html"

openUrl(url)

## 批量爬取

批量爬取有两个工作要做，第一for循环目标内的所有列表页，第二为了避免重复爬取，需要给每个页面建立唯一的文件夹，下次爬取的时候如果存在直接跳过。最后在理一下所有的爬取步骤：

循环地址栏->找出图片页列表->图片页分析找出图片地址->为图片页建立唯一的文件夹->开始下载页面图片

完整的代码如下：

import urllib.request,socket,re,sys,os

baseUrl='http://xxxx.biz/'

targetPath = "D:\\temp\\1024\\"

def getContant(Weburl):

    Webheader= {'Upgrade-Insecure-Requests':'1',

                'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.103 Safari/537.36',}

    req = urllib.request.Request(url = Weburl,headers=Webheader)

    respose = urllib.request.urlopen(req)

    _contant = respose.read()

    respose.close()

    return str(_contant)

def getUrl(URL):

    pageIndex = 1

    for i in range(1,int(pageIndex)+1):

        Weburl = URL + str(i)

        contant = getContant(Weburl)

        comp = re.compile(r'<a href="htm_data.{0,30}html" target="_blank" id=""><font color=g')

        urlList1 = comp.findall(contant)

        comp = re.compile(r'a href="(.*?)"')

        urlList2 = comp.findall(str(urlList1))

        urlList = []

        for url1 in urlList2:

            url2 = baseUrl+url1

            urlList.append(url2)

        return urlList

def openUrl(url):

    headers = {

                  'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '                            'Chrome/51.0.2704.63 Safari/537.36'

               }

    filePath=targetPath+url[-12:-5]

    #检测当前路径的有效性

    if not os.path.isdir(filePath):

        os.mkdir(filePath)

        req = urllib.request.Request(url=url, headers=headers)

        res = urllib.request.urlopen(req)

        data = res.read()

        downImg(data,filePath)

    else:

        print("已经下载过的地址跳过："+url)

        print("filePath  "+filePath)

def downImg(data,filePath):

    for link,t in set(re.findall(r'([http|https]:[^\s]*?(jpg|png|gif))', str(data))):

        if link.startswith('s'):

            link='http'+link

        else:

            link='htt'+link

        print(link)

        try:

            opener=urllib.request.build_opener()

            opener.addheaders=[('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/36.0.1941.0 Safari/537.36')]

            urllib.request.install_opener(opener)

            urllib.request.urlretrieve(link,saveFile(link,filePath))

        except:

            print('失败')

def saveFile(path,filePath):

    #设置每个图片的路径

    pos = path.rindex('/')

    t = os.path.join(filePath,path[pos+1:])

    return t

def openPage(UrlList):

    for pageUlr in UrlList:

        try:

            print('正在下载地址：'+pageUlr)

            openUrl(pageUlr)

        except:

            print('地址：'+pageUlr+'下载失败')

URL = baseUrl+'thread0806.php?fid=16&search=&page='

for num in range(0,20):#0-20页

    print("#######################################")

    print("##########总目录下载地址###############")

    print(URL+str(num))

    print("#######################################")

    print("#######################################")

    UrlList = getUrl(URL+str(num))

    openPage(UrlList)

最后的爬取结果：

源代码地址：python-crawler

具体地址和源代码在一起

## 其它

关于python2和python3的争论，网站争论比较大python3不兼容pyhton2，很多第三方的类库暂时还没有支持python3等等，但是对于我们新手来说，肯定是往前看果断python3.

代码比较冗余几个地方还没有写好，还在慢慢学习中，目前只是搞的可以跑起来。还有几个问题没有解决，下载一段时间后会莫名其妙的断掉目前还么找到原因，后期看是否可以加上多线程来爬取可能会快一点，大家有什么更好的建议也可以提出来。

## 参考：

爬取豆瓣首页图片

使用Python爬取1024上的图片

python3爬取1024图片的更多相关文章

python3爬取女神图片，破解盗链问题
title: python3爬取女神图片,破解盗链问题 date: 2018-04-22 08:26:00 tags: [python3,美女,图片抓取,爬虫, 盗链] comments: true ...
python3爬取百度图片（2018年11月3日有效）
最终目的:能通过输入关键字进行搜索,爬取相应的图片存储到本地或者数据库首先打开百度图片的网站,搜索任意一个关键字,比如说:水果,得到如下的界面分析: 1.百度图片搜索结果的页面源代码不包含需要提取 ...
1、使用Python3爬取美女图片-网站中的每日更新一栏
此代码是根据网络上其他人的代码优化而成的, 环境准备: pip install lxml pip install bs4 pip install urllib #!/usr/bin/env pytho ...
python3爬取网页图片路径并写入文件
import reimport urllib.request # 获取网页文件def getHtml(url): response = urllib.request.urlopen('https:// ...
2、使用Python3爬取美女图片-网站中的妹子自拍一栏
代码还有待优化,不过目的已经达到了 1.先执行如下代码: #!/usr/bin/env python #-*- coding: utf-8 -*- import urllib import reque ...
Python3 爬取微信好友基本信息，并进行数据清洗
Python3 爬取微信好友基本信息,并进行数据清洗 1,登录获取好友基础信息: 好友的获取方法为get_friends,将会返回完整的好友列表. 其中每个好友为一个字典列表的第一项为本人的账号信息 ...
java爬虫-简单爬取网页图片
刚刚接触到“爬虫”这个词的时候是在大一,那时候什么都不明白,但知道了百度.谷歌他们的搜索引擎就是个爬虫. 现在大二.再次燃起对爬虫的热爱,查阅资料,知道常用java.python语言编程,这次我选择了 ...
Python：爬取网站图片并保存至本地
Python:爬取网页图片并保存至本地 python3爬取网页中的图片到本地的过程如下: 1.爬取网页 2.获取图片地址 3.爬取图片内容并保存到本地实例:爬取百度贴吧首页图片. 代码如下: imp ...
Python爬虫学习（6）: 爬取MM图片
为了有趣我们今天就主要去爬取以下MM的图片,并将其按名保存在本地.要爬取的网站为: 大秀台模特网 1. 分析网站进入官网后我们发现有很多分类: 而我们要爬取的模特中的女模内容,点进入之后其网址为:h ...

随机推荐

Code Review 程序员的寄望与哀伤
一个程序员,他写完了代码,在测试环境通过了测试,然后他把它发布到了线上生产环境,但很快就发现在生产环境上出了问题,有潜在的 bug. 事后分析,是生产环境的一些微妙差异,使得这种 bug 场景在线下测 ...
探索ASP.NET MVC5系列之~~~4.模型篇---包含模型常用特性和过度提交防御
其实任何资料里面的任何知识点都无所谓,都是不重要的,重要的是学习方法,自行摸索的过程(不妥之处欢迎指正) 汇总:http://www.cnblogs.com/dunitian/p/4822808.ht ...
MAVEN学习-第一个Maven项目的构建
MAVEN安装成功之后就可以进行项目的构建和管理了: 为什么要用maven进行项目的构建和管理? 对于初学者来说一个最直接的也是最容易里的优点在于JAR包的管理,相对于以前开发一个项目的时候我们需要用 ...
用javascript 写个函数返回一个页面里共使用了多少种HTML 标签
今天我无意间看到一个面试题: 如何用javascript 写个函数返回一个页面里共使用了多少种HTML 标签? 不知你看到是否蒙B了,如果是我面试,肯定脑子嗡嗡的响.... 网上搜了搜也没有找到答 ...
编写高质量代码:改善Java程序的151个建议(第8章:异常___建议114~117)
建议114:不要在构造函数中抛出异常 Java异常的机制有三种: Error类及其子类表示的是错误,它是不需要程序员处理也不能处理的异常,比如VirtualMachineError虚拟机错误,Thre ...
【干货分享】流程DEMO-加班与调休
流程名: 加班.调休业务描述: 加班: 工作日加班可以申请调休,也可以申请支付加班费.原则上都应申请调休:周末加班原则上申请调休:法定节假日加班支付加班费. 加班申请以半小时为单位. 当月加班不能 ...
Atitit.你这些项目不都是模板吗？不是原创集成和整合的方式大总结
Atitit.你这些项目不都是模板吗?不是原创集成和整合的方式大总结 1.1. 乔布斯的名言:创新即整合(Creativity is just connecting things).1 1.2. ...
Java集合类--温习笔记
最近面试发现自己的知识框架有好多问题.明明脑子里知道这个知识点,流程原理也都明白,可就是说不好,不知道是自己表达技能没点,还是确实是自己基础有问题.不管了,再巩固下基础知识总是没错的,反正最近空闲时间 ...
mysql数据库主从同步
环境: Mater: CentOS7.1 5.5.52-MariaDB 192.168.108.133 Slave: CentOS7.1 5.5.52-MariaDB 192.168. ...
【python之路5】学习小结
一.编程语言 java C语言 C++ C# Python 二.python语言的种类 Cpython:python的官方版本,使用最为广泛,实现将python(py文件)转换为字节码文件(pyc文件 ...

python3爬取1024图片

python3爬取1024图片的更多相关文章

随机推荐

热门专题