根据现有的知识，写了一个下载妹子图（meizitu.com）Scrapy脚本，把全站两万多张照片下载到了本地。

网站的分析

网页的网址分析

打开网站，发现网页的网址都是以

http://www.meizitu.com/a/+某个数+.html组成，
例如：http://www.meizitu.com/a/5585.html
于是，我就想着在 start_urls 中就按照这三部分来组合。

name = 'meizi'
    allowed_domains = ['www.meizitu.com']
    baseURL = 'http://www.meizitu.com/a/'
    offset = 4633
    end    = '.html'
    start_urls = [baseURL+str(offset)+end]

网页的页面分析

打开某一页网址，图片的链接在 id="picture"下的 img 标签下，

获取图片地址：

srcs = response.css("#picture img::attr(src)").extract()

写一个循环，遍历网站所有网址：

       for src in srcs :
            item = MeizituItem()
            item['picLink'] = src
            print(src)
            yield item
        self.offset +=1

写一个打印函数，便于监视程序运行情况：

        print('addr'+str(self.offset))
        if self.offset > 5586:
            return
        time.sleep(1)
        url = self.baseURL + str(self.offset)+self.end
        print ("url:"+url)

交给 Request 进行下载

        yield scrapy.Request(url, callback=self.parse)

Spider 函数全部代码

# -*- coding: utf-8 -*-
import scrapy
from meizitu.items import MeizituItem
import time
class MeiziSpider(scrapy.Spider):
    name = 'meizi'
    allowed_domains = ['www.meizitu.com']
    baseURL = 'http://www.meizitu.com/a/'
    offset = 4633
    end    = '.html'
    start_urls = [baseURL+str(offset)+end]
    def parse(self, response):
        srcs = response.css("#picture img::attr(src)").extract()
        for src in srcs :
            item = MeizituItem()
            item['picLink'] = src
            print(src)
            yield item
        self.offset +=1
        print('addr'+str(self.offset))
        if self.offset > 5586:  #stop at 5400,for 404
            return
        time.sleep(1)
        url = self.baseURL + str(self.offset)+self.end
        print ("url:"+url)
        yield scrapy.Request(url, callback=self.parse)

细心地同学可能看到了，offset = 4633 为什么不是从 1 开始？这是因为可能是建站时间的原因，之前的网站里的图片都是在 class="postContent"下的 img 标签里的

这部分 CSS 解析为：

srcs = response.css(".postContent img::attr(src)").extract()

所以，想要爬取整个网站的图片，得分为两部分。爬完一半后，把 CSS 解析替换掉就可以了。

修改 `Pipelines`，下载图片

import scrapy
from scrapy.pipelines.images import ImagesPipeline
class MeizituPipeline(ImagesPipeline):
    def get_media_requests(self, item, info):
        pic_link = item['picLink']
        print('pic_url'+pic_link)
        yield scrapy.Request(pic_link)

修改 `items`

import scrapy
class MeizituItem(scrapy.Item):
    picLink = scrapy.Field()

设置 `settings`

BOT_NAME = 'meizitu'
SPIDER_MODULES = ['meizitu.spiders']
NEWSPIDER_MODULE = 'meizitu.spiders'
IMAGES_STORE = "image"
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; …) Gecko/20100101 Firefox/58.0'
ROBOTSTXT_OBEY = False
ITEM_PIPELINES = {
   'meizitu.pipelines.MeizituPipeline': 300,
}

写一个 `main` 函数，在 `PyCharm` 中执行

import sys
import os
sys.path.append(os.path.dirname(os.path.abspath(__file__)))
execute(["scrapy", "crawl", "meizi"])

通过实时看着程序运行，爬下来接近三万张照片，1.8G。挑了几张不漏的。。。。

http://www.aibbt.com/a/18101.html

Python网络爬虫 | Scrapy爬取妹子图网站全站照片的更多相关文章

python网络爬虫《爬取get请求的页面数据》
一.urllib库 urllib是python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求.其常被用到的子模块在python3中的为urllib.request和urllib. ...
python网络爬虫--简单爬取糗事百科
刚开始学习python爬虫,写了一个简单python程序爬取糗事百科. 具体步骤是这样的:首先查看糗事百科的url:http://www.qiushibaike.com/8hr/page/2/?s=4 ...
Python网络爬虫_爬取Ajax动态加载和翻页时url不变的网页
1 . 什么是 AJAX ? AJAX = 异步 JavaScript 和 XML. AJAX 是一种用于创建快速动态网页的技术. 通过在后台与服务器进行少量数据交换,AJAX 可以使网页实现异步更新 ...
Python 2.7和3.6爬取妹子图网站单页测试图片
1.url= http://www.mzitu.com/74100/x,2为1到23的值 2.用到模块 os 创建文件目录; re模块正则匹配目录名图片下载地址; time模块限制下载时间;req ...
Python 2.7_爬取妹子图网站单页测试图片_20170114
1.url= http://www.mzitu.com/74100/x,2为1到23的值 2.用到模块 os 创建文件目录; re模块正则匹配目录名图片下载地址; time模块限制下载时间;req ...
初识python 之爬虫：爬取某电影网站信息
注:此代码仅用于个人爱好学习使用,不涉及任何商业行为! 话不多说,直接上代码: 1 #!/user/bin env python 2 # author:Simple-Sir 3 # time:201 ...
Python协程爬取妹子图(内有福利，你懂得~)
项目说明: 1.项目介绍本项目使用Python提供的协程+scrapy中的选择器的使用(相当好用)实现爬取妹子图的(福利图)图片,这个学会了,某榴什么的.pow(2, 10)是吧! 2.用到的知 ...
Python3爬虫系列：理论+实验+爬取妹子图实战
Github: https://github.com/wangy8961/python3-concurrency-pics-02 ,欢迎star 爬虫系列: (1) 理论 Python3爬虫系列01 ...
第三百三十四节，web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻，爬取Ajax动态生成的信息
第三百三十四节,web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻,爬取Ajax动态生成的信息 crapy爬取百度新闻,爬取Ajax动态生成的信息,抓取百度新闻首页的新闻rul地址有多 ...

随机推荐

python写一个md5解密器
前言: md5解密,百度了一下发现教程不是很多也不详细. 这个图都没一张...跳转地址:点我 0x01 windows环境,kali也可以啊 burpsuite requests模块 bs4模块 0x ...
SQL Server 文件操作
在master数据库中,SQL Server提供系统扩展的存储过程,其中有一些存储过程的命名以xp_开头,用于处理操作系统的文件. 一,判断文件是否存在存储过程sys.xp_fileexist 用于 ...
mac给文件批量添加后缀名
for i in *;do mv "$i" "$i.mp4";done
Linux 编译安装 php 扩展包 curl
php源码目录:/root/php php编译目录:/usr/local/webserver/php/ curl源码目录:/root/curl 1.curl,主要用于发送http请求,是php的一个扩 ...
java中的Collection集合类
随着1998年JDK 1.2的发布,同时新增了常用的Collections集合类,包含了Collection和Map接口.而Dictionary类是在1996年JDK 1.0发布时就已经有了.它们都可 ...
MysqL自动提交机制的关闭
MysqL在执行一句数据库操作命令的时候,通常都是自动提交的.常用引擎下有两种,分别是MyIsam和InnoDB,MyIsam是不支持事务处理的,但InnoDB支持,但InnoDB在不开启事务处理的情 ...
2道acm简单题（2013）：1.（时分秒）时间相减；2.主持人和N-1个人玩游戏，每个人说出自己认识的人数，判断其中是否有人说谎。
/*1.题目:输入一个数,代表要检测的例子的个数,每个例子中:输入两个时间(格式HH:MM : SS),前面时间减去后面时间,输出在时钟上显示的时间,格式一样,如果是以为数字的前面补零.*//**思路 ...
启动Activity的形式
问:为什么service里面startActivity抛异常,activity不会? No1: 启动activity有两种形式: 1)直接调用Context类的startActivity方法:这种方式 ...
POJ - 3087 模拟 [kuangbin带你飞]专题一
模拟洗牌的过程,合并两堆拍的方式:使先取s2,再取s1:分离成两堆的方式:下面C张放到s1,上面C张到s2.当前牌型与第一次相同时,说明不能搜索到答案. AC代码 #include<cstdio ...
@EnableAsync @Asnc 以及4种拒绝策略
根据不同的场景,可以选择不同的拒绝策略,如果任务非常重要,线程池队列满了,可以交由调用者线程同步处理. 如果是一些不太重要日志,可以直接丢弃掉. 如果一些可以丢弃,但是又需要知道被丢弃了,可以使用Th ...

Python网络爬虫 | Scrapy爬取妹子图网站全站照片

网站的分析

网页的网址分析

网页的页面分析

修改 Pipelines，下载图片

修改 items

设置 settings