scrapy之360图片爬取

#今日目标

**scrapy之360图片爬取**

今天要爬取的是360美女图片，首先分析页面得知网页是动态加载，故需要先找到网页链接规律，

然后调用ImagesPipeline类实现图片爬取

*代码实现*

so.py

```

# -*- coding: utf-8 -*-

import scrapy

import json

from ..items import SoItem

class SoSpider(scrapy.Spider):

    name = 'so'

    allowed_domains = ['imaeg.os.com']

    # 重写

    def start_requests(self):

        url = 'http://image.so.com/zjl?ch=beauty&sn={}&listtype=new&temp=1'

        # 生成5页的地址,交给调度器

        for i in range(5):

            sn = i*30

            full_url = url.format(sn)

            yield scrapy.Request(

                url = full_url,

                callback = self.parse_image,

                dont_filter=False

            )

    def parse_image(self,response):

        html = json.loads(response.text)

        # 提取图片链接

        for img in html['list']:

            item = SoItem()

            item['img_link'] = img['qhimg_url']

            yield item

```

item.py

```

import scrapy

class SoItem(scrapy.Item):

    # define the fields for your item here like:

    # 图片链接

    img_link = scrapy.Field()

```

pipelines.py

```

# 导入scrapy的图片管道类

from scrapy.pipelines.images import ImagesPipeline

import scrapy

# 1. 继承 ImagesPipeline

# 2. 重写 类内方法

class SoPipeline(ImagesPipeline):

    def get_media_requests(self, item, info):

        # 把图片链接发给调度器

        yield scrapy.Request(url = item['img_link'],dont_filter=False)

```

settings.py

```

# Obey robots.txt rules

ROBOTSTXT_OBEY = False

CONCURRENT_REQUESTS = 10

DEFAULT_REQUEST_HEADERS = {

  'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',

  'Accept-Language': 'en',

  'User-Agent':'Mozilla/5.0',

}

ITEM_PIPELINES = {

   'So.pipelines.SoPipeline': 300,

}

IMAGES_STORE = '/home/ccc/image/' #个人保存路径

```

scrapy之360图片爬取的更多相关文章

Scrapy爬虫框架之爬取校花网图片
Scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中.其最初是为了页面抓取 (更确切来说, 网络抓取 )所设 ...
爬虫07 /scrapy图片爬取、中间件、selenium在scrapy中的应用、CrawlSpider、分布式、增量式
爬虫07 /scrapy图片爬取.中间件.selenium在scrapy中的应用.CrawlSpider.分布式.增量式目录爬虫07 /scrapy图片爬取.中间件.selenium在scrapy ...
[Python_scrapy图片爬取下载]
welcome to myblog Dome地址爬取某个车站的图片 item.py 中 1.申明item 的fields class PhotoItem(scrapy.Item): # define ...
Python爬虫入门教程 26-100 知乎文章图片爬取器之二
1. 知乎文章图片爬取器之二博客背景昨天写了知乎文章图片爬取器的一部分代码,针对知乎问题的答案json进行了数据抓取,博客中出现了部分写死的内容,今天把那部分信息调整完毕,并且将图片下载完善到代码中 ...
4k图片爬取+中文乱码
4k图片爬取+中文乱码此案例有三种乱码解决方法,推荐第一种 4k图片爬取其实和普通图片爬取的过程是没有本质区别的 import requests import os from lxml import ...
基于scrapy框架输入关键字爬取有关贴吧帖子
基于scrapy框架输入关键字爬取有关贴吧帖子站点分析首先进入一个贴吧,要想达到输入关键词爬取爬取指定贴吧,必然需要利用搜索引擎点进看到有四种搜索方式,分别试一次,观察url变化我们得知: 搜 ...
初识scrapy，美空网图片爬取实战
这俩天研究了下scrapy爬虫框架,遂准备写个爬虫练练手.平时做的较多的事情是浏览图片,对,没错,就是那种艺术照,我骄傲的认为,多看美照一定能提高审美,并且成为一个优雅的程序员.O(∩_∩ ...
scrapy图片-爬取哈利波特壁纸
话不多说,直接开始,直接放上整个程序过程 1.创建工程和生成spiders就不用说了,会用scrapy的都知道. 2.items.py class HarryItem(scrapy.Item): # ...
Scrapy项目 - 实现百度贴吧帖子主题及图片爬取的爬虫设计
要求编写的程序可获取任一贴吧页面中的帖子链接,并爬取贴子中用户发表的图片,在此过程中使用user agent 伪装和轮换,解决爬虫ip被目标网站封禁的问题.熟悉掌握基本的网页和url分析,同时能灵活使 ...

随机推荐

javascript中继承方式及优缺点(一)
分别介绍原型链继承.call/apply继承(借用构造函数继承).组合继承.原型式继承.寄生式继承.寄生组合式继承 1. 原型链继承核心:将父类的实例作为子类的原型 function SuperTy ...
HGOI20190814 省常中互测7
Problem A 中间值对于$2$个非严格单增序列$\{A_n\} , \{B_n\}$,维护下列两个操作: 1 x y z: (x=0)时将$A_y = z$ , (x=1)时将$B_y = z ...
wx.setStorage、wx.getStorage和wx.getStorageSync
Page({ data: { testnum:""//设置测试参数 }, test:function(){ var Num = this.data.testnum; wx.setS ...
「HAOI 2018」染色
题目链接戳我 $Solution$ 观察题目发现恰好出现了$s$次的颜色有$k$种,不太好弄. 所以我们设$a[i]$表示为恰好出现了$s$次的颜色有至少$i$种的方案数,然 ...
TreeMap元素必须实现Comparable接口
纠正一下,TreeMap实现一定顺序是通过Comparable接口的,而他实现元素不重复也是完全通过compareTo,而不是hashCode和equals,因为debug不会走到hashCode和e ...
第八周总结&实验报告六
总结:这周主要是学习异常的使用,已经怎么解决异常,总的来说学习的还是有点难度的,因为前面的知识还需要时间去弥补,这门课程还是要加油的学习! 这周主要所学: 一.异常 1.异常是导致程序中断运行的一种指 ...
作业要求20191010-4 alpha week 1/2 Scrum立会报告+燃尽图 02
此作业要求参见:https://edu.cnblogs.com/campus/nenu/2019fall/homework/8747 一.小组情况组长:贺敬文组员:彭思雨王志文位军营杨萍队名:胜 ...
leetcode-easy-string-242. Valid Anagram
mycode 71.97% class Solution(object): def isAnagram(self, s, t): """ :type s: str : ...
struts1使用select标签
今天使用struts1标签的时候总是出错,后来查了一下,好像不能和什么标签混用.就只用了html原来的标签实现 <select name="newsType_id"> ...
nmon报告指标含义
nmon分析文件详细指标详解指标类型指标名称指标含义SYS_SUMMCPU%cpu占有率变化情况:IO/secIO的变化情况:AAAAIXAIX版本号:buildbuild版本号:command执行命 ...

scrapy之360图片爬取

scrapy之360图片爬取的更多相关文章

随机推荐

热门专题