scrapy关键字爬取百度图库（一）

刚入门学习python的菜鸟，如有错误，还望指教

爬取百度图库需要知道百度图库的加载方式是通过下拉加载的，所以我们需要分析Ajax请求来爬取每一页的数据信息

表述不清直接上图片



图片一是刷新页面后加载的四条json格式的数据，随便点开一条，可以看到它的Requset URL，每一个json数据中包含了30张图片。
所根据观察发现，每一条URL变化的地方在queryword=（关键字）和pn=（从零开始，以30为步长），所以根据此我们可以通过改变请求的URL来加载下一个json数据，这样就可以实现下拉功能。

点开data中的一项我们可以看到想要的信息都在里面，我们选取它的名称和图片地址来存储
代码实现：
scrapy框架好的地方在于它已经把每一个过程分块化，我们只需要关注每一块要实现的功能，而不用关心块与块如何连接的问题
settings.py

MONGO_URI='localhost'

MONGO_DB='picture'

# Crawl responsibly by identifying yourself (and your website) on the user-agent

#USER_AGENT = 'Pic_search (+http://www.yourdomain.com)'

# Obey robots.txt rules

#协议文件

ROBOTSTXT_OBEY = False

要把信息存入MongoDB中

items.py

import scrapy

class PicSearchItem(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    img_title = scrapy.Field()

    img_url = scrapy.Field()

Item 对象是种简单的容器，保存了爬取到得数据。其提供了类似于词典(dictionary-like) 的API以及用于声明可用字段的简单语法。

spiders.py

# -*- coding: utf-8 -*-

#初始化spider：scrapy genspider spider image.baidu.com

#运行spider：scrapy crawl spider

from scrapy import Spider,Request

import json

from Pic_search.items import PicSearchItem

import itertools

import urllib
import time

u_word = input("请输入你要下载的图片关键词：\n")
word = urllib.parse.quote(u_word)

pn = 0

urls = "https://image.baidu.com/search/acjson?tn=resultjson_com&ipn=rj&ct=201326592&fp=result&queryWord={word}&cl=2&lm=-1&ie=utf-8&oe=utf-8&st=-1&ic=0&word={word}&face=0&istype=2&nc=1&pn={pn}&rn=30"

class SpiderSpider(Spider):

    name = 'spider'

    allowed_domains = ['image.baidu.com']

    headers = {

        'User-Agent':'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36',

    }

    def start_requests(self):

        #print(word)

        url = urls.format(word=word,pn=0)

        yield Request(url, headers=self.headers)

    def parse(self, response):

        hjsons = json.loads(response.body)

        img_datas = hjsons['data']

        if hjsons:

            for data in img_datas:

                try:

                    item = PicSearchItem()

                    print(data['fromPageTitleEnc'])

                    print(data['thumbURL'])

                    item['img_url'] = data['thumbURL']

                    item['img_title'] = data['fromPageTitleEnc']

                    yield item

                except:

                    pass

for x in itertools.count(start=30, step=30):

            next_url = urls.format(word=word,pn=x)          #生成下一页地址

            yield Request(url=next_url, callback=self.parse) #回调
　　　　　　　time.sleep(1)

pipelines.py

import pymongo

from scrapy.exceptions import DropItem

class MongoPipeline(object):

    def __init__(self,mongo_uri,mongo_db):

        self.mongo_uri = mongo_uri

        self.mongo_db = mongo_db

    @classmethod

    def from_crawler(cls,crawler):

        return cls(

            mongo_uri=crawler.settings.get('MONGO_URI'),

            mongo_db=crawler.settings.get('MONGO_DB')

        )

    def open_spider(self,spider):

        self.client = pymongo.MongoClient(self.mongo_uri)

        self.db = self.client[self.mongo_db]

    def process_item(self,item,spider):

        name = item.__class__.__name__

        #两条下划线

        self.db[name].insert(dict(item))

        return item

    def close_spider(self,spider):

        self.client.close()

当Item在Spider中被收集之后，它将会被传递到Item Pipeline，一些组件会按照一定的顺序执行对Item的处理

以下是item pipeline的一些典型应用：

清理HTML数据

验证爬取的数据(检查item包含某些字段)

查重(并丢弃)

将爬取结果保存到数据库中

结果图片：

但是代码还是存在问题和不足，还有需要很多提升

1.解决无限循环，解决异常问题

2.采用分布式爬取

3.爬取多个网站图片

所以未完，待续。。。。。。。

scrapy关键字爬取百度图库（一）的更多相关文章

Python爬虫：通过关键字爬取百度图片
使用工具:Python2.7 点我下载 scrapy框架 sublime text3 一.搭建python(Windows版本) 1.安装python2.7 ---然后在cmd当中输入python,界 ...
第三百三十四节，web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻，爬取Ajax动态生成的信息
第三百三十四节,web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻,爬取Ajax动态生成的信息 crapy爬取百度新闻,爬取Ajax动态生成的信息,抓取百度新闻首页的新闻rul地址有多 ...
十三 web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻，爬取Ajax动态生成的信息
crapy爬取百度新闻,爬取Ajax动态生成的信息,抓取百度新闻首页的新闻rul地址有多网站,当你浏览器访问时看到的信息,在html源文件里却找不到,由得信息还是滚动条滚动到对应的位置后才显示信息, ...
基于scrapy框架输入关键字爬取有关贴吧帖子
基于scrapy框架输入关键字爬取有关贴吧帖子站点分析首先进入一个贴吧,要想达到输入关键词爬取爬取指定贴吧,必然需要利用搜索引擎点进看到有四种搜索方式,分别试一次,观察url变化我们得知: 搜 ...
【学习笔记】Python 3.6模拟输入并爬取百度前10页密切相关链接
[学习笔记]Python 3.6模拟输入并爬取百度前10页密切相关链接问题描述通过模拟网页,实现百度搜索关键词,然后获得网页中链接的文本,与准备的文本进行比较,如果有相似之处则代表相关链接. me ...
爬虫系列(六) 用urllib和re爬取百度贴吧
这篇文章我们将使用 urllib 和 re 模块爬取百度贴吧,并使用三种文件格式存储数据,下面先贴上最终的效果图 1.网页分析 (1)准备工作首先我们使用 Chrome 浏览器打开百度贴吧,在输入 ...
WebCollector爬取百度搜索引擎样例
使用WebCollector来爬取百度搜索引擎依照关键字搜索的结果页面,解析规则可能会随百度搜索的改版而失效. 代码例如以下: package com.wjd.baidukey.crawler; im ...
python 爬取百度url
#!/usr/bin/env python # -*- coding: utf-8 -*- # @Date : 2017-08-29 18:38:23 # @Author : EnderZhou (z ...
百度图片爬虫-python版-如何爬取百度图片?
上一篇我写了如何爬取百度网盘的爬虫,在这里还是重温一下,把链接附上: http://www.cnblogs.com/huangxie/p/5473273.html 这一篇我想写写如何爬取百度图片的爬虫 ...

随机推荐

vscode git设置
vscode只能打开一下界面: 在setting.path增加git.path选项,再使用linux的方法配置路径,就是使用D:/../bin/git.exe而不是\\ 重启vscode,git设置即 ...
Lodop打印如何隐藏table某一列
Lodop打印超文本,既可以打印页面上存在的某些部分,也可以自己组织超文本和css样式传入,有些需要打印的页面表格里,会有一列有编辑删除等按钮,用于对于数据库数据的操作,在打印的时候,这一列由于不属于 ...
JavaScript 使用 toJSON 方法格式化日期
toJSON 方法可以将 Date 对象转换为 ISO-8601 标准的字符串:YYYY-MM-DDTHH:mm:ss. sssZ var date = new Date(); // toJSON() ...
Django restframe 视图函数以及ModelSerializer的使用
建立model数据库 from django.db import models __all__ = ['Book', 'Publisher', 'Author'] # Create your mode ...
【题解】K乘积
题目描述有N个数,每个数的范围是[-50,50],现在你要从这N个数中选出K个,使得这K个数的乘积最大. 输入格式第一行,N和K. 1 <= N <= 50. 1 <= K & ...
JVM深入理解<一>
以下文章来自与: http://www.jianshu.com/p/fabad9250b1b 一.什么是JVM? JVM是Java Virtual Machine(Java虚拟机)的缩写,是通过在实际 ...
SQL Server查询优化器的工作原理
SQL Server的查询优化器是一个基于成本的优化器.它为一个给定的查询分析出很多的候选的查询计划,并且估算每个候选计划的成本,从而选择一个成本最低的计划进行执行.实际上,因为查询优化器不可能对每一 ...
Tomcat和Weblogic部署纯html文件
1.首先纯html文件,得有一个入口 index.html 2.Tomcat是不需要指定web.xml的,因为即使你的文件里没有web.xml,也会读取conf 目录下的web.xml,在这个文件里边 ...
Luogu P4774 / LOJ2721 【[NOI2018]屠龙勇士】
真是个简单坑题...++ 前置: exgcd,exCRT,STL-multiset 读完题不难发现,攻击每条龙用的剑都是可以确定的,可以用multiset求.攻击最少显然应该对于每一条龙都操作一次,即 ...
[SNOI2017]一个简单的询问【莫队+容斥原理】
题目大意给你一个数列,让你求两个区间内各个数出现次数的乘积的和. 分析数据范围告诉我们可以用莫队过. 我并不知道什么曼哈顿什么乱七八糟的东西,但是我们可以用容斥原理将这个式子展开来. \[\sum ...

scrapy关键字爬取百度图库（一）

scrapy关键字爬取百度图库（一）的更多相关文章

随机推荐

热门专题