第十七节：Scrapy爬虫框架之item.py文件以及spider中使用item

Scrapy原理图：

item位于原理图的最左边

item.py文件是报存爬取数据的容器，他使用的方法和字典很相似，但是相比字典item多了额外的保护机制，可以避免拼写错误或者定义错误。

1、创建item

在创建item时需要继承scrapy.Item类，并且定义scrapy.Field字段。由于我们在上一节Scrapy爬虫框架之项目创建spider文件数据爬取当中提取了id、url、title、thumb四个字段。所以我们在item.py文件当中需要创建者四个字段。

# -*- coding: utf-8 -*-

# item.py

import scrapy

class Bole_mode(scrapy.Item):

    id    = scrapy.Field()  # id

    url   = scrapy.Field()  # 图片链接

    title = scrapy.Field()  # 标题

    thumb = scrapy.Field()  # 缩略图

2、spider使用item

之前说过item文件是报存爬取数据的容器，所以我们在上一节当中爬取下来的数据需要使用item进行暂存。

在进行使用之前需要对这个item进行实例化 item = Bole_mode()。

代码如下

 # BLZXSPider.py

 import scrapy

 import json

 import sys

 sys.path.append(r'D:\spider\bole\item.py')

 from bole.items import Bole_mode

 class BoleSpider(scrapy.Spider):

     name = 'boleSpider'

     def start_requests(self):

         url = "https://image.so.com/zj?ch=photography&sn={}&listtype=new&temp=1"

         page = self.settings.get("MAX_PAGE")

         for i in range(int(page)+1):

             yield scrapy.Request(url=url.format(i*30))

     def parse(self,response):

         photo_list = json.loads(response.text)

         item  = Bole_mode()

         for image in photo_list.get("list"):

             item["id"] = image["id"]

             item["url"] = image["qhimg_url"]

             item["title"] = image["group_title"]

             item["thumb"] = image["qhimg_thumb_url"]

             yield item

运行结果如下，可以看到每个url都已经请求成功。

第十七节：Scrapy爬虫框架之item.py文件以及spider中使用item的更多相关文章

第十六节：Scrapy爬虫框架之项目创建spider文件数据爬取
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中.其最初是为了页面抓取所设计的, 也可以应用在获取API所返回的数据或 ...
Python之Scrapy爬虫框架安装及简单使用
题记:早已听闻python爬虫框架的大名.近些天学习了下其中的Scrapy爬虫框架,将自己理解的跟大家分享.有表述不当之处,望大神们斧正. 一.初窥Scrapy Scrapy是一个为了爬取网站数据,提 ...
scrapy爬虫框架教程（二）-- 爬取豆瓣电影TOP250
scrapy爬虫框架教程(二)-- 爬取豆瓣电影TOP250 前言经过上一篇教程我们已经大致了解了Scrapy的基本情况,并写了一个简单的小demo.这次我会以爬取豆瓣电影TOP250为例进一步为大 ...
Scrapy爬虫框架（实战篇）【Scrapy框架对接Splash抓取javaScript动态渲染页面】
(1).前言动态页面:HTML文档中的部分是由客户端运行JS脚本生成的,即服务器生成部分HTML文档内容,其余的再由客户端生成静态页面:整个HTML文档是在服务器端生成的,即服务器生成好了,再发送 ...
Scrapy爬虫框架中的两个流程
下面对比了Scrapy爬虫框架中的两个流程—— ① Scrapy框架的基本运作流程:② Spider或其子类的几个方法的执行流程. 这两个流程是互相联系的,可对比学习. 1 ● Scrapy框架的基本 ...
Python爬虫教程-31-创建 Scrapy 爬虫框架项目
本篇是介绍在 Anaconda 环境下,创建 Scrapy 爬虫框架项目的步骤,且介绍比较详细 Python爬虫教程-31-创建 Scrapy 爬虫框架项目首先说一下,本篇是在 Anaconda 环 ...
Python-S9-Day126——Scrapy爬虫框架
01 今日内容概要 02 内容回顾和补充:scrapy 03 内容回顾和补充:网络和并发编程 04 Scrapy爬虫框架:pipeline做持久化(一) 05 Scrapy爬虫框架:pipeline做 ...
Scrapy爬虫框架学习
一.Scrapy框架简介 1. 下载页面 2. 解析 3. 并发 4. 深度二.安装 linux下安装 pip3 install scrapy windows下安装 a.pip3 install w ...
scrapy爬虫框架教程（二）-- 爬取豆瓣电影
前言经过上一篇教程我们已经大致了解了Scrapy的基本情况,并写了一个简单的小demo.这次我会以爬取豆瓣电影TOP250为例进一步为大家讲解一个完整爬虫的流程. 工具和环境语言:python 2 ...

随机推荐

Activiti6.0教程 Service用途剖析（二）
这节我们学习下Activiti的7大对象,首先我们从ProcessEngine接口开始看. /* Licensed under the Apache License, Version 2.0 (the ...
在JS/jQuery中，怎么触发input的keypress/keydown/keyup事件？
怎么触发keypress/keydown/keyup事件? 问题: 1.在之前的写的input后面添加了搜索按钮 2.input只有keyup事件,如下: $("#desktop_folde ...
ACM数论-求组合数
我们利用这个公式求阶乘和逆元求阶: #include<cstdio> const int N = 200000 + 5; const int MOD = (int)1e9 + 7; int ...
数论(GCD) HDOJ 4320 Arcane Numbers 1
题目传送门题意:有一个A进制的有限小数,问能否转换成B进制的有限小数分析:0.123在A进制下表示成:1/A + 2/(A^2) + 3 / (A^3),转换成B进制就是不断的乘B直到为0,即(1 ...
题解报告：hdu 1260 Tickets
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=1260 Problem Description Jesus, what a great movie! T ...
synchronized(3)修饰语句块之：synchronized(一般对象)
synchronized(一般对象) 一次只有一个线程进入该代码块.此时,线程获得的是成员锁.例如: public class Thread7 { private Object xlock = new ...
spring jdbc 批处理插入主健重复的数据
1.有事务:当调用spring jdbc 的批处理的时候,在实现层加入事物,只要有插入异常的数据,整个批处理操作都会回滚.事务保证操作的原子性. 2.无事务:当没有事务的时候,批处理插入数据的时候,若 ...
掌握Spark机器学习库-07.6-线性回归实现房价预测
数据集 house.csv 数据概览代码 package org.apache.spark.examples.examplesforml import org.apache.spark.ml.fea ...
iOS Programming NSUserDefaults
iOS Programming NSUserDefaults When you start an app for the first time, it uses its factory settin ...
Asp.Net 设计模式之 “工厂方法”即利用接口实现的抽象工厂
主要改动部分: /// <summary> /// 6.创建工厂方法模式(抽象工厂:接口) /// </summary> interface IFactory ...

第十七节：Scrapy爬虫框架之item.py文件以及spider中使用item

第十七节：Scrapy爬虫框架之item.py文件以及spider中使用item的更多相关文章

随机推荐

热门专题