Scrapy是一个流行的网络爬虫框架，从现在起将陆续记录Python3.6下Scrapy整个学习过程，方便后续补充和学习。
Python网络爬虫之scrapy(一)已经介绍scrapy安装、项目创建和测试基本命令操作，本文将对item设置、提取和使用进行详细说明

item设置

　　item是保存爬取到的数据的容器，其使用方式和字典类似，并且提供了额外保护机制来避免拼写错误导致的未定义字段错误，定义类型为scrapy.Field的类属性来定义一个item，可以根据自己的需要在items.py文件中编辑相应的item

# -*- coding: utf-8 -*-

# Define here the models for your scraped items

#

# See documentation in:

# https://doc.scrapy.org/en/latest/topics/items.html

#装载我们抓取数据的容器

import scrapy

class ExampleItem(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    name = scrapy.Field()    #属性作为Field对象

    population = scrapy.Field()

item提取

　　首先回顾下创建的爬虫模块country.py，继承scrapy.Spider，且定义了三个属性

name: 用于区别 Spider。该名字必须是唯一的，您不可以为不同的 Spider 设定相同的名字
start_urls: 包含了 Spider 在启动时进行爬取的 url 列表
parse() 是 spider 的一个方法。被调用时，每个初始 URL 完成下载后生成的 response对象将会作为唯一的参数传递给该函数。该方法负责解析返回的数据(response data)，提取数据(生成 item)以及生成需要进一步处理的 URL 的 response对象。

　　response常用属性：content、text、status_code、cookies

selector选择器

　　scrapy使用了一种基于xpath和css表达式机制：scrapy selector

　　selector方法

xpath(): 传入 xpath 表达式，返回该表达式所对应的所有节点的 selector list 列表
css(): 传入 CSS 表达式，返回该表达式所对应的所有节点的 selector list 列表
extract(): 序列化该节点为 unicode 字符串并返回 list
re(): 根据传入的正则表达式对数据进行提取，返回 unicode 字符串 list 列表

shell命令抓取

　　scrapy提供了shell命令对网页数据进行抓取

　　命令格式：scrapy shell web

D:\Pystu\example>scrapy shell http://example.webscraping.com/places/default/view/Afghanistan-1

>>> response.xpath('//tr//td[@class="w2p_fw"]/text()').extract()

['647,500 square kilometres', '29,121,286', 'AF', 'Afghanistan', 'Kabul', '.af',

 'AFN', 'Afghani', '', 'fa-AF,ps,uz-AF,tk']

item使用

1. item声明

class ExampleItem(scrapy.Item):

    # define the fields for your item here like:

    name = scrapy.Field()    #属性作为Field对象

    population = scrapy.Field(serializer=str)

　　Field对象这么了每个字段的元数据（metadata），可以为每个字段指明任何类型的元数据

2. item创建

item = ExampleItem(name="Afghanistan",population="")

        print (item)

3. item与字典转换

　　根据item创建字典

>>> dict(ExampleItem) # create a dict from all populated values

{"name"="Afghanistan","population"=""}

　　根据字典创建item

>>> Product({"name"="Afghanistan","population"="29121262"})

Product(name="Afghanistan",population="29121262")

Scrapy组件之item的更多相关文章

scrapy框架中Item Pipeline用法
scrapy框架中item pipeline用法当Item 在Spider中被收集之后,就会被传递到Item Pipeline中进行处理每个item pipeline组件是实现了简单的方法的pyt ...
爬虫scrapy组件请求传参,post请求,中间件
post请求在scrapy组件使用post请求需要调用 def start_requests(self): 进行传参再回到 yield scrapy.FormRequest(url=url,form ...
Scrapy中的item是什么
这两天看Scrapy,看到item这个东西,觉得有点抽象,查了一下,有点明白了. Item 是保存爬取到的数据的容器:其使用方法和python字典类似, 并且提供了额外保护机制来避免拼写错误导致的未定 ...
Scrapy不同的item指定不同的Pipeline
scrapy不同的item指定不同的Pipeline from items import AspiderItem, BspiderItem, CspiderItem class myspiderPip ...
Python爬虫从入门到放弃（十六）之 Scrapy框架中Item Pipeline用法
当Item 在Spider中被收集之后,就会被传递到Item Pipeline中进行处理每个item pipeline组件是实现了简单的方法的python类,负责接收到item并通过它执行一些行为, ...
Scrapy 组件的具体用法
一.Spider 用法在 Scrapy 中,要抓取网站的链接配置.抓取逻辑.解析逻辑都是在 Spider 里完成的.Spider 的一些基础属性和基础方法: name:爬虫名字,Spider的名字定 ...
Python之爬虫（十八） Scrapy框架中Item Pipeline用法
当Item 在Spider中被收集之后,就会被传递到Item Pipeline中进行处理每个item pipeline组件是实现了简单的方法的python类,负责接收到item并通过它执行一些行为, ...
scrapy中对于item的把控
其实很简单,就是想要存储的位置发生改变.直接看例子,然后触类旁通. 以大众点评评论的内容为例 ,位置:http://www.dianping.com/shop/77489519/review_mor ...
原生js实现一个侧滑删除取消组件（item slide）
组件,本质上是解决某个问题封装的类,在此记录原生js实现侧滑删除先上效果图实现思路 1. 确定渲染的数据结构 2. 思考划分布局,总的有两个主要的模块:内容区域和按钮区域 2.1 内容区域保持宽度 ...

随机推荐

Windows 2008下系统网站运行环境的搭建
1.右击[计算机]-->[管理],进入到”服务器管理器” 界面,如图所示: 2.依次展开[角色]-->[Web服务器(IIS)]-->[Internet 信息服务(IIS)管理器], ...
JavaScript右下角信息提示插件Notyf
在线演示本地下载
多线程、多进程、协程、IO多路复用请求百度
最近学习了多线程.多进程.协程以及IO多路复用,那么对于爬取数据来说,这几个方式哪个最快呢,今天就来稍微测试一下普通方式请求百度5次 import socket import time import ...
Git常用分支操作
新建分支 git branch branchname 切换到分支dev git checkout branchname 查看所有的分支信息 git branch -a 查看远程分支信息 git bra ...
关于ENABLE_BITCODE
pod 'TSVoiceConverter' 如果,设置了工程target的ENABLE_BITCODE为NO.但是,在真机上运行时,仍然提示类似于如下错误: URGENT: all bitcode ...
一个问题：C#引用类型传参，说出你的答案
namespace ConsoleApplication1 { class Program { static void Main(string[] args) { People p = new Peo ...
DevExpress 给TreeList添加右键菜单
只有在右击节点时才会触发 private void treeList1_MouseDown(object sender, MouseEventArgs e) { if (e.Button == Mou ...
Hibernate -- 配置c3p0连接池, 事务隔离级别, 管理session
知识点1:配置c3p0连接池(了解) * 引入c3p0-0.9.1.jar * 在hibernate.cfg.xml文件中增加如下配置  <!-- ...
Multiply Strings，字符串相乘
问题描述:给定两个字符串,返回他们的乘积. public class MultiplyStrings { public String multiply(String num1, String num2 ...
datetimepicker
<!DOCTYPE html> <html> <head> <title></title> <link href="./bo ...

Scrapy组件之item

item设置

item提取

selector选择器

selector方法

shell命令抓取

item使用

1. item声明

2. item创建

3. item与字典转换

Scrapy组件之item的更多相关文章

随机推荐

热门专题

　　selector方法