Scrapy框架的学习(6.item介绍以及items的使用（提前定义好字段名）)转载https://blog.csdn.net/wei18791957243/article/details/86259688

在Scrapy框架中的items.py的作用

1.可以预先定义好要爬取的字段 items.py

import scrapy

class TencentItem(scrapy.Item):

# define the fields for your item here like:

# name = scrapy.Field()

"""定义好字段,并不代表真正的值，只是占一个位置，用的时候直接赋值就行"""

position = scrapy.Field()

category = scrapy.Field()

date = scrapy.Field()

2. 把字段定义好之后 ,就可以在爬虫中进行使用

在用的时候， item的键名要和在items.py里面定义好的字段名称一致

import scrapy

''' 导入不同爬虫的类字段'''

from tencent.items import TencentItem,TencentItem2,TencentItem3

class TencentSpiderSpider(scrapy.Spider):

name = 'tencent_spider'

allowed_domains = ['tencent.com']

start_urls = ['https://hr.tencent.com/position.php']

def parse(self, response):

tr_list = response.xpath("//table[@class='tablelist']//tr")[1:-1]

for tr in tr_list:

"""使用定义好的类"""

item = TencentItem()

"""里面的键名，必须提前在items里面定义好之后才能用"""

item["position"] = tr.xpath("./td/a/text()").extract_first()

item["category"] = tr.xpath(".//td[2]/text()").extract_first()

item["date"] = tr.xpath(".//td[5]/text()").extract_first()

yield item

3. 如果想在pipelines.py中使用的方法是大同小异，只是在进行处理的时候item传过来的是一个类对象，要对其进行相应的转化

'''分别导入不同爬虫的字段类'''

from tencent.items import TencentItem, TencentItem2, TencentItem3

class TencentPipeline(object):

def process_item(self, item, spider):

"""使用item的时候这里接收的是TencentItem类的对象，我们可以把它转化字典"""

print(dict(item))

'''针对与不同的爬虫字段类的对象，做不同的处理'''

return item

4. 这样做有什么好处呢，个人理解：

(1) 可以直接看items.py，可以看出来要爬取那些字段

(2) 防止我们在item["键名"] 输入键名的时候输入错误

有多个爬虫时Item的处理

例如有个腾讯爬虫、有个京东爬虫，怎样处理

1. 在items.py里面创建不同的类，分别保存各自的字段

class TencentItem(scrapy.Item):

"""腾讯爬虫要爬取的字段"""

"""定义好字段,并不代表真正的值，只是占一个位置，用的时候直接赋值就行"""

position = scrapy.Field()

category = scrapy.Field()

date = scrapy.Field()

class JdItem(scrapy.Item):

"""京东爬虫要爬取的字段"""

"""定义好字段,并不代表真正的值，只是占一个位置，用的时候直接赋值就行"""

position = scrapy.Field()

category = scrapy.Field()

date = scrapy.Field()

2. 然后在不同的爬虫程序里使用对应的类即可

在腾讯的爬虫里，导入和使用

import scrapy

# 导入不同爬虫的类字段

from tencent.items import TencentItem

class TencentSpiderSpider(scrapy.Spider):

pass

def parse(self, response):

pass

for tr in tr_list:

"""使用定义好的腾讯爬虫的类的字段"""

item = TencentItem()

yield item

在京东的爬虫中，可以这样使用

import scrapy

# 导入不同爬虫的类字段

from JD.items import JdItem

class JdSpiderSpider(scrapy.Spider):

pass

def parse(self, response):

pass

for tr in tr_list:

"""使用定义好的腾讯爬虫的类的字段"""

item = JdItem()

yield item

3. 对于多个爬虫，在pipelines,py中可以进行判断，分别对不同的爬虫的字段进行不同的处理

isinstance() 函数来判断一个对象是否是一个已知的类型

'''分别导入不同爬虫的字段类'''

from tencent.items import TencentItem, JdItem2

class TencentPipeline(object):

def process_item(self, item, spider):

'''针对与不同的爬虫字段类的对象，做不同的处理'''

if isinstance(item, TencentItem):

pass

if isinstance(item, JdItem2):

pass

return item

Scrapy框架的学习(6.item介绍以及items的使用（提前定义好字段名）)转载https://blog.csdn.net/wei18791957243/article/details/86259688的更多相关文章

K8S 使用NFS 创建PV和PVC的例子学习From https://blog.csdn.net/xts_huangxin/article/details/51494472
1. 获取资料网址: https://blog.csdn.net/xts_huangxin/article/details/51494472 感谢原作者这里面按照自己的机器情况进行了学习模仿 ...
Android 学习路线图（转载自https://blog.csdn.net/lixuce1234/article/details/77947405）
程序设计一.java (a)基本语法(如继承.异常.引用.泛型等) Java核心技术卷I(适合入门) 进阶 Effective Java中文版(如何写好的Java代码) Java解惑 (介绍烂Ja ...
OpenGL学习脚印: uniform blocks在着色器中的使用转自https://blog.csdn.net/wangdingqiaoit/article/details/52717963
写在前面目前,我们在着色器中要传递多个uniform变量时,总是使用多个uniform,然后在主程序中设置这些变量的值:同时如果要在多个shader之间共享变量,例如投影矩阵projection和视 ...
scala学习（idea编译过程https://blog.csdn.net/guiying712/article/details/68947747）
scala官网 https://www.scala-lang.org/ 菜鸟教程学习 http://www.runoob.com/scala/scala-basic-syntax.html w3sch ...
Bootstrap学习4--Table样式（转载：https://blog.csdn.net/Fanbin168/article/details/53208869）
备注:最新Bootstrap手册:http://www.jqhtml.com/bootstraps-syntaxhigh/index.html 将<table>标签添加class=‘tab ...
学习mongoDB的一些感受（转自：http://blog.csdn.net/liusong0605/article/details/11581019）
曾经使用过mongoDB来保存文件,最一开始,只是想总结一下在开发中如何实现文件与mongoDB之间的交互.在此之前,并没有系统的了解过mongoDB,虽然知道我们用它来存储文件这些非结构化数据,但是 ...
jbpm的学习出处http://blog.csdn.net/hxirui/article/details/1221911
jbpm入门例子分类: opensourse2006-09-14 11:30 37308人阅读评论(22) 收藏举报 jbpmhibernate数据库oraclemysqltransition ...
Mapreduce之序列化框架（转自http://blog.csdn.net/lastsweetop/article/details/9376495）
框架简介 MapReduce仅仅可以支持Writable做key,value吗?答案是否定的.事实上,一切类型都是支持的,只需满足一个小小的条件:每个类型是以二进制流的形式传输.为此Hadoop提供了 ...
H5学习系列之文件读取API--本文转自http://blog.csdn.net/jackfrued/article/details/8967667
HTML5定义了FileReader作为文件API的重要成员用于读取文件,根据W3C的定义,FileReader接口提供了读取文件的方法和包含读取结果的事件模型. FileReader的使用方式非常简 ...

随机推荐

java.lang.UnsatisfiedLinkError: No implementation found for long org.opencv.core.Mat.n_Mat()
Android调试openCV4Android的时候出现以下错误 java.lang.UnsatisfiedLinkError: No implementation found for long or ...
Android Studio中解决jar包重复依赖导致的代码编译错误
在原本的代码中已经使用了OKHTTP和rxjava,然后今天依赖retrofit的时候一直报错 Program type already present: okhttp3.internal.ws.Re ...
python3命令行ImportError: No module named 'xxxx'的问题
主要原因:启动脚本不在当前目录下,无法找到上一层在pycharm写好的脚本程序,在命令行无法运行,报错 Traceback (most recent call last): File "t ...
01Spark的TopN问题
和hadoop的目的一样,给你数据,然后取TopN.数据如下: 取出数据在排名前十的数据. 代码如下: package com.test.book; import java.util.ArrayLis ...
AI人工智能顶级实战工程师课程大纲
课程名称内容阶段一.人工智能基础 — 高等数学必知必会 1.数据分析 "a. 常数eb. 导数c. 梯度d. Taylore. gini系数f. 信息熵与组合数 ...
php -- 断点调试之选择合适的xdebug
这里不讲如何在不同的ide里安装断点调试,讲一个不起眼却很容易犯的错误: 如何寻找适合你的环境的xdebug! 不要小看这个问题,如果说xdebug都错了,你再怎么安装断点调试,都不会成功,反而还找不 ...
Swagger UI 传入对象类型参数
Swagger要传送对象作为参数,只需添加@ModelAttribute或@RequestBody @RestController @RequestMapping("/api/json/re ...
python中unicode 和 str相互转化
python中的str对象其实就是"8-bit string" ,字节字符串,本质上类似java中的byte[]. 而python中的unicode对象应该才是等同于java中的S ...
python基础类型—元祖
元组被称为只读列表,即数据可以被查询,但不能被修改,所以,字符串的切片操作同样适用于元组. 例:(1,2,3)("a","b","c") ...
【C++/实验三】类和对象
1.定义一个矩形类,有长,宽两个属性,有成员函数计算矩形的面积. 在该矩形类中,我做了5个主要的测试. 构造函数带默认值参数,利用默认值参数计算矩形面积:rectangle(double x=2.0, ...

Scrapy框架的学习(6.item介绍以及items的使用（提前定义好字段名）)转载https://blog.csdn.net/wei18791957243/article/details/86259688

有多个爬虫时Item的处理

Scrapy框架的学习(6.item介绍以及items的使用（提前定义好字段名）)转载https://blog.csdn.net/wei18791957243/article/details/86259688的更多相关文章

随机推荐

热门专题