CrawlSpiders

1.用 scrapy 新建一个 tencent 项目

2.在 items.py 中确定要爬去的内容

 # -*- coding: utf-8 -*-

 # Define here the models for your scraped items

 #

 # See documentation in:

 # http://doc.scrapy.org/en/latest/topics/items.html

 import scrapy

 class TencentItem(scrapy.Item):

     # define the fields for your item here like:

     # 职位

     position_name = scrapy.Field()

     # 详情链接

     positin_link = scrapy.Field()

     # 职业类别

     position_type = scrapy.Field()

     # 招聘人数

     people_number = scrapy.Field()

     # 工作地点

     work_location = scrapy.Field()

     # 发布时间

     publish_time = scrapy.Field()

3.快速创建 CrawlSpider模板

scrapy genspider -t crawl tencent_spider tencent.com

注意此时中的名称不能与项目名相同

4.打开tencent_spider.py 编写代码

 # -*- coding: utf-8 -*-

 import scrapy

 # 导入链接规则匹配类，用来提取符合规则的链接

 from scrapy.linkextractors import LinkExtractor

 # 导入CrawlSpider类和Rule

 from scrapy.spiders import CrawlSpider, Rule

 # 从tentcent项目下的itmes.py中导入TencentItem类

 from tencent.items import TencentItem

 class TencentSpiderSpider(CrawlSpider):

     name = 'tencent_spider'

     allowed_domains = ['hr.tencent.com']

     start_urls = ['http://hr.tencent.com/position.php?&start=0#a']

     pagelink = LinkExtractor(allow=("start=\d+")) # 正则匹配

     rules = (

         # 获取这个列表的链接，依次发送请求，并继续跟进，调用指定的回调函数

         Rule(pagelink, callback='parse_item', follow=True),

     )

     def parse_item(self, response):

         for each in response.xpath("//tr[@class='even'] | //tr[@class='odd']"):

             item = TencentItem()

             # 职位名称

             item['position_name'] = each.xpath("./td[1]/a/text()").extract()[0]

             # 详情连接

             item['position_link'] = each.xpath("./td[1]/a/@href").extract()[0]

             # 职位类别

             #item['position_type'] = each.xpath("./td[2]/text()").extract()[0]

             # 招聘人数

             item['people_number'] = each.xpath("./td[3]/text()").extract()[0]

             # 工作地点

             # item['work_location'] = each.xpath("./td[4]/text()").extract()[0]

             # 发布时间

             item['publish_time'] = each.xpath("./td[5]/text()").extract()[0]

             yield item

5.在 piplines.py 中写入文件

 1 # -*- coding: utf-8 -*-

 2

 3 # Define your item pipelines here

 4 #

 5 # Don't forget to add your pipeline to the ITEM_PIPELINES setting

 6 # See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html

 7

 8 import json

 9

10 class TencentPipeline(object):

11     def open_spider(self, spider):

12         self.filename = open("tencent.json", "w")

13

14     def process_item(self, item, spider):

15         text = json.dumps(dict(item), ensure_ascii = False) + "\n"

16         self.filename.write(text.encode("utf-8")

17         return item

18

19     def close_spider(self, spider):

20         self.filename.close()

7.在命令输入以下命令运行

scrapy crawl tencen_spider.py

出现以下问题在tencent_spider.py 文件中只有把position_type 和 work_location 注销掉才能运行...

CrawlSpiders的更多相关文章

CrawlSpiders模块的使用
创建文件模板 scrapy genspider -t crawl tencent tencent.com CrawlSpiders就是为爬取整站孕育而生的,我们以前是分页下一页,然后再yied.这样太 ...
11.CrawlSpiders
CrawlSpiders 通过下面的命令可以快速创建 CrawlSpider模板的代码: .scrapy startproject tencentspider .scrapy genspider - ...
爬虫框架Scrapy之CrawlSpiders
CrawlSpiders 通过下面的命令可以快速创建 CrawlSpider模板的代码: scrapy genspider -t crawl tencent tencent.com 上一个案例中,我 ...
scrapy之CrawlSpiders
CrawlSpiders 通过下面的命令可以快速创建 CrawlSpider模板的代码: scrapy genspider -t crawl loaderan cnblogs.com class s ...
CrawlSpiders简介
转:https://www.cnblogs.com/ellisonzhang/p/11124516.html#4295547 一.CrawlSpiders类简介通过下面的命令可以快速创建 Crawl ...
scrapy基础知识之 CrawlSpiders爬取lagou招聘保存在mysql（分布式）：
items.py import scrapy class LagouItem(scrapy.Item): # define the fields for your item here like: # ...
scrapy基础知识之 CrawlSpiders(爬取腾讯校内招聘):
import scrapyfrom scrapy.spider import CrawlSpider,Rulefrom scrapy.linkextractors import LinkExtract ...
scrapy基础知识之 CrawlSpiders：
通过下面的命令可以快速创建 CrawlSpider模板的代码: scrapy genspider -t crawl spidername xx.com LinkExtractors class sc ...
三、scrapy后续
CrawlSpiders 通过下面的命令可以快速创建 CrawlSpider模板的代码: scrapy genspider -t crawl tencent tencent.com 我们通过正则表达 ...

随机推荐

《Linux命令行与shell脚本编程大全》第九章安装软件程序
包管理系统(PMS):用来进行软件安装.管理和删除的命令行工具 9.1包管理基础 1.主流的Linux发行版都采用了某种形式的包管理系统来控制软件和库的安装 2.PMS用一个数据库来记录:系统上安装了 ...
[转载] Hive与HBase的联系与区别
转载自http://blog.csdn.net/wangmuming/article/details/23954527和http://www.cnblogs.com/justinzhang/p/427 ...
Python的egg包
1.背景查看flower的源码,首先看到flower的主程序如下: #!/usr/local/sinasrv2/bin/python2.7 # EASY-INSTALL-ENTRY-SCRIPT: ...
git打包
git help tag #tag的用法git taggit tag -d xxx #删除taggit tag v1.1 #新增taggit describe --tag #
【转】Linux下软、硬链接的创建和删除
原文:http://www.cnblogs.com/xiaochaohuashengmi/archive/2011/10/05/2199534.html 在Linux系统中,内核为每一个新创建的文件分 ...
使用mysql5.7新特性（虚拟列）解决使用前通配符性能问题
众所周知,在mysql里的后通配符可以使用索引查找,前通配查询却无法使用到索引,即使是使用到了索引,也是使用了索引全扫描,效率依然不高,再MySQL5.7之前,一直都没有好的办法解决,但是到了MySQ ...
Gotorch - 多机定时任务管理系统
* { color: #3e3e3e } body { font-family: "Helvetica Neue", Helvetica, "Hiragino Sans ...
微信小程序支付及退款流程详解
微信小程序的支付和退款流程近期在做微信小程序时,涉及到了小程序的支付和退款流程,所以也大概的将这方面的东西看了一个遍,就在这篇博客里总结一下. 首先说明一下,微信小程序支付的主要逻辑集中在后端,前端 ...
第六届蓝桥杯软件类省赛题解C++/Java
第六届蓝桥杯软件类省赛题解C++/Java 1[C++].统计不含4的数字统计10000至99999中,不包含4的数值个数.答:暴力循环范围内所有数字判断一下就是了,答案是52488 1[Java]. ...
dnsmasq服务的安装与配置
在ubuntu16.04上安装dnsmasq服务,在本地做泛域名解析安装 $ apt-get install dnsmasq -y $ /etc/init.d/dnsmasq start 配置 Dn ...

CrawlSpiders

CrawlSpiders的更多相关文章

随机推荐

热门专题