scrapy之Crawspider 腾讯招聘实战案例

1.　　在虚拟机中cd到项目目录,再运行下面代码创建spider文件：

　　scrapy genspider -t crawl test www.baidu.com

2.　　spider.py代码

import scrapy

from scrapy.linkextractors import LinkExtractor

from scrapy.spiders import CrawlSpider, Rule

from tanzhou.items import TanzhouItem,DetailItem

class TencentSpider(CrawlSpider):

    name = 'tencent'

    allowed_domains = ['hr.tencent.com']

    start_urls = ['https://hr.tencent.com/position.php?lid=2268&tid=87&keywords=python']

    rules = (

        Rule(LinkExtractor(allow=r'start=\d+'), callback='parse_item',follow=True),

        Rule(LinkExtractor(allow=r'position_detail\.php\?id=\d+'), callback='parse_detail_item', follow=False),

    )

    def parse_item(self, response):

        # 解析职位信息

        tr = response.xpath(

            '//table[@class="tablelist"]/tr[@class = "even"]|//table[@class="tablelist"]/tr[@class = "odd"]')

        if tr:

            for i in tr:

                # 第二种方式，用items.py约束

                item = TanzhouItem()

                item["jobName"] = i.xpath('./td[1]/a/text()').extract_first()

                item["jobType"] = i.xpath('./td[2]/text()').extract_first()

                item["Num"] = i.xpath('./td[3]/text()').extract_first()

                item["Place"] = i.xpath('./td[4]/text()').extract_first()

                item["Time"] = i.xpath('./td[5]/text()').extract_first()

                yield item

    def parse_detail_item(self,response):

        item = DetailItem()

        item['detail_content'] = response.xpath("//ul[@class = 'squareli']/li/text()").extract()

        item['detail_content'] = '\n'.join(item['detail_content'])

        yield item

3.　　items代码：

import scrapy

class TanzhouItem(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    jobName = scrapy.Field()

    jobType = scrapy.Field()

    Num = scrapy.Field()

    Place = scrapy.Field()

    Time = scrapy.Field()

class DetailItem(scrapy.Item):

    detail_content = scrapy.Field()

4.　　pipelines代码：

import json

from tanzhou.items import TanzhouItem,DetailItem

class TanzhouPipeline(object):

    def process_item(self, item, spider):

        # 数据json化 ,如果是用items 则需要先转化成字典格式dict()再用json

        # item = json.dumps(item,ensure_ascii=False)

        if isinstance(item,TanzhouItem):

            item = json.dumps(dict(item),ensure_ascii=False)

            self.f.write(item)

            self.f.write('\n')

        if isinstance(item,DetailItem):

            item = json.dumps(dict(item), ensure_ascii=False)

            self.f2.write(item)

            self.f2.write('\n')

        return item

    # 爬虫开启时运行

    def open_spider(self,spider):

        # 打开文件

        self.f = open('info2.json','w')

        self.f2 = open('detail2.json', 'w')

    # 爬虫关闭时运行

    def close_spider(self,spider):

       #  关闭文件

       self.f.close()

       self.f2.close()

scrapy之Crawspider 腾讯招聘实战案例的更多相关文章

Scrapy 项目：腾讯招聘
目的: 通过爬取腾讯招聘网站(https://careers.tencent.com/search.html)练习Scrapy框架的使用步骤: 1.通过抓包确认要抓取的内容是否在当前url地址中,测 ...
python3 scrapy 爬取腾讯招聘
安装scrapy不再赘述, 在控制台中输入scrapy startproject tencent 创建爬虫项目名字为 tencent 接着cd tencent 用pycharm打开tencent项目 ...
简单的scrapy实战:爬取腾讯招聘北京地区的相关招聘信息
简单的scrapy实战:爬取腾讯招聘北京地区的相关招聘信息简单的scrapy实战:爬取腾讯招聘北京地区的相关招聘信息系统环境:Fedora22(昨天已安装scrapy环境) 爬取的开始URL:ht ...
Scrapy实现腾讯招聘网信息爬取【Python】
一.腾讯招聘网二.代码实现 1.spider爬虫 # -*- coding: utf-8 -*- import scrapy from Tencent.items import TencentIte ...
pymongodb的使用和一个腾讯招聘爬取的案例
一.在python3中操作mongodb 1.连接条件安装好pymongo库启动mongodb的服务端(如果是前台启动后就不关闭窗口,窗口关闭后服务端也会跟着关闭) 3.使用 import pym ...
Scrapy项目 - 实现腾讯网站社会招聘信息爬取的爬虫设计
通过使Scrapy框架,进行数据挖掘和对web站点页面提取结构化数据,掌握如何使用Twisted异步网络框架来处理网络通讯的问题,可以加快我们的下载速度,也可深入接触各种中间件接口,灵活的完成各种需求 ...
Python爬虫框架Scrapy获得定向打击批量招聘信息
爬虫,就是一个在网上到处或定向抓取数据的程序,当然,这样的说法不够专业,更专业的描写叙述就是.抓取特定站点网页的HTML数据.只是因为一个站点的网页非常多,而我们又不可能事先知道全部网页的URL地址, ...
【Vue.js实战案例】- Vue.js递归组件实现组织架构树和选人功能
大家好!先上图看看本次案例的整体效果. 浪奔,浪流,万里涛涛江水永不休.如果在jq时代来实这个功能简直有些噩梦了,但是自从前端思想发展到现在的以MVVM为主流的大背景下,来实现一个这样繁杂的功能简直不 ...
3.awk数组详解及企业实战案例
awk数组详解及企业实战案例 3.打印数组: [root@nfs-server test]# awk 'BEGIN{array[1]="zhurui";array[2]=" ...

随机推荐

GoLand使用
# 不定期更新什么是GoLand GoLand是JetBrains出品的一个Go语言IDE,JB的IDE有多好用我想很多程序员都知道,个人感觉唯一的缺点就是比较大(因为功能多) 希望大家多多支持正版 ...
kafka集群报错
bin/kafka-server-start.sh config/server.properties ,问题来了 : [root@localhost kafka_2.12-0.10.2.0]# Exc ...
CSS margin合并
外边距合并块的顶部外边距和底部外边距有时被组合(折叠)为单个外边距,其大小是组合到其中的最大外边距发生外边距合并的三种基本情况 1. 相邻的兄弟姐妹元素 <div id="marg ...
iOS 在程序内调用手机上安装的地图软件进行导航
// 需求是需要用户能从所在位置到附近的健身房的路线, 然而,就一个需求,不值当的添加一个地图, 就用调用手机上第三方地图软件, 什么高德, 百度, 腾讯, iOS 原生地图都可以, 如果 ...
Confluence 6 home 修改 Home 目录的位置
当 Confluence 第一次启动的时候,Confluence 将会读取 confluence-init.properties 文件并从这个文件中确定如何去查找 Home 目录. 希望修改 home ...
npx简介(转载）
npm v5.2.0引入的一条命令(npx),引入这个命令的目的是为了提升开发者使用包内提供的命令行工具的体验. 举例:使用create-react-app创建一个react项目. 老方法: npm ...
cf1110F 离线+树上操作+线段树区间更新
自己搞的算法超时了..但是思路没什么问题:用线段树维护每个点到叶子节点的距离即可 /* 线段树维护区间最小值,每次向下访问,就把访问到的点对应的区间段减去边权到另一颗子树访问时,向上回溯时加上减去的 ...
java常见错误总结
1. 现象:将数组转为List后进行removeAll()操作,报java.lang.UnsupportedOperationException错误. 代码: /** * 获取标记ID * @retu ...
js变量前的+是什么意思
js变量前的+是什么意思 if (+value >= distance) {} 这个+什么意思可以理解为 Number(value) 会将其按照Number函数的规则转换为数值或者NaN, ...
Java 一个关于使用&&导致的BUG
二维数据track的定义: byte[][] track = new byte[10][10]; 本意:判断track[trackY][trackX]的值是否为零,以及trackX是否小于10. 带B ...

scrapy之Crawspider 腾讯招聘实战案例

scrapy之Crawspider 腾讯招聘实战案例的更多相关文章

随机推荐

热门专题