Scrapy：腾讯招聘整站数据爬取

项目地址：https://hr.tencent.com/

步骤一、分析网站结构和待爬取内容

以下省略一万字

步骤二、上代码（不能略了）

1、配置items.py

 import scrapy

 class HrTencentItem(scrapy.Item):

     # define the fields for your item here like:

     # name = scrapy.Field()

     # pass

     position_name = scrapy.Field()#职位名称

     position_type = scrapy.Field()#职位类别

     detail_url = scrapy.Field()

     people_count = scrapy.Field()

     work_city = scrapy.Field()

     release_date = scrapy.Field()#发布时间

     job_description = scrapy.Field()#工作描述

     job_require = scrapy.Field()#工作要求

2、配置settings.py

配置mongo

NEWSPIDER_MODULE = 'hr_tencent.spiders'

MONGO_URL ='localhost'

MONGO_DB ='hrtencent'

切记注册ITEM_PIPELINES

ITEM_PIPELINES = { # 'hr_tencent.pipelines.HrTencentPipeline': 300, 'hr_tencent.pipelines.MongoPipeline': 400, }

3.到spider文件夹里面执行指令 scrapy genspider tencent

4、打开自动生成的tencent.py文件，进行编辑

 # -*- coding: utf-8 -*-

 import scrapy

 from hr_tencent.items import HrTencentItem

 class TencentSpider(scrapy.Spider):

     name = 'tencent'

     allowed_domains = ['hr.tencent.com']

     start_urls = ['https://hr.tencent.com/position.php']

     front_url = "https://hr.tencent.com/"

     def parse(self, response):

         tencenthr = response.xpath('//tr[@class="even"] | //tr[@class="odd"]')

         for job in tencenthr:

             item = HrTencentItem()

             item["position_name"] = job.xpath('.//a/text()').extract_first()

             item["detail_url"] = self.front_url + job.xpath('.//a/@href').extract_first()

             item["position_type"] = job.xpath('.//td[2]/text()').extract_first()

             item["people_count"] = job.xpath('.//td[3]/text()').extract_first()

             item["work_city"] = job.xpath('.//td[4]/text()').extract_first()

             item["release_date"] = job.xpath('.//td[5]/text()').extract_first()

             yield scrapy.Request(url=item["detail_url"], callback=self.detail_parse, meta={"item": item})

         next_url = self.front_url + response.xpath('//div[@class="pagenav"]/a[@id="next"]/@href').extract_first()

         yield scrapy.Request(url=next_url, callback=self.parse)

     def detail_parse(self, response):

         item = response.meta["item"]

         node_list = response.xpath('//ul[@class="squareli"]')

         item["job_description"] = ''.join(node_list[0].xpath("./li/text()").extract())

         item["job_require"] = ''.join(node_list[1].xpath("./li/text()").extract())

         yield item

5、配置pipelines.py文件

 import pymongo

 class MongoPipeline(object):

     def __init__(self,mongo_url,mongo_db):

         self.mongo_url = mongo_url

         self.mongo_db = mongo_db

     @classmethod

     def from_crawler(cls,crawler):

         return cls(

             mongo_url = crawler.settings.get('MONGO_URL'),

             mongo_db=crawler.settings.get('MONGO_DB')

         )

     def open_spider(self,spider):

         self.client = pymongo.MongoClient(self.mongo_url)

         self.db = self.client[self.mongo_db]

     def process_item(self,item,spider):

         name = item.__class__.__name__

         self.db[name].insert(dict(item))

         return item

     def close_spider(self,spider):

         self.client.close()

6、新建一个run.py文件，为了不每次运行都敲指令，直接运行run.py即可

 # -*- coding:utf-8 -*-

 from scrapy import cmdline

 cmdline.execute("scrapy crawl tencent".split())

7、运行本地或服务器上的mongo数据库（远程mongo数据库地址需要自己配）

8、执行run文件数据到手

Scrapy：腾讯招聘整站数据爬取的更多相关文章

quotes 整站数据爬取存mongo
安装完成scrapy后爬取部分信息已经不能满足躁动的心了,那么试试http://quotes.toscrape.com/整站数据爬取第一部分项目创建 1.进入到存储项目的文件夹,执行指令 scra ...
scrapy框架基于CrawlSpider的全站数据爬取
引入提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法 ...
爬虫第六篇：scrapy框架爬取某书网整站爬虫爬取
新建项目 # 新建项目$ scrapy startproject jianshu# 进入到文件夹 $ cd jainshu# 新建spider文件 $ scrapy genspider -t craw ...
Python实现采集wordpress整站数据的爬虫
最近爱上了python,就非常喜欢使用python来练手,在上次的基础上完善一下代码,实现采集wordpress程序的网站的整站数据的爬虫程序,本站也是采用的wordpress,我就拿吾八哥网(htt ...
Scrapy 框架 CrawlSpider 全站数据爬取
CrawlSpider 全站数据爬取创建 crawlSpider 爬虫文件 scrapy genspider -t crawl chouti www.xxx.com import scrapy fr ...
移动端数据爬取和Scrapy框架
移动端数据爬取注:抓包工具:青花瓷 1.配置fiddler 2.移动端安装fiddler证书 3.配置手机的网络 - 给手机设置一个代理IP:port a. Fiddler设置打开Fiddler软 ...
scrapy爬虫框架教程（二）-- 爬取豆瓣电影TOP250
scrapy爬虫框架教程(二)-- 爬取豆瓣电影TOP250 前言经过上一篇教程我们已经大致了解了Scrapy的基本情况,并写了一个简单的小demo.这次我会以爬取豆瓣电影TOP250为例进一步为大 ...
一个免费ss网站的数据爬取过程
一个免费ss网站的数据爬取过程 Apr 14, 2019 引言爬虫整体概况主要功能方法绕过DDOS保护(Cloudflare) post中参数a,b,c的解析 post中参数a,b,c的解析 p ...
爬虫1.5-ajax数据爬取
目录爬虫-ajax数据爬取 1. ajax数据 2. selenium+chromedriver知识准备 3. selenium+chromedriver实战拉勾网爬虫代码爬虫-ajax数据爬取 ...

随机推荐

linux（centos）上安装mysql教程，为需要远程登录的用户赋予权限
最近把之前学生时代的win server换成了linux(centos)系统,因为win对于部署一些项目时候比较麻烦,直接入正题 1.准备阶段我使用xshell工具管理服务器,相应下载和安装自行百度 ...
【Android Studio安装部署系列】二十六、Android studio录制屏幕并生成gif文件
版权声明:本文为HaiyuKing原创文章,转载请注明出处! 概述 Android Studio自带录制屏幕功能,那么就可以很方便地将手机上的屏幕操作录制成视频.然后借助一些软件或者网站转换成gif文 ...
云HBase发布全文索引服务,轻松应对复杂查询
云HBase发布了“全文索引服务”功能,自2019年01月25日后创建的云HBase实例,可以在控制台免费开启此“全文索引服务”功能.使用此功能可以让用户在HBase之上构建功能更丰富的搜索业务,不再 ...
关于px，分辨率，ppi的辨析
概述在本篇文章的开始,我先为大家解释一下这三个名词的概念. px全称为pixel--像素.pc及移动设备的屏幕就是通过往像素矩阵中填充颜色,从而在宏观上体现出图像.像素越小,图像越清晰. 分辨 ...
JDK源码分析（2）之 Array 相关
在深入了解 Array 之前,一直以为 Array 比较简单,但是深入了解后才发现其实挺复杂的.所以我把重要的写在最前面,但凡遇到和语言本身相关的问题,都可以查阅 Java Language and ...
原子操作&普通锁&读写锁
一:原子操作CAS(compare-and-swap) 原子操作分三步:读取addr的值,和old进行比较,如果相等,则将new赋值给*addr,他能保证这三步一起执行完成,叫原子操作也就是说它不能再 ...
80后程序员降薪6K，预感中年危机来袭，准备跳槽却碰壁
一提及程序员,很多人想到的都是“工资高”“技术好”诸如此类的,可见程序员是个非常赚钱的职业,所以每年都会有很多毕业生来选择这个行业. 但是社会是公平的,不要只看程序员表面上的光鲜亮丽,其背后也有很多的 ...
java基础-String不可变的好处
一.java内部String类的实现: java 8: public final class String implements java.io.Serializable, Comparable< ...
js将一个数组分成多个数组
1,将数组array分成长度为subGroupLength的小数组并返回新数组 function group(array, subGroupLength) { let index = 0; let n ...
纯CSS编写汉克狗
1,CSS中原生的变量定义语法是:--*,变量使用语法是:var(--*),其中*表示我们的变量名称:在CSS变量命名中,不能包含$,[,^,(,%等字符,普通字符局限在只要是“数字[0-9]”“字母 ...

Scrapy：腾讯招聘整站数据爬取

Scrapy：腾讯招聘整站数据爬取的更多相关文章

随机推荐

热门专题