python3 scrapy 爬取腾讯招聘

安装scrapy不再赘述，

在控制台中输入scrapy startproject tencent 创建爬虫项目名字为 tencent

接着cd tencent

用pycharm打开tencent项目

构建item文件

# -*- coding: utf-8 -*-

# Define here the models for your scraped items

#

# See documentation in:

# http://doc.scrapy.org/en/latest/topics/items.html

import scrapy

class TencentItem(scrapy.Item):

# define the fields for your item here like:

# name = scrapy.Field()

#职位名

positionname = scrapy.Field()

#详细链接

positionLink = scrapy.Field()

#职位类别

positionType = scrapy.Field()

#招聘人数

peopleNum = scrapy.Field()

#工作地点

workLocation = scrapy.Field()

#发布时间

publishTime = scrapy.Field()

　　接着在spiders文件夹中新建tencentPostition.py文件代码如下注释写的很清楚

# -*- coding: utf-8 -*-

import scrapy

from tencent.items import TencentItem

class TencentpostitionSpider(scrapy.Spider):

#爬虫名

name = 'tencent'

#爬虫域

allowed_domains = ['tencent.com']

#设置URL

url = 'http://hr.tencent.com/position.php?&start='

#设置页码

offset = 0

#默认url

start_urls = [url+str(offset)]

def parse(self, response):

#xpath匹配规则

for each in response.xpath("//tr[@class='even'] | //tr[@class='odd']"):

item = TencentItem()

# 职位名

item["positionname"] = each.xpath("./td[1]/a/text()").extract()[0]

# 详细链接

item["positionLink"] = each.xpath("./td[1]/a/@href").extract()[0]

# 职位类别

try:

item["positionType"] = each.xpath("./td[2]/text()").extract()[0]

except:

item["positionType"] = '空'

# 招聘人数

item["peopleNum"] = each.xpath("./td[3]/text()").extract()[0]

# 工作地点

item["workLocation"] = each.xpath("./td[4]/text()").extract()[0]

# 发布时间

item["publishTime"] = each.xpath("./td[5]/text()").extract()[0]

#把数据交给管道文件

yield item

#设置新URL页码

if(self.offset<2620):

self.offset += 10

#把请求交给控制器

yield scrapy.Request(self.url+str(self.offset),callback=self.parse)

　　接着配置管道文件pipelines.py代码如下

# -*- coding: utf-8 -*-

# Define your item pipelines here

#

# Don't forget to add your pipeline to the ITEM_PIPELINES setting

# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html

import json

class TencentPipeline(object):

def __init__(self):

#在初始化方法中打开文件

self.fileName = open("tencent.json","wb")

def process_item(self, item, spider):

#把数据转换为字典再转换成json

text = json.dumps(dict(item),ensure_ascii=False)+"\n"

#写到文件中编码设置为utf-8

self.fileName.write(text.encode("utf-8"))

#返回item

return item

def close_spider(self,spider):

#关闭时关闭文件

self.fileName.close()

　　接下来需要配置settings.py文件

不遵循ROBOTS规则

1	`ROBOTSTXT_OBEY` `=` `False`

1 2	`#下载延迟` `DOWNLOAD_DELAY` `=` `3`

#设置请求头

DEFAULT_REQUEST_HEADERS = {

'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36',

'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',

}

#交给哪个管道文件处理文件夹.管道文件名.类名

ITEM_PIPELINES = {

'tencent.pipelines.TencentPipeline': 300,

}

　接下来再控制台中输入　

scrapy crawl tencent

即可爬取

源码地址

https://github.com/ingxx/scrapy_to_tencent　

python3 scrapy 爬取腾讯招聘的更多相关文章

简单的scrapy实战:爬取腾讯招聘北京地区的相关招聘信息
简单的scrapy实战:爬取腾讯招聘北京地区的相关招聘信息简单的scrapy实战:爬取腾讯招聘北京地区的相关招聘信息系统环境:Fedora22(昨天已安装scrapy环境) 爬取的开始URL:ht ...
利用scrapy爬取腾讯的招聘信息
利用scrapy框架抓取腾讯的招聘信息,爬取地址为:https://hr.tencent.com/position.php 抓取字段包括:招聘岗位,人数,工作地点,发布时间,及具体的工作要求和工作任务 ...
『Scrapy』爬取腾讯招聘网站
分析爬取对象初始网址, http://hr.tencent.com/position.php?@start=0&start=0#a (可选)由于含有多页数据,我们可以查看一下这些网址有什么相 ...
scrapy 第一个案例（爬取腾讯招聘职位信息）
import scrapy import json class TzcSpider(scrapy.Spider): # spider的名字,唯一 name = 'tzc' # 起始地址 start_u ...
python之scrapy爬取某集团招聘信息以及招聘详情
1.定义爬取的字段items.py # -*- coding: utf-8 -*- # Define here the models for your scraped items # # See do ...
Python 爬取腾讯招聘职位详情 2019/12/4有效
我爬取的是Python相关职位,先po上代码,(PS:本人小白,这是跟着B站教学视频学习后,老师留的作业,因为腾讯招聘的网站变动比较大,老师的代码已经无法运行,所以po上),一些想法和过程在后面. f ...
scrapy 爬取智联招聘
准备工作 1. scrapy startproject Jobs 2. cd Jobs 3. scrapy genspider ZhaopinSpider www.zhaopin.com 4. scr ...
利用Crawlspider爬取腾讯招聘数据(全站，深度)
需求: 使用crawlSpider(全站)进行数据爬取 - 首页: 岗位名称,岗位类别 - 详情页:岗位职责 - 持久化存储代码: 爬虫文件: from scrapy.linkextractors ...
python爬虫爬取腾讯招聘信息（静态爬虫）
环境: windows7,python3.4 代码:(亲测可正常执行) import requests from bs4 import BeautifulSoup from math import c ...

随机推荐

boot sector FAT
终于在nowcoder爆发了的懒惰
题目这类题目我实在忍不了了 Emma,随便做个nowcode比赛题吧,我在oj上也没找到题意求\(\sum_{L=1}^{n}\sum_{R=i}^{n}a[k](L<=k<=R)\ ...
P3870 [TJOI2009]开关
思路重题代码 #include <iostream> #include <vector> #include <cstdio> #include <cstr ...
SPOJ LAS（BFS）题解
题目:VJ 思路: BFS+回溯,但是要剪枝,看了dalao的题解,超时+WA无数发,终于过了 #include<cstdio> #include<cstring> #incl ...
mybatis的注解开发之三种动态sql
脚本sql XML配置方式的动态SQL我就不讲了,有兴趣可以自己了解,下面是用<script>的方式把它照搬过来,用注解来实现.适用于xml配置转换到注解配置 @Select(" ...
C#学习笔记（十八）：数据结构和泛型
数据结构只有这四种 a.集合:数据之间没有特定的关系 b.线性结构:数据之间有一对一的前后联系 c.树形结构:数据之间有一对多的关系,一个父节点有多个子节点,一个子节点只能有一个父节点 d.图状结构 ...
json库的编译方法和vs2010中导入第三方库的方法
json库的编译方法和vs2010中导入第三方库的方法一.去相应官网下载json.cpp文件 Jsoncpp下载:https://sourceforge.net/projects/jsoncpp/ ...
NS3 使用NS3工具PyViz
官方文档跑了一个样例(first.py): 由于 NetAnim 对我实在是有点不友好,在 PyViz 和 NetAnim 之间,我倾向前者.后者需要生成.xml文件,相比前者较为麻烦. 安装过程: ...
UVa 225 黄金图形（回溯+剪枝）
https://vjudge.net/problem/UVA-225 题意:平面上有k个障碍点,从(0,0)出发,第一次走1个单位,第二次走2个单位,...第n次走n个单位,最后恰好回到(n,n).每 ...
ThreadPool开启多线程时支持最大连接200个(默认为2个),不加则会超时
//ThreadPool System.Net.ServicePointManager.DefaultConnectionLimit = 200;

python3 scrapy 爬取腾讯招聘

python3 scrapy 爬取腾讯招聘的更多相关文章

随机推荐

热门专题