scrapy 第一个案例（爬取腾讯招聘职位信息）

import scrapy

import json

class TzcSpider(scrapy.Spider):

    # spider的名字，唯一

    name = 'tzc'

    # 起始地址

    start_urls = ['https://hr.tencent.com/position.php?keywords=python&tid=0&lid=2268']

    # 每个url爬取之后会调用这个方法

    def parse(self, response):

        tr = response.xpath( '//table[@class="tablelist"]/tr[@class = "even"]|//table[@class="tablelist"]/tr[@class = "odd"]')

        with open('info.json','a') as f:

            for i in tr:

                data = {

                    "jobName": i.xpath('./td[1]/a/text()').extract_first(),

                    "jobType":i.xpath('./td[2]/text()').extract_first(),

                    "Num":i.xpath('./td[3]/text()').extract_first(),

                    "Place":i.xpath('./td[4]/text()').extract_first(),

                    "Time":i.xpath('./td[5]/text()').extract_first()

                }

                data = json.dumps(data,ensure_ascii=False)

                f.write(data)

                f.write('\n')

        # 寻找下一页标签

        url_next = response.xpath('//a[@id = "next"]/@href').extract_first()

        # 提取的是段标签，需要加上域名

        url_next = 'https://hr.tencent.com/{}'.format(url_next)

        # 返回下一页地址，scrapy会递归

        return scrapy.Request(url_next)

scrapy 第一个案例（爬取腾讯招聘职位信息）的更多相关文章

Python 爬取腾讯招聘职位详情 2019/12/4有效
我爬取的是Python相关职位,先po上代码,(PS:本人小白,这是跟着B站教学视频学习后,老师留的作业,因为腾讯招聘的网站变动比较大,老师的代码已经无法运行,所以po上),一些想法和过程在后面. f ...
python爬取智联招聘职位信息（单进程）
我们先通过百度搜索智联招聘,进入智联招聘官网,一看,傻眼了,需要登录才能查看招聘信息没办法,用账号登录进去,登录后的网页如下: 输入职位名称点击搜索,显示如下网页: 把这个URL:https://s ...
python爬取智联招聘职位信息（多进程）
测试了下,采用单进程爬取5000条数据大概需要22分钟,速度太慢了点.我们把脚本改进下,采用多进程. 首先获取所有要爬取的URL,在这里不建议使用集合,字典或列表的数据类型来保存这些URL,因为数据量 ...
简单的scrapy实战:爬取腾讯招聘北京地区的相关招聘信息
简单的scrapy实战:爬取腾讯招聘北京地区的相关招聘信息简单的scrapy实战:爬取腾讯招聘北京地区的相关招聘信息系统环境:Fedora22(昨天已安装scrapy环境) 爬取的开始URL:ht ...
python3 scrapy 爬取腾讯招聘
安装scrapy不再赘述, 在控制台中输入scrapy startproject tencent 创建爬虫项目名字为 tencent 接着cd tencent 用pycharm打开tencent项目 ...
scrapy项目1：爬取某培训机构老师信息（spider类）
1.scrapy爬虫的流程,可简单该括为以下4步: 1).新建项目---->scrapy startproject 项目名称(例如:myspider) >>scrapy.cfg为项目 ...
『Scrapy』爬取腾讯招聘网站
分析爬取对象初始网址, http://hr.tencent.com/position.php?@start=0&start=0#a (可选)由于含有多页数据,我们可以查看一下这些网址有什么相 ...
<scrapy爬虫>爬取腾讯社招信息
1.创建scrapy项目 dos窗口输入: scrapy startproject tencent cd tencent 2.编写item.py文件(相当于编写模板,需要爬取的数据在这里定义) # - ...
scrapy项目2：爬取智联招聘的金融类高端岗位（spider类）
---恢复内容开始--- 今天我们来爬取一下智联招聘上金融行业薪酬在50-100万的职位. 第一步:解析解析网页当我们依次点击下边的索引页面是,发现url的规律如下: 第1页:http://www. ...

随机推荐

gulp.基础
1.安装全局安装 npm install --global gulp 作为项目的开发依赖安装 npm install gulp --save-dev 2.在根目录下创建一个名为gulpfile.js ...
jdbcTemplate 调用存储过程。入参 array 返回 cursor
注:本文来源< jdbcTemplate 调用存储过程. 入参 array 返回 cursor > 需求: java传入一个list object.从数据库找到相关的数据并返回. ...
访问 Confluence 6 的计划任务配置
希望访问 Confluence 计划任务配置界面: 进入 > 基本配置(General Configuration) > 计划任务(Scheduled Jobs) 所有的计划任务将会按照 ...
Confluence 6 workbox 通知包含了什么
当一个用户在 Confluence 中进行下面的操作的时候,workbox 将会显示为通知: 分享(Shares)你的页面或者博客页面. 提及(Mentions)你的页面,博客页面,回复或者任务. 你 ...
linux之iptables常用命令
iptables详解 iptables -L 该命令会以列表的形式显示出当前使用的 iptables 规则,每一条规则前面的编号可以用来做为其它操作--例如删除操作--的参数,很有用 iptables ...
左查询left join on简单总结
应用场景分析:(个人观点,欢迎小祖宗们指正补充) 适合存在父子关系的单表,以及多表的查询话不多说上代码代码:mapper里的sql 表名字段什么的本来是单独集中配置的,现在还原到sql中了 & ...
cf869C组合计数问题
如果在两个区域里连点,两个区域内选的点数一定要相等即a中选出i个点,必须与b中选出i个点相连连接种类数为然后我们再来看,如果ab中有两点相连,其中一点再与c相连会出事吗? 很显然不会对答案产生 ...
jmeter csv中获取带引号的数据详情
最近在工作中,对jmeter实践的点滴的记录这里分享,不一定正确,仅供参考和讨论,有想法的欢迎留言.谈论. 1技巧1:从csv中获取带引号的数据详情背景:我们从csv中获取数据,在jmeter中使用 ...
SCSS 使用@each 方法循环遍历数组颜色并给li赋值
$list-bg:red,orange,blue,skyblue; ul{ >li{ height: 30px; @each $c in $list-bg{ $i:index($list-bg, ...
OpenJDK-study-002 从GitHub下载openjdk，以及Cygwin的安装
承前启后由于上一篇openjdk-study-001中,从Mercurial直接拉取openjdk森林失败,于是网上搜了一下,发现GitHub上有人分享openjdk的源码 https://gith ...

scrapy 第一个案例（爬取腾讯招聘职位信息）

scrapy 第一个案例（爬取腾讯招聘职位信息）的更多相关文章

随机推荐

热门专题