Scrapy 项目：腾讯招聘

目的：

通过爬取腾讯招聘网站（https://careers.tencent.com/search.html）练习Scrapy框架的使用

步骤：

1、通过抓包确认要抓取的内容是否在当前url地址中，测试发现内容不在当前url中并且数据格式为json字符串

2、请求url地址过长，考虑去除某些部分，经测试得到

'https://careers.tencent.com/tencentcareer/api/post/Query?keyword=&pageIndex=1&pageSize=10&language=zh-cn&area=cn'

3、寻找url地址，pageIndex=页码，可构造爬虫循环的URL列表

4、书写爬虫代码

　　- scrapy startproject tencent tencent.com

　　- cd tencent.com

　　- scrapy genspider hr tencent.com

5、保存为CSV文件

 1 import scrapy

 2 import json

 3

 4

 5 class HrSpider(scrapy.Spider):

 6     name = 'hr'

 7     allowed_domains = ['tencent.com']

 8     start_urls = ['https://careers.tencent.com/tencentcareer/api/post/Query?keyword=&pageIndex=1&pageSize=10&language'

 9                   '=zh-cn&area=cn']

10     url = 'https://careers.tencent.com/tencentcareer/api/post/Query?keyword=&pageIndex={' \

11           '}&pageSize=10&language=zh-cn&area=cn '

12     pageIndex = 1

13

14     def parse(self, response):

15         json_str = json.loads(response.body)

16         for content in json_str["Data"]["Posts"]:

17             content_dic = {"title": content["RecruitPostName"], "location": content["LocationName"],

18                            "date": content["LastUpdateTime"]}

19             print(content_dict)20             
　　　　　　　　　yield content_dic

21

23         if self.pageIndex < 10:

24             self.pageIndex += 1

25             next_url = self.url.format(self.pageIndex)

26             yield scrapy.Request(url=next_url, callback=self.parse)

运行爬虫

　　- scrapy crawl hr

保存命令

　　- scrapy crawl hr -o tencent.csv

Scrapy 项目：腾讯招聘的更多相关文章

Scrapy实现腾讯招聘网信息爬取【Python】
一.腾讯招聘网二.代码实现 1.spider爬虫 # -*- coding: utf-8 -*- import scrapy from Tencent.items import TencentIte ...
Scrapy：腾讯招聘整站数据爬取
项目地址:https://hr.tencent.com/ 步骤一.分析网站结构和待爬取内容以下省略一万字步骤二.上代码(不能略了) 1.配置items.py import scrapy class ...
Scrapy案例02-腾讯招聘信息爬取
目录 1. 目标 2. 网站结构分析 3. 编写爬虫程序 3.1. 配置需要爬取的目标变量 3.2. 写爬虫文件scrapy 3.3. 编写yield需要的管道文件 3.4. setting中配置请求 ...
Scrapy项目 - 实现腾讯网站社会招聘信息爬取的爬虫设计
通过使Scrapy框架,进行数据挖掘和对web站点页面提取结构化数据,掌握如何使用Twisted异步网络框架来处理网络通讯的问题,可以加快我们的下载速度,也可深入接触各种中间件接口,灵活的完成各种需求 ...
Scrapy项目 - 数据简析 - 实现腾讯网站社会招聘信息爬取的爬虫设计
一.数据分析截图本例实验,使用Weka 3.7对腾讯招聘官网中网页上所罗列的招聘信息,如:其中的职位名称.链接.职位类别.人数.地点和发布时间等信息进行数据分析,详见如下图: 图1-1 Weka ...
简单的scrapy实战:爬取腾讯招聘北京地区的相关招聘信息
简单的scrapy实战:爬取腾讯招聘北京地区的相关招聘信息简单的scrapy实战:爬取腾讯招聘北京地区的相关招聘信息系统环境:Fedora22(昨天已安装scrapy环境) 爬取的开始URL:ht ...
python爬虫scrapy项目详解（关注、持续更新）
python爬虫scrapy项目(一) 爬取目标:腾讯招聘网站(起始url:https://hr.tencent.com/position.php?keywords=&tid=0&st ...
pymongodb的使用和一个腾讯招聘爬取的案例
一.在python3中操作mongodb 1.连接条件安装好pymongo库启动mongodb的服务端(如果是前台启动后就不关闭窗口,窗口关闭后服务端也会跟着关闭) 3.使用 import pym ...
亲测——pycharm下运行第一个scrapy项目 ©seven_clear
最近在学习scrapy,就想着用pycharm调试,但不知道怎么弄,从网上搜了很多方法,这里总结一个我试成功了的. 首先当然是安装scrapy,安装教程什么的网上一大堆,这里推荐一个详细的:http: ...

随机推荐

[一天一个进阶系列] - MyBatis基础篇
前言:一直以来,很多人都是拿来主义,只停留在会使用的阶段,从未去研究挖掘其原理,剖析本质.现在慢慢探讨一下其内幕,抛砖引玉一.简介 1)常用的持久化框架 Hibernate:是一款Java世界中最著 ...
六：SpringBoot-集成Druid连接池，配置监控界面
SpringBoot-集成Druid连接池,配置监控界面 1.Druid连接池 1.1 Druid特点 2.SpringBoot整合Druid 2.1 引入核心依赖 2.2 数据源配置文件 2.3 核 ...
一次小模块的使用过程-LC12S无线模块介绍
前言: 最近帮人做了个小设备,使用了无线模块.触摸芯片,主要功能就是把触摸按键的信号无线传到控制继电器输出,MCU是STM8系列的芯片,其中使用过程中调试无线模块LC21S觉得挺好用的,就写了这篇文章 ...
2020牛客暑期多校训练营（第五场）B - Graph （异或最小生成树分治 Trie）
B - Graph 题目链接每次操作不会改变两点之间的路径异或和以 1 号点为起点,算出任意一点到 1 号点的异或值 dis[i](把该值当做 i 号点权值), 那么任意两点的异或值为 \(dis ...
HDU5739 Fantasia【点双连通分量割点】
HDU5739 Fantasia 题意: 给出一张\(N\)个点的无向图\(G\),每个点都有权值\(w_i\),要求计算\(\sum_{i=1}^{N}i\cdot G_i % 1e9+7\) 其中 ...
poj 1511-- Invitation Cards （dijkstra+优先队列）
刚开始想复杂了,一直做不出来,,,其实就是两遍dijkstra+优先队列(其实就是板子题,只要能有个好的板子,剩下的都不是事),做出来感觉好简单...... 题意:有n个车站和n个志愿者,早上每个志愿 ...
【noi 2.6_7627】鸡蛋的硬度（DP）
题意:其中n表示楼的高度,m表示你现在拥有的鸡蛋个数. 解法:f[i][j]表示 i 层楼有 j 个鸡蛋时,至少要扔多少次.3重循环,k为测试的楼层,分这时扔下去的鸡蛋碎和不碎的情况.要注意初始化. ...
C#(winform)button去掉各种边框
仔细读完,主要在FlatAppearance属性里 1.既然是添加背景图片所以这里应该使用 Button.BackgroudImage = "" ;来设置图片而不应该使用 B ...
ElasticSearch 交互使用
Curl 命令 # 建立索引 [root@dbtest01 ~]# curl -XPUT 'http://10.0.0.121:9200/test' # 插入数据 [root@dbtest01 ~]# ...
Leetcode（9）-回文数
判断一个整数是否是回文数.回文数是指正序(从左向右)和倒序(从右向左)读都是一样的整数. 示例 1: 输入: 121 输出: true 示例 2: 输入: -121 输出: false 解释: 从左向 ...

Scrapy 项目：腾讯招聘

Scrapy 项目：腾讯招聘的更多相关文章

随机推荐

热门专题