Python 爬取腾讯招聘职位详情 2019/12/4有效

我爬取的是Python相关职位，先po上代码，（PS：本人小白，这是跟着B站教学视频学习后，老师留的作业，因为腾讯招聘的网站变动比较大，老师的代码已经无法运行，所以po上），一些想法和过程在后面。

 from lxml import etree

 import requests

 HEADERS = {

     'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36.36',

     'Cookie': '__ga=GA1.2.212176558.1568885824; pgv_pvi=2298593280; _gcl_au=1.1.1370638257.1568885828; loading=agree',

     'Referer': 'https://careers.tencent.com/search.html?keyword=python',

     'Authority': 'careers.tencent.com',

     "Dnt": ""

 }

 #通过传入的indexNum获取Dict

 def GetJsonByIndexUrl(indexNum):

     base_url = "https://careers.tencent.com/tencentcareer/api/post/Query?timestamp=1575374831812&countryId=&cityId" \

                "=&bgIds=&productId=&categoryId=&parentCategoryId=&attrId=&keyword=python&pageIndex={" \

                "}&pageSize=10&language=zh-cn&area=cn"

     url = base_url.format(indexNum)  # 传入indexNum的值，构造出完整的indexURL

     response = requests.get(url, headers=HEADERS)

     postDict = response.json()

     return postDict

 #通过获取的Dict取得每个职位的Id

 def GetPostIdByDict(postDict):

     postIds = []

     data = postDict["Data"]

     posts = data["Posts"]

     for post in posts:

         postId = post["PostId"]

         postIds.append(postId)

     return postIds

 #取得Id后，再获取职位详情内容

 # post_url="https://careers.tencent.com/jobdesc.html?postId="这是详情页面，但是数据也是在json里面，所以直接获取json内容，

 # 也就是下面的detail_url

 def GetDetailByPostId(postIds):

     detail_url = "https://careers.tencent.com/tencentcareer/api/post/ByPostId?timestamp=1575389747280&postId={}&language=zh-cn"

     for id in postIds:

         detail_url_byId = detail_url.format(id)

         rsp = requests.get(detail_url_byId)

         detailData = rsp.json()

         print(detailData["Data"])

 if __name__ == '__main__':

     for x in range(1, 11):  # 获取前10页的信息

         mydict = GetJsonByIndexUrl(x)

         postIds = GetPostIdByDict(mydict)

         print("第", x, "页", "*" * 20)

         GetDetailByPostId(postIds)

         print("*" * 20)

一些想法和过程：

①一开始做的时候，发现职位的List不在当前页面，所以爬取这个无法获取信息，于是查看NetWork发现一个路径才是列表信息，

我命名为base_url，通过requests.get可以获得此List中的postId。

②点开一个职位的详情页面，发现其实详情内容也不在当前页面，内容又是一个新的路径，我命名为detail_url，通过requests.get，

其实就可以获得想得到的信息了。

Python 爬取腾讯招聘职位详情 2019/12/4有效的更多相关文章

python爬取智联招聘职位信息（多进程）
测试了下,采用单进程爬取5000条数据大概需要22分钟,速度太慢了点.我们把脚本改进下,采用多进程. 首先获取所有要爬取的URL,在这里不建议使用集合,字典或列表的数据类型来保存这些URL,因为数据量 ...
python爬取智联招聘职位信息（单进程）
我们先通过百度搜索智联招聘,进入智联招聘官网,一看,傻眼了,需要登录才能查看招聘信息没办法,用账号登录进去,登录后的网页如下: 输入职位名称点击搜索,显示如下网页: 把这个URL:https://s ...
scrapy 第一个案例（爬取腾讯招聘职位信息）
import scrapy import json class TzcSpider(scrapy.Spider): # spider的名字,唯一 name = 'tzc' # 起始地址 start_u ...
简单的scrapy实战:爬取腾讯招聘北京地区的相关招聘信息
简单的scrapy实战:爬取腾讯招聘北京地区的相关招聘信息简单的scrapy实战:爬取腾讯招聘北京地区的相关招聘信息系统环境:Fedora22(昨天已安装scrapy环境) 爬取的开始URL:ht ...
用Python爬取智联招聘信息做职业规划
上学期在实验室发表时写了一个爬取智联招牌信息的爬虫. 操作流程大致分为:信息爬取——数据结构化——存入数据库——所需技能等分词统计——数据可视化 1.数据爬取 job = "通信工程师&qu ...
Python爬取腾讯新闻首页所有新闻及评论
前言这篇博客写的是实现的一个爬取腾讯新闻首页所有的新闻及其所有评论的爬虫.选用Python的Scrapy框架.这篇文章主要讨论使用Chrome浏览器的开发者工具获取新闻及评论的来源地址. Chrom ...
python 爬取腾讯视频的全部评论
一.网址分析查阅了网上的大部分资料,大概都是通过抓包获取.但是抓包有点麻烦,尝试了F12,也可以获取到评论.以电视剧<在一起>为例子.评论最底端有个查看更多评论猜测过去应该是 Ajax ...
『Scrapy』爬取腾讯招聘网站
分析爬取对象初始网址, http://hr.tencent.com/position.php?@start=0&start=0#a (可选)由于含有多页数据,我们可以查看一下这些网址有什么相 ...
python爬取实习僧招聘信息字体反爬
参考博客:http://www.cnblogs.com/eastonliu/p/9925652.html 实习僧招聘的网站采用了字体反爬,在页面上显示正常,查看源码关键信息乱码,如下图所示: 查看网页 ...

随机推荐

HDU 4662 MU Puzzle（找规律）
题意:问是否能把MI通过以下规则转换成给定的字符串s. 1.使M之后的任何字符串加倍(即,将Mx更改为Mxx). 例如:MIU到MIUIU.2.用U替换任何III.例如:MUIIIU至MUUU.3.去 ...
EUI库 - 快速入口之项目配置
egretProperties.json exmlRoot 指定exml文件存放根目录,该路径必须为相对路径,目录内只能有exml文件 themes 主题文件数组,配置所有主题文件路径,该 ...
基于云开发开发 Web 应用（四）：引入统计及 Crash 收集
在完成了产品的基础开发以后,接下来需要进行一些周边的工作,这些周边工具将会帮助下一步优化产品. 为什么要加应用统计和 Crash 收集不少开发者在开发的时候,很少会意识到需要添加应用统计和 Cras ...
ABP框架没有httpPost，httpget，httpput特性
需要引用一下组件, Microsoft.AspNetCore.Mvc
java集合对象区别二
集合包是Java中最常用的包,它最常用的有Collection和Map两个接口的实现类,Collection用于存放多个单对象,Map用于存放Key-Value形式的键值对. Collection中常 ...
MySQL-复制技术演进过程
复制技术的演进可以分为:基于数据安全的复制,基于效率的复制基于数据安全的复制异步复制参考: https://baijiahao.baidu.com/s?id=163939455634386120 ...
SASS - 简介
SASS – 简介 SASS – 环境搭建 SASS – 使用Sass程序 SASS – 语法 SASS – 变量 SASS- 局部文件(Partial) SASS – 混合(Mixin) SASS ...
Oracle专题
定时任务:JOB文件夹监视执行过的SQL 语句 select * from v$sqlarea a where module='PL/SQL Developer' order by a.FIRST_ ...
promise核心为什么用promise
为什么要用promise 1.使用纯回调函数先指定回调函数,再启动异步任务答 1.指定回调函数的方式更加灵活可以在执行任务前,中,后 2.支持链式调用,解决回调地狱问题什么是回调地狱:回调函数 ...
Vue-router（1）之component标签
1. 使用 <component>标签实现组件切换 <component> 是Vue提供的标签语法:有一个is属性,is的作用就是显示指定的组件 <template> ...

Python 爬取腾讯招聘职位详情 2019/12/4有效

Python 爬取腾讯招聘职位详情 2019/12/4有效的更多相关文章

随机推荐

热门专题