Python 爬取腾讯招聘职位详情 2019/12/4有效

我爬取的是Python相关职位，先po上代码，（PS：本人小白，这是跟着B站教学视频学习后，老师留的作业，因为腾讯招聘的网站变动比较大，老师的代码已经无法运行，所以po上），一些想法和过程在后面。

 from lxml import etree

 import requests

 HEADERS = {

     'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36.36',

     'Cookie': '__ga=GA1.2.212176558.1568885824; pgv_pvi=2298593280; _gcl_au=1.1.1370638257.1568885828; loading=agree',

     'Referer': 'https://careers.tencent.com/search.html?keyword=python',

     'Authority': 'careers.tencent.com',

     "Dnt": ""

 }

 #通过传入的indexNum获取Dict

 def GetJsonByIndexUrl(indexNum):

     base_url = "https://careers.tencent.com/tencentcareer/api/post/Query?timestamp=1575374831812&countryId=&cityId" \

                "=&bgIds=&productId=&categoryId=&parentCategoryId=&attrId=&keyword=python&pageIndex={" \

                "}&pageSize=10&language=zh-cn&area=cn"

     url = base_url.format(indexNum)  # 传入indexNum的值，构造出完整的indexURL

     response = requests.get(url, headers=HEADERS)

     postDict = response.json()

     return postDict

 #通过获取的Dict取得每个职位的Id

 def GetPostIdByDict(postDict):

     postIds = []

     data = postDict["Data"]

     posts = data["Posts"]

     for post in posts:

         postId = post["PostId"]

         postIds.append(postId)

     return postIds

 #取得Id后，再获取职位详情内容

 # post_url="https://careers.tencent.com/jobdesc.html?postId="这是详情页面，但是数据也是在json里面，所以直接获取json内容，

 # 也就是下面的detail_url

 def GetDetailByPostId(postIds):

     detail_url = "https://careers.tencent.com/tencentcareer/api/post/ByPostId?timestamp=1575389747280&postId={}&language=zh-cn"

     for id in postIds:

         detail_url_byId = detail_url.format(id)

         rsp = requests.get(detail_url_byId)

         detailData = rsp.json()

         print(detailData["Data"])

 if __name__ == '__main__':

     for x in range(1, 11):  # 获取前10页的信息

         mydict = GetJsonByIndexUrl(x)

         postIds = GetPostIdByDict(mydict)

         print("第", x, "页", "*" * 20)

         GetDetailByPostId(postIds)

         print("*" * 20)

一些想法和过程：

①一开始做的时候，发现职位的List不在当前页面，所以爬取这个无法获取信息，于是查看NetWork发现一个路径才是列表信息，

我命名为base_url，通过requests.get可以获得此List中的postId。

②点开一个职位的详情页面，发现其实详情内容也不在当前页面，内容又是一个新的路径，我命名为detail_url，通过requests.get，

其实就可以获得想得到的信息了。

Python 爬取腾讯招聘职位详情 2019/12/4有效的更多相关文章

python爬取智联招聘职位信息（多进程）
测试了下,采用单进程爬取5000条数据大概需要22分钟,速度太慢了点.我们把脚本改进下,采用多进程. 首先获取所有要爬取的URL,在这里不建议使用集合,字典或列表的数据类型来保存这些URL,因为数据量 ...
python爬取智联招聘职位信息（单进程）
我们先通过百度搜索智联招聘,进入智联招聘官网,一看,傻眼了,需要登录才能查看招聘信息没办法,用账号登录进去,登录后的网页如下: 输入职位名称点击搜索,显示如下网页: 把这个URL:https://s ...
scrapy 第一个案例（爬取腾讯招聘职位信息）
import scrapy import json class TzcSpider(scrapy.Spider): # spider的名字,唯一 name = 'tzc' # 起始地址 start_u ...
简单的scrapy实战:爬取腾讯招聘北京地区的相关招聘信息
简单的scrapy实战:爬取腾讯招聘北京地区的相关招聘信息简单的scrapy实战:爬取腾讯招聘北京地区的相关招聘信息系统环境:Fedora22(昨天已安装scrapy环境) 爬取的开始URL:ht ...
用Python爬取智联招聘信息做职业规划
上学期在实验室发表时写了一个爬取智联招牌信息的爬虫. 操作流程大致分为:信息爬取——数据结构化——存入数据库——所需技能等分词统计——数据可视化 1.数据爬取 job = "通信工程师&qu ...
Python爬取腾讯新闻首页所有新闻及评论
前言这篇博客写的是实现的一个爬取腾讯新闻首页所有的新闻及其所有评论的爬虫.选用Python的Scrapy框架.这篇文章主要讨论使用Chrome浏览器的开发者工具获取新闻及评论的来源地址. Chrom ...
python 爬取腾讯视频的全部评论
一.网址分析查阅了网上的大部分资料,大概都是通过抓包获取.但是抓包有点麻烦,尝试了F12,也可以获取到评论.以电视剧<在一起>为例子.评论最底端有个查看更多评论猜测过去应该是 Ajax ...
『Scrapy』爬取腾讯招聘网站
分析爬取对象初始网址, http://hr.tencent.com/position.php?@start=0&start=0#a (可选)由于含有多页数据,我们可以查看一下这些网址有什么相 ...
python爬取实习僧招聘信息字体反爬
参考博客:http://www.cnblogs.com/eastonliu/p/9925652.html 实习僧招聘的网站采用了字体反爬,在页面上显示正常,查看源码关键信息乱码,如下图所示: 查看网页 ...

随机推荐

吴裕雄 Bootstrap 前端框架开发——Bootstrap 字体图标(Glyphicons)：glyphicon glyphicon-refresh
<!DOCTYPE html> <html> <head> <meta charset="utf-8"> <meta name ...
vue作用域插槽实践
引言我在练手的时候发现后端返回的数据可以通过两种方式渲染 (自己遇到的可能你都会哈哈哈) 后端传过来的数据函数 from django.http import JsonResponse def ...
Ubuntu18安装LAMP环境详细步骤
Ubuntu18安装Lamp环境 1.su root 切换root账号(root账户权限高不用总输入sudo) 更新源阿里源网址:https://opsx.alibaba.com/mirror 更 ...
POJ 1320：Street Numbers
Street Numbers Time Limit: 1000MS Memory Limit: 10000K Total Submissions: 2753 Accepted: 1530 De ...
HDU 5282：Senior's String
Senior's String Accepts: 30 Submissions: 286 Time Limit: 2000/1000 MS (Java/Others) Memory Limit ...
Neo4j--UNIQUE约束
UNIQUE简介和关系型数据库一样,对数据进行约束作用. 比如在某个属性上不能插入重复的节点. 比如属性的完整性约束. 创建UNIQUE约束创建UNIQUE语法 CREATE CONSTRAINT ...
二十九、CI框架之session用法
一.我们在控制器中添加session写入和读取的2个函数,如图: 二.我们用浏览器访问login页面,可以看到有一串被加密的cookies,在CI中session也是以cookies的方式存放的三. ...
路飞学城—Python爬虫实战密训班第三章
路飞学城—Python爬虫实战密训班第三章一.scrapy-redis插件实现简单分布式爬虫 scrapy-redis插件用于将scrapy和redis结合实现简单分布式爬虫: - 定义调度器 - ...
吴裕雄--天生自然JAVA SPRING框架开发学习笔记：Spring基于XML装配Bean
Bean 的装配可以理解为依赖关系注入,Bean 的装配方式也就是 Bean 的依赖注入方式.Spring 容器支持多种形式的 Bean 的装配方式,如基于 XML 的 Bean 装配.基于 Anno ...
css3 实现渐变边框
(1)一个渐变的底边线border:1px solid transparent;border-image: -webkit-linear-gradient(right, #FF9848,#FF2A2B ...

Python 爬取腾讯招聘职位详情 2019/12/4有效

Python 爬取腾讯招聘职位详情 2019/12/4有效的更多相关文章

随机推荐

热门专题