python3拉勾网爬虫之（您操作太频繁，请稍后访问）

你是否经历过这个：

那就对了~
因为需要post和相关的cookie来请求~
所以，一个简单的代码爬拉钩~~~

 1 import requests

 2 import time

 3 import json

 4

 5

 6 def main():

 7     url_start = "https://www.lagou.com/jobs/list_运维?city=%E6%88%90%E9%83%BD&cl=false&fromSearch=true&labelWords=&suginput="

 8     url_parse = "https://www.lagou.com/jobs/positionAjax.json?city=成都&needAddtionalResult=false"

 9     headers = {

10         'Accept': 'application/json, text/javascript, */*; q=0.01',

11         'Referer': 'https://www.lagou.com/jobs/list_%E8%BF%90%E7%BB%B4?city=%E6%88%90%E9%83%BD&cl=false&fromSearch=true&labelWords=&suginput=',

12         'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'

13     }

14     for x in range(1, 5):

15         data = {

16             'first': 'true',

17             'pn': str(x),

18             'kd': '运维'

19                 }

20         s = requests.Session() # 创建一个session对象

21         s.get(url_start, headers=headers, timeout=3)  # 用session对象发出get请求，请求首页获取cookies

22         cookie = s.cookies  # 为此次获取的cookies

23         response = s.post(url_parse, data=data, headers=headers, cookies=cookie, timeout=3)  # 获取此次文本

24         time.sleep(5)

25         response.encoding = response.apparent_encoding

26         text = json.loads(response.text)

27         info = text["content"]["positionResult"]["result"]

28         for i in info:

29             print(i["companyFullName"])

30             companyFullName = i["companyFullName"]

31             print(i["positionName"])

32             positionName = i["positionName"]

33             print(i["salary"])

34             salary = i["salary"]

35             print(i["companySize"])

36             companySize = i["companySize"]

37             print(i["skillLables"])

38             skillLables = i["skillLables"]

39             print(i["createTime"])

40             createTime = i["createTime"]

41             print(i["district"])

42             district = i["district"]

43             print(i["stationname"])

44             stationname = i["stationname"]

45

46 if __name__ == '__main__':

47     main()

python3拉勾网爬虫之（您操作太频繁，请稍后访问）的更多相关文章

python爬虫拉钩网：{'msg': '您操作太频繁,请稍后再访问', 'clientIp': '113.57.176.181', 'success': False}
反爬第一课: 在打印html.text的时候总会提示 {'success': False, 'msg': '您操作太频繁,请稍后再访问', 'clientIp': '113.14.1.254'} 需要 ...
Python3网络爬虫-- 使用代理，轮换使用各种IP访问
# proxy_list 代理列表 run_times = 100000 for i in range(run_times): for item in proxy_list: proxies = { ...
Python3网络爬虫之requests动态爬虫：拉钩网
操作环境: Windows10.Python3.6.Pycharm.谷歌浏览器目标网址: https://www.lagou.com/jobs/list_Python/p-city_0?px=defa ...
.Net实现拉勾网爬虫
前几天看到一个.NET Core写成的爬虫,有些莫名的小兴奋,之前一直用集搜客去爬拉勾网的招聘信息,这个傻瓜化工具相当于用HTML模板页去标记DOM节点,然后在浏览器窗口上模拟人的浏览行为同时跟踪节点 ...
Python3网络爬虫(四)：使用User Agent和代理IP隐藏身份《转》
https://blog.csdn.net/c406495762/article/details/60137956 运行平台:Windows Python版本:Python3.x IDE:Sublim ...
# Python3微博爬虫[requests+pyquery+selenium+mongodb]
目录 Python3微博爬虫[requests+pyquery+selenium+mongodb] 主要技术站点分析程序流程图编程实现数据库选择代理IP测试模拟登录获取用户详细信息获取 ...
Python3 常用爬虫库的安装
Python3 常用爬虫库的安装 1 简介 Windows下安装Python3常用的爬虫库:requests.selenium.beautifulsoup4.pyquery.pymysql.pymon ...
转：【Python3网络爬虫开发实战】 requests基本用法
1. 准备工作在开始之前,请确保已经正确安装好了requests库.如果没有安装,可以参考1.2.1节安装. 2. 实例引入 urllib库中的urlopen()方法实际上是以GET方式请求网页,而 ...
Python3.x爬虫教程：爬网页、爬图片、自己主动登录
林炳文Evankaka原创作品. 转载请注明出处http://blog.csdn.net/evankaka 摘要:本文将使用Python3.4爬网页.爬图片.自己主动登录.并对HTTP协议做了一个简单 ...

随机推荐

es6 快速入门系列 —— 对象
其他章节请看: es6 快速入门系列对象试图解决的问题写法繁杂属性初始值需要重复写 function createPeople(name, age){ // name 和 age 都写了 2 ...
AQS详解之独占锁模式
AQS介绍 AbstractQueuedSynchronizer简称AQS,即队列同步器.它是JUC包下面的核心组件,它的主要使用方式是继承,子类通过继承AQS,并实现它的抽象方法来管理同步状态,它分 ...
js 中的值类型和引用类型
javascript中值类型(基本类型):number,string,bool,undefined,null(这5种基本数据类型是按值访问的,因为可以操作保存在变量中的实际的值) 引用类型:对象(Ob ...
Twist the Permutation 数列的轮换题 Codeforces 776 div3
这是一道比较经典的将数列中的数字轮换的题目,我们先看题干: 题干分析:先浅浅地分析一下题目是要我们干什么,我们会默认有一个已经升序排序地1~n的排列,然后我们会给定一个新排列是在原有排列的基础上进行o ...
source insight新建工程
1.打开Source Insight.如果已经打开过项目,则选择Project->Close Project.然后点击Project->New Project: 2.在弹出界面填入项目名 ...
VS code 设置中文语言环境（实现语言切换自由）
1.打开vs code,然后按快捷键ctrl+shift+p,输入configure language>回车 2.选择Install Additional Languages... 3.在左侧选 ...
[SPDK/NVMe存储技术分析]009 - Introduction to RDMA Send | RDMA Send操作概论
来源: https://zcopy.wordpress.com/ 说明: 本文不是对原文的逐字逐句翻译,而是摘取核心部分以介绍RDMA Send操作(后面凡是提到RDMA send, 都对应于IBA里 ...
CVE-2017-8759 微软word漏洞复现以及利用
CVE-2017-8759 微软word漏洞复现以及利用 0x00 漏洞描述近日,360集团核心安全事业部分析团队发现一个新型的Office文档高级威胁攻击,攻击使用了9月12日补丁刚修复的.NET ...
生成树Toolkit
STP Toolkit 快速收敛: Port Fast 生成树安全: Root Guard BPDU Guard BPDU Filter Port Security 防环: Loop Guard Po ...
Rabbitmq安装与部署
一:安装依赖软件Erlang 安装包otp_src_22.3.tar.gz,下载到部署服务器tar -zxvf解压 mv otp_src_22.3 ./erlang变更文件夹名字可能需要安装的依赖包 ...

python3拉勾网爬虫之（您操作太频繁，请稍后访问）

python3拉勾网爬虫之（您操作太频繁，请稍后访问）的更多相关文章

随机推荐

热门专题