拉购网职位搜索爬虫

分析职位搜索调用接口：

浏览器开发者模式(快捷键F12)切换手机模式，打开拉购网职位搜索链接 https://m.lagou.com/search.html
输入搜索关键词，例如"Python" ，可以看到右侧的XHR中出现一个AJAX调用请求 https://m.lagou.com/search.json?city=%E5%85%A8%E5%9B%BD&positionName=Python&pageNo=1&pageSize=15
找到了AJAX接口后，我们就可以使用requests模拟发送请求来搜索职位信息了。

下面是实现源码：

#!/usr/bin/env python3

# -*-coding:utf8-*-

import logging

import traceback

import requests

from requests.adapters import HTTPAdapter

import json

import random

import sys

def usage():

    print("Usage:\n\t lagou_search <keyword> [page_number] [地理位置] \n\n\t<keyword> : 搜索职位名称\n\t[page_number]显示页数,每页15条\n------\n")

if len(sys.argv) < 2:

    usage()

    sys.exit(1)

keyword = sys.argv[1]

if len(sys.argv) > 2:

    page_num = int(sys.argv[2])

else:

    page_num = 1

if len(sys.argv) > 3:

    city = sys.argv[3]

else:

    city = '全国'

LOG_FORMAT = "%(asctime)s - %(filename)s - %(funcName)s - %(lineno)s - %(levelname)s - %(message)s"

logging.basicConfig(filename=f'log.lagou.log', level=logging.DEBUG, filemode='a', format=LOG_FORMAT)

def get_proxy():

    proxy_uri = 'socks5://127.0.0.1:1084'

    proxies = {

        'http': proxy_uri,

        'https': proxy_uri

    }

    return proxies

def search_jobs(keyword, page):

    proxies = get_proxy()

    myheaders = {

        'User-Agent': 'Mozilla/5.0 (Linux; Android 7.1.1; OS105 Build/NGI77B) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.84 Mobile Safari/537.36',

    }

    headers = {

        'Host': 'm.lagou.com',

        'Accept': 'application/json,text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',

        'X-Requested-With': 'XMLHttpRequest',

        'User-Agent': 'Mozilla/5.0 (Linux; Android 7.1.1; OS105 Build/NGI77B) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.84 Mobile Safari/537.36',

        'Referer': 'https://m.lagou.com/search.html',

        'Accept-Language': 'zh-CN,zh;q=0.9'

    }

    payload = {

        'city': city,

        'positionName': keyword,

        'pageNo': 1,

        'pageSize': 15

    }

    result = {}

    try:

        s = requests.Session()

        s.mount('http://', HTTPAdapter(max_retries=5))

        s.mount('https://', HTTPAdapter(max_retries=5))

        resp = s.get('https://m.lagou.com/search.html', headers=myheaders, proxies=proxies, timeout=10)

        for pn in range(1, page+1):

            payload['pageNo'] = pn

            try:

                resp = s.get('https://m.lagou.com/search.json', params=payload, proxies=proxies, timeout=10, headers=headers)

                jscontent = resp.text

                jsDict = json.loads(jscontent)

                statusJson = jsDict['state'] if 'state' in jsDict.keys() else 0

                if statusJson == 1:

                    if 'content' in jsDict.keys():

                        jsList = jsDict['content']['data']['page']['result']

                        for jsData in jsList:

                            result['positionId'] = jsData['positionId']

                            result['positionName'] = jsData['positionName']

                            result['city'] = jsData['city']

                            result['salary'] = jsData['salary']

                            result['companyFullName'] = jsData['companyFullName']

                            result['link'] = 'https://www.lagou.com/jobs/' + str(jsData['positionId']) + '.html'

                            print(json.dumps(result, ensure_ascii=False))

            except Exception as e:

                logging.exception(str(e))

    except requests.exceptions.ProxyError as e:

        logging.exception(f'proxy_error ' + str(e))

    except Exception as e:

        logging.exception(f'proxy: ' + str(e))

if __name__ == "__main__":

    try:

        search_jobs(keyword, page_num)

    except Exception as e:

        print(e)

脚本工具使用方法：

╰─ ./lagou_search.py

Usage:

         lagou_search <keyword> [page_number] [地理位置]

        <keyword> : 搜索职位名称

        [page_number]显示页数,每页15条

------

AJAX接口-拉购网职位搜索爬虫的更多相关文章

关于网易云音乐爬虫的api接口？
抓包能力有限,分析了一下网易云音乐的一些api接口,但是关于它很多post请求都是加了密,没有弄太明白.之前在知乎看到过一个豆瓣工程师写的教程,但是被投诉删掉了,请问有网友fork了的吗?因为我觉得他 ...
C#制作网盘搜索工具(简单的爬虫）
最近学习C#编程,在网上发现一篇winform下制作百度网盘搜索器的文章,故而下载源码学习一二.无奈原博所用的网址失效,故而自己改写了网址和相关源代码,也进行了实现.因为初学,接触的知识较多,为免忘记 ...
[PHP] 网盘搜索引擎-采集爬取百度网盘分享文件实现网盘搜索
标题起的太大了,都是骗人的.最近使用PHP实现了简单的网盘搜索程序,并且关联了微信公众平台.用户可以通过公众号输入关键字,公众号会返回相应的网盘下载地址.就是这么一个简单的功能,类似很多的网盘搜索类网 ...
【Python3爬虫】网易云音乐爬虫
此次的目标是爬取网易云音乐上指定歌曲所有评论并生成词云具体步骤: 一:实现JS加密找到这个ajax接口没什么难度,问题在于传递的数据,是通过js加密得到的,因此需要查看js代码. 通过断掉调试可以 ...
Redis 实战 —— 10. 实现内容搜索、定向广告和职位搜索
使用 Redis 进行搜索 P153 通过改变程序搜索数据的方式,并使用 Redis 来减少绝大部分基于单词或者关键字进行的内容搜索操作的执行时间. P154 基本搜索原理 P154 倒排索引 (in ...
Python 微博搜索爬虫
微博搜索爬虫网页分析由于网页端反爬虫机制比较完善所以才去移动端进行爬虫. url地址:https://m.weibo.cn/ 搜索框,输入关键词进行搜索对网页进行抓包,找到相关数据查看数据是否 ...
简单的抓取淘宝关键字信息、图片的Python爬虫|Python3中级玩家：淘宝天猫商品搜索爬虫自动化工具（第一篇）
Python3中级玩家:淘宝天猫商品搜索爬虫自动化工具(第一篇) 淘宝改字段,Bugfix,查看https://github.com/hunterhug/taobaoscrapy.git 由于Gith ...
推荐一个百度网盘搜索工具www.sososo.me
推荐一个百度网盘搜索工具 http://www.sososo.me
【百度地图API】如何使用suggestion--下拉列表方式的搜索建议
原文:[百度地图API]如何使用suggestion--下拉列表方式的搜索建议摘要: 百度地图上有一个很强大的搜索建议功能,以下拉列表的方式展示出来.比如,输入“百度”,下拉列表中就会出现“北京市海 ...

随机推荐

VS2013中带命令行参数的调试方法---C++
今天先记录一下(也是传说中大神喜欢装逼的comment line)c++中向主函数int main(int argc,char** argv )传递4中方法,欢迎添加新方法, 然后可以参考别人写的很好 ...
JVM系列【4】内存模型
JVM系列笔记目录虚拟机的基础概念 class文件结构 class文件加载过程 jvm内存模型 JVM常用指令 GC与调优硬件层数据一致性 - 存储器层次结构从L6-L0 空间由大变小,速度由慢 ...
RHSA-2017:1842-重要: 内核安全和BUG修复更新（需要重启、存在EXP、本地提权、代码执行）
[root@localhost ~]# cat /etc/redhat-release CentOS Linux release 7.2.1511 (Core) 修复命令: 使用root账号登陆She ...
C# Socket TCP发送图片与接收图片
如果需要查看更多文章,请微信搜索公众号 csharp编程大全,需要进C#交流群群请加微信z438679770,备注进群, 我邀请你进群! ! ! --------------------------- ...
Presto在滴滴的探索与实践
桔妹导读:Presto在滴滴内部发展三年,已经成为滴滴内部Ad-Hoc和Hive SQL加速的首选引擎.目前服务6K+用户,每天读取2PB ~ 3PB HDFS数据,处理30万亿~35万亿条记录,为 ...
spring boot:接口站增加api版本号后的安全增强(spring boot 2.3.3)
一,接口站增加api版本号后需要做安全保障? 1,如果有接口需要登录后才能访问的, 需要用spring security增加授权 2,接口站需要增加api版本号的检验,必须是系统中定义的版本号才能访问 ...
nginx优化: timeout超时配置
一,为什么要做连接超时设置? nginx在保持着与客户端的连接时,要消耗cpu/内存/网络等资源, 如果能在超出一定时间后自动断开连接, 则可以及时释放资源,起到优化性能.提高效率的作用说明:刘宏缔 ...
xpath教程-通过ID和Class检索转
通过ID和Class检索必备知识点在html中,id是唯一的在html中,class是可以多处引用的工具 Python3版本 lxml库[优点是解析快] HTML代码块[从网络中获取或者自 ...
Linux文件系统和管理-1文件系统目录
文件系统目录结构 Linux常见目录及用途 bin binary 放的是二进制程序 /usr/bin 和这是同一回事 bin -> usr/bin /bin是 /usr/bin的快捷方式 boo ...
Linux命令之tab 键补全
tab 键补全 tab 键可以实现命令及路径等补全,提高输入效率,避免出错命令补全用户给定的字符串只有一条惟一对应的命令,直接补全, 两次Tab会给出列表内部命令: 外部命令:bash根据PAT ...

AJAX接口-拉购网职位搜索爬虫

拉购网职位搜索爬虫

AJAX接口-拉购网职位搜索爬虫的更多相关文章

随机推荐

热门专题