python 抓取拉勾网攻略

废话不多说，直接上代码，将数据存入Mongdb

import requests

import pymongo

import time

import random

mycon = pymongo.MongoClient('127.0.0.1',27017)  # 建立连接

mydb = mycon['lagou_data']                      # 设置库名

class LaGouSpider():

    def __init__(self,city,kd):

        self.headers = {

            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.90 Safari/537.36',

            'Referer': 'https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput=',

        }

        self.city = city

        self.max_pn =  1

        self.kd =  kd

    def get_start(self):

        mycol = mydb[self.kd]  # 设置集合名

        url = "https://www.lagou.com/jobs/positionAjax.json?city="+ self.city +"&needAddtionalResult=false"

        for page in range(1,10):

            data = {

                'first': 'true',

                'pn': page,

                'kd': self.kd

            }

            s = requests.Session()

            s.get(url = "https://www.lagou.com/jobs/list_python%E5%BC%80%E5%8F%91%E5%B7%A5%E7%A8%8B%E5%B8%88?labelWords=&fromSearch=true&suginput=",headers = self.headers)

            cookies = s.cookies

            response = s.post(url=url,data=data,cookies = cookies,headers = self.headers).json()

            content = response.get('content')

            if content:

                result = content['positionResult']['result']

                print('岗位名称:{},所在城市:{},开始抓取第:{}页\n'.format(self.kd,self.city,page))

                for i in result:

                    lagou_data = {}

                    lagou_data['positionName'] = i['positionName']        # 岗位名称

                    lagou_data['companyFullName'] = i['companyFullName']  # 公司全名

                    lagou_data['workYear'] = i['workYear']                # 工作经验要求

                    lagou_data['education'] = i['education']              # 学历要求

                    lagou_data['jobNature'] = i['jobNature']              # 工作性质

                    lagou_data['salary'] = i['salary']                    # 薪资

                    lagou_data['city'] = i['city']                        # 所在城市

                    lagou_data['financeStage'] = i['financeStage']        # 金融阶段

                    lagou_data['industryField'] = i['industryField']      # 经营范围

                    lagou_data['companyShortName'] = i['companyShortName']# 公司简名

                    lagou_data['positionAdvantage'] = i['positionAdvantage']# 岗位优势

                    lagou_data['companySize'] = i['companySize']          # 公司规模

                    lagou_data['companyLabelList'] = i['companyLabelList']# 岗位待遇标签

                    lagou_data['district'] = i['district']                # 所在区域

                    lagou_data['positionLables'] = i['positionLables']    # 技术范围标签

                    lagou_data['firstType'] = i['firstType']              # 岗位类型

                    lagou_data['createTime'] = i['createTime']            # 发布时间

                    print(lagou_data)

                    mycol.insert(lagou_data)

            time.sleep(random.uniform(3,7))                               # 随机休眠

if __name__ == '__main__':

    lagou = LaGouSpider('北京','python')

    lagou.get_start()

简述：拉勾网反爬一般，也就是先获取该搜索页面中的 cookies信息，然后添加到返回的json数据接口中。

python 抓取拉勾网攻略的更多相关文章

(转)python爬取拉勾网信息
学习Python也有一段时间了,各种理论知识大体上也算略知一二了,今天就进入实战演练:通过Python来编写一个拉勾网薪资调查的小爬虫. 第一步:分析网站的请求过程我们在查看拉勾网上的招聘信息的时候 ...
scrapy抓取拉勾网职位信息（一）——scrapy初识及lagou爬虫项目建立
本次以scrapy抓取拉勾网职位信息作为scrapy学习的一个实战演练 python版本:3.7.1 框架:scrapy(pip直接安装可能会报错,如果是vc++环境不满足,建议直接安装一个visua ...
Python 抓取网页并提取信息(程序详解)
最近因项目需要用到python处理网页,因此学习相关知识.下面程序使用python抓取网页并提取信息,具体内容如下: #---------------------------------------- ...
使用 Python 抓取欧洲足球联赛数据
Web Scraping在大数据时代,一切都要用数据来说话,大数据处理的过程一般需要经过以下的几个步骤数据的采集和获取数据的清洗,抽取,变形和装载数据的分析,探索和预测 ...
python抓取性感尤物美女图
由于是只用标准库,装了python3运行本代码就能下载到多多的美女图... 写出代码前面部分的时候,我意识到自己的函数设计错了,强忍继续把代码写完. 测试发现速度一般,200K左右的下载速度,也没有很 ...
fiddler Android下https抓包全攻略
fiddler Android下https抓包全攻略 fiddler的http.https的抓包功能非常强大,可非常便捷得对包进行断点跟踪和回放,但是普通的配置对于像招商银行.支付宝.陌陌这样的APP ...
python抓取网页例子
python抓取网页例子最近在学习python,刚刚完成了一个网页抓取的例子,通过python抓取全世界所有的学校以及学院的数据,并存为xml文件.数据源是人人网. 因为刚学习python,写的代码 ...
Python抓取页面中超链接(URL)的三中方法比较(HTMLParser、pyquery、正则表达式) <转>
Python抓取页面中超链接(URL)的3中方法比较(HTMLParser.pyquery.正则表达式) HTMLParser版: #!/usr/bin/python # -*- coding: UT ...
如何用python抓取js生成的数据 - SegmentFault
如何用python抓取js生成的数据 - SegmentFault 如何用python抓取js生成的数据 1赞踩收藏想写一个爬虫,但是需要抓去的的数据是js生成的,在源代码里看不到,要怎么才能抓 ...

随机推荐

php的 strval函数
官方的解释 PHP strval() 函数 PHP 可用的函数 strval() 函数用于获取变量的字符串值. PHP 版本要求: PHP 4, PHP 5, PHP 7 语法 string strv ...
使用宝塔面板配置nginx 访问ftp服务器下面的图片
如果你在服务器上运行war项目可以在tomcat 配置访问的: tomcat 也贴出来吧! 一.tomca配置访问,需要更改配置文件server.xml ,如果找不到,自己好好找一下一般在 ...
String、toString、String.valueOf()三个有啥区别？
今天在使用这个的时候发现,他们三者好像在某些场所都是可以用的,但是不免会让人想到那既然它们三者这么的相似,那么总有些什么区别吧.我也在网上找了一些资料看.自己也看了API文档,就将他们三的区别总结一下 ...
通过JVM日志来进行安全点分析
许多事件都可能会导致JVM暂停所有的应用线程.这类暂停又被称为”stop-the-world”(STW)暂停.触发STW暂停最常见的原因就是垃圾回收了(github中的一个例子),但不同的JIT活动( ...
硬盘类型和Linux分区
1. 硬盘类型和Linux分区分类: Linux系统与应用 2011-11-22 20:54 1404人阅读评论(0) 收藏举报 linuxide扩展ftp服务器服务器redhat 真怪自己知识 ...
Adding property to a json object in C#
Adding property to a json object in C# you can do it with a dynamic object dynamic obj = JsonConve ...
jquery数组的合并对象的合并
直接转自:https://www.cnblogs.com/ooo0/p/7737678.html 1.数组的合并 1.1 concat方法 var a=[1,2,3],b=[4,5,6]; var c ...
一、基础篇--1.2Java集合-List、Set、Map区别
List.Set.Map区别三者关系如下: 结构特点 1.List和Set是存储单列数据集合,Map是存储键值对这样的双列数据集合: 2.List中存储的数据都是有序的,并且允许重复:Map中存储 ...
kotlin之数组
一.使用arrayOf函数定义可以存储任意值的数组 var arr1 = arrayOf(1,2,3,'a') println(arr1[3]) 二.使用arrayOfNulls函数定义数组 var ...
Linux监控命令之==>lsof
一.命令说明 lsof 命令的原始功能是列出打开的文件的进程,但LINUX 下,所有的设备都是以文件的行式存在的,所以,lsof 的功能很强大. 二.参数说明 -a :列出打开文件存在的进程 -c&l ...

python 抓取拉勾网 攻略

python 抓取拉勾网 攻略的更多相关文章

随机推荐

热门专题

python 抓取拉勾网攻略

python 抓取拉勾网攻略的更多相关文章