Python 爬取拉钩

...

from urllib import request

from urllib import parse

from urllib.error import URLError

import json

import math

import pymongo

MONGO_URL='localhost'

MONGO_DB='LaGou'

MONGO_TABLE='数据分析'

client = pymongo.MongoClient(MONGO_URL)#连接数据库

db=client[MONGO_DB]#创建数据库的名字

page=0#页码信息

City='深圳'

KeyWord='数据分析师'

base_url='https://www.lagou.com/jobs/positionAjax.json?'

params = {

    'px':'default',

    'city':City,

    'needAddtionalResult':'false'

}

url = base_url+parse.urlencode(params)

headers = {

    'Accept':'application/json, text/javascript, */*; q=0.01',

    'Accept-Encoding':'gzip, deflate, br',

    'Accept-Language':'zh-CN,zh;q=0.9',

    'Connection':'keep-alive',

    'Content-Length':64,

    'Cookie':'_ga=GA1.2.257516341.1522050452; user_trace_token=20180326154732-f0f5196c-30c9-11e8-9f49-525400f775ce; LGUID=20180326154732-f0f520df-30c9-11e8-9f49-525400f775ce; LG_LOGIN_USER_ID=60032b76bd32a5a6a596559eade6d0052f15fc2ab9779cc8; index_location_city=%E6%B7%B1%E5%9C%B3; JSESSIONID=ABAAABAAAIAACBI1A73582AEDC2FDC8335E968502A9F5D2; Hm_lvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1527150390,1528277552,1528789503,1529461642; _gid=GA1.2.1084200828.1529461642; LGSID=20180620153431-5f3689a6-745c-11e8-aa10-525400f775ce; TG-TRACK-CODE=search_code; LGRID=20180620160449-9a8ba121-7460-11e8-aa14-525400f775ce; Hm_lpvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1529481888; SEARCH_ID=efa038bbf91d47488b5c710088432205',

    'Host':'www.lagou.com',

    'Origin':'https://www.lagou.com',

    'Referer':'https://www.lagou.com/jobs/list_%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90%E5%B8%88?px=default&city=%E6%B7%B1%E5%9C%B3',

    'Content-Type':'application/x-www-form-urlencoded; charset=UTF-8',

    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'

}

#请求和获取信息的函数

def get_postion_info(pn=1):

    global page#全局的页码

    data = {

        'first':'true',

        'pn':pn,

        'kd':KeyWord

    }

    try:

        data = bytes(parse.urlencode(data),encoding='utf-8')

        req = request.Request(url=url,data=data,headers=headers,method='POST')#构建Request对象

        html = request.urlopen(req)#发送请求

        if html.status==200:

            html = html.read().decode('utf-8')#将响应体的信息转化为字符串

            res = json.loads(html)#把类json的格式转化为字典

            #如果是第一页，就获取页码信息

            if pn==1:

                pagesize = res['content']['pageSize']

                totalcount=res['content']['positionResult']['totalCount']

                page = math.ceil(totalcount/pagesize)

            #获取招聘信息，并保存到MongoDB

            result = res['content']['positionResult']['result']

            for i in range(len(result)):

                save_mongodb(result[i])

            return res

        else:

            print('出现错误',html.status)

            return None

    except URLError:

        print('出现异常！')

        return None

#保存到MongoDB

def save_mongodb(info):

    if db[MONGO_TABLE].insert(info):

        print('保存成功！',info)

    else:

        print(info,'保存失败！',info)

#主体函数

def main():

    get_postion_info()#获取第一页的信息和页码信息

    #爬取第二页以后的信息

    for p in range(2,page+1):

        get_postion_info(pn=p)

if __name__=='__main__':

    main()

Python 爬取拉钩的更多相关文章

python3爬取拉钩招聘数据
使用python爬去拉钩数据第一步:下载所需模块 requests 进入cmd命令 :pip install requests 回车联网自动下载 xlwt 进入cmd命令 :pip install ...
21天打造分布式爬虫-Selenium爬取拉钩职位信息（六）
6.1.爬取第一页的职位信息第一页职位信息 from selenium import webdriver from lxml import etree import re import time c ...
CrawlSpider爬取拉钩
CrawlSpider继承Spider,提供了强大的爬取规则(Rule)供使用填充custom_settings,浏览器中的请求头 from datetime import datetime imp ...
Python 爬取拉钩网工作岗位
如果拉钩网html页面做了调整,需要重新调整代码代码如下 #/usr/bin/env python3 #coding:utf-8 import sys import json import requ ...
python爬取拉勾网职位数据
今天写的这篇文章是关于python爬虫简单的一个使用,选取的爬取对象是著名的招聘网站--拉钩网,由于和大家的职业息息相关,所以爬取拉钩的数据进行分析,对于职业规划和求职时的信息提供有很大的帮助. 完成 ...
使用request爬取拉钩网信息
通过cookies信息爬取分析header和cookies 通过subtext粘贴处理header和cookies信息处理后,方便粘贴到代码中爬取拉钩信息代码 import requests c ...
爬取拉钩网上所有的python职位
# 2.爬取拉钩网上的所有python职位. from urllib import request,parse import json,random def user_agent(page): #浏览 ...
Python3 Scrapy + Selenium + 阿布云爬取拉钩网学习笔记
1 需求分析想要一个能爬取拉钩网职位详情页的爬虫,来获取详情页内的公司名称.职位名称.薪资待遇.学历要求.岗位需求等信息.该爬虫能够通过配置搜索职位关键字和搜索城市来爬取不同城市的不同职位详情信息, ...
python爬取《龙岭迷窟》的数据，看看质量剧情还原度到底怎么样
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:简单 PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行 ...

随机推荐

关于Servlet
Servlet与CGI CGI(Common Gateway Interface),早期的Web服务器技术.执行模式:将服务端的资源基于进程运行. Servlet:运行模式改为单进程多线程的形式,利用 ...
10.1 HTTP
1.跨网络的主机间通讯套接字Socket是进程间通信IPC的一种实现,允许位于不同主机(或同一主机)上不同进程之间通信和数据交换在建立通信连接的每一端,进程间的传输要有两个标志:IP地址和端口号, ...
2020 年国内 Serverless 用户规模：阿里云占比第一，达 66%
在中国信息通信研究院重磅发布的国内首个<云原生用户调查报告>中,阿里云 Serverless 产品凭借在双十一的技术锤炼和丰富的应用实践,在国内 Serverless 用户规模的占比达到 ...
重磅 | 阿里开源首个 Serverless 开发者平台 Serverless Devs
Serverless 从概念提出到应用,已经走过了 8 个年头,开发者对 Serverless 的使用热情不断高涨.为帮助开发者实现一键体验多云产品,极速部署 Serverless 项目,10 月 2 ...
洛谷3195 [HNOI2008]玩具装箱TOY（斜率优化+dp）
qwq斜率优化好题第一步还是考虑最朴素的$dp$ \[dp=dp[j]+(i-j-1+sum[i]-sum[j])^2 \] 设$f[i]=sum[i]+i$ 那么考虑将上述柿子变成$$dp ...
Flutter随笔（二）——使用Flutter Web + Docker + Nginx打造一个简单的Web项目
前言 Flutter作为一个跨平台UI框架,功能十分强大,仅用一套代码便能编译出Android.iOS.Web.windows.macOS.Windows.Linux等平台上的应用,各平台应用体验高度 ...
8086的复位与启动 CPU执行指令的步骤
东北大学-计算机硬件技术基础 CPU执行指令的步骤取指令 Fetch 指令译码 Decode 执行指令 Execute 回写 Write-back 修改指令指针取指令将CS和IP的内容通过地址加 ...
EMC测试国家标准GB/T 17626
转载: 详解EMC测试国家标准GB/T 17626 - whik - 博客园 (cnblogs.com)
CQL和SQL的CRUD操作比较
数据进行CRUD操作时,CQL语句和SQL语句的异同之处. 1.建表 2.CRUD语句比较 3.总结 1.建表在此之前先分别创建两张表,插入数据,用来测试然后进行比较在SQL数据库里面创建表在C ...
xshell几款绝佳配色方案
NO.1 [mycolor] text(bold)=e9e9e9 magenta(bold)=ff00ff text=00ff80 white(bold)=fdf6e3 green=80ff00 re ...

Python 爬取 拉钩

Python 爬取 拉钩的更多相关文章

随机推荐

热门专题

Python 爬取拉钩

Python 爬取拉钩的更多相关文章