拉勾网python开发要求爬虫

#今日目标

**拉勾网python开发要求爬虫**

今天要爬取的是北京python开发的薪资水平，招聘要求，福利待遇以及公司的地理位置。

通过实践发现除了必须携带headers之外，拉勾网对ip访问频率也是有限制的。一开始会提示 '访问过于频繁'，继续访问则会将ip拉入黑名单。不过一段时间之后会自动从黑名单中移除。

针对这个策略，我们可以对请求频率进行限制，这个弊端就是影响爬虫效率。其次我们还可以通过代理ip来进行爬虫。网上可以找到免费的代理ip，但大都不太稳定。付费的价格又不太实惠。

具体就看大家如何选择了。

**思路**

通过分析请求我们发现每页返回15条数据，totalCount又告诉了我们该职位信息的总条数。

向上取整就可以获取到总页数。然后将所得数据保存到csv文件中。这样我们就获得了数据分析的数据源！

post请求的Form Data传了三个参数

first ：是否首页(并没有什么用)

pn：页码

kd：搜索关键字

代码实现

```

# 获取请求结果

# kind 搜索关键字

# page 页码 默认是1

def get_json(kind, page=1,):

    # post请求参数

    param = {

        'first': 'true',

        'pn': page,

        'kd': kind

    }

    header = {

        'Host': 'www.lagou.com',

        'Referer': 'https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput=',

        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'

    }

    # 设置代理

    proxies = [

        {'http': '140.143.96.216:80', 'https': '140.143.96.216:80'},

        {'http': '119.27.177.169:80', 'https': '119.27.177.169:80'},

        {'http': '221.7.255.168:8080', 'https': '221.7.255.168:8080'}

    ]

    # 请求的url

    url = 'https://www.lagou.com/jobs/positionAjax.json?px=default&city=%E5%8C%97%E4%BA%AC&needAddtionalResult=false'

    # 使用代理访问

    # response = requests.post(url, headers=header, data=param, proxies=random.choices(proxies))

    response = requests.post(url, headers=header, data=param, proxies=proxies)

    response.encoding = 'utf-8'

    if response.status_code == 200:

        response = response.json()

        # 请求响应中的positionResult 包括查询总数 以及该页的招聘信息(公司名、地址、薪资、福利待遇等...)

        return response['content']['positionResult']

    return None

```

接下来我们只需要每次翻页之后调用 get_json 获得请求的结果 再遍历取出需要的招聘信息即可。

```

if __name__ == '__main__':

    # 默认先查询第一页的数据

    kind = 'python'

    # 请求一次 获取总条数

    position_result = get_json(kind=kind)

    # 总条数

    total = position_result['totalCount']

    print('{}开发职位，招聘信息总共{}条.....'.format(kind, total))

    # 每页15条 向上取整 算出总页数

    page_total = math.ceil(total/15)

    # 所有查询结果

    search_job_result = []

    #for i in range(1, total + 1)

    # 为了节约效率 只爬去前100页的数据

    for i in range(1, 100):

        position_result = get_json(kind=kind, page= i)

        # 每次抓取完成后,暂停一会,防止被服务器拉黑

        time.sleep(15)

        # 当前页的招聘信息

        page_python_job = []

        for j in position_result['result']:

            python_job = []

            # 公司全名

            python_job.append(j['companyFullName'])

            # 公司简称

            python_job.append(j['companyShortName'])

            # 公司规模

            python_job.append(j['companySize'])

            # 融资

            python_job.append(j['financeStage'])

            # 所属区域

            python_job.append(j['district'])

            # 职称

            python_job.append(j['positionName'])

            # 要求工作年限

            python_job.append(j['workYear'])

            # 招聘学历

            python_job.append(j['education'])

            # 薪资范围

            python_job.append(j['salary'])

            # 福利待遇

            python_job.append(j['positionAdvantage'])

            page_python_job.append(python_job)

        # 放入所有的列表中

        search_job_result += page_python_job

        print('第{}页数据爬取完毕, 目前职位总数:{}'.format(i, len(search_job_result)))

        # 每次抓取完成后,暂停一会,防止被服务器拉黑

        time.sleep(15)

```

ok！数据我们已经获取到了，最后一步我们需要将数据保存下来。

```

  # 将总数据转化为data frame再输出

    df = pd.DataFrame(data=search_job_result,

                      columns=['公司全名', '公司简称', '公司规模', '融资阶段', '区域', '职位名称', '工作经验', '学历要求', '工资', '职位福利'])

    df.to_csv('lagou.csv', index=False, encoding='utf-8_sig')

```

运行后结果如下：

拉勾网python开发要求爬虫的更多相关文章

Python 开发轻量级爬虫08
Python 开发轻量级爬虫 (imooc总结08--爬虫实例--分析目标) 怎么开发一个爬虫?开发一个爬虫包含哪些步骤呢? 1.确定要抓取得目标,即抓取哪些网站的哪些网页的哪部分数据. 本实例确定抓 ...
Python 开发轻量级爬虫07
Python 开发轻量级爬虫 (imooc总结07--网页解析器BeautifulSoup) BeautifulSoup下载和安装使用pip install 安装:在命令行cmd之后输入,pip i ...
Python 开发轻量级爬虫06
Python 开发轻量级爬虫 (imooc总结06--网页解析器) 介绍网页解析器将互联网的网页获取到本地以后,我们需要对它们进行解析才能够提取出我们需要的内容. 也就是说网页解析器是从网页中提取有 ...
Python 开发轻量级爬虫05
Python 开发轻量级爬虫 (imooc总结05--网页下载器) 介绍网页下载器网页下载器是将互联网上url对应的网页下载到本地的工具.因为将网页下载到本地才能进行后续的分析处理,可以说网页下载器 ...
Python 开发轻量级爬虫04
Python 开发轻量级爬虫 (imooc总结04--url管理器) 介绍抓取URL管理器 url管理器用来管理待抓取url集合和已抓取url集合. 这里有一个问题,遇到一个url,我们就抓取它的内容 ...
Python 开发轻量级爬虫03
Python 开发轻量级爬虫 (imooc总结03--简单的爬虫架构) 现在来看一下一个简单的爬虫架构. 要实现一个简单的爬虫,有哪些方面需要考虑呢? 首先需要一个爬虫调度端,来启动爬虫.停止爬虫.监 ...
Python 开发轻量级爬虫02
Python 开发轻量级爬虫 (imooc总结02--爬虫简介) 爬虫简介首先爬虫是什么?它是一段自动抓取互联网信息的程序. 什么意思呢? 互联网由各种各样的的网页组成,每一个网页都有对应的url, ...
Python 开发轻量级爬虫01
Python 开发轻量级爬虫 (imooc总结01--课程目标) 课程目标:掌握开发轻量级爬虫为什么说是轻量级的呢?因为一个复杂的爬虫需要考虑的问题场景非常多,比如有些网页需要用户登录了以后才能够访 ...
Python开发简单爬虫 - 慕课网
课程链接:Python开发简单爬虫环境搭建: Eclipse+PyDev配置搭建Python开发环境 Python入门基础教程用Eclipse编写Python程序课程目录第1章课程介绍 ...

随机推荐

HDU 6444 Neko's loop ( 2018 CCPC 网络赛 && 裴蜀定理 && 线段树 )
题目链接题意 : 给出一个 n 个元素的环.可以任意选择起点.选完起点后.可以行走 m 步.每次前进 k 个单位.所走到的点将产生正或负贡献.问你一开始得准备多少才能使得初始资金加上在环上获取最大利 ...
Angular 如何修改启动的端口
在默认的情况下 Angular 启动使用的是端口 4200. 如果修改这个启动的端口,比如说我们希望再 4100 端口上启动? 可以在启动的时候添加端口参数 --port. 例如使用下面的启动命令: ...
家谱（gen）x
家谱(gen) 时间限制 2S [问题描述] 现代的人对于本家族血统越来越感兴趣,现在给出充足的父子关系,请你编写程序找到某个人的最早的祖先. [输入格式]gen.in 输入文件由多行组 ...
windows下kafka配置入门示例
实验平台与软件: 操作系统:windows7 32 位 java 开发包: jdk1.8.0_144 集群: zookeeper-3.3.6 消息队列: kafka_2.11-0.11.0.1 安装 ...
利用jquery动态添加和删除表格的一行，并且保存单行数据
开发时遇到一个需求:要求要在页面的表格可以添加和删除一行,并能填写对应的数据后保存这一行数据. HTML代码界面使用了freemarker框架,teams是后台传过来的list类型数据 <fo ...
学习笔记 - MarkDown 语法
学习参考网址:https://www.appinn.com/markdown/index.html # **gitskill** ## 标题 ># 这是 H1 >## 这是 H2 > ...
Activity 怎么和 Service 绑定，怎么在 Activity 中启动自己对应的 Service？
Activity 通过 bindService(Intent service, ServiceConnection conn, int flags)跟 Service 进行绑定,当绑定成功的时候 Se ...
Ubuntu16.04小白入门分享之玩转Ruby你需要安装什么软件（持续更新）
Ubuntu提示功能很强大,一般如果你想安装什么软件,可以直接输入名字,然后会有提示,安装格式一般为: sudo apt install 名字 Ubuntu14.04/16.04命令行快速安装Ruby ...
xcode dyld: Library not loaded: @rpath/libswiftCore.dylib问题解决
app安装好了之后就报这个错误,这个时候可以将xcode工程clear一下,删除已经安装好的app,再重新安装即可
linux(centOS7)的基本操作(三) 用户、组、权限管理
用户和组 1.用户.组.家目录的概念 linux系统支持多用户,除了管理员,其他用户一般不应该使用root,而是应该向管理员申请一个账号.组类似于角色,系统可以通过组对有共性的用户进行统一管理.每个用 ...

拉勾网python开发要求爬虫

拉勾网python开发要求爬虫的更多相关文章

随机推荐

热门专题