【原创】py3+requests+json+xlwt，爬取拉勾招聘信息

在拉勾搜索职位时，通过谷歌F12抓取请求信息

发现请求是一个post请求，参数为：

返回的是json数据

有了上面的基础，我们就可以构造请求了

然后对获取到的响应反序列化，这样就获取到了json格式的招聘信息，就可以进行各种操作了，比如取其中的某个信息

最后循环写入excle

具体实现如下：

import requests

import json

import xlwt

items = [] # 招聘信息

pn = 1

# 抓取数据

def get_content(pn):

    # 全国

    url = 'https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false'

    data = {

        'first':'true',

        'pn':pn,

        'kd':'python'

    }

    # url发送一个post请求，把data数据发送过去

    html = requests.post(url,data).text # 获取文本

    # print(type(html)) # <class 'str'>

    html = json.loads(html)

    print(html)

    for i in range(15):

        item = []

        # 字典嵌套，招聘职位、公司、薪资、地区、福利、提供条件、工作类型

        item.append(html['content']['positionResult']['result'][i]['positionName'])

        item.append(html['content']['positionResult']['result'][i]['companyFullName'])

        item.append(html['content']['positionResult']['result'][i]['salary'])

        item.append(html['content']['positionResult']['result'][i]['city'])

        item.append(html['content']['positionResult']['result'][i]['positionAdvantage'])

        item.append(html['content']['positionResult']['result'][i]['companyLabelList'])

        item.append(html['content']['positionResult']['result'][i]['firstType'])

        items.append(item)

    return items

# 创建excel表格

def excel_write(items):

    newTable = 'test1.xls'

    wb = xlwt.Workbook(encoding='utf-8') # 创建excel文件

    ws = wb.add_sheet('test1') # 创建sheet

    headData = ['招聘职位','公司','薪资','地区','福利','提供条件','工作类型']

    for hd in range(7):

        ws.write(0,hd,headData[hd],xlwt.easyxf('font:bold on'))

    # 写数据

    index = 1 # 表示行

    for item in items:

        for i in range(7):

            # print(type(item[i]))

            if i == 5:

                ws.write(index, i, ','.join(item[i]))

            else:

                ws.write(index, i, item[i])

        index += 1

    wb.save(newTable)  

if __name__ == '__main__':

    items = get_content(pn)

    print(items)

    excel_write(items)

【原创】py3+requests+json+xlwt，爬取拉勾招聘信息的更多相关文章

py3+requests+json+xlwt，爬取拉勾招聘信息
在拉勾搜索职位时,通过谷歌F12抓取请求信息发现请求是一个post请求,参数为: 返回的是json数据有了上面的基础,我们就可以构造请求了然后对获取到的响应反序列化,这样就获取到了json格式的 ...
直接请求json文件爬取天眼查企业信息（未解决验证码问题）——python3实现
几个月前...省略一堆剧情...直接请求json文件爬取企业信息未成功,在知乎提问后,得到解决,有大佬说带上全部headers和cookie是可以的,我就又去试了下,果然可以(之前自己试的时候不行,没 ...
21天打造分布式爬虫-Selenium爬取拉钩职位信息（六）
6.1.爬取第一页的职位信息第一页职位信息 from selenium import webdriver from lxml import etree import re import time c ...
ruby 爬虫爬取拉钩网职位信息，产生词云报告
思路:1.获取拉勾网搜索到职位的页数 2.调用接口获取职位id 3.根据职位id访问页面,匹配出关键字 url访问采用unirest,由于拉钩反爬虫,短时间内频繁访问会被限制访问,所以没有采用多线程, ...
爬虫实例之使用requests和Beautifusoup爬取糗百热门用户信息
这次主要用requests库和Beautifusoup库来实现对糗百的热门帖子的用户信息的收集,由于糗百的反爬虫不是很严格,也不需要先登录才能获取数据,所以较简单. 思路,先请求首页的热门帖子获得用户 ...
selelinum+PhantomJS 爬取拉钩网职位
使用selenium+PhantomJS爬取拉钩网职位信息,保存在csv文件至本地磁盘拉钩网的职位页面,点击下一页,职位信息加载,但是浏览器的url的不变,说明数据不是发送get请求得到的. 我们不 ...
使用request爬取拉钩网信息
通过cookies信息爬取分析header和cookies 通过subtext粘贴处理header和cookies信息处理后,方便粘贴到代码中爬取拉钩信息代码 import requests c ...
Python3 Scrapy + Selenium + 阿布云爬取拉钩网学习笔记
1 需求分析想要一个能爬取拉钩网职位详情页的爬虫,来获取详情页内的公司名称.职位名称.薪资待遇.学历要求.岗位需求等信息.该爬虫能够通过配置搜索职位关键字和搜索城市来爬取不同城市的不同职位详情信息, ...
使用nodejs爬取拉勾苏州和上海的.NET职位信息
最近开始找工作,本人苏州,面了几家都没有结果很是伤心.在拉勾上按照城市苏州关键字.NET来搜索一共才80来个职位,再用薪水一过滤,基本上没几个能投了.再加上最近苏州的房价蹭蹭的长,房贷压力也是非常大, ...

随机推荐

【LGR-047】洛谷5月月赛
这次我期待了很久的Luogu月赛崩掉了传说中的Luogu神机就这样被卡爆了然后我过了20min才登上Luogu的网站,30min后才看到题目然后交T1TM的不给我测!!!然后又交了一次机子就炸了 ...
[Spark][Python]sortByKey 例子
[Spark][Python]sortByKey 例子: [training@localhost ~]$ hdfs dfs -cat test02.txt00002 sku01000001 sku93 ...
$\mathfrak {reputation}$
$\mathfrak {reputation}$ 举世盛名身败名裂
做完小程序项目、老板给我加了5k薪资～
大家好,我是苏南,今天要给大家分享的是最近公司做的一个小程序项目,过程中的一些好的总结和遇到的坑,希望能给其他攻城狮带来些许便利,更希望能做完之后老板给你加薪- 今天是中秋节的第一天,假日的清晨莫名的 ...
Jvm 10 升级笔记
移除了 JPEGCodec https://www.cnblogs.com/liaolongjun/p/6878359.html
linux 下gcc 编译结构体问题
最近在linux 学习c语言的编程,发现好多原来在vs 上的在linux 都编译不过去,今天就遇到了一个问题就是结构体的编译的问题, 结构体大概的定义是 struct Node{ int a; int ...
Cocos2d-x项目创建方式
刚接触cocos2d-x的时候,还只有2.x版本,尝试着将cocos2d-x项目创建功能加入到vs里面去,后来,引擎用Python封装好了好多个脚本文件,其中就包括create_project.py文 ...
git工具
1.Git Bash常用命令: pwd 当前工作目录 clear 清屏 ls 列举当前目录下的文件及文件夹 cd 更改目录 mkdir 创建目录 touch 创建空文件 cp 拷 ...
android——error opening trace file: No such file or directory (2)
1.疑惑: 程序运行起来的时候日志总是显示下面这个错误,但是不影响程序的正常进行,我是用真机来测试的,android4.4.4(API17). 02-11 14:55:03.629 15525-155 ...
第三个Sprint冲刺第3天
成员:罗凯旋.罗林杰.吴伟锋.黎文衷组内各成员加紧完成自己的工作.

【原创】py3+requests+json+xlwt，爬取拉勾招聘信息

【原创】py3+requests+json+xlwt，爬取拉勾招聘信息的更多相关文章

随机推荐

热门专题