拉钩网爬取所有python职位信息

最近在找工作，所以爬取了拉钩网的全部python职位，以便给自己提供一个方向。拉钩网的数据还是比较容易爬取的，得到json数据直接解析就行，废话不多说，直接贴代码：

 import json

 import urllib

 import urllib2

 from openpyxl import load_workbook

 filename = 'E:\excel\position_number_11_2.xlsx'

 ws = load_workbook(filename=filename)

 sheet = ws.create_sheet(0)

 sheet.title = 'position'

 count = 1

 for page in xrange(100):

     from_data = {

         'first': 'false',

         'pn': page,

         'kd': 'Python'

     }

     header = {

         "User-Agent": 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:49.0) Gecko/20100101 Firefox/49.0',

         'Referer': 'https://www.lagou.com/jobs/list_Python?px=default&city=%E5%85%A8%E5%9B%BD',

     }

     request_url = 'https://www.lagou.com/jobs/positionAjax.json?px=default&needAddtionalResult=false'

     data = urllib.urlencode(from_data)

     request = urllib2.Request(request_url, headers=header, data=data)

         try:

         html = urllib2.urlopen(request).read().decode('utf-8')

     except Exception:

         print '没有职位信息'

         break

     # print html

     jsonobj = json.loads(html)

     # print jsonobj

     dict_obj = jsonobj['content']['positionResult']['result']

     for item in dict_obj:

         if item:

             sheet.cell(row=count, column=1).value = item['companySize']

             sheet.cell(row=count, column=2).value = item['workYear']

             sheet.cell(row=count, column=3).value = item['education']

             sheet.cell(row=count, column=4).value = item['financeStage']

             sheet.cell(row=count, column=5).value = item['city']

             sheet.cell(row=count, column=6).value = item['industryField']

             sheet.cell(row=count, column=7).value = item['formatCreateTime']

             sheet.cell(row=count, column=8).value = item['positionName']

             sheet.cell(row=count, column=9).value = item['companyFullName']

             sheet.cell(row=count, column=10).value = item['salary']

             count += 1

             ws.save('E:\excel\position_number_11_2.xlsx')

代码写得比较急，就没怎么规范。过两天把微博和豆瓣的代码发出来，希望园里的大神多指点^_^

拉钩网爬取所有python职位信息的更多相关文章

爬取拉钩网上所有的python职位
# 2.爬取拉钩网上的所有python职位. from urllib import request,parse import json,random def user_agent(page): #浏览 ...
拉勾网爬取全国python职位并数据分析薪资，工作经验，学历等信息
首先前往拉勾网“爬虫”职位相关页面确定网页的加载方式是JavaScript加载通过谷歌浏览器开发者工具分析和寻找网页的真实请求,确定真实数据在position.Ajax开头的链接里,请求方式是PO ...
python爬虫实战之爬取智联职位信息和博客文章信息
1.python爬取招聘信息简单爬取智联招聘职位信息 # !/usr/bin/env python # -*-coding:utf-8-*- """ @Author ...
通俗易懂的分析如何用Python实现一只小爬虫，爬取拉勾网的职位信息
源代码:https://github.com/nnngu/LagouSpider 效果预览思路 1.首先我们打开拉勾网,并搜索"java",显示出来的职位信息就是我们的目标. 2 ...
爬取拉勾网python工程师的岗位信息并生成csv文件
转载自:https://www.cnblogs.com/sui776265233/p/11146969.html 代码写得很好,但是目前只看得懂前一部分一.爬取和分析相关依赖包 Python版本: ...
用Python爬取智联招聘信息做职业规划
上学期在实验室发表时写了一个爬取智联招牌信息的爬虫. 操作流程大致分为:信息爬取——数据结构化——存入数据库——所需技能等分词统计——数据可视化 1.数据爬取 job = "通信工程师&qu ...
[Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)
转载自:http://blog.csdn.net/eastmount/article/details/51231852 一. 文章介绍源码下载地址:http://download.csdn.net/ ...
使用python scrapy爬取知乎提问信息
前文介绍了python的scrapy爬虫框架和登录知乎的方法. 这里介绍如何爬取知乎的问题信息,并保存到mysql数据库中. 首先,看一下我要爬取哪些内容: 如下图所示,我要爬取一个问题的6个信息: ...
python爬取 “得到” App 电子书信息
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 静觅崔庆才 PS:如有需要Python学习资料的小伙伴可以加点击下 ...

随机推荐

bzoj1298题解
[题意分析] 要求设计一组n个m面的骰子,使每一个骰子i对骰子a[i]的胜率都大于50%. [算法分析] 对于每个i,连一条从i指向a[i]的边,那么题目给出的关系构成了一个有向基环树森林. 对于树上 ...
CentOS Gnome 识别 NTFS-3G
安装完NTFS-3G后,使用命令行已经可以正常挂载NTFS分区了但如果是源码编译安装(epel yum 库也有),还需要添加一个软链接,才能点击Gnome的左边栏进行挂载,因为Gnome挂载NTFS ...
oracle 增加表空间
1.表空间使用情况 SELECT UPPER(F.TABLESPACE_NAME) "表空间名", D.TOT_GROOTTE_MB "表空间大小(M)", D ...
Python map多线程
import os import PIL from multiprocessing import Pool from PIL import Image SIZE = (75,75) SAVE_DIRE ...
实时控制软件第一周汽车ABS系统软件分析
abs系统简介在踩急刹车的时候,若没有额外的控制,容易使车轮完全停止转动,从而出现车轮打滑,车轮导向作用丧失的危险情况. abs系统的作用是在驾驶员完全踩住制动踏板的情况下,通过实时地测量车轮转速, ...
Makefile.am编写规则
概念 Makefile.am是比Makefile更高层次的规则只需要指定要生成什么目标,依赖于什么文件,和要安装到什么目录.automake会根据Makefile.am来自动生成Makefile.in ...
jQuery学习笔记（一）--jQuery对象与DOM对象相互转换
通过标准的JavaScript操作DOM与jQuyer操作DOM的对比,我们不难发现: 通过jQuery方法包装后的对象,是一个类数组对象.它与DOM对象完全不同,唯一相似的是它们都能操作DOM. 通 ...
面向对象UML中类关系
如果你确定两件对象之间是is-a的关系,那么此时你应该使用继承:比如菱形.圆形和方形都是形状的一种,那么他们都应该从形状类继承而不是聚合.如果你确定两件对象之间是has-a的关系,那么此时你应该使用聚 ...
js判断数组里面的值是否相等。
var zhi=[]; var zhiT=[]; //var arr=["a","b","a","a"]; var ar ...
Mammoth官方文档翻译
用于.NET的.docx转HTML的Mammoth Mammoth可用于将.docx文档(比如由Microsoft Word创建的)转换为HTML.Mammoth致力于通过文档中的语义信息生成简洁的H ...

拉钩网爬取所有python职位信息

拉钩网爬取所有python职位信息的更多相关文章

随机推荐

热门专题