python爬取拉勾网职位数据

　　今天写的这篇文章是关于python爬虫简单的一个使用，选取的爬取对象是著名的招聘网站——拉钩网，由于和大家的职业息息相关，所以爬取拉钩的数据进行分析，对于职业规划和求职时的信息提供有很大的帮助。

　　完成的效果

　爬取数据只是第一步，怎样使用和分析数据也是一大重点，当然这不是本次博客的目的，由于本次只是一个上手的爬虫程序，所以我们的最终目的只是爬取到拉钩网的职位信息，然后保存到Mysql数据库中。最后中的效果示意图如下：

控制台输入

数据库显示

　　准备工作

　首先需要安装python，这个网上已经有很多的教程了，这里就默认已经安装python，博主使用的是python3.6,然后安装了requests、pymysql（连接数据库使用）和Mysql数据库。

　　分析拉勾网

　首先我们打开拉勾网，打开控制台，搜索java关键词搜索职位，选取北京地区，然后查看network一栏中的数据分析，查看第一个，是不是感觉它很像我们要拿到的请求地址，事实上不是的，这个打开之后是一个html，如果我们访问这个接口，拉钩会返回给我们一个结果，提示我们操作太频繁，也就是被拦截了。不过从这个页面可以看到，拉钩的网页用到了模板，这种加载数据的方式更加快速（大幅度提升），建议大家可以尝试使用一下（个人拙见）

　　不要气馁，我们接着往下找，可以看到一个“positionAjax”开头的请求，没错就它“https://www.lagou.com/jobs/positionAjax.jsonpx=default&city=%E5%8C%97%E4%BA%AC&needAddtionalResult=false&isSchoolJob=0”，还是看图说话吧

　　找到请求地址之后，我们就开始写代码了。

　　先是导入requests和pymysql，然后requests的post方法访问上面找到的url，但是直接访问这个地址是会被拦截的，因为我们缺少所要传输的数据，和设置请求头，会被认为是非自然人请求的，加入请求头和数据，

     headers = {'Referer':'https://www.lagou.com/jobs/list_'+position+'?city=%E5%8C%97%E4%BA%AC&cl=false&fromSearch=true&labelWords=&suginput=',               'Origin':'https://www.lagou.com',                'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36',

               'Accept':'application/json, text/javascript, */*; q=0.01',

               'Cookie':'JSESSIONID=ABAAABAAAGFABEFE8A2337F3BAF09DBCC0A8594ED74C6C0; user_trace_token=20180122215242-849e2a04-ff7b-11e7-a5c6-5254005c3644; LGUID=20180122215242-849e3549-ff7b-11e7-a5c6-5254005c3644; index_location_city=%E5%8C%97%E4%BA%AC; _gat=1; TG-TRACK-CODE=index_navigation; _gid=GA1.2.1188502030.1516629163; _ga=GA1.2.667506246.1516629163; LGSID=20180122215242-849e3278-ff7b-11e7-a5c6-5254005c3644; LGRID=20180122230310-5c6292b3-ff85-11e7-a5d5-5254005c3644; Hm_lvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1516629163,1516629182; Hm_lpvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1516633389; SEARCH_ID=8d3793ec834f4b0e8e680572b83eb968'

               }

    dates={'first':'true',

           'pn': page,#页数

           'kd': position#搜索的职位

    }

　　加入请求头之后就可以请求了，控制台输出数据，可以看出是一个json数据，使用json方法处理之后，一步步找到我们想要的数据，可以看出全在“result”里面，那么我们就只拿到他就行了，

result=resp.json()['content']['positionResult']['result']

这个时候可以看到数据非常多，有30个左右，不过不用担心，都是英文单词，基本上可以才出意思。接下来我们就要怕这些数据存储到数据库中，以备日后分析使用。

　　连接mysql我使用的是pymysql，先建好数据库和数据表，然后在代码中加入配置信息

config={

    "host":"127.0.0.1",

    "user":"root",

    "password":"",

    "database":databaseName,

    "charset":"utf8"#防止中文乱码

}

　　加载配置文件，连接数据库

db = pymysql.connect(**config)

cursor = db.cursor()

sql=""#insert语句

cursor.execute（）

db.commit()  #提交数据

cursor.close()

db.close()#用完记得关闭连接

　　大功告成，这个时候拉钩的职位信息已经静静地躺在了你的数据库中，静待你的宠幸，拿到这些数据，你就可以进行一些分析了，比如平均工资水平、职位技能要求等。

　　因为篇幅有限，有些代码并没有粘贴出来，比如sql语句（这个sql写的挺长的），但是别担心，楼主已经把这个程序放入到github上面了，大家可以自行下载，github地址：https://github.com/wudb1993/pythonDemo如果觉得不错的话请在github上面点一下star，手打不易谢谢啦，欢迎大神拍砖。

python爬取拉勾网职位数据的更多相关文章

python爬取拉勾网职位信息-python相关职位
import requestsimport mathimport pandas as pdimport timefrom lxml import etree url = 'https://www.la ...
【图文详解】scrapy爬虫与动态页面——爬取拉勾网职位信息（2）
上次挖了一个坑,今天终于填上了,还记得之前我们做的拉勾爬虫吗?那时我们实现了一页的爬取,今天让我们再接再厉,实现多页爬取,顺便实现职位和公司的关键词搜索功能. 之前的内容就不再介绍了,不熟悉的请一定要 ...
利用Python爬取朋友圈数据，爬到你开始怀疑人生
人生最难的事是自我认知,用Python爬取朋友圈数据,让我们重新审视自己,审视我们周围的圈子. 文:朱元禄(@数据分析-jacky) 哲学的两大问题:1.我是谁?2.我们从哪里来? 本文 jacky试 ...
python爬取拉勾网数据并进行数据可视化
爬取拉勾网关于python职位相关的数据信息,并将爬取的数据已csv各式存入文件,然后对csv文件相关字段的数据进行清洗,并对数据可视化展示,包括柱状图展示.直方图展示.词云展示等并根据可视化的数据做 ...
node.js爬虫爬取拉勾网职位信息
简介用node.js写了一个简单的小爬虫,用来爬取拉勾网上的招聘信息,共爬取了北京.上海.广州.深圳.杭州.西安.成都7个城市的数据,分别以前端.PHP.java.c++.python.Androi ...
爬虫实战(三) 用Python爬取拉勾网
目录 0.前言 1.初始化 2.爬取数据 3.保存数据 4.数据可视化 5.大功告成 0.前言最近,博主面临着选方向的困难(唉,选择困难症患者 >﹏<),所以希望了解一下目前不同岗位的就 ...
Python爬取招聘网站数据，给学习、求职一点参考
1.项目背景随着科技的飞速发展,数据呈现爆发式的增长,任何人都摆脱不了与数据打交道,社会对于“数据”方面的人才需求也在不断增大.因此了解当下企业究竟需要招聘什么样的人才?需要什么样的技能?不管是对于 ...
python爬取股票最新数据并用excel绘制树状图
大家好,最近大A的白马股们简直跌妈不认,作为重仓了抱团白马股基金的养鸡少年,每日那是一个以泪洗面啊. 不过从金融界最近一个交易日的大盘云图来看,其实很多中小股还是红色滴,绿的都是白马股们. 以下截图 ...
如何使用python爬取网页动态数据
我们在使用python爬取网页数据的时候,会遇到页面的数据是通过js脚本动态加载的情况,这时候我们就得模拟接口请求信息,根据接口返回结果来获取我们想要的数据. 以某电影网站为例:我们要获取到电影名称以 ...

随机推荐

OpenStack运维（二）：OpenStack计算节点的故障和维护
1.计划中的维护举例:需要升级某一个计算节点的硬件配置,需要将计算节点上的虚拟机迁移后在对其进行操作,分为两种情况. 1.1 云系统使用了共享存储 a. 获取虚拟机列表:nova list --ho ...
用HTML5和原生js实现放大局部图片
drawImage方法 context.drawImage(image,sx,sy,sh,dx,dy,dw,dh) sx\sy起始图像的横纵坐标,sh\sd起始图像的大小,dx\dy复制图像的横纵坐标 ...
node基础篇二：模块、路由、全局变量课堂（持续）
今天继续更新node基础篇,今天主要内容是模块.路由和全局变量. 模块这个概念,在很多语言中都有,现在模块开发已经成为了一种潮流,它能够帮助我们节省很多的时间,当然咱们的node自然也不能缺少,看下例 ...
安装MySQL容易出现的问题
mysql 安装到最后一步时,start service 为失败状态. 解决方法: 方式1 MySQL安装是出现could not start the service mysql error:0 ...
base64格式图片转换为FormData对象进行上传
原理:理由ArrayBuffer.Blob和FormData var base64String = /*base64图片串*/; //这里对base64串进行操作,去掉url头,并转换为byte va ...
深入.NET数据类型（2）
一.装箱和拆箱将值类型转换为引用类型的过程称为装箱,反之称为拆箱实际开发尽量避免装/拆箱原因: 装/拆箱都会降低程序性能示例代码: static void Main(string[] a ...
分布式文件系统FastDFS详解
上一篇文章<一次FastDFS并发问题的排查经历>介绍了一次生产排查并发问题的经历,可能有些人对FastDFS不是特别的了解,因此计划写几篇文章完整的介绍一下这个软件. 为什么要使用分布式 ...
解决ios微信页面回退不刷新的问题
在回退后需要刷新的页面加以下js $(function () { var isPageHide = false; window.addEventListener('pageshow', fun ...
固定表头，单元格td宽度自适应，多内容出现-横向纵向滚动条数据表格的<前世今生>
固定表头,单元格td宽度自适应,多内容出现-横向纵向滚动条数据表格的<前世今生> 先上图例 & 无论多少数据--都完美! 背景:由于我司行业方向,需要很多数据报表,则t ...
C#winform程序关闭计算机的正确姿势
/// <summary> /// 计算机电源控制类 /// </summary> public class EnvironmentCheckClass { [DllImpor ...

python爬取拉勾网职位数据

python爬取拉勾网职位数据的更多相关文章

随机推荐

热门专题