Python 招聘信息爬取及可视化
自学python的大四狗发现校招招python的屈指可数,全是C++、Java、PHP,但看了下社招岗位还是有的。于是为了更加确定有多少可能找到工作,就用python写了个爬虫爬取招聘信息,数据处理,最后用R语言进行可视化呈现。项目地址:Github Repo 求关注。
scrapy爬虫
python语言简单强大,虽然效率比不上C++这类编程语言,但因为没有了繁琐严格的语法,能让程序员更加专注于业务逻辑,缩短开发周期。虽然用urllib、beautifulsoup之类的包也可以写出爬虫,但是使用scrapy框架能够避免重复制造轮子,可以写尽可能少的代码实现。以下就介绍爬虫核心的代码:
Item
首先需要定义你要爬取的是什么样的数据,在scrapy自动生成的项目文件里的items.py中定义爬取的数据。我爬取了招聘的岗位名称(title)、城市(company)、地址(location)和招聘信息的url:
Spider
爬虫自然是主体的逻辑部分,可以用scrapy的genspider子命令生成模板代码,还可以设置spider类型。此处用的最基础的spider.Spider类型。爬取的列表页是51job(51job好爬!)手动搜索全国python招聘信息得到的,通过观察可以发现它翻页是通过url里的参数实现的,因此写了个生成器生成每页对应的request。parse方法则是其实request对应的response默认的处理方法,在此用css选择器(这里应该是用浏览器工具直接生成的,实际应该不需要这么长)和正则表达式抽取出每一条招聘信息的地址,调用Request方法获得response再把response传给parse_item方法(这个方法是自定义的,不是scrapy默认支持的方法)处理。在parse_item方法中的response才是真正的每条招聘信息详情页。这里主要使用xpath选择器,因为不是前端不大熟悉css选择器。xpath和css选择器都可以在w3cschool找到教程,很短很快能看完。
Pipelines
Pipeline管道用于爬取到Item后的数据处理,虽然scrapy本身自带一些存储功能如CSV,但如果要自定义更复杂的处理存储可以在pipeline里实现,最主要是在process_item(self,item,spider)方法中实现。在这实现了两个pipeline,第一个是dropPipeline,用于判断爬取的Item招聘岗位标题中是否有python字串,如果没有就抛出DropItem异常丢弃Item。第二个pipeline实现了sqlite存储。注意在setting里设置好每个管道的顺序,先通过丢弃的管道剩下的再经过存储管道,否则丢弃就没有意义了。

middleware
其实上面代码能实现爬取存储了,不过我写了个没用上的middleware。middleware中间件就是用于处理request和response的,可以在request发出前对其进行处理,response收到后进行处理。写了一个自动切换http代理的中间件,本来想得是http代理从西刺网站抓取(代码仓库里有,用的selenium爬的),但是测试了下其实西刺网站代理很多是不能用的,所以最后干脆不用了~
数据处理
数据处理主要是用高德地图的api获取地理位置坐标,但因为在数据可视化阶段使用的可视化工具是不是国产的,而国内地图的经纬度又经过了加偏处理,所以还需要进一步转换成国际标准的经纬度,幸亏也有api可以用。在这一步还同时统计了每座城市的招聘数量,不过其实这个放最后用R语言统计好像更方便。具体代码就不贴了,太长,可以去github看。
R语言可视化
这个是最后的重头戏,其实R语言不是很精通,在coursera上上的约翰霍普金斯大学的数据科学系列课程,书上没有的干货很多,比如shiny,比如R语言包怎么写,分析报告怎么写,甚至用R写ppt怎么写,还有很多设计的项目可以实践。。。但是要在统计分析方面深入的话还是看书比较好,课上的有点快,特别是统计学那部分一个个概念分分钟扔给你,根本听不懂。。。由于实在没怎么学过统计学,并且爬取的信息也有限,所以这里只进行了可视化。
- ggplot可以是R语言可视化最著名的包,下载量也是在所有R语言包中靠前的。而plotly是专门做数据可视化的,支持python、R、Matlab等(还是在公开课干货中看到的)。plotly包只要一个函数(ggplotly)就可以把普通的ggplot转换成可交互的图,可以放大缩小拖拽,鼠标经过时还会显示具体的数据。图中可见北上深广python招聘还是挺多的,北上都有两百多,而到深圳就只有90了,再后面就更少了。还是得去大城市机会比较多~

- plotly的scatergeo图,圆圈大小代表数据大小,经过根号调整过大小,不然差距太大,小圆圈全都被覆盖了。右侧的四分位点击后是可以隐藏或者显示特定颜色的圆圈的。还有鼠标悬停在圆圈上同样会显示详细信息。遗憾的是plotly在亚洲部分的地图还不能细分到省。厦门二手叉车租赁公司

- leaflet地图则是另一个R语言包,同样是公开课看到的。地图上会显示每一个招聘信息的位置,点击后有职位名称和公司名称,职位名称还是个链接。leaflet地图还是很让人吃惊,竟然不用梯子而且放大后地点还挺多的。要找离你最近的python招聘用这个图还是真的很不错的!

分析报告地址
由于报告是2.5M的html文件,所以加载会比较慢,而微信还给说是危险网站,无语。地址如下:七牛链接、rpub
rpub是一个专门用于发布R语言分析报告的网站。
Python 招聘信息爬取及可视化的更多相关文章
- Scrapy项目 - 实现腾讯网站社会招聘信息爬取的爬虫设计
通过使Scrapy框架,进行数据挖掘和对web站点页面提取结构化数据,掌握如何使用Twisted异步网络框架来处理网络通讯的问题,可以加快我们的下载速度,也可深入接触各种中间件接口,灵活的完成各种需求 ...
- Scrapy案例02-腾讯招聘信息爬取
目录 1. 目标 2. 网站结构分析 3. 编写爬虫程序 3.1. 配置需要爬取的目标变量 3.2. 写爬虫文件scrapy 3.3. 编写yield需要的管道文件 3.4. setting中配置请求 ...
- Scrapy项目 - 数据简析 - 实现腾讯网站社会招聘信息爬取的爬虫设计
一.数据分析截图 本例实验,使用Weka 3.7对腾讯招聘官网中网页上所罗列的招聘信息,如:其中的职位名称.链接.职位类别.人数.地点和发布时间等信息进行数据分析,详见如下图: 图1-1 Weka ...
- Scrapy项目 - 项目源码 - 实现腾讯网站社会招聘信息爬取的爬虫设计
1.tencentSpider.py # -*- coding: utf-8 -*- import scrapy from Tencent.items import TencentItem #创建爬虫 ...
- 安居客scrapy房产信息爬取到数据可视化(下)-可视化代码
接上篇:安居客scrapy房产信息爬取到数据可视化(下)-可视化代码,可视化的实现~ 先看看保存的数据吧~ 本人之前都是习惯把爬到的数据保存到本地json文件, 这次保存到数据库后发现使用mongod ...
- 用python写一个豆瓣短评通用爬虫(登录、爬取、可视化)
原创技术公众号:bigsai,本文在1024发布,祝大家节日快乐,心想事成. @ 目录 前言 登录 爬取 储存 可视化分析 前言 在本人上的一门课中,老师对每个小组有个任务要求,介绍和完成一个小模块. ...
- [python] 常用正则表达式爬取网页信息及分析HTML标签总结【转】
[python] 常用正则表达式爬取网页信息及分析HTML标签总结 转http://blog.csdn.net/Eastmount/article/details/51082253 标签: pytho ...
- [Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)
转载自:http://blog.csdn.net/eastmount/article/details/51231852 一. 文章介绍 源码下载地址:http://download.csdn.net/ ...
- 14.python案例:爬取电影天堂中所有电视剧信息
1.python案例:爬取电影天堂中所有电视剧信息 #!/usr/bin/env python3 # -*- coding: UTF-8 -*- '''======================== ...
随机推荐
- java实现zabbix接口开发
API:https://www.zabbix.com/documentation/4.0/zh/manual/api/reference/user/login 如果你使用jar包开发的话,会出现*** ...
- T-SQL查询:WITH AS 递归计算某部门的所有上级机构或下级机构
drop table #Area; CREATE TABLE #Area ( id INT NOT NULL, city_name NVARCHAR(100) NOT NULL, parent_id ...
- MySql多表关联,根据某列取前N条记录问题
近来遇到一个问题:“MySql多表关联,根据某列取前N条记录”. 刚开始一直在想,SQL语句是否可以做到直接查询出来,但几经折磨,还是没能写出SQL语句,-------如果有大牛的话,望指点迷津.我把 ...
- [已解决]Vistual Stdio 2015 installer Bootstrapper Packages 路径
VS2015 installer 的预装包的地址变更成 C:\Program Files (x86)\Microsoft Visual Studio 14.0\SDK\Bootstrapper\Pac ...
- php实现银联支付
银联支付用的还是比较少的,而且开发中也没接触多少,不过因为工作项目用银联支付能降低费率,所以还是接入了银联支付.本文支付为银联网关和WAP支付接口. 官方网站SDK&DEMO:https:// ...
- Flash的swf文件破解
1.准备好flash文件,xxx.swf(后缀为swf),将其重构swf文件为fla源文件. 2.asv软件(5以上版本)的操作 1.点击左上角 文件 --> 打开 --> 运行已准备好的 ...
- JVM内存模型(转载)
原文地址:http://blog.csdn.net/u012152619/article/details/46968883 JVM定义了若干个程序执行期间使用的数据区域.这个区域里的一些数据在JVM启 ...
- 20155216 2017-2018-1 《信息安全系统设计基础》第二周课堂练习补交以及Myod的实现
20155216 2017-2018-1 <信息安全系统设计基础>第二周课堂练习补交 课堂测试3:行断点的设置 运行截图: 未完成原因:课前未安装 cgdb 具体步骤: 1.输入命令:gc ...
- java开发划分级别的标准
一.史诗序: java开发也有一段时间了,整天茫茫碌碌,除了偶尔的小有成就感,剩下的大部分好像都在重复,你是否也遇到了这样的情况? 遇到一个小细节问题,之前不久解决过,现在却是什么都记不起来了 面对每 ...
- 人脸识别引擎SeetaFaceEngine简介及在windows7 vs2013下的编译
SeetaFaceEngine是开源的C++人脸识别引擎,无需第三方库,它是由中科院计算所山世光老师团队研发.它的License是BSD-2. SeetaFaceEngine库包括三个模块:人脸检测( ...