使用Spark分析拉勾网招聘信息(一):准备工作
本系列专属github地址:https://github.com/ios122/spark_lagou
前言
我觉得如果动笔,就应该努力地把要说的东西表达清楚.今后一段时间,尝试下系列博客文章.简单说,如果心里想表达想分享的,就适当规划组织下,使其相对自成体系,以便于感兴趣但可能刚好某个领域还不是很熟的人,也能很好地入手.系列文章,我会努力避免过于主观化的描述,同时吸取以往的经验,尽量给每个系列的文章都设置一个单独的 github 项目,供查阅参考.
Spark 系列文章规划
Spark系列,因为本人并非供职于大型数据公司,也未曾在较大数据集上实践过,所以内容可能仅供初级入门者参考.目前,我处理过的较大的数据集,也仅在百万条左右,但是也不得不惊叹 Spark 做为数据分析工具的便利性,100w条数据,在3台BMR服务器结点上,复杂查询一般在十秒以内.从数据分析的工具角度,我觉得 Spark 还是有必要了解的,大多数时候,基于数据的多个维度分析出的结论,可能比某些抽象的统计数据,能有说服力.
数据源: 拉勾网 iOS 职位最近一个月的公开招聘信息
以拉勾网 iOS 职位最近一个月的公开招聘信息作为样本.这是一个样本,到时我会具体说一下数据获取的方法和思路,还会奉上可用的脚本.
数据分析工具:Spark.
Spark是主要分析工具.我前一段时间,看了那本<>,然后开始了Spark的学习.自己感觉 Spark,可能更符合自己目前阶段的需要--小规模数据的即时分析.
数据分析平台: 百度BMR
我会直接基于百度BMR来分析数据.至今,我没有试过自己搭建spark开发环境,也暂无打算研究.因为我觉得,大数据的分析,硬件还是挺贵的,好在现在有云平台,即开即用,用完释放掉即可.还有一个原因是,单机版的Spark和分布式的Spark,某些函数的行为还是有差异的.我看阿里云,也有类似的大数据分析平台,应该也是可以的.
准备事宜
实名认证的百度开发者账号,注册请到 https://login.bce.baidu.com 因为必须是实名认证的百度开发者账号,才可以创建 BMR 实例,没有账号,可能会影响到你观察文章的体验.因为这个实名认证要审核的,最好提前弄.
文章更新具体规划
使用Spark分析拉勾网招聘信息(一):准备工作
交代基本背景,动机与必要准别事宜等,为进一步文章铺垫.
使用Spark分析拉勾网招聘信息(二): 获取数据
使用脚本自动获取数据,会涉及数据源的分析,脚本编写思路,以及一个最终可用的脚本和实际采集的完整数据附件.
使用Spark分析拉勾网招聘信息(三): BMR 入门
主要讲解百度大数据平台BMR的基础操作与常用工具的使用.当然电脑性能较为强悍的童鞋,可以自己安装研究下Hadoop,Spark和Zeepline等工具.用BMR,比较省钱,按分钟计费,一小时 2块左右,我通常只是有感兴趣的数据题材时才开启.顺便插一句,以数据的视角,自由组合维度来观察某些自己关心的数据,真的看出来许多刷新自己认知的真实.不过,考虑到工具的可扩展性,我还是建议掌握下 BMR或者阿里的大数据平台的基础使用.
使用Spark分析拉勾网招聘信息(四): 几个常用的脚本与图片分析结果
这里,会结合数据结构,展示下数据分析与提取的基本思路,然后会选几个角度分析下数据.方法是根本,简单了解下,再多看看 spark 和 scala 文档,我相信大家是可以自由使用Spark来分析自己感兴趣的数据的.
版权声明: iOS122 颜风 署名系列文章,每日 7:20 首发于微信公众号 iOS122gg,其他平台次日10点更新.除各大博客平台的iOS122官方专栏外,其他任何用途的转载与使用,请务必注明出处!
使用Spark分析拉勾网招聘信息(一):准备工作的更多相关文章
- 使用Spark分析拉勾网招聘信息(二): 获取数据
要获取什么样的数据? 我们要获取的数据,是指那些公开的,可以轻易地获取地数据.如果你有完整的数据集,肯定是极好的,但一般都很难通过还算正当的方式轻易获取.单就本系列文章要研究的实时招聘信息来讲,能获取 ...
- 使用Spark分析拉勾网招聘信息(四): 几个常用的脚本与图片分析结果
概述 前一篇文章,已经介绍了BMR的基础用法,再结合Spark和Scala的文档,我想应该是可以开始你的数据分析之路的.这一篇文章,着重进行一些简单的思路上的引导和分析.如果你分析招聘数据时,卡在了某 ...
- 使用Spark分析拉勾网招聘信息(三): BMR 入门
简述 本文,意在以最小的篇幅,来帮助对大数据和Spark感兴趣的小伙伴,能尽快搭建一个可用的Spark开发环境.力求言简意赅.文章,不敢自称BMR的最佳实践,但绝对可以帮助初学者,迅速入门,能够专心于 ...
- 爬取拉勾网招聘信息并使用xlwt存入Excel
xlwt 1.3.0 xlwt 文档 xlrd 1.1.0 python操作excel之xlrd 1.Python模块介绍 - xlwt ,什么是xlwt? Python语言中,写入Excel文件的扩 ...
- Python3获取拉勾网招聘信息
为了了解跟python数据分析有关行业的信息,大概地了解一下对这个行业的要求以及薪资状况,我决定从网上获取信息并进行分析.既然想要分析就必须要有数据,于是我选择了拉勾,冒着危险深入内部,从他们那里得到 ...
- python-scrapy爬虫框架爬取拉勾网招聘信息
本文实例为爬取拉勾网上的python相关的职位信息, 这些信息在职位详情页上, 如职位名, 薪资, 公司名等等. 分析思路 分析查询结果页 在拉勾网搜索框中搜索'python'关键字, 在浏览器地址栏 ...
- Python爬取拉勾网招聘信息并写入Excel
这个是我想爬取的链接:http://www.lagou.com/zhaopin/Python/?labelWords=label 页面显示如下: 在Chrome浏览器中审查元素,找到对应的链接: 然后 ...
- node.js 89行爬虫爬取智联招聘信息
写在前面的话, .......写个P,直接上效果图.附上源码地址 github/lonhon ok,正文开始,先列出用到的和require的东西: node.js,这个是必须的 request,然发 ...
- 基于‘BOSS直聘的招聘信息’分析企业到底需要什么样的PHP程序员
原文地址:http://www.jtahstu.com/blog/scrapy_zhipin_php.html 基于'BOSS直聘的招聘信息'分析企业到底需要什么样的PHP程序员 标签(空格分隔): ...
随机推荐
- 图解 MongoDB 地理位置索引的实现原理
地理位置索引支持是MongoDB的一大亮点,这也是全球最流行的LBS服务foursquare 选择MongoDB的原因之一.我们知道,通常的数据库索引结构是B+ Tree,如何将地理位置转化为可建立B ...
- Android UI系列-----ScrollView和HorizontalScrollView
本篇随笔将讲解一下Android当中比较常用的两个布局容器--ScrollView和HorizontalScrollView,从字面意义上来看也是非常的简单的,ScrollView就是一个可以滚动的V ...
- 使用 Express 和 waterline 创建简单 Restful API
这几篇都是我原来首发在 segmentfault 上的地址:https://segmentfault.com/a/1190000004996659 突然想起来我这个博客冷落了好多年了,也该更新一下, ...
- 一个类有两个方法,其中一个是同步的,另一个是非同步的; 现在又两个线程A和B,请问:当线程A访问此类的同步方法时,线程B是否能访问此类的非同步方法?
一个类有两个方法,其中一个是同步的,另一个是非同步的:现在又两个线程A和B,请问:当线程A访问此类的同步方法时,线程B是否能访问此类的非同步方法? 答案:可以 验证 package com.my.te ...
- 动态生成Table内文字换行。
后台动态生成table,并把td内的文字进行换行. 前台: <body style="width:100%;height:540px;margin-left:0px;margin-to ...
- 用户管理 之 Linux 用户管理工具介绍
Linux是一个多用户的操作系统,她有完美的用户管理工具,这些工具包括用户的查询.添加.修改,以及用户之间相互切换的工具等:通过这些工具,我们能安全.轻松的完成用户管理: 在这里我们要引入用户控制工具 ...
- Jenkins FTP 上传
需要插件:FTP publisher plugin 进入 Jenkins / 系统管理 / 系统设置 找到 FTP repository hosts,新增一个,编辑好,保存 打开 Jenkins / ...
- SQL SERVER 移动系统数据库
移动系统数据库在下列情况下可能很有用: 故障恢复.例如,数据库处于可疑模式下或因硬件故障而关闭. 计划的重定位. 为预定的磁盘维护操作而进行的重定位. 移动 Master 数据库 在“开始”菜 ...
- Arduino 封装库
这里是一个在Arduino平台下将常用的代码以库的形式封装的示例. 第一步:在Arduino的安装目录下的对应目录建立文件夹 C:\Program Files (x86)\Arduino\librar ...
- visual studio 2013使用技巧
去掉 引用提示 文本编辑器=>所有语言=>codelens visual studio 由于以前的函数求值超时,函数求值被禁用.必须继续执行才能重新启用函数求值 visual studio ...