本系列专属github地址:https://github.com/ios122/spark_lagou

前言

我觉得如果动笔,就应该努力地把要说的东西表达清楚.今后一段时间,尝试下系列博客文章.简单说,如果心里想表达想分享的,就适当规划组织下,使其相对自成体系,以便于感兴趣但可能刚好某个领域还不是很熟的人,也能很好地入手.系列文章,我会努力避免过于主观化的描述,同时吸取以往的经验,尽量给每个系列的文章都设置一个单独的 github 项目,供查阅参考.

Spark 系列文章规划

Spark系列,因为本人并非供职于大型数据公司,也未曾在较大数据集上实践过,所以内容可能仅供初级入门者参考.目前,我处理过的较大的数据集,也仅在百万条左右,但是也不得不惊叹 Spark 做为数据分析工具的便利性,100w条数据,在3台BMR服务器结点上,复杂查询一般在十秒以内.从数据分析的工具角度,我觉得 Spark 还是有必要了解的,大多数时候,基于数据的多个维度分析出的结论,可能比某些抽象的统计数据,能有说服力.

数据源: 拉勾网 iOS 职位最近一个月的公开招聘信息

以拉勾网 iOS 职位最近一个月的公开招聘信息作为样本.这是一个样本,到时我会具体说一下数据获取的方法和思路,还会奉上可用的脚本.

数据分析工具:Spark.

Spark是主要分析工具.我前一段时间,看了那本<>,然后开始了Spark的学习.自己感觉 Spark,可能更符合自己目前阶段的需要--小规模数据的即时分析.

数据分析平台: 百度BMR

我会直接基于百度BMR来分析数据.至今,我没有试过自己搭建spark开发环境,也暂无打算研究.因为我觉得,大数据的分析,硬件还是挺贵的,好在现在有云平台,即开即用,用完释放掉即可.还有一个原因是,单机版的Spark和分布式的Spark,某些函数的行为还是有差异的.我看阿里云,也有类似的大数据分析平台,应该也是可以的.

准备事宜

实名认证的百度开发者账号,注册请到 https://login.bce.baidu.com 因为必须是实名认证的百度开发者账号,才可以创建 BMR 实例,没有账号,可能会影响到你观察文章的体验.因为这个实名认证要审核的,最好提前弄.

文章更新具体规划

使用Spark分析拉勾网招聘信息(一):准备工作

交代基本背景,动机与必要准别事宜等,为进一步文章铺垫.

使用Spark分析拉勾网招聘信息(二): 获取数据

使用脚本自动获取数据,会涉及数据源的分析,脚本编写思路,以及一个最终可用的脚本和实际采集的完整数据附件.

使用Spark分析拉勾网招聘信息(三): BMR 入门

主要讲解百度大数据平台BMR的基础操作与常用工具的使用.当然电脑性能较为强悍的童鞋,可以自己安装研究下Hadoop,Spark和Zeepline等工具.用BMR,比较省钱,按分钟计费,一小时 2块左右,我通常只是有感兴趣的数据题材时才开启.顺便插一句,以数据的视角,自由组合维度来观察某些自己关心的数据,真的看出来许多刷新自己认知的真实.不过,考虑到工具的可扩展性,我还是建议掌握下 BMR或者阿里的大数据平台的基础使用.

使用Spark分析拉勾网招聘信息(四): 几个常用的脚本与图片分析结果

这里,会结合数据结构,展示下数据分析与提取的基本思路,然后会选几个角度分析下数据.方法是根本,简单了解下,再多看看 spark 和 scala 文档,我相信大家是可以自由使用Spark来分析自己感兴趣的数据的.


版权声明: iOS122 颜风 署名系列文章,每日 7:20 首发于微信公众号 iOS122gg,其他平台次日10点更新.除各大博客平台的iOS122官方专栏外,其他任何用途的转载与使用,请务必注明出处!

使用Spark分析拉勾网招聘信息(一):准备工作的更多相关文章

  1. 使用Spark分析拉勾网招聘信息(二): 获取数据

    要获取什么样的数据? 我们要获取的数据,是指那些公开的,可以轻易地获取地数据.如果你有完整的数据集,肯定是极好的,但一般都很难通过还算正当的方式轻易获取.单就本系列文章要研究的实时招聘信息来讲,能获取 ...

  2. 使用Spark分析拉勾网招聘信息(四): 几个常用的脚本与图片分析结果

    概述 前一篇文章,已经介绍了BMR的基础用法,再结合Spark和Scala的文档,我想应该是可以开始你的数据分析之路的.这一篇文章,着重进行一些简单的思路上的引导和分析.如果你分析招聘数据时,卡在了某 ...

  3. 使用Spark分析拉勾网招聘信息(三): BMR 入门

    简述 本文,意在以最小的篇幅,来帮助对大数据和Spark感兴趣的小伙伴,能尽快搭建一个可用的Spark开发环境.力求言简意赅.文章,不敢自称BMR的最佳实践,但绝对可以帮助初学者,迅速入门,能够专心于 ...

  4. 爬取拉勾网招聘信息并使用xlwt存入Excel

    xlwt 1.3.0 xlwt 文档 xlrd 1.1.0 python操作excel之xlrd 1.Python模块介绍 - xlwt ,什么是xlwt? Python语言中,写入Excel文件的扩 ...

  5. Python3获取拉勾网招聘信息

    为了了解跟python数据分析有关行业的信息,大概地了解一下对这个行业的要求以及薪资状况,我决定从网上获取信息并进行分析.既然想要分析就必须要有数据,于是我选择了拉勾,冒着危险深入内部,从他们那里得到 ...

  6. python-scrapy爬虫框架爬取拉勾网招聘信息

    本文实例为爬取拉勾网上的python相关的职位信息, 这些信息在职位详情页上, 如职位名, 薪资, 公司名等等. 分析思路 分析查询结果页 在拉勾网搜索框中搜索'python'关键字, 在浏览器地址栏 ...

  7. Python爬取拉勾网招聘信息并写入Excel

    这个是我想爬取的链接:http://www.lagou.com/zhaopin/Python/?labelWords=label 页面显示如下: 在Chrome浏览器中审查元素,找到对应的链接: 然后 ...

  8. node.js 89行爬虫爬取智联招聘信息

    写在前面的话, .......写个P,直接上效果图.附上源码地址  github/lonhon ok,正文开始,先列出用到的和require的东西: node.js,这个是必须的 request,然发 ...

  9. 基于‘BOSS直聘的招聘信息’分析企业到底需要什么样的PHP程序员

    原文地址:http://www.jtahstu.com/blog/scrapy_zhipin_php.html 基于'BOSS直聘的招聘信息'分析企业到底需要什么样的PHP程序员 标签(空格分隔): ...

随机推荐

  1. 【LeetCode】Power of Two

    问题描写叙述 Given an integer, write a function to determine if it is a power of two. 意:推断一个数是否是2的n次幂 算法思想 ...

  2. Apex Design Patterns

    Apex allows you to build just about any custom solution on the Force.com platform. But what are the ...

  3. db2 表授权语句

    grant insert/update/delete on table schema.table_name to user user_name;

  4. String和包装类Integer\Double\Long\Float\Character 都是final类型

    String和包装类Integer\Double\Long\Float\Character\Boolean 都是final类型 不可以改变

  5. 关于 c# 操作 world

    把数据存放在datatable 中并循环取出来数据然后再保存在world中 protected void ExportToWord(DataSet Ads) { try { Object Nothin ...

  6. C# WinForm 技巧十: 开发工具

    一.摘要   为了开发效率就应该为这个框架开发一个配套工具.来生成固定格式的代码.工具界面如下:   二.数据库整理篇   添加表主键 修改表说明 修改表字段说明 生成数据库文档 导出数据库里相同的字 ...

  7. ecshop商品详细描述调用商品相册代码

    该修改方法让用户体验更好,特别是ecshop建站的用户产品描叙文字不多的朋友,直接让相册图显示在产品描述里.免去除在后台添加了 <div style="text-align:cente ...

  8. 如何优雅的在MFC中使用cvSetMouseCallback?

    MFC与opencv的cvSetMouseCallback用起来感觉很不兼容. 大部分时候,用cvSetMouseCallback也许只是为了获取一个矩形框,或者绘制一个点,或者其它什么简易的图形,通 ...

  9. JavaScript封装Ajax(类JQuery中$.ajax()方法)

    ajax.js (function(exports, document, undefined){ "use strict"; function Ajax(){ if(!(this ...

  10. php报错: PHP Warning: PHP Startup: memcache: Unable to initialize module

    在mac上通过brew 安装php的memcache扩展(brew install php56-memcache)后运行 ~  php -mPHP Warning:  PHP Startup: mem ...