前言:

小李是个很有上进心的女孩, 老板让她了解下会计这个行业的薪资情况, 她不清楚怎么去做, 所以找了笔者, 当当当, 然后这一份薪资报告就出来了^_^.(小李为虚拟人物)

by  璀璨者张健, 专注于爬虫和数据分析, App/Web/小程序, 区块链等领域

简述:

首先说明这篇文章的数据来源,是爬虫爬取了拉勾网"数据分析师"这一职位信息所得来的。并且主要分析了数据分析师总体薪酬情况、不同城市薪酬分布、不同学历薪酬分布、北京上海工作等地经验薪酬分布情况、薪资最高的20个职位, 平均薪资最高的10个公司。 前面的内容多的是数据处理,  想看结果的可以直接跳到分析结论!

阅读大纲:

  • 数据分析报告

  • 分析结论

  • 思考总结

  • 数据采集(附录)

  • 数据清洗与处理(附录)

>>> 第一部分: 拉勾网会计职位分析报告

数据分析

  • 总体薪酬情况

从上面的图中,大部分职位集中在4k~14k之前, 10k左右的职位最多, 高薪的职位相对较少,  薪资特别低的有1k,2k,3k这三个薪资级别, 这三个薪资级别应该是  实例 岗位

  • 不同城市薪酬分布情况

北京市薪酬分布中位数大约在8.8k,居全国首位。其次是杭州、乌鲁木齐,上海, 深圳,  可以看出对于会计职位来说, 薪资最高的是北上深杭和乌鲁木齐, 北上广杭是国内的大城市, 而乌鲁木齐的薪资中位数在8k, 可能的原因是这个城市治安不好, 职位多, 但是人少

  • 不同学历的薪酬分布

我们可以看出, 学历对于薪资的影响还是很大的, 本科与大专的薪资差距在2k左右,  差不多在20%左右,会计专业对于学历的要求比较低, 没有哪家公司要求硕士学位或者博士学位

  • 北京上海深圳杭州职位不同薪酬分布情况

如果你想去北京和上海这两个城市发展的朋友们,用数据告诉你去哪个城市应该怎么发展

从图中我们能够得出,在北京会计的职位是较多的,  然后发展的方向是会计主管, 高级会计和会计经理,   薪资都在10k以上,  其中会计经理薪资达到了15k

杭州, 上海, 广州, 深圳基本都差不多,  会计这种基础岗位最多, 然后是会计主管,  值得特殊注意的是,  深圳还有全盘会计和成本会计

• 不同年限对于薪资的分布情况

通过以上图表可以看出, 应届毕业生的薪资较低, 一般为4.4k, 刚开始工作的1-3年的薪资为6.3k,  3-5年的薪资为8.4k,   5-10年的为10k左右,  也有的薪资较高, 达到33k左右, 但是这个岗位通过左侧的职位个数可以看出, 只有一个类似岗位, 不具有代表性

• 不同规模的公司对于薪资的分布情况

通过图表我们可以看出, 小公司一般开的薪资比较低, 例如15人左右的公司平均薪资在5k左右,  而大规模的公司, 例如大于150人以上的公司,  平均薪资在8k左右

• 不同的融资轮次对于薪资的影响

我们可以看出,  天使轮和未融资, 以及不需要融资能给的薪资为6k~7k,  融资中C轮工资给能的薪资是最多的

  • 薪资最高的10个职位

我们可以看出, 晨光科技能给出差不多25k到42k的薪资,  能给出高薪的岗位基本上是会计经理, 会计主管, 主板会计, 高级会计

• 平均薪资最高的10个公司

我们可以看出, 能给出高薪的几个公司为  晨光科技, 孔夫子旧书网, 青云, 熊猫直播, 药帮忙, 上上签

分析结论

从总体薪酬分布情况上,会计这一职业工资普遍较高的,大多人是在4k-14k之间每月,但是这个数据之后拉勾网的薪资, 可能智联招聘或者51job数据更准确一些

从不同城市薪资分布情况得出,在北京工作的数据分析师工资中位数在8k左右,全国之首。其次是杭州上海深圳,如果要发展的话,还是北、上、深、杭比较好啊。

从不同学历薪资情况得出,学历越高发展所获得工资是越高,其中有大专和本科差距在2k左右

分析北上深杭的数据分析师职位需求数量,北京以135个获得最高。

思考总结

今天这篇文章进行了更新,主要是用爬虫获得了会计职位信息,然后通过excel清洗数据, 然后通过excel的透视表分析数据,  通过excel的图表实现数据可视化

下载资源

福利1:   如果想要拉勾网会计职位的数据, 请加我微信

福利2:   python爬虫源码(github)

https://github.com/quietjolt/lagou-spider

>>> 第二部分: 干货 - python爬虫爬取拉勾网数据

数据采集

这篇文章的数据来源是拉勾网,  获取数据的过程是通过python实现爬虫程序, 从而获取了所需数据, 本文主要分析了拉勾网  '会计'  这个职位的总体薪资情况, 不同城市薪资, 不同学历, 重点城市的薪资分析,  数据量差不多在500条数据左右,  而根据接口中获取的值, 可以看出,  会计类岗位在拉勾网约在2720条左右, 数据覆盖率为 18%

  • 我们需要的数据在拉勾网, 拉勾网的地址是https://www.lagou.com/

登录拉勾网,在顶端输入框内输入"会计",点击搜索, 点击之后就能看到我们需要的数据, 如下图所示

其实这个爬虫部分的代码写的比较简单,运用知识主要是for循环,另外拉勾网对于我们请求的响应结果是json格式,也简化了我们的操作。操作的过程肯定会存在莫名的错误,大家要学会搜索并要有耐心啊。

爬虫的代码比较简单,  主要用的的是python语言,  requests库用于获取数据, pyquery用户解析html, pymysql用于保存数据.

爬虫源码请到github下载:

下载地址:  https://github.com/quietjolt/lagou-spider

这个步骤最后获取的导出的是csv格式的数据, 这种格式的数据可以在excel中导入, 然后去使用, 如图所示(如果需要数据, 请直接联系作者)

数据的清洗与处理

刚才获取的数据, 主要的问题就是薪资的格式是类似  7k-15k这种形式的数据, 这种形式难以通过数学化的方式分析, 所以我们需要做一下数据的清洗, 从7k-15k这种形式获取最低薪资, 最高薪资, 还有平均薪资,  平均薪资的计算方式是   (最低薪资 + 最高薪资 ) /2

这里处理薪资的做法是首先新加几个字段,  第一个字段bottomSalary表示最低薪资,  topSalary表示最高信息,  avgSalary表示平均薪资

然后通过excel的函数计算对应的值

bottomSalary的计算公式是  =LEFT(L2,FIND("-",L2)-2)

topSalary的计算公式是  =MID(L2,FIND("-",L2)+1,LEN(L2)-FIND("-",L2)-1)

avgSalary的计算公式是  =(M2+N2)/2

为了方便处理, 同时这是O列对应的数据的格式为数字, 小数位为0,

经过处理后数据如下所示

 

转载说明

转载请注明出处

作者:

作者:  璀璨者张健, 专注于爬虫, 数据分析, App/Web/小程序开发等领域

联系方式:  QQ: 598694550,  微信 quietjolt

此处可以扫码关注我的公众号

洞见世界(1): 拉勾网大数据告诉你, 会计最高月薪达33k!的更多相关文章

  1. 极光大数据告诉你,程序员们都在"愁"些啥?

    有言道:隔行如隔山.面对不甚熟悉的人群和岗位,我们很容易在固有印象的干扰下,作出一些偏离实际的解读.比如在很多外行人眼中,程序员群体的固有形象是性格木讷,生活方式通常也比较宅.他们最大的爱好就是玩游戏 ...

  2. LinkedIn高级分析师王益:大数据时代的理想主义和现实主义(图灵访谈)

    转自:http://www.ituring.com.cn/article/75445 王益,LinkedIn高级分析师.他曾在腾讯担任广告算法和策略的技术总监,在此期间他发明了并行机器学习系统“孔雀” ...

  3. 移动大数据时代最IN编程语言必读书单

    移动大数据时代最IN编程语言必读书单 这是一个快速更迭,快鱼吃慢鱼的时代.从IT 时代演变成 DT 时代,再到现在的智能时代.急速革新的各种新技术.新工具.新平台,需要程序员掌握良好的编程思想和学习方 ...

  4. 本地 vs. 云:大数据厮杀的最终幸存者会是谁?— InfoQ专访阿里云智能通用计算平台负责人关涛

    摘要: 本地大数据服务是否进入消失倒计时?云平台大数据服务最终到底会趋向多云.混合云还是单一公有云?集群规模增大,上云成本将难以承受是误区还是事实?InfoQ 将就上述问题对阿里云智能通用计算平台负责 ...

  5. Java之使用Hadoop探索大数据的世界

    什么是大数据 PB = 1024tb 7123913827189tb Reids 无共享 HDFS 优点 :特别适合存储大型文件 TFS hdfs 架构 NameNode: 整个hadoop总管,只有 ...

  6. 以慕课网日志分析为例-进入大数据Spark SQL的世界

    下载地址.请联系群主 第1章 初探大数据 本章将介绍为什么要学习大数据.如何学好大数据.如何快速转型大数据岗位.本项目实战课程的内容安排.本项目实战课程的前置内容介绍.开发环境介绍.同时为大家介绍项目 ...

  7. 【慕课网实战】一、以慕课网日志分析为例 进入大数据 Spark SQL 的世界

    课程整套CDH相关的软件下载地址:http://archive.cloudera.com/cdh5/cdh/5/ cdh-5.7.0 生产或者测试环境选择对应CDH版本时,一定要采用尾号是一样的版本 ...

  8. 以某课网日志分析为例 进入大数据 Spark SQL 的世界

    第1章 初探大数据 本章将介绍为什么要学习大数据.如何学好大数据.如何快速转型大数据岗位.本项目实战课程的内容安排.本项目实战课程的前置内容介绍.开发环境介绍.同时为大家介绍项目中涉及的Hadoop. ...

  9. [No00002E]关于大数据,你不知道的6个迷思

    还是那个观点:计算机,编程语言,互联网,大数据等等都只是工具! 导语:看过美剧<纸牌屋>没?知道这部"白宫甄嬛传"为什么会火吗?靠的是大!数!据! 过去两年,在 Net ...

随机推荐

  1. 如何在IOS上调试Hybrid应用

    最近在找关于在xcode上调试Hybrid应用的方法,比如我想进行断点调试.日志打印.屏幕适配等等,刻意去搜了下方法,虽然之前已经大致知道了,这里系统归纳一下,原文在https://developer ...

  2. 痛吻过YY寻找到真爱的三非渣本春招之路

    写下这篇文章可能就不是大家乐于见闻的面经了,更多是深入一些面试细节. 前言 我猜拿到了BAT等一线互联网公司Offer的小伙伴或者那些老鸟看到这条标题的时候会不屑一顾,认为YY这种级别的公司是属于二线 ...

  3. KVM之五:KVM日常管理常用命令

    1.查看.编辑及备份KVM 虚拟机配置文件 以及查看KVM 状态: 1.1.KVM 虚拟机默认的配置文件在 /etc/libvirt/qemu 目录下,默认是以虚拟机名称命名的.xml 文件,如下,: ...

  4. sql模糊查询效率

    在数据库量比较大的时候通常有一些查询,例如查询文本类型的数据,存储量大,用like进行模糊查询效率实在太低 select * from stdcontent where  content like ' ...

  5. Java基础学习笔记二十一 多线程

    多线程介绍 学习多线程之前,我们先要了解几个关于多线程有关的概念.进程:进程指正在运行的程序.确切的来说,当一个程序进入内存运行,即变成一个进程,进程是处于运行过程中的程序,并且具有一定独立功能. 线 ...

  6. sqlplus 的安装和配置

    sqlplus :  oracle公司提供用户操作oracle数据库的工具. 安装所需的包:  1.oracle 客户端    2.sqlplus工具 官方下载地址  http://www.oracl ...

  7. Leetcode 15——3Sum

    Given an array S of n integers, are there elements a, b, c in S such that a + b + c = 0? Find all un ...

  8. alpha-咸鱼冲刺day6-紫仪

    总汇链接 一,合照 emmmmm.自然还是没有的. 二,项目燃尽图 三,项目进展 !!!QAQ可以做到跟数据库交互了!!!!先来撒花花!(然后继续甲板) (然后就没有进展了.翻车+1s) 四,问题困难 ...

  9. 使用Flask-SQLAlchemy管理数据库

    SQLAlchemy 是一个很强大的关系型数据库框架,处于数据库抽象层 ,支持多种数据库后台. 提供了高层 ORM,也提供了使用数据库原生 SQL 的低层功能. 安装Flask-SQLAlchemy ...

  10. 201621123040《Java程序设计》第十一周学习总结

    1.本周学习总结 1.1以你喜欢的方式(思维导图或其他)归纳总结多线程相关内容. 2.书面作业 2.1源代码阅读:多线程程序BounceThread 2.1.1BallRunnable类有什么用?为什 ...