苏州市java岗位的薪资状况(2)
上一篇已经统计出了起薪最高的top 10:
接着玩,把top 10 中所有职位的详细信息爬取下来。某一职位的详情是这样:
我们需要把工作经验、学历、职能、关键字爬取下来。
from urllib.request import urlopen
from urllib.error import HTTPError
from bs4 import BeautifulSoup
import csv
from itertools import chain
import threading def load_datas():
'''
从joblist.csv中装载数据
:return: 数据集 datas
'''
datas = []
with open('high10_url.csv', encoding='utf-8') as fp:
r = csv.reader(fp)
for row in r:
datas.append(row[0])
return datas def get_desc(url):
''' 爬取职位的详细信息,包括:经验, 学历, 职位, 技能关键字 '''
try:
html = urlopen(url)
except HTTPError as e:
print('Page was not found', e.filename)
return [] job_desc = [] # 职位详情
try:
exp, edu, position, keys = '', '', '', [] # 经验, 学历, 职位, 技能关键字
bsObj = BeautifulSoup(html.read())
contents = bsObj.find('p', {'class': 'msg ltype'}).contents
exp = contents[2].strip() # 经验
edu = contents[4].strip() # 学历
print(edu)
a_list = bsObj.findAll('a', {'class': 'el tdn'})
for i, a in enumerate(a_list):
if i == 0:
position = a.get_text() # 职位
else:
keys.append(a.get_text()) # 技能关键字
job_desc.append((exp, edu, position, keys))
except AttributeError as e:
print(e)
job_desc = []
return job_desc def crawl(urls):
'''
:param urls: 职位详情
'''
print('开始爬取数据...')
job_desc = [get_desc(url) for url in urls]
print('爬取结束')
return job_desc def save_data(all_jobs, f_name):
'''
将信息保存到目标文件
:param all_jobs: 二维列表,每个元素是一页的职位信息
'''
print('正在保存数据...')
with open(f_name, 'w', encoding='utf-8', newline='') as fp:
w = csv.writer(fp)
# 将二维列表转换成一维
t = list(chain(*all_jobs))
w.writerows(t)
print('保存结束,共{}条数据'.format(len(t))) urls = load_datas()
job_desc = crawl(urls)
print(job_desc)
save_data(job_desc, 'job_desc.csv')
high10_url.csv中已经预先存储了top 10的所有64个url。job_desc.csv中的结果如下:
学历列出现了问题,第5行显示的是“招1人”,实际上这个职位没有学历要求,把所有“招x人”的记录都改成“无要求”。
接下来可以按照经验、学历、职能分别统计:
import csv
import pandas as pd
import numpy as np def load_datas():
'''
从joblist.csv中装载数据
:return: 数据集 datas
'''
datas = []
with open('job_desc.csv', encoding='utf-8') as fp:
r = csv.reader(fp)
for row in r:
datas.append(row)
return datas def analysis(datas):
''' 数据分析 '''
df = pd.DataFrame({'exp': datas[:, 0],
'edu': datas[:, 1],
'position': datas[:, 2],
'keys': datas[:, 3]})
count(df, 'exp', '经验') # 按经验统计
count(df, 'edu', '学历') # 按学历统计
count(df, 'position', '职位') # 按职位统计 def count(df, idx, name):
''' 分组统计 '''
print(('按' + name + '分组').center(60, '-'))
c = df[idx].value_counts(sort=True)
print(c) if __name__ == '__main__':
# 读取并清洗数据
datas = np.array(load_datas())
analysis(datas)
5~7年经验果然是最容易找到高薪职位的,而且用人单位大多要求本科学历。
职能的统计比较杂乱,高级软件工程师和架构师的岗位较多,项目经理这类职位的薪水一般低于工程师,这也和预计的相同:
技能关键字看起来并不友好:
第一条记录很好地反应了技能要求,第二条就没什么用了,这是由于关键字信息是HR自行添加的,大多数HR都不太了解技术,因此也就出现了像第二条那样对本次分析没什么作用的关键字。
看来得求助于一些分词技术,从职位信息中抽取一些关键字。
下篇继续,看看哪些技能是抢手的。
作者:我是8位的
出处:http://www.cnblogs.com/bigmonkey
本文以学习、研究和分享为主,如需转载,请联系本人,标明作者和出处,非商业用途!
扫描二维码关注公作者众号“我是8位的”
苏州市java岗位的薪资状况(2)的更多相关文章
- 苏州市java岗位的薪资状况(1)
8月份已经正式离职,这两个月主要在做新书校对工作.9月份陆续投了几份简历,参加了两次半面试,第一次是家做办公自动化的公司,开的薪水和招聘信息严重不符,感觉实在是在浪费时间,你说你给不了那么多为什还往上 ...
- 2014广州Java岗位面试汇总
本文记录了最近一些朋友提供的面试经历,真实数据,仅供广州求职的朋友参考.为行文方便,一律用主语”我“进行.部分词语可能造成读者不良反应,敬请留意. 1 广州沣首信息科技有限公司 公司所在区域相对较偏 ...
- Python基础学习笔记(一)python发展史与优缺点,岗位与薪资
相信有好多朋友们都是第一次了解python吧,可能大家也听过或接触过这个编程语言.那么到底什么是python呢?它在什么机缘巧合下诞生的呢?又为什么在短短十几年时间内就流行开来呢?就请大家带着疑问,让 ...
- Java岗位面试题分享:jvm+分布式+消息队列+协议(已拿offer)
个人近期面试情况 今年二月以来,我的面试除了一个用友的,基本其他都被毙了,可以说是非常残酷的.其中有很多自己觉得还面的不错的岗位,比如百度.跟谁学.好未来等公司.说实话,打击比较大. 情况基本上是从三 ...
- 野村证券伦敦分部面试 - Java岗位
第一轮 1. 笔试 30 mins 一共六道大题,前两题有4-5个小题. 第一道大题主要是考察Java Collections: a. LinkedList和ArrayList的区别 b. Set和L ...
- 掌握Python可以去哪些岗位?薪资如何?
一.人工智能 Python作为人工智能的黄金语言,选择人工智能作为就业方向是理所当然的,就业前景也还不错.人工智能工程师的招聘起薪一般在20K-35K,如果是初级工程师,起薪一般12K. 二.大数据 ...
- 使用java检测网络连接状况
windows中可以通过在cmd中使用ping命令来检测网络连接状况,如下: 网络连接正常时: 网络未连接时: 在java中可以通过调用ping命令来判断网络是否连接正常: package modul ...
- 成都传智播客java就业班(14.04.01班)就业快报(Java程序猿薪资一目了然)
这是成都传智播客Java就业班的就业情况,很多其它详情请见成都传智播客官网:http://cd.itcast.cn?140812ls 姓名 入职公司 入职薪资(¥) 方同学 安**软件成都有限公司(J ...
- 9大行为导致Java程序员薪资过低, 你有几个?
Java程序员薪水有高有低,有的人一个月可能拿30K.50K,有的人可能只有2K.3K.同样有五年工作经验的Java程序员,可能一个人每月拿20K,一个拿5K.是什么因素导致了这种差异?本文整理导致J ...
随机推荐
- Jmeter录制后的脚本调优
当我们通过badboy或者HTTP代理服务器的方式录制的脚本,会发现脚本杂乱无章,图片.css.html以及各种我们不关心的脚本,因此就需要针对录制后的脚本进行调优 1.去除图片.html/css等不 ...
- Linux 周期任务
一次性任务 在某个特定的时间,执行一次后被清除 相关命令/进程 at 命令 atd进程 在centos6中,系统服务的名称: /etc/init.d/atd 查看系统上该进程时候启动: [root@e ...
- 从零开始ant-design-vue-pro开发笔记(一)
开始 从这里开始是用ant-design-vue组件写ant-design-vue-pro这个后台项目实现步骤的从零开始搭建的过程,视频地址,它采用了ant-desgin-vue的组件库作为素材开发, ...
- 微信小程序的入门
1.申请账号 官网:https://mp.weixin.qq.com/ 2.开发工具 为了帮助开发者简单和高效地开发和调试微信小程序,推出了小程序开发者工具,集成了公众号网页调试和 ...
- hive操作简单总结
Hive DDL.DML操作 背景介绍 • 一.DDL操作(数据定义语言)包括:Create.Alter.Show.Drop等. • create database- 创建新数据库 • alter d ...
- SSH框架之Spring+Struts2+Hibernate整合篇
回顾 -Hibernate框架 ORM: 对象关系映射.把数据库表和JavaBean通过映射的配置文件映射起来, 操作JavaBean对象,通过映射的配置文件生成SQL语句,自动执行.操作数据库. 1 ...
- html中的框架frameset和frame及iframe
通过使用框架,你可以在同一个浏览器窗口中显示不止一个页面. 通过使用框架,你可以在同一个浏览器窗口中显示不止一个页面,简而言之,就是在一个窗口中显示多个页面. 每个页面称之为一个框架.并且每个框架独立 ...
- 从0系统学Android--3.6 RecyclerView
从0系统学Android--更强大的滚动控件---RecyclerView 本系列文章目录:更多精品文章分类 本系列持续更新中.... 参考<第一行代码> 首先说明一点昨天发了一篇关于 L ...
- QT执行shell脚本或者执行linux指令
由于我在做linux下的QT开发,有时候会用到shell脚本的辅助,但是需要QT运行shell脚本并获取执行结果,今天给大家分享下我的技巧,废话少说直接上代码: //执行shell指令或者shell脚 ...
- Windows系统Git配置教程(Git配置git config)
Windows系统Git配置教程(Git配置git config) 在很多Git配置教程中,多是安装完毕后就告诉大家要配置用户名和邮箱,但是这个配置是保存在哪里呢,配置后面的参数有什么不同呢,下面 ...