苏州市java岗位的薪资状况（2）

　　上一篇已经统计出了起薪最高的top 10:

　　接着玩，把top 10 中所有职位的详细信息爬取下来。某一职位的详情是这样：

　　我们需要把工作经验、学历、职能、关键字爬取下来。

 from urllib.request import urlopen

 from urllib.error import HTTPError

 from bs4 import BeautifulSoup

 import csv

 from itertools import chain

 import threading

 def load_datas():

     '''

     从joblist.csv中装载数据

     :return: 数据集 datas

     '''

     datas = []

     with open('high10_url.csv', encoding='utf-8') as fp:

         r = csv.reader(fp)

         for row in r:

             datas.append(row[0])

     return datas

 def get_desc(url):

     ''' 爬取职位的详细信息，包括：经验， 学历, 职位, 技能关键字 '''

     try:

         html = urlopen(url)

     except HTTPError as e:

         print('Page was not found', e.filename)

         return []

     job_desc = []  # 职位详情

     try:

         exp, edu, position, keys = '', '', '', []  # 经验， 学历, 职位, 技能关键字

         bsObj = BeautifulSoup(html.read())

         contents = bsObj.find('p', {'class': 'msg ltype'}).contents

         exp = contents[2].strip()  # 经验

         edu = contents[4].strip()  # 学历

         print(edu)

         a_list = bsObj.findAll('a', {'class': 'el tdn'})

         for i, a in enumerate(a_list):

             if i == 0:

                 position = a.get_text()  # 职位

             else:

                 keys.append(a.get_text())  # 技能关键字

         job_desc.append((exp, edu, position, keys))

     except AttributeError as e:

         print(e)

         job_desc = []

     return job_desc

 def crawl(urls):

     '''

     :param urls: 职位详情

     '''

     print('开始爬取数据...')

     job_desc = [get_desc(url) for url in urls]

     print('爬取结束')

     return job_desc

 def save_data(all_jobs, f_name):

     '''

     将信息保存到目标文件

     :param all_jobs: 二维列表，每个元素是一页的职位信息

     '''

     print('正在保存数据...')

     with open(f_name, 'w', encoding='utf-8', newline='') as fp:

         w = csv.writer(fp)

         # 将二维列表转换成一维

         t = list(chain(*all_jobs))

         w.writerows(t)

         print('保存结束，共{}条数据'.format(len(t)))

 urls = load_datas()

 job_desc = crawl(urls)

 print(job_desc)

 save_data(job_desc, 'job_desc.csv')

　　high10_url.csv中已经预先存储了top 10的所有64个url。job_desc.csv中的结果如下：

　　学历列出现了问题，第5行显示的是“招1人”，实际上这个职位没有学历要求，把所有“招x人”的记录都改成“无要求”。

　　接下来可以按照经验、学历、职能分别统计：

import csv

import pandas as pd

import numpy as np

def load_datas():

    '''

    从joblist.csv中装载数据

    :return: 数据集 datas

    '''

    datas = []

    with open('job_desc.csv', encoding='utf-8') as fp:

        r = csv.reader(fp)

        for row in r:

            datas.append(row)

    return datas

def analysis(datas):

    ''' 数据分析 '''

    df = pd.DataFrame({'exp': datas[:, 0],

                       'edu': datas[:, 1],

                       'position': datas[:, 2],

                       'keys': datas[:, 3]})

    count(df, 'exp', '经验') # 按经验统计

    count(df, 'edu', '学历') # 按学历统计

    count(df, 'position', '职位') # 按职位统计

def count(df, idx, name):

    ''' 分组统计 '''

    print(('按' + name + '分组').center(60, '-'))

    c = df[idx].value_counts(sort=True)

    print(c)

if __name__ == '__main__':

    # 读取并清洗数据

    datas = np.array(load_datas())

    analysis(datas)

　　5~7年经验果然是最容易找到高薪职位的，而且用人单位大多要求本科学历。

　　职能的统计比较杂乱，高级软件工程师和架构师的岗位较多，项目经理这类职位的薪水一般低于工程师，这也和预计的相同：

　　技能关键字看起来并不友好：

　　第一条记录很好地反应了技能要求，第二条就没什么用了，这是由于关键字信息是HR自行添加的，大多数HR都不太了解技术，因此也就出现了像第二条那样对本次分析没什么作用的关键字。

　　看来得求助于一些分词技术，从职位信息中抽取一些关键字。

　　下篇继续，看看哪些技能是抢手的。

　　作者：我是8位的

　　出处：http://www.cnblogs.com/bigmonkey

　　本文以学习、研究和分享为主，如需转载，请联系本人，标明作者和出处，非商业用途！

　　扫描二维码关注公作者众号“我是8位的”

苏州市java岗位的薪资状况（2）的更多相关文章

苏州市java岗位的薪资状况（1）
8月份已经正式离职,这两个月主要在做新书校对工作.9月份陆续投了几份简历,参加了两次半面试,第一次是家做办公自动化的公司,开的薪水和招聘信息严重不符,感觉实在是在浪费时间,你说你给不了那么多为什还往上 ...
2014广州Java岗位面试汇总
本文记录了最近一些朋友提供的面试经历,真实数据,仅供广州求职的朋友参考.为行文方便,一律用主语”我“进行.部分词语可能造成读者不良反应,敬请留意. 1 广州沣首信息科技有限公司公司所在区域相对较偏 ...
Python基础学习笔记(一)python发展史与优缺点，岗位与薪资
相信有好多朋友们都是第一次了解python吧,可能大家也听过或接触过这个编程语言.那么到底什么是python呢?它在什么机缘巧合下诞生的呢?又为什么在短短十几年时间内就流行开来呢?就请大家带着疑问,让 ...
Java岗位面试题分享：jvm+分布式+消息队列+协议（已拿offer）
个人近期面试情况今年二月以来,我的面试除了一个用友的,基本其他都被毙了,可以说是非常残酷的.其中有很多自己觉得还面的不错的岗位,比如百度.跟谁学.好未来等公司.说实话,打击比较大. 情况基本上是从三 ...
野村证券伦敦分部面试 - Java岗位
第一轮 1. 笔试 30 mins 一共六道大题,前两题有4-5个小题. 第一道大题主要是考察Java Collections: a. LinkedList和ArrayList的区别 b. Set和L ...
掌握Python可以去哪些岗位？薪资如何？
一.人工智能 Python作为人工智能的黄金语言,选择人工智能作为就业方向是理所当然的,就业前景也还不错.人工智能工程师的招聘起薪一般在20K-35K,如果是初级工程师,起薪一般12K. 二.大数据 ...
使用java检测网络连接状况
windows中可以通过在cmd中使用ping命令来检测网络连接状况,如下: 网络连接正常时: 网络未连接时: 在java中可以通过调用ping命令来判断网络是否连接正常: package modul ...
成都传智播客java就业班（14.04.01班）就业快报（Java程序猿薪资一目了然）
这是成都传智播客Java就业班的就业情况,很多其它详情请见成都传智播客官网:http://cd.itcast.cn?140812ls 姓名入职公司入职薪资(￥) 方同学安**软件成都有限公司(J ...
9大行为导致Java程序员薪资过低，你有几个？
Java程序员薪水有高有低,有的人一个月可能拿30K.50K,有的人可能只有2K.3K.同样有五年工作经验的Java程序员,可能一个人每月拿20K,一个拿5K.是什么因素导致了这种差异?本文整理导致J ...

随机推荐

HTML DOM的创建，删除及替换
创建HTML元素 document.appendChild() 将新元素作为父元素的最后一个子元素进行添加如需向HTML DOM添加新元素,首先必须创建该元素,然后把它追加到已有的元素上 var n ...
Orcle如何获取当前时间
Oracle获取当月所有日期: SELECT TRUNC(SYSDATE, 'MM') + ROWNUM - 1 FROM DUAL CONNECT BYROWNUM <= TO_NUMBER( ...
Spring Boot Quartz 分布式集群任务调度实现
Spring Boot Quartz 主要内容 Spring Scheduler 框架 Quartz 框架,功能强大,配置灵活 Quartz 集群 mysql 持久化定时任务脚本(tables_mys ...
idea使用maven中的tomcat插件开启服务出现java.net.BindException: Address already in use: JVM_Bind :8080错误原因
[INFO] create webapp with contextPath: /maven_web 五月 11, 2019 6:05:26 下午 org.apache.coyote.AbstractP ...
table表格中的 colspan rowspan cellpadding cellspacing
横跨两列的单元格: colspan 属性规定单元格可横跨的列数 colspan="2" <table border="1"> <tr> ...
Cocos2d-x.3.0开发环境搭建
配置:win7 + VS2012 + Cocos2d-x.3.0 + Cocos Studio v1.4.0.1 前言:本文介绍在上述配置下进行游戏开发的环境搭建.开发语言为C++.如果读者不需要查看 ...
redis 开源客户端下载
redis 开源客户端下载地址: https://github.com/qishibo/AnotherRedisDesktopManager/releases
python发送邮件（smtplib）
我们在测试完成后,都会发一份邮件也就是我们的测试报告,那么既然要自动化,是不是也可以通过python帮助我们发送邮件?当然这么强大的python可以帮助你完成这个需求 SMTP SMTP(Simple ...
gitlab-CI作业-yml
stages: - build - deploy before_script: - echo "Restore NuGet Packages..." - echo "do ...
HTTP常见响应状态码及解释、常用请求头及解释
1.HTTP常见响应状态码及解释2XX Success(成功状态码) 200 表示从客户端发来的请求在服务器端被正常处理204 该状态码表示服务器接收的请求已成功处理,但在返回的响应报文中不含实体的主 ...

苏州市java岗位的薪资状况（2）

苏州市java岗位的薪资状况（2）的更多相关文章

随机推荐

热门专题