利用python实现爬虫爬取某招聘网站，北京地区岗位名称包含某关键字的所有岗位平均月薪

#通过输入的关键字，爬取北京地区某岗位的平均月薪

# -*- coding: utf-8 -*-

import re

import requests

import time

import lxml.html

from bs4 import BeautifulSoup

#------------------------------------------------定义函数：获取指定网页北京地区所有相关职位的月薪---------------------

def getSalary(url):

    headers = {"User-Agent": 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'}

    resp=requests.get(url,headers=headers)

    time.sleep(5)

    web_data = BeautifulSoup(resp.content, "lxml")

    firstlist=web_data.find_all('td')

    salarylist1=[]

    salarylist2=[]

    for i in firstlist:

        if 'zwyx' in str(i) and '面议' not in str(i):    #提取职位月薪，并存入salarylist1列表，月薪为面议时不统计

            salarylist1.append(str(i))                       #将列表转为字符串，并用正则表达式提取字符串里面的数字（即月薪），并存入salarylist2，此时列表中元素格式还是字符串

    salaryliststr='+'.join(salarylist1)

    reeq=re.compile(r'(\w[0-9]+)\w*')

    salarylist2=re.findall(reeq,salaryliststr)

    salarylist2=map(float,salarylist2)                       #将字符串格式的月薪转为float型

    return salarylist2                                      #以数字列表形式返回指定网页所有统计到的月薪

#-------------------------定义函数：统计智联招聘网站北京地区，招聘岗位名称包含keyword关键字所有岗位的平均月薪-------------

def getAverageSalary(keyword):

    url=r'http://sou.zhaopin.com/jobs/searchresult.ashx?jl=%E5%8C%97%E4%BA%AC&kw='+keyword+'&sm=0&p=1&kt=3'  #包含关键字的网站名

    headers = {"User-Agent": 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'}

    pagelist=[]

    salarylist=getSalary(url)         #提取第一页的招聘岗位月薪信息，并存入salarylist列表

    print salarylist

    while True:

        resp=requests.get(url,headers=headers)

        time.sleep(5)

        if resp.status_code!=200:

            break

        resp=resp.content

        reg=r'a href="(.*?)" class="next-page">下一页</a>'         #用于获取下一页地址的正则表达式

        reg=re.compile(reg)

        page=re.findall(reg,resp)

        if page!=[]:                                                      #如果未到检索的最后一页

            page1=re.split(r'href="',page[0])                             #提取当前页的下一页的网址，并赋给url

            if re.search('http',page1[-1]):

                pagelist.append(page1[-1])

                url=page1[-1]

                salarylist2=getSalary(url)

                #print 'salarylist',salarylist

                salarylist.extend(salarylist2)                          #将新提取的月薪信息存入salarylist列表

                #print 'salarylist2',salarylist

            else:

                break

        else:                                                              #已到检索到的最后一页，结束循环

            break

    salarylist=map(float,salarylist)

    if len(salarylist)!=0:

        averageSalary=sum(salarylist)/len(salarylist)

        return averageSalary,pagelist

    else:

        print '统计到的月薪列表为0，请检查网页是否正确！'

        return 0,[0,]

averageSalary,pagelist=getAverageSalary('CAE')     #爬取关键字为 CAE 的岗位平均月薪

print 'AverageSalary:',averageSalary

利用python实现爬虫爬取某招聘网站，北京地区岗位名称包含某关键字的所有岗位平均月薪的更多相关文章

如何利用Python网络爬虫爬取微信朋友圈动态--附代码（下）
前天给大家分享了如何利用Python网络爬虫爬取微信朋友圈数据的上篇(理论篇),今天给大家分享一下代码实现(实战篇),接着上篇往下继续深入. 一.代码实现 1.修改Scrapy项目中的items.py ...
利用Python网络爬虫爬取学校官网十条标题
利用Python网络爬虫爬取学校官网十条标题案例代码: # __author : "J" # date : 2018-03-06 # 导入需要用到的库文件 import urll ...
如何利用Python网络爬虫抓取微信好友数量以及微信好友的男女比例
前几天给大家分享了利用Python网络爬虫抓取微信朋友圈的动态(上)和利用Python网络爬虫爬取微信朋友圈动态——附代码(下),并且对抓取到的数据进行了Python词云和wordart可视化,感兴趣 ...
如何利用Python网络爬虫抓取微信朋友圈的动态（上）
今天小编给大家分享一下如何利用Python网络爬虫抓取微信朋友圈的动态信息,实际上如果单独的去爬取朋友圈的话,难度会非常大,因为微信没有提供向网易云音乐这样的API接口,所以很容易找不到门.不过不要慌 ...
利用Python网络爬虫抓取微信好友的所在省位和城市分布及其可视化
前几天给大家分享了如何利用Python网络爬虫抓取微信好友数量以及微信好友的男女比例,感兴趣的小伙伴可以点击链接进行查看.今天小编给大家介绍如何利用Python网络爬虫抓取微信好友的省位和城市,并且将 ...
利用Python网络爬虫抓取微信好友的签名及其可视化展示
前几天给大家分享了如何利用Python词云和wordart可视化工具对朋友圈数据进行可视化,利用Python网络爬虫抓取微信好友数量以及微信好友的男女比例,以及利用Python网络爬虫抓取微信好友的所 ...
python-scrapy爬取某招聘网站(二)
首先要准备python3+scrapy+pycharm 一.首先让我们了解一下网站拉勾网https://www.lagou.com/ 和Boss直聘类似的网址设计方式,与智联招聘不同,它采用普通的页 ...
python-scrapy爬取某招聘网站信息(一)
首先准备python3+scrapy+mysql+pycharm... 这次我们选择爬取智联招聘网站的企业招聘信息,首先我们有针对的查看网站的html源码,发现其使用的是js异步加载的方式,直接从服务 ...
Python多线程爬虫爬取电影天堂资源
最近花些时间学习了一下Python,并写了一个多线程的爬虫程序来获取电影天堂上资源的迅雷下载地址,代码已经上传到GitHub上了,需要的同学可以自行下载.刚开始学习python希望可以获得宝贵的意见. ...

随机推荐

使用JS实现轮播图的效果
其中的一些css样式代码就省略了,下面只把结构层html.行为层js的代码展示出来 ,看代码说事. 一.简单的轮播图 <div class="box" id="bo ...
利用反射调用方法时，处理ref，out参数需要注意的问题（转）
转自:http://www.68idc.cn/help/buildlang/ask/20150318283817.html 项目中如下的泛型方法,因为要在运行时,动态指定类型参数,所以要利用反射来实现 ...
在进行javaIO写文件操作后文件内容为空的情况
writer = new BufferedWriter(new OutputStreamWriter(new FileOutputStream("d:\\order.txt"))) ...
SPSS数据分析—广义线性混合模型
广义线性混合模型是目前线性模型范畴内最为完备的模型框架,它是广义线性模型的进一步延伸,进一步突破适用条件,因变量既可以非正态,也可以非独立,由于其最为复杂,因此SPSS对其输出结果采用模型格式,而不 ...
php学习函数
1defined和define区别 2.dirname(__FILE__) 3.set_include_path 4.get_include_path 5.realpath() 6.require_p ...
Oracle 数据库简单操作
现在大型企业一般都用Oracle数据库,Oracle数据库在一般采用expdp,impdp 导出导入数据,但是在操作中经常会遇到一些问题.下面来浅析这些问题. 1. 导出数据一般导出数据的时候需要建 ...
Elasticsearch使用备忘
最近我们需要对大约2T(6.5亿条)日志做全文检索,Elasticsearch看起来很火爆,又有很多产品使用(Facebook.github.stackoverflow),值得一试.以下是一些基础知识 ...
scala 打印一个乘法口诀表　（<<scala 编程>> P87)
(for(i <- 1 to 9;j <- 1 to i; s = s"$j*$i=${i*j}\t") yield {if(j==1) s"$s\n&quo ...
IOS常用框架
IOS开发中有用的第三方库 #Objective-C中最受瞩目库 [链接](https://github.com/languages/Objective-C/most_watched) * [th ...
移动web开发问题集
一.让微信内置浏览器(x5)支持 flex .item-flex { display: -webkit-box; -webkit-box-pack: center; -webkit-box-align ...

利用python实现爬虫爬取某招聘网站，北京地区岗位名称包含某关键字的所有岗位平均月薪

利用python实现爬虫爬取某招聘网站，北京地区岗位名称包含某关键字的所有岗位平均月薪的更多相关文章

随机推荐

热门专题