利用python实现爬虫爬取某招聘网站，北京地区岗位名称包含某关键字的所有岗位平均月薪

#通过输入的关键字，爬取北京地区某岗位的平均月薪

# -*- coding: utf-8 -*-

import re

import requests

import time

import lxml.html

from bs4 import BeautifulSoup

#------------------------------------------------定义函数：获取指定网页北京地区所有相关职位的月薪---------------------

def getSalary(url):

    headers = {"User-Agent": 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'}

    resp=requests.get(url,headers=headers)

    time.sleep(5)

    web_data = BeautifulSoup(resp.content, "lxml")

    firstlist=web_data.find_all('td')

    salarylist1=[]

    salarylist2=[]

    for i in firstlist:

        if 'zwyx' in str(i) and '面议' not in str(i):    #提取职位月薪，并存入salarylist1列表，月薪为面议时不统计

            salarylist1.append(str(i))                       #将列表转为字符串，并用正则表达式提取字符串里面的数字（即月薪），并存入salarylist2，此时列表中元素格式还是字符串

    salaryliststr='+'.join(salarylist1)

    reeq=re.compile(r'(\w[0-9]+)\w*')

    salarylist2=re.findall(reeq,salaryliststr)

    salarylist2=map(float,salarylist2)                       #将字符串格式的月薪转为float型

    return salarylist2                                      #以数字列表形式返回指定网页所有统计到的月薪

#-------------------------定义函数：统计智联招聘网站北京地区，招聘岗位名称包含keyword关键字所有岗位的平均月薪-------------

def getAverageSalary(keyword):

    url=r'http://sou.zhaopin.com/jobs/searchresult.ashx?jl=%E5%8C%97%E4%BA%AC&kw='+keyword+'&sm=0&p=1&kt=3'  #包含关键字的网站名

    headers = {"User-Agent": 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'}

    pagelist=[]

    salarylist=getSalary(url)         #提取第一页的招聘岗位月薪信息，并存入salarylist列表

    print salarylist

    while True:

        resp=requests.get(url,headers=headers)

        time.sleep(5)

        if resp.status_code!=200:

            break

        resp=resp.content

        reg=r'a href="(.*?)" class="next-page">下一页</a>'         #用于获取下一页地址的正则表达式

        reg=re.compile(reg)

        page=re.findall(reg,resp)

        if page!=[]:                                                      #如果未到检索的最后一页

            page1=re.split(r'href="',page[0])                             #提取当前页的下一页的网址，并赋给url

            if re.search('http',page1[-1]):

                pagelist.append(page1[-1])

                url=page1[-1]

                salarylist2=getSalary(url)

                #print 'salarylist',salarylist

                salarylist.extend(salarylist2)                          #将新提取的月薪信息存入salarylist列表

                #print 'salarylist2',salarylist

            else:

                break

        else:                                                              #已到检索到的最后一页，结束循环

            break

    salarylist=map(float,salarylist)

    if len(salarylist)!=0:

        averageSalary=sum(salarylist)/len(salarylist)

        return averageSalary,pagelist

    else:

        print '统计到的月薪列表为0，请检查网页是否正确！'

        return 0,[0,]

averageSalary,pagelist=getAverageSalary('CAE')     #爬取关键字为 CAE 的岗位平均月薪

print 'AverageSalary:',averageSalary

利用python实现爬虫爬取某招聘网站，北京地区岗位名称包含某关键字的所有岗位平均月薪的更多相关文章

如何利用Python网络爬虫爬取微信朋友圈动态--附代码（下）
前天给大家分享了如何利用Python网络爬虫爬取微信朋友圈数据的上篇(理论篇),今天给大家分享一下代码实现(实战篇),接着上篇往下继续深入. 一.代码实现 1.修改Scrapy项目中的items.py ...
利用Python网络爬虫爬取学校官网十条标题
利用Python网络爬虫爬取学校官网十条标题案例代码: # __author : "J" # date : 2018-03-06 # 导入需要用到的库文件 import urll ...
如何利用Python网络爬虫抓取微信好友数量以及微信好友的男女比例
前几天给大家分享了利用Python网络爬虫抓取微信朋友圈的动态(上)和利用Python网络爬虫爬取微信朋友圈动态——附代码(下),并且对抓取到的数据进行了Python词云和wordart可视化,感兴趣 ...
如何利用Python网络爬虫抓取微信朋友圈的动态（上）
今天小编给大家分享一下如何利用Python网络爬虫抓取微信朋友圈的动态信息,实际上如果单独的去爬取朋友圈的话,难度会非常大,因为微信没有提供向网易云音乐这样的API接口,所以很容易找不到门.不过不要慌 ...
利用Python网络爬虫抓取微信好友的所在省位和城市分布及其可视化
前几天给大家分享了如何利用Python网络爬虫抓取微信好友数量以及微信好友的男女比例,感兴趣的小伙伴可以点击链接进行查看.今天小编给大家介绍如何利用Python网络爬虫抓取微信好友的省位和城市,并且将 ...
利用Python网络爬虫抓取微信好友的签名及其可视化展示
前几天给大家分享了如何利用Python词云和wordart可视化工具对朋友圈数据进行可视化,利用Python网络爬虫抓取微信好友数量以及微信好友的男女比例,以及利用Python网络爬虫抓取微信好友的所 ...
python-scrapy爬取某招聘网站(二)
首先要准备python3+scrapy+pycharm 一.首先让我们了解一下网站拉勾网https://www.lagou.com/ 和Boss直聘类似的网址设计方式,与智联招聘不同,它采用普通的页 ...
python-scrapy爬取某招聘网站信息(一)
首先准备python3+scrapy+mysql+pycharm... 这次我们选择爬取智联招聘网站的企业招聘信息,首先我们有针对的查看网站的html源码,发现其使用的是js异步加载的方式,直接从服务 ...
Python多线程爬虫爬取电影天堂资源
最近花些时间学习了一下Python,并写了一个多线程的爬虫程序来获取电影天堂上资源的迅雷下载地址,代码已经上传到GitHub上了,需要的同学可以自行下载.刚开始学习python希望可以获得宝贵的意见. ...

随机推荐

java:同步和死锁
多个线程共享一个资源的时候需要进行同步(否则会出现错误:如负数,重复数),但是过多的同步会造成死锁. synchronized(this) { } 非同步情况: public class SyncTh ...
Python之路 day3 全局变量、局部变量
#!/usr/bin/env python # -*- coding:utf-8 -*- #Author:ersa """ 全局与局部变量在子程序中定义的变量称为局部变 ...
SQLiteOpenHelper的使用
一.SQLiteOpenHelper的使用说明: 1. SQLiteOpenHelper时一个抽象类,子类必须实现的方法: *: onCreate(),数据库第一次被创建时调用,在里面可以执行创建表, ...
数据库大作业--由python+flask
这个是项目一来是数据库大作业,另一方面也算是再对falsk和python熟悉下,好久不用会忘很快. 界面相比上一个项目好看很多,不过因为时间紧加上只有我一个人写,所以有很多地方逻辑写的比较繁琐,如果是 ...
python——django使用mysql数据库（一）
之前已经写过如何创建一个django项目,现在我们已经有了一个小骷髅,要想这个web工程变成一个有血有肉的人,我们还需要做很多操作.现在就先来介绍如何在django中使用mysql数据库. 前提:已经 ...
【翻译】configuration changes与handler.post
原文地址 http://corner.squareup.com/2013/12/android-main-thread-2.html 在前一部分里面previous part ,我们深入挖掘了 loo ...
CentOS(RedHat)命令行永久修改IP地址、网关、DNS
1.修改IP地址vim /etc/sysconfig/network-scripts/ifcfg-eth0DEVICE=eth0 #网卡名称BOOTPROTO=static #获取ip的方式(stat ...
WordPress网站搭建
. 1.进入 var/www/html中放入里的文件 2.. 安装http php php-sql [root@jw38 yum.repos.d]# systemctl restart httpd.s ...
二：基础概述netty
如果不了解netty的,可以百度下,netty社区现在也比较活跃. 现在所谓的大数据,flume,storm等底层都是netty. netty的性能模型: io模型---->异步非阻塞io ...
[转]Bat脚本处理ftp超强案例解说
Bat脚本处理ftp超强案例解说转自:http://369369.blog.51cto.com/319630/842341 前言: 公司有几百台windows服务器,每次程序更新,如果是一台 ...

利用python实现爬虫爬取某招聘网站，北京地区岗位名称包含某关键字的所有岗位平均月薪

利用python实现爬虫爬取某招聘网站，北京地区岗位名称包含某关键字的所有岗位平均月薪的更多相关文章

随机推荐

热门专题