用python抓取智联招聘信息并存入excel

tags:python 智联招聘导出excel

引言：前一阵子是人们俗称的金三银四，跳槽的朋友很多，我觉得每个人都应该给自己做一下规划，根据自己的进步作出调整。建议不要看到身边的人涨了工资就盲目的心动。一般来说跳槽后要熟悉新的环境会浪费不少时间，如果现在的工作在氛围和自身进步上还可以接受，其他比如待遇方面可以和公司协调解决。

本文参考了yaoyefengchen的博客：文章链接，并进行了地域搜索优化和将存储方式由cvs改成大家常用的excel。下面进入正文

先说一下大概流程：

在智联职位搜索页面上选好自己的搜索条件后，发现链接地址为：

http://sou.zhaopin.com/jobs/searchresult.ashx?jl=北京&kw=php高级工程师&sm=0&re=2006&isfilter=1&p=1&sf=10001&st=15000

分析链接中的参数如下（过滤条件可以选择不写），并构造出请求的数据，header的设置只要可以访问网页即可。

paras = {

       'jl': city,         # 搜索城市

       'kw': keyword,      # 搜索关键词

       'isadv': 0,         # 是否打开更详细搜索选项

       'isfilter': 1,      # 是否对结果过滤

       'p': page,          # 页数

       're': region        # region的缩写，地区，2005代表海淀

   }

   # sf=10001&st=15000这两个是我筛选的工资区间，如果有这个需求可以自己添加参数。

    url = 'https://sou.zhaopin.com/jobs/searchresult.ashx?' + urlencode(paras)

yaoyefengchen用的是正则匹配出职位，薪资，公司等信息，并没有提供具体地域（比如海淀还是朝阳）对应的region。我后来是用的xpath提取出了北京的各个地域组成字典，直接输入地区的汉字就可以了。如下：

# 取搜索页面得到地域的对应数字 比如海淀对应2005

def parseHtmlToGetRegion(regionAddress):

    url = 'http://sou.zhaopin.com/jobs/searchresult.ashx?jl=北京&sm=0&isfilter=1&p=1&re=2006'

    # 获取代理ip地址 只取前五页

    html= getHtml(url)

    regionId = html.xpath('/html/body/div[3]/div[3]/div[1]/div[4]/div[1]/div[2]/a/@href')

    region = html.xpath('/html/body/div[3]/div[3]/div[1]/div[4]/div[1]/div[2]/a/text()')

    #解析一下region中的编号去掉无效内容

    regionList = {}

    for i,regionHref in enumerate(regionId):

        if i==0:

            continue

        regionList[region[i]] = regionId[i][-4::]

    return regionList.get(regionAddress)

另外，cvs格式在用一些工具比如excel打开的时候经常出现乱码，需要转化或者下载一些专用的软件。我觉得很不方便，所以直接存成了excel格式，不得不说，在存数据到excel文件这方面，python简直比php容易太多了。

# 存入excle

def write_xls_file(filename, headers, jobs):

    table = xlwt.Workbook(encoding='utf8')

    table_page = table.add_sheet('jobs')

    for i,header in enumerate(headers):

        table_page.write(0,i,header)

    for j,items in enumerate(jobs,start = 1):

        for q,item in items.items():

            table_page.write(j, q, item)

    table.save(filename)

完整代码如下，可以直接使用。别忘了保存文章最下面的user_agents.py文件

#-*- coding: utf-8 -*-

'''

Created on 2018-05-7

@author: Vinter_he

'''

import re

import requests

import xlwt

from tqdm import tqdm

from urllib.parse import urlencode

from requests.exceptions import RequestException

from lxml import etree

import user_agents

import random

import datetime

def get_one_page(city, keyword, region, page):

   '''

   获取网页html内容并返回

   '''

   paras = {

       'jl': city,         # 搜索城市

       'kw': keyword,      # 搜索关键词

       'isadv': 0,         # 是否打开更详细搜索选项

       'isfilter': 1,      # 是否对结果过滤

       'p': page,          # 页数

       're': region        # region的缩写，地区，2005代表海淀

   }

   headers = {

       'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',

       'Host': 'sou.zhaopin.com',

       'Referer': 'https://www.zhaopin.com/',

       'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',

       'Accept-Encoding': 'gzip, deflate, br',

       'Accept-Language': 'zh-CN,zh;q=0.9'

   }

   url = 'https://sou.zhaopin.com/jobs/searchresult.ashx?' + urlencode(paras)

   try:

       # 获取网页内容，返回html数据

       response = requests.get(url, headers=headers)

       # 通过状态码判断是否获取成功

       if response.status_code == 200:

           return response.text

       return None

   except RequestException as e:

       return None

def parse_one_page(html):

   '''

   解析HTML代码，提取有用信息并返回

   '''

   # 正则表达式进行解析

   pattern = re.compile('<a style=.*? target="_blank">(.*?)</a>.*?'        # 匹配职位信息

       '<td class="gsmc"><a href="(.*?)" target="_blank">(.*?)</a>.*?'     # 匹配公司网址和公司名称

       '<td class="zwyx">(.*?)</td>', re.S)                                # 匹配月薪

   # 匹配所有符合条件的内容

   items = re.findall(pattern, html)

   for item in items:

       job_name = item[0]

       job_name = job_name.replace('<b>', '')

       job_name = job_name.replace('</b>', '')

       yield {

           0: job_name,

           1: item[1],

           2: item[2],

           3: item[3]

       }

# 存入excle

def write_xls_file(filename, headers, jobs):

    table = xlwt.Workbook(encoding='utf8')

    table_page = table.add_sheet('jobs')

    for i,header in enumerate(headers):

        table_page.write(0,i,header)

    for j,items in enumerate(jobs,start = 1):

        for q,item in items.items():

            table_page.write(j, q, item)

    table.save(filename)

def main(city, keyword, region, pages):

   '''

   主函数

   '''

   filename = '智联_' +datetime.date.today().strftime('%Y-%m-%d')+ city + '_' + keyword + '.xls'

   headers = ['job', 'website', 'company', 'salary']

   jobs = []

   for i in tqdm(range(pages)):

       '''

       获取该页中所有职位信息，写入xls文件

       '''

       region = parseHtmlToGetRegion(region)

       html = get_one_page(city, keyword, region, i)

       items = parse_one_page(html)

       for item in items:

           jobs.append(item)

   write_xls_file(filename, headers, jobs)

def getHtml(url):

    response = requests.get(url=url, headers={'User-Agent':random.choice(user_agents.user_agents)}, timeout=10).text

    html = etree.HTML(response)

    return html

# 取搜索页面得到地域的对应数字 比如海淀对应2005

def parseHtmlToGetRegion(regionAddress):

    url = 'http://sou.zhaopin.com/jobs/searchresult.ashx?jl=北京&sm=0&isfilter=1&p=1&re=2006'

    # 获取代理ip地址 只取前五页

    html= getHtml(url)

    regionId = html.xpath('/html/body/div[3]/div[3]/div[1]/div[4]/div[1]/div[2]/a/@href')

    region = html.xpath('/html/body/div[3]/div[3]/div[1]/div[4]/div[1]/div[2]/a/text()')

    #解析一下region中的编号去掉无效内容

    regionList = {}

    for i,regionHref in enumerate(regionId):

        if i==0:

            continue

        regionList[region[i]] = regionId[i][-4::]

    return regionList.get(regionAddress)

if __name__ == '__main__':

   main('北京', 'php工程师', '朝阳', 10)

下面是和以前一样的user_agents.py文件这个文件以后就不给了大家可以自己保存一下备用

#!/usr/bin/python

# -*- coding:utf-8 -*-

'''

Created on 2018-04-27

@author: Vinter_he

'''

user_agents = [

    'Mozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11',

    'Opera/9.25 (Windows NT 5.1; U; en)',

    'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)',

    'Mozilla/5.0 (compatible; Konqueror/3.5; Linux) KHTML/3.5.5 (like Gecko) (Kubuntu)',

    'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.0.12) Gecko/20070731 Ubuntu/dapper-security Firefox/1.5.0.12',

    'Lynx/2.8.5rel.1 libwww-FM/2.14 SSL-MM/1.4.1 GNUTLS/1.2.9'

    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",

    "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",

    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",

    "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",

    "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",

    "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",

    "Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",

    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",

    "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",

    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",

    "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",

    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",

    "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",

    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",

    "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",

    "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",

    "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",

    "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"

]

用python抓取智联招聘信息并存入excel的更多相关文章

用Python爬取智联招聘信息做职业规划
上学期在实验室发表时写了一个爬取智联招牌信息的爬虫. 操作流程大致分为:信息爬取——数据结构化——存入数据库——所需技能等分词统计——数据可视化 1.数据爬取 job = "通信工程师&qu ...
一个抓取智联招聘数据并存入表格的python爬虫
talk is cheap...show you the code..... import requests import lxml,time,os from bs4 import Beautiful ...
python爬取智联招聘职位信息（多进程）
测试了下,采用单进程爬取5000条数据大概需要22分钟,速度太慢了点.我们把脚本改进下,采用多进程. 首先获取所有要爬取的URL,在这里不建议使用集合,字典或列表的数据类型来保存这些URL,因为数据量 ...
python3爬虫抓取智联招聘职位信息代码
上代码,有问题欢迎留言指出. # -*- coding: utf-8 -*- """ Created on Tue Aug 7 20:41:09 2018 @author ...
python爬取智联招聘职位信息（单进程）
我们先通过百度搜索智联招聘,进入智联招聘官网,一看,傻眼了,需要登录才能查看招聘信息没办法,用账号登录进去,登录后的网页如下: 输入职位名称点击搜索,显示如下网页: 把这个URL:https://s ...
node.js 89行爬虫爬取智联招聘信息
写在前面的话, .......写个P,直接上效果图.附上源码地址 github/lonhon ok,正文开始,先列出用到的和require的东西: node.js,这个是必须的 request,然发 ...
python爬虫实战之爬取智联职位信息和博客文章信息
1.python爬取招聘信息简单爬取智联招聘职位信息 # !/usr/bin/env python # -*-coding:utf-8-*- """ @Author ...
Python 抓取网页并提取信息(程序详解)
最近因项目需要用到python处理网页,因此学习相关知识.下面程序使用python抓取网页并提取信息,具体内容如下: #---------------------------------------- ...
使用python抓取58手机维修信息
之前在ququ的博客上看到说 python 中的BeautifulSoup 挺好玩的,今天下午果断下载下来,看了下api,挺好用的,完了2把,不错. 晚上写了一个使用python抓取58手机维修信息的 ...

随机推荐

数值分析：Hermite多项式
http://blog.csdn.net/pipisorry/article/details/49366047 Hermite埃尔米特多项式在数学中,埃尔米特多项式是一种经典的正交多项式族,得名于法 ...
JDK6和JDK7中String的substring()方法及其差异
翻译人员: 铁锚翻译日期: 2013年11月2日原文链接: The substring() Method in JDK 6 and JDK 7 在JDK6与JDK7这两个版本中,substri ...
Linux 学习笔记_12_Windows与Linux文件共享服务_1.1_--Samba（上）
Samba简介:在UNIX系统中,Samba是通过服务器消息块协议(SMB)在网络上的计算机之间,共享文件和打印服务的软件包. SMB简介:Server Message Block,SMB协议是一种服 ...
H5的学习之旅-H5的实体（14）
H5有些关键字比如<等等是显示不出来的,这时候,就需要用实体来表示,实体我理解就是最初的编码代码实例 <!DOCTYPE html> <html lang="en& ...
Leetcode_110_Balanced Binary Tree
本文是在学习中的总结,欢迎转载但请注明出处:http://blog.csdn.net/pistolove/article/details/42218839 Given a binary tree, d ...
Android Widget 开发详解(二) +支持listView滑动的widget
转载请标明出处:http://blog.csdn.net/sk719887916/article/details/47027263 不少开发项目中都会有widget功能,别小瞧了它,他也是androi ...
让Oracle 大小写敏感表名字段名对像名
一.解决方案 1.在表名.字段名.对象名上加上双引号,即可实现让oracle大小写区分. 2.但是这又引起了另一个问题:在数据库操作中,sql语句中相应的表名.字段名.对象名上一定要加双引号. 解决办 ...
Cocos2d中update与fixedUpdate的区别(四)
关于fixedUpdate:方法的目的现在,想象一下在小球飞行的位置1到8之间有一个移动的平台: 该平台不停地上升和下降.有些时候小球可以不碰到而飘过平台,有些时候小球会和平台发生碰撞: 这表示小球 ...
AngularJS进阶(二十)HTML5实现获取地理位置信息并定位功能
HTML5实现获取地理位置信息并定位功能注:请点击此处进行充电! 前言这篇文章主要介绍了HTML5实现获取地理位置信息并定位功能,本文讲解了原生HTML5.百度地图.谷歌地图等三种获取理位置信息并 ...
OpenGL Shader Key Points (2)
1. Uniform 1.1. Uniform变量不是所有的变量都是跟顶点一一对应的,如变换矩阵,光源位置等. Uniform变量可以在任何类型的shader中使用,但只能作为输入值,不能在sh ...

用python抓取智联招聘信息并存入excel

用python抓取智联招聘信息并存入excel

用python抓取智联招聘信息并存入excel的更多相关文章

随机推荐

热门专题