前言

本次主题分两篇文章来介绍：

一、数据采集
二、数据分析

第一篇先来介绍数据采集，即用python爬取网站数据。

1 运行环境和python库

先说下运行环境：

python3.5
windows 7， 64位系统

python库

本次智联招聘的网站爬取，主要涉及以下一些python库：

requests
BeautifulSoup
multiprocessing
pymongo
itertools

2 爬取的主要步骤

根据关键字、城市、以及页面编号生成需要爬取的网页链接
用requests获取相应的网页内容
用BeautifulSoup解析，获取需要的关键信息
将爬取的信息存入MongoDB数据库中，插入新记录或更新已有记录
用multiprocessing启动多进程进行爬取，提高运行效率

3 文件组成

信息配置文件“zhilian_kw_config.py”
爬虫主运行文件“zhilian_kw_spider.py”

在配置文件中设置需要爬取的信息，然后运行主程序进行内容抓取。

配置文件“zhilian_kw_config.py”的内容如下：

# Code based on Python 3.x

# _*_ coding: utf-8 _*_

# __Author: "LEMON"

TOTAL_PAGE_NUMBER = 90  # PAGE_NUMBER: total number of pages，可进行修改

KEYWORDS = ['大数据', 'python', '投资经理'] # 需爬取的关键字可以自己添加或修改

# 爬取主要城市的记录

ADDRESS = ['全国', '北京', '上海', '广州', '深圳',

           '天津', '武汉', '西安', '成都', '大连',

           '长春', '沈阳', '南京', '济南', '青岛',

           '杭州', '苏州', '无锡', '宁波', '重庆',

           '郑州', '长沙', '福州', '厦门', '哈尔滨',

           '石家庄', '合肥', '惠州', '太原', '昆明',

           '烟台', '佛山', '南昌', '贵阳', '南宁']

MONGO_URI = 'localhost'

MONGO_DB = 'zhilian'

爬虫主运行文件“zhilian_kw_spider.py”的内容如下：

# Code based on Python 3.x

# _*_ coding: utf-8 _*_

# __Author: "LEMON"

from datetime import datetime

from urllib.parse import urlencode

from multiprocessing import Pool

import requests

from bs4 import BeautifulSoup

import pymongo

from zhilian.zhilian_kw_config import *

import time

from itertools import product

client = pymongo.MongoClient(MONGO_URI)

db = client[MONGO_DB]

def download(url):

    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:51.0) Gecko/20100101 Firefox/51.0'}

    response = requests.get(url, headers=headers)

    return response.text

def get_content(html):

    # 记录保存日期

    date = datetime.now().date()

    date = datetime.strftime(date, '%Y-%m-%d')  # 转变成str

    soup = BeautifulSoup(html, 'lxml')

    body = soup.body

    data_main = body.find('div', {'class': 'newlist_list_content'})

    if data_main:

        tables = data_main.find_all('table')

        for i, table_info in enumerate(tables):

            if i == 0:

                continue

            tds = table_info.find('tr').find_all('td')

            zwmc = tds[0].find('a').get_text()  # 职位名称

            zw_link = tds[0].find('a').get('href')  # 职位链接

            fkl = tds[1].find('span').get_text()  # 反馈率

            gsmc = tds[2].find('a').get_text()  # 公司名称

            zwyx = tds[3].get_text()  # 职位月薪

            gzdd = tds[4].get_text()  # 工作地点

            gbsj = tds[5].find('span').get_text()  # 发布日期

            tr_brief = table_info.find('tr', {'class': 'newlist_tr_detail'})

            # 招聘简介

            brief = tr_brief.find('li', {'class': 'newlist_deatil_last'}).get_text()

            # 用生成器获取信息

            yield {'zwmc': zwmc,  # 职位名称

                   'fkl': fkl,  # 反馈率

                   'gsmc': gsmc,  # 公司名称

                   'zwyx': zwyx,  # 职位月薪

                   'gzdd': gzdd,  # 工作地点

                   'gbsj': gbsj,  # 公布时间

                   'brief': brief,  # 招聘简介

                   'zw_link': zw_link,  # 网页链接

                   'save_date': date  # 记录信息保存的日期

                   }

def main(args):

    basic_url = 'http://sou.zhaopin.com/jobs/searchresult.ashx?'

    for keyword in KEYWORDS:

        mongo_table = db[keyword]

        paras = {'jl': args[0],

                 'kw': keyword,

                 'p': args[1]  # 第X页

                 }

        url = basic_url + urlencode(paras)

        # print(url)

        html = download(url)

        # print(html)

        if html:

            data = get_content(html)

            for item in data:

                if mongo_table.update({'zw_link': item['zw_link']}, {'$set': item}, True):

                    print('已保存记录：', item)

if __name__ == '__main__':

    start = time.time()

    number_list = list(range(TOTAL_PAGE_NUMBER))

    args = product(ADDRESS, number_list)

    pool = Pool()

    pool.map(main, args) # 多进程运行

    end = time.time()

    print('Finished, task runs %s seconds.' % (end - start))

更多精彩内容请关注微信公众号：

“Python数据之道”

5分钟掌握智联招聘网站爬取并保存到MongoDB数据库的更多相关文章

python之scrapy爬取数据保存到mysql数据库
1.创建工程 scrapy startproject tencent 2.创建项目 scrapy genspider mahuateng 3.既然保存到数据库,自然要安装pymsql pip inst ...
爬取伯乐在线文章（四）将爬取结果保存到MySQL
Item Pipeline 当Item在Spider中被收集之后,它将会被传递到Item Pipeline,这些Item Pipeline组件按定义的顺序处理Item. 每个Item Pipeline ...
scrapy框架爬取智联招聘网站上深圳地区python岗位信息。
爬取字段,公司名称,职位名称,公司详情的链接,薪资待遇,要求的工作经验年限 1,items中定义爬取字段 import scrapy class ZhilianzhaopinItem(scrapy.I ...
Python爬取豆瓣音乐存储MongoDB数据库(Python爬虫实战1)
1. 爬虫设计的技术 1)数据获取,通过http获取网站的数据,如urllib,urllib2,requests等模块: 2)数据提取,将web站点所获取的数据进行处理,获取所需要的数据,常使用的技 ...
Java爬取51job保存到MySQL并进行分析
大二下实训课结业作业,想着就爬个工作信息,原本是要用python的,后面想想就用java试试看, java就自学了一个月左右,想要锻炼一下自己面向对象的思想等等的, 然后网上转了一圈,拉钩什么的是动态 ...
python爬取数据保存到Excel中
# -*- conding:utf-8 -*- # 1.两页的内容 # 2.抓取每页title和URL # 3.根据title创建文件,发送URL请求,提取数据 import requests fro ...
关于爬取数据保存到json文件,中文是unicode解决方式
流程: 爬取的数据处理为列表,包含字典.里面包含中文, 经过json.dumps,保存到json文件中, 发现里面的中文显示未\ue768这样子查阅资料发现,json.dumps 有一个参数.ens ...
豆瓣电影top250爬取并保存在MongoDB里
首先回顾一下MongoDB的基本操作: 数据库,集合,文档 db,show dbs,use 数据库名,drop 数据库 db.集合名.insert({}) db.集合名.update({条件},{$s ...
用生产者消费模型爬取智联招聘python岗位信息
爬取python岗位智联招聘这里爬取北京地区岗位招聘python岗位,并存入EXECEL文件内,代码如下: import json import xlwt import requests from ...

随机推荐

Fiddler 网页采集抓包利器__手机app抓包
用curl技术开发了一个微信文章聚合类产品,把抓取到的数据转换成json格式,并在android端调用json数据接口加以显示: 基于weiphp做了一个掌上头条插件,也是用的网页采集技术:和一个创业 ...
ItemCF_基于物品的协同过滤
ItemCF_基于物品的协同过滤 1. 概念 2. 原理如何给用户推荐? 给用户推荐他没有买过的物品--103 3. java代码实现思路数据集: 第一步:构建物品的同现矩阵第 ...
《JavaScript 实战》：实现拖放（Drag & Drop）效果
拖放效果,也叫拖拽.拖动,学名Drag-and-drop ,是最常见的js特效之一.如果忽略很多细节,实现起来很简单,但往往细节才是难点所在.这个程序的原型是在做图片切割效果的时候做出来的,那时参考了 ...
【BZOJ】1251: 序列终结者
[题意]给定含有n个0的的数列. 1.区间加值 2.区间翻转 3.区间求最大值 [算法]平衡树(fhq-treap) 需要特别注意的是: 1.使0点对全局无影响并全程保持(例如求max,t[0].mx ...
C# 操作资源文件
(1)首先引用这两个命名空间 (2)两种方式调用资源文件中的内容 private void button2_Click(object sender, EventArgs e) { //通过Resour ...
nth-child,nth-last-child，only-child,nth-of-type,nth-last-of-type,only-of-type,first-of-type,last-of-type,first-child,last-child伪类区别和用法
我将这坨伪类分成三组,第一组:nth-child,nth-last-child,only-child第二组:nth-of-type,nth-last-of-type,第三组:first-of-tpye ...
TCP 传输控制协议(转)
开头先说几个协议: IP:网际协议 TCP:传输控制协议 Http:超文本传输协议 AMQP:高级消息队列协议一:TCP是什么? TCP(Transmission Control Protocol ...
[LeetCode] Intersection of Two Linked Lists 两链表是否相交
Write a program to find the node at which the intersection of two singly linked lists begins. For ex ...
35 - 并发编程-GIL-多进程
目录 1 GIL 1.1 为什么会有GIL 1.2 GIL与thread lock 1.3 个人总结 2 multiprocessing模块 2.1 Process类 2.2 Process类的方法 ...
anychat安装
1.下载后,解压到一个目录 2.进入anychat核心服务器目录,并启动 ①.cd %anychat安装路径%/binrver ②../anychatcoreserver -d 3.进 ...

5分钟掌握智联招聘网站爬取并保存到MongoDB数据库

前言

1 运行环境和python库

2 爬取的主要步骤

3 文件组成

5分钟掌握智联招聘网站爬取并保存到MongoDB数据库的更多相关文章

随机推荐

热门专题