scrapy 爬取智联招聘

准备工作

　　1. scrapy startproject Jobs
　　2. cd Jobs
　　3. scrapy genspider ZhaopinSpider www.zhaopin.com
　　4. scrapy crawl ZhaopinSpider
　　5. pip install diskcache
　　6. pip install tinydb
　　7. scrapy crawl ZhaopinSpider -o chongqing.json

ZhaopinSpider

# -*- coding: utf-8 -*-

import os

import json

from tinydb import TinyDB, Query

from furl import furl

import scrapy

class ZhaopinspiderSpider(scrapy.Spider):

    name = 'ZhaopinSpider'

    allowed_domains = ['www.zhaopin.com', 'sou.zhaopin.com', 'fe-api.zhaopin.com']

    start_urls = ['https://www.zhaopin.com/citymap']

    cache_db = TinyDB('ZhaopinSpider-cache.json')  # 缓存数据库

    allowed_cities = ['重庆', ]# '成都', '上海', '深圳', '昆明', '杭州', '贵阳', '宁波']  ## 允许的城市

    F = furl('https://fe-api.zhaopin.com/c/i/sou?pageSize=90&kt=3')  # URL母版

    PAGE_SIZE = 90  # 分页大小

    def get_city_code(self, city_name):

        '''(根据城市名)获取城市代码'''

        Q = Query()

        city = self.cache_db.get(Q.name.search(city_name))

        if isinstance(city, dict):

            return city['code']

        else:

            print('@' * 100)

            print(type(city))

    def init_city_info(self, response):

        '''初始化城市信息'''

        # 取源码

        script_text = response.xpath('//script[text()[contains(., "__INITIAL_STATE__")]]/text()').extract_first()

        # 去收尾空格

        script_text = script_text.strip()

        # 预处理为符合json规范的数据

        script_json = script_text[script_text.index('=') + 1:]

        # 将json字符串转为字典

        script_dict = json.loads(script_json)

        '''

        # 存储取得的json, 便于调试查看

        with open('text.json', 'wt', encoding='utf-8') as f:

            json.dump(script_dict, f, indent=4, ensure_ascii=False)

        '''

        '''

        city_list = []  # 存储城市列表

        # 将字典中的城市提取到列表中，便于查找

        for ch in script_dict['cityList']['cityMapList']:

            city_list.extend(script_dict['cityList']['cityMapList'][ch])

        # 筛选出重庆，并获取城市码

        city_code = (list(filter(lambda city: city['name'] == '重庆', city_list)) or [{'code': None}])[0]['code']

        '''

        for ch in script_dict['cityList']['cityMapList']:

            for city in script_dict['cityList']['cityMapList'][ch]:

                self.cache_db.insert(city)

    def parse(self, response):

        # if not os.path.exists('ZhaopinSpider-cache.json'):

        if not bool(self.eache_db.all()):

            self.init_city_info(response)

        # 迭代每一个要爬取的城市

        for city_name in self.allowed_cities:

            # 启动 爬取某个城市 第一个请求

            # import ipdb; ipdb.set_trace()

            yield self.request_city(city_name)

    def request_city(self, city_name, page_start=0):

        '''构造 爬取某个具体的城市 的请求对象'''

        city_code = self.get_city_code(city_name)

        url_data = {

            'cityId': city_code,

            'kw': 'python',

            'start': page_start

        }

        # 要爬取的页面的URL

        url = self.F.copy().add(url_data).url

        # import ipdb; ipdb.set_trace()

        req = scrapy.Request(url, callback=self.parse_city, dont_filter=False)

        # 使用 meta 传递附加数据，在 callback 中可以通过 respo.meta 取得

        req.meta['city_name'] = city_name

        req.meta['page_start'] = page_start

        return req

    def parse_city(self, response):

        '''解析具体的页面'''

        # 解析json格式的响应结果

        resp_dict = json.loads(response.body_as_unicode())

        # 总共所能爬取的条数

        num_found = resp_dict['data']['numFound']

        # 获取当前请求的 page_start

        page_start = response.meta['page_start']

        # 下一次请求，需要的 start 参数

        next_start = page_start + self.PAGE_SIZE

        # import ipdb; ipdb.set_trace()

        # 判断是否有下一页

        if next_start < num_found:

            # 获取当前请求的 城市名

            city_name = response.meta['city_name']

            # 发送下一页请求

            yield self.request_city(city_name, page_start=next_start)

        # 解析数据

        for item in resp_dict['data']['results']:

            # TODO: 解析数据，只取我们需要的信息

            item['spiderName'] = self.name

            # 返回每一条数据

            yield item

scrapy 爬取智联招聘的更多相关文章

用Python爬取智联招聘信息做职业规划
上学期在实验室发表时写了一个爬取智联招牌信息的爬虫. 操作流程大致分为:信息爬取——数据结构化——存入数据库——所需技能等分词统计——数据可视化 1.数据爬取 job = "通信工程师&qu ...
scrapy项目2：爬取智联招聘的金融类高端岗位（spider类）
---恢复内容开始--- 今天我们来爬取一下智联招聘上金融行业薪酬在50-100万的职位. 第一步:解析解析网页当我们依次点击下边的索引页面是,发现url的规律如下: 第1页:http://www. ...
node.js 89行爬虫爬取智联招聘信息
写在前面的话, .......写个P,直接上效果图.附上源码地址 github/lonhon ok,正文开始,先列出用到的和require的东西: node.js,这个是必须的 request,然发 ...
Python+selenium爬取智联招聘的职位信息
整个爬虫是基于selenium和Python来运行的,运行需要的包 mysql,matplotlib,selenium 需要安装selenium火狐浏览器驱动,百度的搜寻. 整个爬虫是模块化组织的,不 ...
用生产者消费模型爬取智联招聘python岗位信息
爬取python岗位智联招聘这里爬取北京地区岗位招聘python岗位,并存入EXECEL文件内,代码如下: import json import xlwt import requests from ...
python爬取智联招聘职位信息（多进程）
测试了下,采用单进程爬取5000条数据大概需要22分钟,速度太慢了点.我们把脚本改进下,采用多进程. 首先获取所有要爬取的URL,在这里不建议使用集合,字典或列表的数据类型来保存这些URL,因为数据量 ...
python爬取智联招聘职位信息（单进程）
我们先通过百度搜索智联招聘,进入智联招聘官网,一看,傻眼了,需要登录才能查看招聘信息没办法,用账号登录进去,登录后的网页如下: 输入职位名称点击搜索,显示如下网页: 把这个URL:https://s ...
scrapy框架爬取智联招聘网站上深圳地区python岗位信息。
爬取字段,公司名称,职位名称,公司详情的链接,薪资待遇,要求的工作经验年限 1,items中定义爬取字段 import scrapy class ZhilianzhaopinItem(scrapy.I ...
python3 requests_html 爬取智联招聘数据（简易版）
PS重点:我回来了-----我回来了-----我回来了 1. 基础需要: python3 基础 html5 CS3 基础 2.库的选择: 原始库 urllib2 (这个库早些年的用过,后来淡忘了) ...

随机推荐

最简单打开三星s8+usb调试模式的步骤
就在我们使用安卓手机通过数据线链接到PC的时候,如果手机没有开启usb开发者调试模式,PC则没能够成功读到我们的手机,部分app也没能够正常使用,遇到这个情况我们需要找解决方法将手机的usb开发者调试 ...
MySQL如何查询多少行，多少列
查找表中有多少列: SELECT count(*) FROM information_schema.COLUMNS WHERE TABLE_SCHEMA='cpm888' AND table_name ...
git 入门与应用
git可视化界面的项目版本控制软件,适用于git项目管理 SourceTree 安装方法 https://blog.csdn.net/qq_26230421/article/details/79921 ...
AET PN结
电场方向电场方向和正电荷受力方向相同飘移运动和扩散运动多子和电场方向互相抵制,而多子是扩散运动,而对少子则是促进作用,当扩散和漂移达到动态平衡时,我们称PN结形成 PN结特性单项导电性
Docker最简教程
本文旨在让你用最短的时间弄懂Docker命令操作,什么虚拟化都太泛泛了,不讲大道理,实践出真知,让你从此的日常开发和工作中在面对Docker时不再茫然失措而是得心应手.本文也不谈安装,我实在认为作为程 ...
python实现将android手机通讯录vcf文件转化为csv
经常会遇到将手机通讯录导出到电脑并转化为在电脑中可编辑的情况,在网上搜索了很久当前不外乎两种处理方式.1.使用电脑的outlook的通讯簿功能,将手机导出的vcf文件导入到outlook的通讯录中,然 ...
c#控件 menuStrip(转)
一.概述菜单通过存放按照一般主题分组的命令将功能公开给用户. MenuStrip 控件是此版本的 Visual Studio 和 .NET Framework 中的新功能.使用该控件,可以轻松创建 ...
HTTP客户端识别与Cookie机制
HTTP识别用户的几种技巧承载用户身份信息的HTTP首部客户端IP地址跟踪,通过用户的IP地址对其进行识别用户登录,用认证方式识别用户胖URL,一种在URL中潜入识别信息的技术 cookie, ...
void类型及void指针（转载）
转载 https://www.cnblogs.com/pengyingh/articles/2407267.html 2.void的含义 void的字面意思是“无类型”,void *则为“无类型指针” ...
ArrayList的addAll方法
方法实现如下: public boolean addAll(Collection c) { Object[] a = c.toArray(); int numNew = a.length; ensur ...

scrapy 爬取智联招聘

scrapy 爬取智联招聘的更多相关文章

随机推荐

热门专题