scrapy爬虫系列之二--翻页爬取及日志的基本用法

功能点：如何翻页爬取信息，如何发送请求，日志的简单实用

爬取网站：腾讯社会招聘网

完整代码：https://files.cnblogs.com/files/bookwed/tencent.zip

主要代码：

job.py

# -*- coding: utf-8 -*-

import scrapy

from tencent.items import TencentItem

import logging  # 日志模块

logger = logging.getLogger(__name__)

class JobSpider(scrapy.Spider):

    """职位爬虫"""

    name = 'job'

    allowed_domains = ["tencent.com"]

    offset = 0

    baseUrl = "https://hr.tencent.com/position.php?start={}"

    start_urls = [baseUrl.format(offset)]

    def parse(self, response):

        # //tr[@class="even" or @class="odd"]

        # xpath()，返回一个含有selector对象的列表

        job_list = response.xpath("//tr[@class='even'] | //tr[@class='odd']")

        for job in job_list:

            item = TencentItem()

            # extract() 提取字符串，返回一个包含字符串数据的列表

            # extract_first()，返回列表中的第一个字符串

            # extract()[0] 可以替换成extract_first()，不用再进行判断是否为空了

            item["name"] = job.xpath("./td[1]/a/text()").extract_first()

            item["url"] = job.xpath("./td[1]/a/@href").extract()[0]

            item["type"] = job.xpath("./td[2]/text()")

            item["type"] = item["type"].extract()[0] if len(item["type"]) > 0 else None

            item["people_number"] = job.xpath("./td[3]/text()").extract()[0]

            item["place"] = job.xpath("./td[4]/text()").extract()[0]

            item["publish_time"] = job.xpath("./td[5]/text()").extract()[0]

            # 打印方式1

            # logging.warning(item)

            # 打印方式2，【推荐，可以看到是哪个文件打印的】

            logger.warning(item)

            # 为什么使用yield？好处？

            # 让整个函数变成一个生成器。每次遍历的时候挨个读到内存中，不会导致内存的占用量瞬间变高

            yield item

        # 第一种：拼接url

        # if self.offset < 3090:

        #     self.offset += 10

        #     url = self.baseUrl.format(self.offset)

        #     yield scrapy.Request(url, callback=self.parse)

        # yield response.follow(next_page, self.parse)

        # 第二种：从response获取要爬取的链接，并发送请求处理，知道链接全部提取完

        if len(response.xpath("//a[@class='noactive' and @id='next']")) == 0:

            temp_url = response.xpath("//a[@id='next']/@href").extract()[0]

            # yield response.follow("https://hr.tencent.com/"+temp_url, callback=self.parse)

            yield scrapy.Request(

                "https://hr.tencent.com/"+temp_url,

                callback=self.parse,

                # meta={"item": item}    # meta实现在不同的解析函数中传递数据

                # dont_filter=True    # 重复请求

            )   # 此处的callback指返回的响应由谁进行解析，如果和第一页是相同的处理，则用parse，否则定义新方法，指定该新方法

    def parse1(self, response):

        item = response.meta["item"]

        print(item)

        print("*"*30)

pipelines.py

import json

class TencentPipeline(object):

    # 可选实现，参数初始化等

    def __init__(self):

        self.f = open('tencent_job.json', 'w', encoding='utf-8')

    def process_item(self, item, spider):

        # item（Item对象） -  被爬取的item

        # spider（Spider对象）- 爬取item时的spider；通过spider.name可以获取爬虫名称

        content = json.dumps(dict(item), ensure_ascii=False)+",\n"

        self.f.write(content)

        return item

    def open_spider(self, spider):

        # 可选，spider开启时，该方法被调用

        pass

    def close_spider(self, spider):

        # 可选，spider关闭时，该方法被调用

        self.f.close()

scrapy爬虫系列之二--翻页爬取及日志的基本用法的更多相关文章

爬虫简单之二---使用进程爬取起点中文网的六万多也页小说的名字，作者，等一些基本信息，并存入csv中
爬虫简单之二---使用进程爬取起点中文网的六万多也页小说的名字,作者,等一些基本信息,并存入csv中准备使用的环境和库Python3.6 + requests + bs4 + csv + multi ...
爬虫系列4：Requests+Xpath 爬取动态数据
爬虫系列4:Requests+Xpath 爬取动态数据 [抓取]:参考前文爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]:参 ...
Scrapy分布式爬虫打造搜索引擎- (二)伯乐在线爬取所有文章
二.伯乐在线爬取所有文章 1. 初始化文件目录基础环境 python 3.6.5 JetBrains PyCharm 2018.1 mysql+navicat 为了便于日后的部署:我们开发使用了虚拟 ...
爬虫系列1：Requests+Xpath 爬取豆瓣电影TOP
爬虫1:Requests+Xpath 爬取豆瓣电影TOP [抓取]:参考前文爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]: ...
scrapy爬虫笔记(三)------写入源文件的爬取
开始爬取网页:(2)写入源文件的爬取为了使代码易于修改,更清晰高效的爬取网页,我们将代码写入源文件进行爬取. 主要分为以下几个步骤: 一.使用scrapy创建爬虫框架: 二.修改并编写源代码,确定我 ...
爬虫系列3：Requests+Xpath 爬取租房网站信息并保存本地
数据保存本地 [抓取]:参考前文爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]:参考前文爬虫系列2:https://www ...
爬虫系列2：Requests+Xpath 爬取租房网站信息
Requests+Xpath 爬取租房网站信息 [抓取]:参考前文爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]:参考前文 ...
爬虫系列（1）-----python爬取猫眼电影top100榜
对于Python初学者来说,爬虫技能是应该是最好入门,也是最能够有让自己有成就感的,今天在整理代码时,整理了一下之前自己学习爬虫的一些代码,今天先上一个简单的例子,手把手教你入门Python爬虫,爬取 ...
Scrapy实战篇（二）之爬取链家网成交房源数据（下）
在上一小节中,我们已经提取到了房源的具体信息,这一节中,我们主要是对提取到的数据进行后续的处理,以及进行相关的设置. 数据处理我们这里以把数据存储到mongo数据库为例.编写pipelines.py ...

随机推荐

1077. Kuchiguse (20)【字符串处理】——PAT (Advanced Level) Practise
题目信息 1077. Kuchiguse (20) 时间限制100 ms 内存限制65536 kB 代码长度限制16000 B The Japanese language is notorious f ...
par函数的bg参数-控制图片的背景色
bg 参数用于控制图片的背景色,默认为白色代码示例: par(bg = "pink") plot(1:5, 1:5, main = "title", xlab ...
修改查看MYSQL字符集（charset）
From: http://www.cnblogs.com/fengqingtao/archive/2010/11/23/1885220.html 查看mysql的字符集 mysql> show ...
ThinkPHP中调用PHPExcel
//引入PHPExcel vendor('PHPExcel.PHPExcel'); // Create new PHPExcel object $objPHPExcel = new PHPExcel( ...
对sssp项目搭建的补充，总错误处理。
总错误处理,是为了在程序运行时代码出错能及时在控制台看出错误信息. 1. springMVC配置文件中: -------- 2.controller包中: 新建类FrameControllerAdvi ...
Oracle 之 SQL　面试题录
多上网查查 SQL 面试题 1.学号(自动编号) 姓名性别年龄 0001 xw 男 18 0002 mc 女 16 0003 ww 男 21 0004 xw 男 18 请写出实现如下 ...
RabbitMQ消息确认(发送确认,接收确认)
前面几篇记录了收发消息的demo,今天记录下关于消息确认方面的问题. 下面是几个问题: 1.为什么要进行消息确认? 2.rabbitmq消息确认机制是什么样的? 3.发送方如何确认消息发送成功? ...
C++模板实战6：迭代器
1 迭代器的类型: 输入迭代器 .前向迭代器.双向迭代器.跳转迭代器以及输出迭代器.这五种迭代器的限制条件从左至右越来越强. 2 输入迭代器需满足的条件: X u(a); X可复制构造 u=a; 可赋 ...
java基础---->多线程之interrupt（九）
这里我们通过实例来学习一下java多线程中关于interrupt方法的一些知识.执者失之.我想当一个诗人的时候,我就失去了诗,我想当一个人的时候,我就失去了我自己.在你什么也不想要的时候,一切如期而来 ...
c++ 函数返回研究[转]
一,c++函数的返回分为以下几种情况 1)主函数main的返回值:这里提及一点,返回0表示程序运行成功. 2)返回非引用类型:函数的返回值用于初始化在跳用函数出创建的临时对象.用函数返回值初始化临时对 ...

scrapy爬虫系列之二--翻页爬取及日志的基本用法

scrapy爬虫系列之二--翻页爬取及日志的基本用法的更多相关文章

随机推荐

热门专题