爬取多个url页面数据--手动实现

# -*- coding: utf-8 -*-

import scrapy

from qiubaiByPages.items import QiubaibypagesItem

class QiubaiSpider(scrapy.Spider):

    name = 'qiubai'

    #allowed_domains = ['www.qiushibaike.com/text']

    start_urls = ['https://www.qiushibaike.com/text/']

    #设计一个通用的url模板

    url = 'https://www.qiushibaike.com/text/page/%d/'

    pageNum = 1

    def parse(self, response):

        div_list = response.xpath('//*[@id="content-left"]/div')

        for div in div_list:

            author = div.xpath('./div[@class="author clearfix"]/a[2]/h2/text()').extract_first()

            content = div.xpath('.//div[@class="content"]/span/text()').extract_first()

            #创建一个items对象，将解析到数据值存储到items对象中

            item = QiubaibypagesItem()

            item['author'] = author

            item['content'] = content

            #将item提交给管道

            yield item

        #请求的手动发送

        #13表示的是最后一页的页码

        if self.pageNum <= 13:

            print('爬取到了第%d页的页面数据'%self.pageNum)

            self.pageNum += 1

            new_url = format(self.url % self.pageNum)

            yield scrapy.Request(url=new_url,callback=self.parse)

爬取多个url页面数据--手动实现的更多相关文章

02. 爬取get请求的页面数据
目录 02. 爬取get请求的页面数据一.urllib库二.由易到难的爬虫程序: 02. 爬取get请求的页面数据一.urllib库 urllib是Python自带的一个用于爬虫的库,其主要作用 ...
爬虫（二）Python网络爬虫相关基础概念、爬取get请求的页面数据
什么是爬虫爬虫就是通过编写程序模拟浏览器上网,然后让其去互联网上抓取数据的过程. 哪些语言可以实现爬虫 1.php:可以实现爬虫.php被号称是全世界最优美的语言(当然是其自己号称的,就是王婆 ...
Python网络爬虫第三弹《爬取get请求的页面数据》
一.urllib库 urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求.其常被用到的子模块在Python3中的为urllib.request和urllib. ...
python网络爬虫《爬取get请求的页面数据》
一.urllib库 urllib是python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求.其常被用到的子模块在python3中的为urllib.request和urllib. ...
Python爬虫《爬取get请求的页面数据》
一.urllib库 urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求.其常被用到的子模块在Python3中的为urllib.request和urllib. ...
python爬虫爬取get请求的页面数据代码样例
废话不多说,上代码 #!/usr/bin/env python # -*- coding:utf-8 -*- # 导包 import urllib.request import urllib.pars ...
python网络爬虫第三弹(<爬取get请求的页面数据>)
一.urllib库 urllib是python自带的一个用于爬虫的库,其主要作用就是通过代码模拟浏览器发送请求,其常被用到的子模块在 python3中的为urllib.request 和 urllib ...
Python爬虫教程-13-爬虫使用cookie爬取登录后的页面(人人网)（下）
Python爬虫教程-13-爬虫使用cookie爬取登录后的页面(下) 自动使用cookie的方法,告别手动拷贝cookie http模块包含一些关于cookie的模块,通过他们我们可以自动的使用co ...
Python爬虫教程-12-爬虫使用cookie爬取登录后的页面(人人网)（上）
Python爬虫教程-12-爬虫使用cookie(上) 爬虫关于cookie和session,由于http协议无记忆性,比如说登录淘宝网站的浏览记录,下次打开是不能直接记忆下来的,后来就有了cooki ...

随机推荐

jquery常用属性与方法
1..css( )给指定的样式设置样式值: 2..attr(attributeName,value) /.removeAttr(attributeName);给指定的属性设置值 / 清除所有匹配的元素 ...
vue复习
vue 复习 options的根属性 el:目的地(srting || DOM元素) template 模板 data 是一个函数 , return一个对象对象中的key, 可以直接在页面中 ...
安卓开发：Please ensure that adb is correctly located at……问题解决方案
话不多说,每一个开发安卓的菜鸟都会遇到这种问题. Please ensure that adb is correctly located at 'E:\种子下载\adt-bundle-windo... ...
redhat7.3忘记root密码后如何重置root密码
redhat7系如果忘记root密码,重置密码方法与redhat6系不同! 1.开机启动系统,在grub选择启动内核项时按‘e’进入编辑模式 2.这时看到的参数并不全,要按上下键滚动显示, 3.在l ...
Verilog频率计设计
这是以前的一个可编程逻辑课上机实验三实验报告数字频率计的基本设计思路是在给定一个time开始测量的时候产生的T的个数,也就是采用一个标准的基准时钟,在单位时间(1秒)里对被测信号的脉冲数进行计数. ...
May 03rd 2017 Week 18th Wednesday
Truth needs no colour; beauty, no pencil. 真理不需要色彩,美丽不需要涂饰. There is no absoulte truth and everlastin ...
Objectbox Box的getAll() 函数返回emptylist() 未判断导致崩溃
最近使用了Objectbox作为新项目的数据库后台,Greendao开发团队新力作,但是Objectbox算是比较新的一个东西,现在资料也不多. 今天跟大家分享一个关于Box类的getAll()函数的 ...
【转载】#336 - Declaring and Using a readonly Field
You can make a field in a class read-only by using the readonly modifier when the field is declared. ...
虚拟内存映射段分割 vm_area_struct
http://www.cnblogs.com/huxiao-tee/p/4660352.html linux内核使用vm_area_struct结构来表示一个独立的虚拟内存区域,由于每个不同质的虚拟内 ...
Prim算法求权数和，POJ(1258)
题目链接:http://poj.org/problem?id=1258 解题报告: #include <iostream> #include <stdio.h> #includ ...

爬取多个url页面数据--手动实现

爬取多个url页面数据--手动实现的更多相关文章

随机推荐

热门专题