scrapy获取当当网多页的获取

结合上节，网多页的获取只需要修改

dang.py

import scrapy

from scrapy_dangdang.items import ScrapyDangdang095Item

class DangSpider(scrapy.Spider):

    name = 'dang'

    # 如果是多页下载的话 那么必须要调整的是allowed_domains的范围 一般情况下只写域名

    allowed_domains = ['category.dangdang.com']

    start_urls = ['http://category.dangdang.com/cp01.01.02.00.00.00.html']

    base_url = 'http://category.dangdang.com/pg'

    page = 1

    def parse(self, response):

#       pipelines 下载数据

#       items     定义数据结构的

#         src = //ul[@id="component_59"]/li//img/@src

#         alt = //ul[@id="component_59"]/li//img/@alt

#         price = //ul[@id="component_59"]/li//p[@class="price"]/span[1]/text()

#         所有的seletor的对象 都可以再次调用xpath方法

        li_list = response.xpath('//ul[@id="component_59"]/li')

        for li in li_list:

            src = li.xpath('.//img/@data-original').extract_first()

            # 第一张图片和其他的图片的标签的属性是不一样的

            # 第一张图片的src是可以使用的  其他的图片的地址是data-original

            if src:

                src = src

            else:

                src = li.xpath('.//img/@src').extract_first()

            name = li.xpath('.//img/@alt').extract_first()

            price = li.xpath('.//p[@class="price"]/span[1]/text()').extract_first()

            book = ScrapyDangdang095Item(src=src,name=name,price=price)

            # 获取一个book就将book交给pipelines

            yield book

#       每一页的爬取的业务逻辑全都是一样的，所以我们只需要将执行的那个页的请求再次调用parse方法就可以了

#         http://category.dangdang.com/pg2-cp01.01.02.00.00.00.html

#         http://category.dangdang.com/pg3-cp01.01.02.00.00.00.html

#         http://category.dangdang.com/pg4-cp01.01.02.00.00.00.html

        if self.page < 100:

            self.page = self.page + 1

            url = self.base_url + str(self.page) + '-cp01.01.02.00.00.00.html'

#             怎么去调用parse方法

#             scrapy.Request就是scrpay的get请求

#             url就是请求地址

#             callback是你要执行的那个函数  注意不需要加（）

            yield scrapy.Request(url=url,callback=self.parse)

运行

Ctrl+z暂定

多页下载完毕

scrapy获取当当网多页的获取的更多相关文章

scrapy获取当当网中数据
yield 1. 带有 yield 的函数不再是一个普通函数,而是一个生成器generator,可用于迭代 2. yield 是一个类似 return 的关键字,迭代一次遇到yield时就返回yiel ...
C#获取外网IP地址;C#获取所在IP城市地址
public static string GetIP() { using (var webClient = new WebClient()) ...
Python 爬虫当当网图书 scrapy
目标站点需求分析获取当当网每个图书名字和评论数涉及的库 scrapy,mysql 获取解析单页源码保存到数据库中结果
Python爬虫库Scrapy入门1--爬取当当网商品数据
1.关于scrapy库的介绍,可以查看其官方文档:http://scrapy-chs.readthedocs.io/zh_CN/latest/ 2.安装:pip install scrapy 注意这 ...
scrapy项目3：爬取当当网中机器学习的数据及价格（spider类）
1.网页解析当当网中,人工智能数据的首页url如下为http://category.dangdang.com/cp01.54.12.00.00.00.html 点击下方的链接,一次观察各个页面的ur ...
scrapy 当当网爬虫
前言好久没有写实战博客了,因为前几个月在公司实习,博客更新就耽搁了下来,现在又受疫情影响无法返校,但是技能还是不能丢的,今天就写一篇使用scrapy爬取当当网的实战练习吧. 创建scrapy项目目 ...
dotnet获取PDF文件的页数
#region 获取PDF文件的页数 private int BytesLastIndexOf(Byte[] buffer, int length, string Search) { if (buff ...
c#获取外网IP地址的方法
1.如果你是通过路由上网的,可以通过访问ip138之类的地址来获取外网IP 2.如果是通过PPPOE拨号上网的,可以使用以下代码获取IP //获取宽带连接(PPPOE拨号)的IP地址,timeout超 ...
C#获取内网和外网IP
写了个小客户端,里面用到了获取内网和外网的IP地址,代码如下: // InnerIP var ipHost = Dns.Resolve(Dns.GetHostName()); ]; innerIP = ...

随机推荐

mysql的一次意外
打开navcat连接本地mysql数据库的时候说mysql服务无法连接,切换到cmd用命令行来启动报错,发生系统错误5,查看百度,需用管理员权限运行, 用管理员运行依旧不好使 C:\WINDOWS\s ...
基于注解实现jackson动态JsonProperty
基于注解实现jackson动态JsonProperty @JsonProperty 此注解用于属性上,作用是把该属性的名称序列化为另外一个名称,如把trueName属性序列化为name,但是值是固定的 ...
Django序列化页和过滤页规范
序列化类:serializers.py from rest_framework import serializers from goods.models import Goods, GoodsCate ...
SPOJ16636 Journey IE2
SPOJ16636 Journey IE2 更好的阅读体验在Byteland有n个城市,编号从1到n.这些城市由m条双向道路网络连接.众所周知,每一对城市最多只能由一条道路连接. Byteman最近 ...
RPAaaS是什么?为何能够推进RPA人人可用?
RPAaaS是什么?为何能够推进RPA人人可用? 助力中小企业快速实现自动化,RPAaaS加速"RPA人人可用"时代到来相对传统RPA拥有更多优势,PRAaaS为RPA行业带来更 ...
解决VS2015安装后stdio.h ucrtd.lib等文件无法识别问题，即include+lib环境变量配置
转载自:http://blog.csdn.net/carl_qi/article/details/51171280 今天突然想在windows上装个 VS2015 玩玩,结果遇到了如下bug: 安装完 ...
服务器端的GPU使用
服务器端的GPU使用查看GPU信息查看nvidia GPU信息: # 输入指令 lspci | grep -i nvidia # 结果如下: # 04:00.0 3D controller: NV ...
寻找写代码感觉（八）之SpringBoot过滤器的使用
一.什么是过滤器? 过滤器是对数据进行过滤,预处理过程,当我们访问网站时,有时候会发布一些敏感信息,发完以后有的会用*替代,还有就是登陆权限控制等,一个资源,没有经过授权,肯定是不能让用户随便访问的, ...
[no code][scrum meeting] Beta 12
$( "#cnblogs_post_body" ).catalog() 例会时间:5月27日11:30,主持者:乔玺华一.工作汇报人员昨日完成任务明日要完成的任务乔玺华 ...
[no code][scrum meeting] Beta 3
$( "#cnblogs_post_body" ).catalog() 例会时间:5月15日11:30,主持者:肖思炀下次例会时间:5月16日11:30,主持者:伦泽标一.工作 ...

scrapy获取当当网多页的获取

scrapy获取当当网多页的获取的更多相关文章

随机推荐

热门专题