scrapy项目4：爬取当当网中机器学习的数据及价格（CrawlSpider类）

scrapy项目3中已经对网页规律作出解析，这里用crawlspider类对其内容进行爬取；

项目结构与项目3中相同如下图，唯一不同的为book.py文件

crawlspider类的爬虫文件book的生成命令为：scrapy genspider -t crawl book 'category.dangdang.com'

book.py代码如下：

# -*- coding: utf-8 -*-

import scrapy

# 创建用于提取响应中连接的对象

from scrapy.linkextractors import LinkExtractor

# Rule 用于发送从 LinkExtractor 中提取的连接

from scrapy.spiders import CrawlSpider, Rule

from dangdang05.items import Dangdang05Item

class BookSpider(CrawlSpider):

    name = 'book'

    allowed_domains = ['category.dangdang.com']

    start_urls = ['http://category.dangdang.com/cp01.54.12.00.00.00.html']

    # 提取连接信息，并将提取到的向提取到的url发送请求，调用回调函数处理请求

    # 注意follow表示是否继续对response中的连接进行提取，True表示提取，False表示不再提取

    # 当未指定回调函数时，follow的默认值为True,当指定回调函数时follow的默认值为False

    rules = [Rule(LinkExtractor(allow=r'/pg\d+-cp01.54.12.00.00.00.html'),callback='parse_item',follow=True)]

    def parse_item(self, response):

        # 实例化items中的类

        item = Dangdang05Item()

        # 网页解析第一步，返回selector对对象

        book_list = response.xpath('//ul[@class="bigimg"]/li')

        for book_info in book_list:

            # 书籍名称

            item['name'] = book_info.xpath('./p[@class="name"]/a/@title').extract()[0]

            # 书籍价格

            item['price'] = book_info.xpath('./p[@class="price"]/span[1]/text()').extract()[0]

            yield item

scrapy项目4：爬取当当网中机器学习的数据及价格（CrawlSpider类）的更多相关文章

scrapy项目3：爬取当当网中机器学习的数据及价格（spider类）
1.网页解析当当网中,人工智能数据的首页url如下为http://category.dangdang.com/cp01.54.12.00.00.00.html 点击下方的链接,一次观察各个页面的ur ...
Scrapy爬虫（5）爬取当当网图书畅销榜
本次将会使用Scrapy来爬取当当网的图书畅销榜,其网页截图如下: 我们的爬虫将会把每本书的排名,书名,作者,出版社,价格以及评论数爬取出来,并保存为csv格式的文件.项目的具体创建就不再多讲 ...
python爬虫06 | 你的第一个爬虫，爬取当当网 Top 500 本五星好评书籍
来啦,老弟我们已经知道怎么使用 Requests 进行各种请求骚操作也知道了对服务器返回的数据如何使用正则表达式来过滤我们想要的内容 ... 那么接下来我们就使用 requests 和 re ...
网络爬虫之定向爬虫：爬取当当网2015年图书销售排行榜信息（Crawler）
做了个爬虫,爬取当当网--2015年图书销售排行榜 TOP500 爬取的基本思想是:通过浏览网页,列出你所想要获取的信息,然后通过浏览网页的源码和检查(这里用的是chrome)来获相关信息的节点,最后 ...
python爬取当当网的书籍信息并保存到csv文件
python爬取当当网的书籍信息并保存到csv文件依赖的库: requests #用来获取页面内容 BeautifulSoup #opython3不能安装BeautifulSoup,但可以安装Bea ...
python爬取返利网中值得买中的数据
先使用以前的方法将返利网的数据爬取下来,scrapy框架还不熟练,明日再战scrapy 查找目标数据使用的是beautifulsoup模块. 1.观察网页,寻找规律打开值得买这块内容 1>分析 ...
java爬虫，爬取当当网数据
背景:女票快毕业了(没错!我是有女票的!!!),写论文,主题是儿童性教育,查看儿童性教育绘本数据死活找不到,没办法,就去当当网查询下数据,但是数据怎么弄下来呢,首先想到用Python,但是不会!!百 ...
【转】java爬虫，爬取当当网数据
背景:女票快毕业了(没错!我是有女票的!!!),写论文,主题是儿童性教育,查看儿童性教育绘本数据死活找不到,没办法,就去当当网查询下数据,但是数据怎么弄下来呢,首先想到用Python,但是不会!!百 ...
selenium自动化测试工具模拟登陆爬取当当网top500畅销书单
selenium自动化测试工具可谓是爬虫的利器,基本动态加载的网页都能抓取,当然随着大型网站的更新,也出现针对selenium的反爬,有些网站可以识别你是否用的是selenium访问,然后对你加以限制 ...

随机推荐

Oracle恢复ORA-00600: 内部错误代码, 参数: [kcratr_scan_lastbwr] 问题的简单解决
Oracle恢复ORA-00600: 内部错误代码, 参数: [kcratr_scan_lastbwr] 1. 简单处理 sqlplus / as sysdba startup mount recov ...
oracle 数据库备份与恢复
oracle 数据库备份与恢复包含四个部分: 1.数据泵备份与恢复 2.rman备份与恢复 3.CSV增量备份恢复 4.截库操作 1.数据泵备份与恢复 expdp/ / impdp 时的 CONTE ...
TCP协议的粘包现象和解决方法
# 粘包现象 # serverimport socket sk = socket.socket()sk.bind(('127.0.0.1', 8005))sk.listen() conn, addr ...
linux命令集合
ps:查看所有进程 // -e :显示所有进程:-f:代表全格式 ps -ef | grep python :查看后台运行的python程序,| 表示管道,grep表示筛选 & 符号:后台执行 ...
将数据库模型放入到.Net Core的类库中
一.前提概要今年某天突然无聊,就决定学习.net core,此时的版本已经是.net core 1.1了.之前一直是用.net framework做项目,一直对Html.EditFor()等Html ...
编写优秀 CSS 代码的 8 个策略
编写基本的CSS和HTML是我们作为Web开发人员学习的首要事情之一.然而,我遇到的很多应用程序显然没有人花时间真正考虑前端开发的长久性和可维护性. 我认为这主要是因为许多开发人员对组织CSS / H ...
react-native底部导航栏实现
react-native-tab-navigator实现: bottom.js代码如下: import React, {Component} from 'react'; import {StyleSh ...
mongodb，robomongo 数据查询
可视化管理工具:Robomongo 是开源,免费的MongoDB管理工具,下载地址:Robomongo下载 1. 基本查询: 构造查询数据. > db.test.findOne() ...
Linux下vim显示行数
在Linux环境下的编辑器有vi.vim.gedit等等.进入这些编辑器之后,为了方便我们需要编辑器显示出当前的行号,可偏偏编辑器默认是不会显示行号的.我们有二种办法可以解决: 第一种是,手动显示:在 ...
java模拟验证码生成
设计思想第一步:随机生成字符串第二步:用户输入字符串第三步:将两个字符串转化为同一类型第四步:比较是否相同第五步:输出结果程序流程图程序源代码 /*2017/10/7 王翌淞验证码模拟 ...

scrapy项目4：爬取当当网中机器学习的数据及价格（CrawlSpider类）

scrapy项目4：爬取当当网中机器学习的数据及价格（CrawlSpider类）的更多相关文章

随机推荐

热门专题