Scrapy框架基本使用

pycharm+Scrapy

距离上次使用Scrapy已经是大半年前的事情了，赶紧把西瓜皮捡回来。。

简单粗暴上爬取目标：

初始URL：http://quotes.toscrape.com/

目标：将每一页中每一栏的语录、作者、标签解析出来，保存到json文件或者MongoDB数据库中

打开命令行，敲

scrapy startproject quotetutorial #在当前目录下生成了一个叫quotetutorial的项目

然后敲cd quotetutorail，然后敲

scrapy genspider quotes quotes.toscrape.com #创建一个目标站点的爬虫

此时项目结构如下：

做一下解释：

iems:定义存储数据的Item类

settings:变量的配置信息

pipeline:负责处理被Spider提取出来的Item，典型应用有：清理HTML数据；验证爬取数据的合法性，检查Item是否包含某些字段；查重并丢弃；将爬取结果保存到文件或者数据库中

middlewares:中间件

spiders > quotes:爬虫模块

接着我们修改quotes.py代码：

# -*- coding: utf-8 -*-

import scrapy

from quotetutorial.items import QuotetutorialItem

from urllib.parse import urljoin

class QuotesSpider(scrapy.Spider):

    name = 'quotes'

    allowed_domains = ['quotes.toscrape.com']

    start_urls = ['http://quotes.toscrape.com/']

    def parse(self, response):

        quotes = response.css('.quote')

        for quote in quotes:

            item = QuotetutorialItem()

            text = quote.css('.text::text').extract_first()

            author = quote.css('.author::text').extract_first()

            tags = quote.css('.tags .tag::text').extract()

            item['text'] = text

            item['author'] = author

            item['tags'] = tags

            yield item

        next = response.css('.pager .next a::attr(href)').extract_first()#提取翻页的url

        url = response.urljoin(next) #作url拼接

        if url:

            yield scrapy.Request(url=url,callback=self.parse)#回调parse函数

然后是pipelines.py文件

# -*- coding: utf-8 -*-

# Define your item pipelines here

#

# Don't forget to add your pipeline to the ITEM_PIPELINES setting

# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html

from scrapy.exceptions import DropItem

from pymongo import MongoClient

class TextPipeline(object):#对item数据处理，限制字段大小

    def __init__(self):

        self.limit = 50

    def process_item(self, item, spider):

        if item['text']:

            if len(item['text']) > self.limit:

                item['text'] = item['text'][0:self.limit].rstrip() + '...'

            return item

        else:

            return DropItem('Missing Text')

class MongoPipeline(object):#保存到MongoDB数据库

    def __init__(self,mongo_uri,mongo_db):

        self.mongo_uri = mongo_uri

        self.mongo_db = mongo_db

    @classmethod

    def from_crawler(cls,crawler):

        return cls(

            mongo_uri = crawler.settings.get('MONGO_URI'),

            mongo_db = crawler.settings.get('MONGO_DB')

        )

    def open_spider(self,spider):

        self.client = MongoClient(self.mongo_uri)

        self.db = self.client[self.mongo_db]

    def process_item(self,item,spider):

        name = item.__class__.__name__

        self.db[name].insert(dict(item))

        return item

    def close_spider(self,spider):

        self.client.close()

然后是items.py

# -*- coding: utf-8 -*-

# Define here the models for your scraped items

#

# See documentation in:

# http://doc.scrapy.org/en/latest/topics/items.html

import scrapy

class QuotetutorialItem(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    text = scrapy.Field()

    author = scrapy.Field()

    tags = scrapy.Field()

然后修改settings.py

SPIDER_MODULES = ['quotetutorial.spiders']

NEWSPIDER_MODULE = 'quotetutorial.spiders'

MONGO_URI = 'localhost'

MONGO_DB = 'quotestutorial'

# Configure item pipelines

# See http://scrapy.readthedocs.org/en/latest/topics/item-pipeline.html

ITEM_PIPELINES = {

   'quotetutorial.pipelines.TextPipeline': 300,　　　　　　#数字越小表示优先级越高，先处理

    'quotetutorial.pipelines.MongoPipeline': 400,

}

这里需要注意的地方是：

Scrapy有自己的一套数据提取机制，成为Selector，通过Xpath或者CSS来解析HTML，用法和普通的选择器一样

把CSS换成XPATH如下：

    def parse(self, response):

        quotes = response.xpath(".//*[@class='quote']")

        for quote in quotes:

            item = QuotetutorialItem()

            # text = quote.css('.text::text').extract_first()

            # author = quote.css('.author::text').extract_first()

            # tags = quote.css('.tags .tag::text').extract()

            text = quote.xpath(".//span[@class='text']/text()").extract()[0]

            author = quote.xpath(".//span/small[@class='author']/text()").extract()[0]

            tags = quote.xpath(".//div[@class='tags']/a/text()").extract()

            item['text'] = text

            item['author'] = author

            item['tags'] = tags

            # item['tags'] = tags

            yield item

Scrapy框架基本使用的更多相关文章

Python爬虫Scrapy框架入门（2）
本文是跟着大神博客,尝试从网站上爬一堆东西,一堆你懂得的东西附上原创链接: http://www.cnblogs.com/qiyeboy/p/5428240.html 基本思路是,查看网页元素,填写 ...
Python爬虫Scrapy框架入门（1）
也许是很少接触python的原因,我觉得是Scrapy框架和以往Java框架很不一样:它真的是个框架. 从表层来看,与Java框架引入jar包.配置xml或.property文件不同,Scrapy的模 ...
Scrapy框架使用—quotesbot 项目（学习记录一）
一.Scrapy框架的安装及相关理论知识的学习可以参考:http://www.yiibai.com/scrapy/scrapy_environment.html 二.重点记录我学习使用scrapy框架 ...
Python爬虫从入门到放弃（十一）之 Scrapy框架整体的一个了解
这里是通过爬取伯乐在线的全部文章为例子,让自己先对scrapy进行一个整理的理解该例子中的详细代码会放到我的github地址:https://github.com/pythonsite/spider ...
Python爬虫从入门到放弃（十二）之 Scrapy框架的架构和原理
这一篇文章主要是为了对scrapy框架的工作流程以及各个组件功能的介绍 Scrapy目前已经可以很好的在python3上运行Scrapy使用了Twisted作为框架,Twisted有些特殊的地方是它是 ...
python爬虫scrapy框架——人工识别登录知乎倒立文字验证码和数字英文验证码(2)
操作环境:python3 在上一文中python爬虫scrapy框架--人工识别知乎登录知乎倒立文字验证码和数字英文验证码(1)我们已经介绍了用Requests库来登录知乎,本文如果看不懂可以先看之前 ...
一个scrapy框架的爬虫(爬取京东图书)
我们的这个爬虫设计来爬取京东图书(jd.com). scrapy框架相信大家比较了解了.里面有很多复杂的机制,超出本文的范围. 1.爬虫spider tips: 1.xpath的语法比较坑,但是你可以 ...
安装scrapy框架的常见问题及其解决方法
下面小编讲一下自己在windows10安装及配置Scrapy中遇到的一些坑及其解决的方法,现在总结如下,希望对大家有所帮助. 常见问题一:pip版本需要升级如果你的pip版本比较老,可能在安装的过程 ...
关于使用scrapy框架编写爬虫以及Ajax动态加载问题、反爬问题解决方案
Python爬虫总结总的来说,Python爬虫所做的事情分为两个部分,1:将网页的内容全部抓取下来,2:对抓取到的内容和进行解析,得到我们需要的信息. 目前公认比较好用的爬虫框架为Scrapy,而且 ...
利用scrapy框架进行爬虫
今天一个网友问爬虫知识,自己把许多小细节都忘了,很惭愧,所以这里写一下大概的步骤,主要是自己巩固一下知识,顺便复习一下.(scrapy框架有一个好处,就是可以爬取https的内容) [爬取的是杨子晚报 ...

随机推荐

Win10系统的SurfacePro4如何重装系统-2 重装WIN10系统
把SurfacePro充好电,然后关机,开机按住音量+,然后再按电源键,可以开机并进入BIOS(此前应确保优盘已经装了PE并插入Surface) 然后选择U盘启动为第一个(按住之后把他拖放到第一位 ...
HashMap代码解析
hashmap (jdk 1.7)使用 “数组-链表” 方式进行存储,图形化表示如下: 即,前面是一个数组,后面跟一个链表,那么数据结构这个对应到HashMap的代码里面是什么样子的呢? 在HashM ...
MyBatis中使用实体中使用枚举，数据库中使用数值
一.简介本文主要讲MyBatis中使用实体中使用枚举,数据库中使用数值的解决方案.正常直接使用会报错,需要添加typeHandlers在mybatis-config.xml中. 二.解决方案如下: ...
【Linux】CentOs的常用命令
1.文件目录操作命令 ls:列出当前路径下的文件或者目录列表 -l 列出详细信息 -a 列出所有的文件信息,包括隐藏文 ...
Mybatis(五) 延迟加载和缓存机制(一级二级缓存)
踏踏实实踏踏实实,开开心心,开心是一天不开心也是一天,路漫漫其修远兮. --WH 一.延迟加载延迟加载就是懒加载,先去查询主表信息,如果用到从表的数据的话,再去查询从表的信息,也就是如果没用到从表的 ...
TypeScript和JavaScript的一些小技巧记录
项目里使用到的技巧,记录一下,会持续更新. JS的技巧完全可以使用到TS上哦. JS 向下取整 Math.floor(4.5); 简写: var num = 4.5; ~~num; num <& ...
Pandas基础(十一)时间序列
1. pandas时间序列:时间索引 2. pandas时间序列数据结构 2.1 定期序列 3. 频率和偏移 4. 重采样,转移,加窗口 4.1 重采样及频率转换 4.2 时间移动 4.3 滚动窗口 ...
RESTful API 设计思考
RESTful API 设计思考,内容来源网络加自己的思考 1.RESTful Web API采用面向资源的架构:同一的接口,所以其成员体现为针对同一资源的操作2.SOAP Web API采用RPC风 ...
linux服务查看
(1)#service servicename status比如查看防火墙:#service iptables status (2)#chkconfig --list |grep 服务名比如查看te ...
docker容器运行与退出
#下载centos镜像,运行一个名为mycentos的容器,并在容器里运行/bin/bash docker run -ti --name mycentos centos /bin/bash #退出 e ...

Scrapy框架基本使用

pycharm+Scrapy

Scrapy框架基本使用的更多相关文章

随机推荐

热门专题