爬虫（九）：scrapy框架回顾

scrapy文档

一：安装scrapy

a. pip3 install wheel

b. 下载twisted http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

c. 进入下载目录，执行 pip3 install Twisted‑17.1.0‑cp35‑cp35m‑win_amd64.whl

d. pip3 install scrapy

e. 下载并安装pywin32：https://sourceforge.net/projects/pywin32/files/

二：基本操作

（1）新建工程：在创建工程之前先进入想用来保存代码的目录，然后执行

scrapy startproject xxx #创建项目

Microsoft Windows [版本 10.0.16299.309]

(c)  Microsoft Corporation。保留所有权利。

C:\Users\felix>cd C:\Users\felix\PycharmProjects\scrapy_quotes

C:\Users\felix\PycharmProjects\scrapy_quotes>scrapy startproject quotes

New Scrapy project 'quotes', using template directory 'c:\\users\\felix\\appdata\\local\\programs\\python\\python36\\lib\\site-packages\\scrapy\\templates\\project', created in:

    C:\Users\felix\PycharmProjects\scrapy_quotes\quotes

You can start your first spider with:

    cd quotes

    scrapy genspider example example.com

执行这条命令将创建一个新目录：包括的文件如下：

scrapy.cfg：项目配置文件

quotes/：项目python模块，待会代码将从这里导入

quotes/items：项目items文件

quotes/pipelines.py:项目管道文件

quotes/settings.py：项目配置文件

quotes/spiders：放置spider的目录

（2）：创建爬虫

cd quotes # 先进入项目目录

scrapy genspider name name.com # 创建爬虫

scrapy crawl name # 运行爬虫

（3）：创建的爬虫类解析

import scrapy

from quotes.items import QuotesItem

class QuotespiderSpider(scrapy.Spider):

    name = 'quotespider'  # 爬虫名称

    allowed_domains = ['quotes.toscrape.com']  # 允许爬虫访问的域名，可以多个

    start_urls = ['http://quotes.toscrape.com/'] # 爬虫开始的url地址

    def parse(self, response):  # 爬虫返回的数据解析函数

        quotes = response.css('.quote')  # 通过css选择器选择相应的内容

        for quote in quotes:

            item = QuotesItem()  # item做数据持久化的

            text = quote.css('.text::text').extract_first()  # ::text 表示输出文本内容

            author = quote.css('.author::text').extract_first()  # ::text 表示输出文本内容

            tags = quote.css('.tags .tag::text').extract()  # extract_first() 表示找第一个，extract()表示找到所有，并返回一个列表

            item['text'] = text  # 赋值  首先要在items类中创建

            item['tags'] = tags

            item['author'] = author

            yield item  # 生成item 做数据存储

        next = response.css('.pager .next a::attr(href)').extract_first()  # 得到相对的url

        url = response.urljoin(next)  # 获取一个绝对的url，获取下一页的url

        yield scrapy.Request(url=url, callback=self.parse)  # 处理链接，将返回的response交给callback的回调函数

# scrapy shell quotes.toscrape.com  # 进入命令行调试

# scrapy crawl quotes -o quotes.json(.csv  .xml)     # 数据保存，可以保存多个类型

（4）：items类解析

Items是将要装载抓取的数据的容器，它工作方式像python里面的字典，但它提供更多的保护，比如对未定义的字段填充以防止拼写错误。

它通过创建一个scrapy.item.Item类来声明，定义它的属性为scrpy.item.Field对象，就像是一个对象关系映射(ORM).
我们通过将需要的item模型化，来控制获得的站点数据，比如我们要获得站点的名字，url和网站描述，我们定义这三种属性的域。要做到这点，我们编辑在quotes目录下的items.py文件，我们的Item类将会是这样

import scrapy

class QuotesItem(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    text=scrapy.Field()  #创建文本字段

    author=scrapy.Field() # 创建作者字段

    tags=scrapy.Field()  # 创建标签字段

（5）：pipeline类解析

import pymongo

from scrapy.exceptions import DropItem

# 要使用pipline一定要在设置中指定

class QuotesPipeline(object):

    def process_item(self, item, spider):

        return item

# 一个pipeline要么返回item 要么返回dropitem

class TextPipeline(object):

    def __init__(self):

        self.limit = 50

    def process_item(self, item, spider):
　　　　　# 这里的item为item类中的item
　　　　　# 大于50字的文本进行处理

        if item['text']:

            if len(item['text']) > self.limit:

                item['text'] = item['text'][0:self.limit].rstrip() + '...'

                return item

        else:

            return DropItem('Missing Text')

# 添加数据库的操作

class MongoPipeline(object):

    def __init__(self, mongo_url, mongo_db):
　　　　 # 初始化数据库

        self.mongo_url = mongo_url

        self.mongo_db = mongo_db


　　 # 该类方法可以从设置中读取数据

    @classmethod

    def from_crawler(cls, crawler):

        return cls(

            # 从设置里面获取数据库的设置信息

            mongo_url=crawler.settings.get('MONGO_URL'),

            mongo_db=crawler.settings.get('MONGO_DB')

        )

    def open_spider(self, spider):  # 启动爬虫时做的操作
　　　　 # 初始化数据库

        self.client = pymongo.MongoClient(self.mongo_url)

        self.db = self.client[self.mongo_db]

　　 # 处理item的方法，必须实现返回item或者dropitem

    def process_item(self, item, spider):

        name = item.__class__.__name__  # item的名称

        self.db[name].insert(dict(item))

        return item

    def close_spider(self, spider):

        self.client.close()  # 结束爬虫时关闭数据库

（6）：运行

scrapy crawl quotespider。

爬虫（九）：scrapy框架回顾的更多相关文章

Python网络爬虫之Scrapy框架（CrawlSpider）
目录 Python网络爬虫之Scrapy框架(CrawlSpider) CrawlSpider使用爬取糗事百科糗图板块的所有页码数据 Python网络爬虫之Scrapy框架(CrawlSpider) ...
爬虫06 /scrapy框架
爬虫06 /scrapy框架目录爬虫06 /scrapy框架 1. scrapy概述/安装 2. 基本使用 1. 创建工程 2. 数据分析 3. 持久化存储 3. 全栈数据的爬取 4. 五大核心组 ...
Python逆向爬虫之scrapy框架,非常详细
爬虫系列目录目录 Python逆向爬虫之scrapy框架,非常详细一.爬虫入门 1.1 定义需求 1.2 需求分析 1.2.1 下载某个页面上所有的图片 1.2.2 分页 1.2.3 进行下载图片 ...
爬虫之scrapy框架
解析 Scrapy解释 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中.其最初是为了页面抓取 (更确切来说, 网络抓 ...
Python爬虫进阶(Scrapy框架爬虫)
准备工作: 配置环境问题什么的我昨天已经写了,那么今天直接安装三个库首先第一步: ...
爬虫之Scrapy框架介绍
Scrapy介绍 Scrapy是用纯Python实现一个为了爬取网站数据.提取结构性数据而编写的应用框架,用途非常广泛. 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内 ...
16.Python网络爬虫之Scrapy框架（CrawlSpider）
引入提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法 ...
python爬虫随笔-scrapy框架(1)——scrapy框架的安装和结构介绍
scrapy框架简介 Scrapy,Python开发的一个快速.高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘.监测和自动化测试 ...
5、爬虫之scrapy框架
一 scrapy框架简介 1 介绍 Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速.简单.可扩展的方式从网站中提取所需的数据.但目前Sc ...
Python学习---爬虫学习[scrapy框架初识]
Scrapy Scrapy是一个框架,可以帮助我们进行创建项目,运行项目,可以帮我们下载,解析网页,同时支持cookies和自定义其他功能. Scrapy是一个为了爬取网站数据,提取结构性数据而编写的 ...

随机推荐

Springboot入门及配置文件介绍（内置属性、自定义属性、属性封装类）
目的: 1.Springboot入门 SpringBoot是什么? 使用Idea配置SpringBoo使用t项目测试案例 2.Springboot配置文件介绍内置属性自定义属性属性封装类 Sp ...
redis哈希表数据类型键的查询和删除命令
一.查询命令名称:hget 语法:hget key field 功能:返回哈希表key中给定域field的值返回值: 给定域的值. 当给定域不存在或是给定key不存在时,返回nil 命令名称:hg ...
.Net DLL类库引用时没有注释信息
自己编写的类库提供给别人引用时,别人获取不到DLL内部的方法.变量的注释信息,无法了解内部情况和使用方法. 原因:没有随DLL类库一同输出注释文档解决方案: 在VS界面中选中提供给别人的类库项目在 ...
js 遍历树的层级关系的实现
1.遍历树的层级关系 1)先整理数据 2)找到id和数据的映射关系 3)然后找到父节点的数据,进行存储 test() { const list = [ { id: ", parentId: ...
Ajax调用WebService接口样例
在做手机端h5的应用时,通过Ajax调用http接口时没啥问题的:但有些老的接口是用WebService实现的,也来不及改成http的方式,这时通过Ajax调用会有些麻烦,在此记录具体实现过程.本文使 ...
iOS - 外包开发常用第三方库（1）
一:第三方插件1:基于响应式编程思想的oc地址:https://github.com/ReactiveCocoa/ReactiveCocoa2:hud提示框地址:https://github.com/ ...
stm32 FSMC-外扩SRAM IS62WV51216
引脚定义 FSMC配置步骤 1.使能对应引脚GPIO时钟 2.配置GPIO引脚模式 3.使能FSMC时钟 4.FSMC初始化 5.存储器块使能举例 #define Bank1_SRAM3_ADDR ...
Python_for语句
1.for语句: myuser={ 'id':1, 'name':'张三', '语文':98, '数学':99, '英语':40 } for key in myuser: print('学生的'+ke ...
RT-Thread--线程间通信
线程中通信在裸机编程中,经常会使用全局变量进行功能间的通信,如某些功能可能由于一些操作而改变全局变量的值,另一个功能对此全局变量进行读取,根据读取到的全局变量值执行相应的动作,达到通信协作的目的: ...
LRU(最近最少使用)(python实现)
""" python3 only LRU cache """ from collections import OrderedDict fro ...

爬虫（九）：scrapy框架回顾

爬虫（九）：scrapy框架回顾的更多相关文章

随机推荐

热门专题