Scrapy 入门基础

原文学习参考链接：https://blog.csdn.net/u011054333/article/details/70165401

问题解决参考链接：https://blog.csdn.net/dugushangliang/article/details/94585829

1. Scrapy是一个高级的Python爬虫框架，它不仅包含了爬虫的特性，还可以方便的将爬虫数据保存到csv、json等文件中。

Scrapy 安装

pip install scrapy

2. 快速开始 -- 第一个爬虫例子

import scrapy

class QuotesSpider(scrapy.Spider):

    name = "quotes"

    def start_requests(self):

        urls = [

            'http://quotes.toscrape.com/page/1/',

            'http://quotes.toscrape.com/page/2/',

        ]

        for url in urls:

            yield scrapy.Request(url=url, callback=self.parse)

    def parse(self, response):

        page = response.url.split("/")[-2]

        filename = 'quotes-%s.html' % page

        with open(filename, 'wb') as f:

            f.write(response.body)

        self.log('Saved file %s' % filename)

示例解释：

爬虫类的name属性，用来标识爬虫，该名字在一个项目必须是唯一的。
start_requests()方法，必须返回一个可迭代的列表（可以是列表，也可以是生成器），Scrapy会从这些请求开始抓取网页。
parse() 方法用于从网页文本中抓取相应内容，我们需要根据自己的需要重写该方法。

爬虫链接设置

　　上面的例子中使用start_requests()方法来设置起始URL，如果只需要简单指定URL还可以使用另一种简便方法，那就是设置类属性start_urls，Scrapy会读取该属性来设置起始URL。

import scrapy

class QuotesSpider(scrapy.Spider):

    name = "quotes"

    start_urls = [

        'http://quotes.toscrape.com/page/1/',

        'http://quotes.toscrape.com/page/2/',

    ]

3. 提取数据

可以使用Scrapy的shell功能。使用如下的命令启动Scrapy shell 并提取百思不得解段子内容，成功之后会打开一个交互式shell，我们可以进行交互式编程。

scrapy shell 'http://www.budejie.com/text/'

(tensorflow) C:\Users\xxx>scrapy shell 'http://www.budejie.com/text/'

2020-04-20 21:41:40 [scrapy.utils.log] INFO: Scrapy 2.0.1 started (bot: scrapybot)

2020-04-20 21:41:40 [scrapy.utils.log] INFO: Versions: lxml 4.5.0.0, libxml2 2.9.9, cssselect 1.1.0, parsel 1.5.2, w3lib 1.21.0, Twisted 20.3.0, Python 3.7.7 (default, Mar 23 2020, 23:19:08) [MSC v.1916 64 bit (AMD64)], pyOpenSSL 19.1.0 (OpenSSL 1.1.1f  31 Mar 2020), cryptography 2.8, Platform Windows-10-10.0.18362-SP0

2020-04-20 21:41:40 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.selectreactor.SelectReactor

2020-04-20 21:41:40 [scrapy.crawler] INFO: Overridden settings:

{'DUPEFILTER_CLASS': 'scrapy.dupefilters.BaseDupeFilter',

 'LOGSTATS_INTERVAL': 0}

2020-04-20 21:41:40 [scrapy.extensions.telnet] INFO: Telnet Password: 7f69dbe4b767b160

2020-04-20 21:41:40 [scrapy.middleware] INFO: Enabled extensions:

['scrapy.extensions.corestats.CoreStats',

 'scrapy.extensions.telnet.TelnetConsole']

2020-04-20 21:41:41 [scrapy.middleware] INFO: Enabled downloader middlewares:

['scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',

 'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',

 'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',

 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',

 'scrapy.downloadermiddlewares.retry.RetryMiddleware',

 'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',

 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',

 'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',

 'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',

 'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware',

 'scrapy.downloadermiddlewares.stats.DownloaderStats']

2020-04-20 21:41:41 [scrapy.middleware] INFO: Enabled spider middlewares:

['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',

 'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',

 'scrapy.spidermiddlewares.referer.RefererMiddleware',

 'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',

 'scrapy.spidermiddlewares.depth.DepthMiddleware']

2020-04-20 21:41:41 [scrapy.middleware] INFO: Enabled item pipelines:

[]

2020-04-20 21:41:41 [scrapy.extensions.telnet] INFO: Telnet console listening on 127.0.0.1:6023

2020-04-20 21:41:41 [scrapy.core.engine] INFO: Spider opened

Traceback (most recent call last):

  File "f:\anaconda3\envs\tensorflow\lib\runpy.py", line 193, in _run_module_as_main

    "__main__", mod_spec)

  File "f:\anaconda3\envs\tensorflow\lib\runpy.py", line 85, in _run_code

    exec(code, run_globals)

  File "F:\Anaconda3\envs\tensorflow\Scripts\scrapy.exe\__main__.py", line 7, in <module>

  File "f:\anaconda3\envs\tensorflow\lib\site-packages\scrapy\cmdline.py", line 145, in execute

    _run_print_help(parser, _run_command, cmd, args, opts)

  File "f:\anaconda3\envs\tensorflow\lib\site-packages\scrapy\cmdline.py", line 99, in _run_print_help

    func(*a, **kw)

  File "f:\anaconda3\envs\tensorflow\lib\site-packages\scrapy\cmdline.py", line 153, in _run_command

    cmd.run(args, opts)

  File "f:\anaconda3\envs\tensorflow\lib\site-packages\scrapy\commands\shell.py", line 74, in run

    shell.start(url=url, redirect=not opts.no_redirect)

  File "f:\anaconda3\envs\tensorflow\lib\site-packages\scrapy\shell.py", line 45, in start

    self.fetch(url, spider, redirect=redirect)

  File "f:\anaconda3\envs\tensorflow\lib\site-packages\scrapy\shell.py", line 113, in fetch

    reactor, self._schedule, request, spider)

  File "f:\anaconda3\envs\tensorflow\lib\site-packages\twisted\internet\threads.py", line 122, in blockingCallFromThread

    result.raiseException()

  File "f:\anaconda3\envs\tensorflow\lib\site-packages\twisted\python\failure.py", line 488, in raiseException

    raise self.value.with_traceback(self.tb)

ValueError: invalid hostname: 'http

报错原因： window下面，scrapy shell 后的 url 需要双引号

(tensorflow) C:\Users\xxxx>scrapy shell "http://www.budejie.com//text//"

2020-04-20 21:46:20 [scrapy.utils.log] INFO: Scrapy 2.0.1 started (bot: scrapybot)

2020-04-20 21:46:20 [scrapy.utils.log] INFO: Versions: lxml 4.5.0.0, libxml2 2.9.9, cssselect 1.1.0, parsel 1.5.2, w3lib 1.21.0, Twisted 20.3.0, Python 3.7.7 (default, Mar 23 2020, 23:19:08) [MSC v.1916 64 bit (AMD64)], pyOpenSSL 19.1.0 (OpenSSL 1.1.1f  31 Mar 2020), cryptography 2.8, Platform Windows-10-10.0.18362-SP0

2020-04-20 21:46:20 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.selectreactor.SelectReactor

2020-04-20 21:46:20 [scrapy.crawler] INFO: Overridden settings:

{'DUPEFILTER_CLASS': 'scrapy.dupefilters.BaseDupeFilter',

 'LOGSTATS_INTERVAL': 0}

2020-04-20 21:46:20 [scrapy.extensions.telnet] INFO: Telnet Password: 9399f1c2f556e3d9

2020-04-20 21:46:20 [scrapy.middleware] INFO: Enabled extensions:

['scrapy.extensions.corestats.CoreStats',

 'scrapy.extensions.telnet.TelnetConsole']

2020-04-20 21:46:21 [scrapy.middleware] INFO: Enabled downloader middlewares:

['scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',

 'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',

 'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',

 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',

 'scrapy.downloadermiddlewares.retry.RetryMiddleware',

 'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',

 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',

 'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',

 'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',

 'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware',

 'scrapy.downloadermiddlewares.stats.DownloaderStats']

2020-04-20 21:46:21 [scrapy.middleware] INFO: Enabled spider middlewares:

['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',

 'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',

 'scrapy.spidermiddlewares.referer.RefererMiddleware',

 'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',

 'scrapy.spidermiddlewares.depth.DepthMiddleware']

2020-04-20 21:46:21 [scrapy.middleware] INFO: Enabled item pipelines:

[]

2020-04-20 21:46:21 [scrapy.extensions.telnet] INFO: Telnet console listening on 127.0.0.1:6023

2020-04-20 21:46:21 [scrapy.core.engine] INFO: Spider opened

2020-04-20 21:46:22 [scrapy.core.engine] DEBUG: Crawled (403) <GET http://www.budejie.com//text//> (referer: None)

2020-04-20 21:46:24 [asyncio] DEBUG: Using selector: SelectSelector

[s] Available Scrapy objects:

[s]   scrapy     scrapy module (contains scrapy.Request, scrapy.Selector, etc)

[s]   crawler    <scrapy.crawler.Crawler object at 0x00000211AB54EC88>

[s]   item       {}

[s]   request    <GET http://www.budejie.com//text//>

[s]   response   <403 http://www.budejie.com//text//>

[s]   settings   <scrapy.settings.Settings object at 0x00000211AD5374C8>

[s]   spider     <DefaultSpider 'default' at 0x211ad9b9f08>

[s] Useful shortcuts:

[s]   fetch(url[, redirect=True]) Fetch URL and update local objects (by default, redirects are followed)

[s]   fetch(req)                  Fetch a scrapy.Request and update local objects

[s]   shelp()           Shell help (print this help)

[s]   view(response)    View response in a browser

2020-04-20 21:46:25 [asyncio] DEBUG: Using selector: SelectSelector

In [1]:

4. 交互式命令使用示例

2020-04-20 21:53:40 [asyncio] DEBUG: Using selector: SelectSelector

In [1]: response.css('title')

Out[1]: [<Selector xpath='descendant-or-self::title' data='<title>内涵段子_内涵笑话－百思不得姐官网，第2页</title>'>]

In [2]: response.css("title::text").extract()

Out[2]: ['内涵段子_内涵笑话－百思不得姐官网，第2页']

In [3]: li=response.css('div.j-r-list-c-desc')

In [4]: li

Out[4]:

[<Selector xpath="descendant-or-self::div[@class and contains(concat(' ', normalize-space(@class), ' '), ' j-r-list-c-desc ')]" data='<div class="j-r-list-c-desc">\n       ...'>,

 <Selector xpath="descendant-or-self::div[@class and contains(concat(' ', normalize-space(@class), ' '), ' j-r-list-c-desc ')]" data='<div class="j-r-list-c-desc">\n       ...'>,

 <Selector xpath="descendant-or-self::div[@class and contains(concat(' ', normalize-space(@class), ' '), ' j-r-list-c-desc ')]" data='<div class="j-r-list-c-desc">\n       ...'>,

 <Selector xpath="descendant-or-self::div[@class and contains(concat(' ', normalize-space(@class), ' '), ' j-r-list-c-desc ')]" data='<div class="j-r-list-c-desc">\n       ...'>,

 <Selector xpath="descendant-or-self::div[@class and contains(concat(' ', normalize-space(@class), ' '), ' j-r-list-c-desc ')]" data='<div class="j-r-list-c-desc">\n       ...'>,

 <Selector xpath="descendant-or-self::div[@class and contains(concat(' ', normalize-space(@class), ' '), ' j-r-list-c-desc ')]" data='<div class="j-r-list-c-desc">\n       ...'>]

In [5]:

5. 编写爬虫

确定如何提取数据之后，就可以编写爬虫了。下面的爬虫爬取了百思不得姐首页的用户名和段子

import scrapy

class Baisibudejie(scrapy.Spider):

    name = "jokes"

    start_urls = ['http://www.budejie.com/text/']

    def parse(self,response):

        lies = response.css('div.j-r-list>ul>li')

        for li in lies:

            username = li.css('a.u-user-name::text').extract()

            content = li.css('div.j-r-list-c-desc a::text').extract()

            yield {'username': username, 'content': content}

写好爬虫后就可以运行了。下面使用如下命令运行爬虫，运行成功后回生成一个 user.json 文件，里面存储的就是我们爬取的内容。Scrapy支持多种格式，除了json之外，还可以将数据导出为XML、CSV等格式。

scrapy runspider Baisibudejie.py -o user.json

生成的文件位于当前的 user -- > document 文件夹目录下。

Scrapy 入门基础的更多相关文章

小白学 Python 爬虫（34）：爬虫框架 Scrapy 入门基础（二）
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（35）：爬虫框架 Scrapy 入门基础（三） Selector 选择器
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（36）：爬虫框架 Scrapy 入门基础（四） Downloader Middleware
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（37）：爬虫框架 Scrapy 入门基础（五） Spider Middleware
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（38）：爬虫框架 Scrapy 入门基础（六） Item Pipeline
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（40）：爬虫框架 Scrapy 入门基础（七）对接 Selenium 实战
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（41）：爬虫框架 Scrapy 入门基础（八）对接 Splash 实战
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（33）：爬虫框架 Scrapy 入门基础（一）
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
0.Python 爬虫之Scrapy入门实践指南（Scrapy基础知识）
目录 0.0.Scrapy基础 0.1.Scrapy 框架图 0.2.Scrapy主要包括了以下组件: 0.3.Scrapy简单示例如下: 0.4.Scrapy运行流程如下: 0.5.还有什么? 0. ...
[原创]手把手教你写网络爬虫（4）：Scrapy入门
手把手教你写网络爬虫(4) 作者:拓海摘要:从零开始写爬虫,初学者的速成指南! 封面: 上期我们理性的分析了为什么要学习Scrapy,理由只有一个,那就是免费,一分钱都不用花! 咦?怎么有人扔西红柿 ...

随机推荐

CSS3 transform转换
1.先说说css的坐标系: x轴的正方向就是水平向右的方向 y轴的正方向就是垂直向下的方向 z轴的正方向就是屏幕到用户的方向 2.位移说明:位移是转换属性中的一个值,包含2d与3d 属性值说明 t ...
windows server系统中，Pro运行深度学习工具错误
安装深度学习包后,运行相关工具的时候报错,缺失cv2的模块. 在arcpy执行窗口,直接去引入cv2包的时候,确实发了错误. 查看了相关路径,确认cv2的包,在对应路径已经存在,也有对应的元数据信息, ...
Pwn2own 2022 Tesla 利用链（ConnMan 堆越界写 RCE）
Pwn2own 2022 Tesla 利用链 (ConnMan 堆越界写 RCE) Opening the doors and windows 0-click RCE on the Tesla Mod ...
vscode使用github
1, vscode打开terminal,生成RSA密钥,并查看蜜月 PS D:\code\SQL> git init Reinitialized existing Git repository ...
startup
要提取startup/后面的字符,可以使用cut命令或awk命令.以下是两种方法: 使用cut命令: bash #!/bin/bash # 给定的字符串 STR1="startup/valu ...
JVM简介—3.JVM的执行子系统
大纲 1.Class文件结构 2.Class文件格式概述 3.Class文件格式详解 4.字节码指令 5.类的生命周期和初始化 6.类加载的全过程 7.类加载器 8.双亲委派模型 9.栈桢详解 11. ...
Qt数据库应用19-图片转pdf
一.前言用户的需求真的是千奇百怪,刚做完不同页面横向纵向排版的需求,又来个需要图片转pdf的需求,提供静态函数直接使用. 经过这么些年的社会的毒打,我的原则是:用户是上帝和大爷,尽量站在用户的角度换 ...
Qt编写的项目作品18-数据导入导出(xls/pdf)及打印示例
一.功能特点组件同时集成了导出数据到csv.xls.pdf和打印数据. 所有操作全部提供静态方法无需new,数据和属性等各种参数设置采用结构体数据,极为方便. 同时支持QTableView.QTab ...
一个超经典 WinForm,WPF 卡死问题的终极反思
一:背景 1. 讲故事写这篇文章起源于训练营里一位朋友最近在微信聊到他对这个问题使用了一种非常切实可行,简单粗暴的方式,并且也成功解决了公司里几个这样的卡死dump,如今在公司已是灵魂级人物,让我也 ...
Android基础入门教程-参考资料
2)看视频网上关于Android的视频教程有很多,这里分享下基神力荐的黑马教程吧: 黑马28期Android全套视频无加密完整版:密码:h7jz 52期不加密版:密码:zve8 当然下面这些视频学习 ...

Scrapy 入门基础

Scrapy 入门基础的更多相关文章

随机推荐

热门专题