scrapy

安装scrapy

pip install scrapy

windows可能安装失败，需要先安装c++库或twisted，pip install twisted

创建项目

scrapy startproject tutorial

该命令将会创建包含下列内容的 tutorial 目录:

tutorial/

    scrapy.cfg

    tutorial/

        __init__.py

        items.py

        pipelines.py

        settings.py

        spiders/

            __init__.py

            ...

    scrapy.cfg: 项目的配置文件

    tutorial/: 该项目的python模块。之后您将在此加入代码。

    tutorial/items.py: 项目中的item文件.

    tutorial/pipelines.py: 项目中的pipelines文件.

    tutorial/settings.py: 项目的设置文件.

    tutorial/spiders/: 放置spider代码的目录.

编写第一个爬虫

为了创建一个Spider，您必须继承 scrapy.Spider 类，定义以下三个属性

scrapy genspider dmoz dmoz.com 终端命令可以直接完成这步操作

属性
- name: 用于区别Spider。该名字必须是唯一的，您不可以为不同的Spider设定相同的名字
- start_urls: 包含了Spider在启动时进行爬取的url列表。因此，第一个被获取到的页面将是其中之一。后续的URL则从初始的URL获取到的数据中提取
- parse() 是spider的一个方法。被调用时，每个初始URL完成下载后生成的
- Response 对象将会作为唯一的参数传递给该函数。该方法负责解析返回的数据(response data)，提取数据(生成item)以及生成需要进一步处理的URL的 Request 对象

 import scrapy

 class DmozSpider(scrapy.Spider):

     name = "dmoz"

     allowed_domains = ["dmoz.org"]

     start_urls = [

         "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",

         "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"

     ]

     def parse(self, response):

         filename = response.url.split("/")[-2]

         with open(filename, 'wb') as f:

             f.write(response.body)

爬取

scrapy crawl dmoz

过程：Scrapy为Spider的 start_urls 属性中的每个URL创建了 scrapy.Request 对象，并将 parse 方法作为回调函数(callback)赋值给了Request；Request对象经过调度，执行生成 scrapy.http.Response 对象并送回给spider parse() 方法。



    xpath(): 传入xpath表达式，返回该表达式所对应的所有节点的selector list列表 。

    css(): 传入CSS表达式，返回该表达式所对应的所有节点的selector list列表.

    extract(): 序列化该节点为unicode字符串并返回list。

    re(): 根据传入的正则表达式对数据进行提取，返回unicode字符串list列表。

scrapy shell

scrapy shell "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/"

response
- response.body：包体
- response.headers：包头
- response.xpath()：xpath选择器
- response.css()：css选择器

 import scrapy

 class DmozSpider(scrapy.Spider):

     name = "dmoz"

     allowed_domains = ["dmoz.org"]

     start_urls = [

         "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",

         "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"

     ]

     def parse(self, response):

         for sel in response.xpath('//ul/li'):

             title = sel.xpath('a/text()').extract()

             link = sel.xpath('a/@href').extract()

             desc = sel.xpath('text()').extract()

             print title, link, desc

请使用手机"扫一扫"x

爬虫——scrapy入门的更多相关文章

网页爬虫--scrapy入门
本篇从实际出发,展示如何用网页爬虫.并介绍一个流行的爬虫框架~ 1. 网页爬虫的过程所谓网页爬虫,就是模拟浏览器的行为访问网站,从而获得网页信息的程序.正因为是程序,所以获得网页的速度可以轻易超过单 ...
[Python爬虫] scrapy爬虫系列 <一>.安装及入门介绍
前面介绍了很多Selenium基于自动测试的Python爬虫程序,主要利用它的xpath语句,通过分析网页DOM树结构进行爬取内容,同时可以结合Phantomjs模拟浏览器进行鼠标或键盘操作.但是,更 ...
Scrapy 爬虫框架入门案例详解
欢迎大家关注腾讯云技术社区-博客园官方主页,我们将持续在博客园为大家推荐技术精品文章哦~ 作者:崔庆才 Scrapy入门本篇会通过介绍一个简单的项目,走一遍Scrapy抓取流程,通过这个过程,可以对 ...
0.Python 爬虫之Scrapy入门实践指南（Scrapy基础知识）
目录 0.0.Scrapy基础 0.1.Scrapy 框架图 0.2.Scrapy主要包括了以下组件: 0.3.Scrapy简单示例如下: 0.4.Scrapy运行流程如下: 0.5.还有什么? 0. ...
小白学 Python 爬虫（34）：爬虫框架 Scrapy 入门基础（二）
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（35）：爬虫框架 Scrapy 入门基础（三） Selector 选择器
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（36）：爬虫框架 Scrapy 入门基础（四） Downloader Middleware
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（37）：爬虫框架 Scrapy 入门基础（五） Spider Middleware
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（38）：爬虫框架 Scrapy 入门基础（六） Item Pipeline
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...

随机推荐

时间序列分析模型——ARIMA模型
时间序列分析模型——ARIMA模型一.研究目的传统的经济计量方法是以经济理论为基础来描述变量关系的模型.但经济理论通常不足以对变量之间的动态联系提供一个严密的说明,而且内生变量既可以出现在方程的左 ...
Vue(小案例_vue+axios仿手机app)_go实现退回上一个路由
一.前言 this.$router.go(-1)返回上级路由二.主要内容 1.小功能演示: 2.组件之间的嵌套关系为: 3.具体实现 (1)由于这种返回按钮在每个页面中的结构都是一样的,只是里面的数 ...
Go-常用库的介绍
一.Go常用包介绍  fmt.它实现了格式化的输入输出操作,其中的fmt.Printf()和fmt.Println()是开发者使用最为频繁的函数.  io.它实现了一系列非平台相关的IO相关接口 ...
sudo brew install mongodb报错
报错信息如下: Error: Running Homebrew as root is extremely dangerous and no longer supported. As Homebrew ...
第十五节：Expression表达式目录树(与委托的区别、自行拼接、总结几类实例间的拷贝)
一. 基本介绍回忆: 最早接触到表达式目录树(Expression)可能要追溯到几年前使用EF早期的时候,发现where方法里的参数是Expression<Func<T,bool> ...
[浏览器事件循环] javaScript事件循环 EventLoop
前言 Event Loop即事件循环,是指浏览器或Node的一种解决javaScript单线程运行时不会阻塞的一种机制,也就是我们经常使用异步的原理. 先熟悉基本概念 [堆Heap] 堆是一种数据结构 ...
sqlmap基础入门超详细教程
前言: 总算进入了自己喜欢的行业. 要时刻记得当初自己说过的话, 不忘初心. Come on! 资料: 感谢超哥分享的干货.. sqlmap干货点击直达学习环境: 本次学习使用的是kali集成的s ...
16、使用limit offset 分页时，为什么越往后翻越慢？如何解决？
在mysql中limit可以实现快速分页,但是如果数据到了几百万时我们的limit必须优化才能有效的合理的实现分页了,否则可能卡死你的服务器哦. 当一个表数据有几百万的数据的时候成了问题! 如 * f ...
第四周结对项目总结及改进（ui/web）
项目介绍随着社会科技的进步和多媒体教育的日益发展,越来越来的学生正在接受着新时代下的教育模式,而且手机.电脑等科技产品的普及以及其带来的更高效更便捷的模式使得它们成为当代学生学习中的一种很好的学习 ...
LOJ #556. 「Antileaf's Round」咱们去烧菜吧
好久没更博了咕咕咕现在多项式板子的常数巨大...周末好好卡波常吧.... LOJ #556 题意给定$ m$种物品的出现次数$ B_i$以及大小$ A_i$ 求装满大小为$[1..n]$的背包的 ...

爬虫——scrapy入门

scrapy

爬虫——scrapy入门的更多相关文章

随机推荐

热门专题