python scrapy 基础

scrapy是用python写的一个库，使用它可以方便的抓取网页。

主页地址http://scrapy.org/

文档 http://doc.scrapy.org/en/latest/index.html

安装 sudo pip install scrapy

一个简单的教程 http://doc.scrapy.org/en/latest/intro/tutorial.html

如果你对这些概念有了解，使用上面的教程会比较容易. 它们是json, xpath, 正则表达式,

生成项目

scrapy提供一个工具来生成项目，生成的项目中预置了一些文件，用户需要在这些文件中添加自己的代码。

打开命令行，执行：scrapy startproject tutorial，生成的项目类似下面的结构

tutorial/

    scrapy.cfg

    tutorial/

        __init__.py

        items.py

        pipelines.py

        settings.py

        spiders/

            __init__.py

            ...

scrapy.cfg是项目的配置文件

用户自己写的spider要放在spiders目录下面，一个spider类似

from scrapy.spider import BaseSpider

class DmozSpider(BaseSpider):

    name = "dmoz"

    allowed_domains = ["dmoz.org"]

    start_urls = [

        "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",

        "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"

    ]

    def parse(self, response):

        filename = response.url.split("/")[-2]

        open(filename, 'wb').write(response.body)

name属性很重要，不同spider不能使用相同的name

start_urls是spider抓取网页的起始点，可以包括多个url

parse方法是spider抓到一个网页以后默认调用的callback，避免使用这个名字来定义自己的方法。

当spider拿到url的内容以后，会调用parse方法，并且传递一个response参数给它，response包含了抓到的网页的内容，在parse方法里，你可以从抓到的网页里面解析数据。上面的代码只是简单地把网页内容保存到文件。

开始抓取

你可以打开命令行，进入生成的项目根目录tutorial/，执行 scrapy crawl dmoz， dmoz是spider的name。

解析网页内容

scrapy提供了方便的办法从网页中解析数据，这需要使用到HtmlXPathSelector

from scrapy.spider import BaseSpider

from scrapy.selector import HtmlXPathSelector

class DmozSpider(BaseSpider):

    name = "dmoz"

    allowed_domains = ["dmoz.org"]

    start_urls = [

        "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",

        "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"

    ]

    def parse(self, response):

        hxs = HtmlXPathSelector(response)

        sites = hxs.select('//ul/li')

        for site in sites:

            title = site.select('a/text()').extract()

            link = site.select('a/@href').extract()

            desc = site.select('text()').extract()

            print title, link, desc

HtmlXPathSelector使用了Xpath来解析数据

//ul/li表示选择所有的ul标签下的li标签

a/@href表示选择所有a标签的href属性

a/text()表示选择a标签文本

a[@href="abc"]表示选择所有href属性是abc的a标签

我们可以把解析出来的数据保存在一个scrapy可以使用的对象中，然后scrapy可以帮助我们把这些对象保存起来，而不用我们自己把这些数据存到文件中。我们需要在items.py中添加一些类，这些类用来描述我们要保存的数据

from scrapy.item import Item, Field

class DmozItem(Item):

    title = Field()

    link = Field()

    desc = Field()

然后在spider的parse方法中，我们把解析出来的数据保存在DomzItem对象中。

from scrapy.spider import BaseSpider

from scrapy.selector import HtmlXPathSelector

from tutorial.items import DmozItem

class DmozSpider(BaseSpider):

   name = "dmoz"

   allowed_domains = ["dmoz.org"]

   start_urls = [

       "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",

       "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"

   ]

   def parse(self, response):

       hxs = HtmlXPathSelector(response)

       sites = hxs.select('//ul/li')

       items = []

       for site in sites:

           item = DmozItem()

           item['title'] = site.select('a/text()').extract()

           item['link'] = site.select('a/@href').extract()

           item['desc'] = site.select('text()').extract()

           items.append(item)

       return items

在命令行执行scrapy的时候，我们可以加两个参数，让scrapy把parse方法返回的items输出到json文件中

scrapy crawl dmoz -o items.json -t json

items.json会被放在项目的根目录

让scrapy自动抓取网页上的所有链接

上面的示例中scrapy只抓取了start_urls里面的两个url的内容，但是通常我们想实现的是scrapy自动发现一个网页上的所有链接，然后再去抓取这些链接的内容。为了实现这一点我们可以在parse方法里面提取我们需要的链接，然后构造一些Request对象，并且把他们返回，scrapy会自动的去抓取这些链接。代码类似：

class MySpider(BaseSpider):

    name = 'myspider'

    start_urls = (

        'http://example.com/page1',

        'http://example.com/page2',

        )

    def parse(self, response):

        # collect `item_urls`

        for item_url in item_urls:

            yield Request(url=item_url, callback=self.parse_item)

    def parse_item(self, response):

        item = MyItem()

        # populate `item` fields

        yield Request(url=item_details_url, meta={'item': item},

            callback=self.parse_details)

    def parse_details(self, response):

        item = response.meta['item']

        # populate more `item` fields

        return item

parse是默认的callback, 它返回了一个Request列表，scrapy自动的根据这个列表抓取网页，每当抓到一个网页，就会调用parse_item，parse_item也会返回一个列表，scrapy又会根据这个列表去抓网页，并且抓到后调用parse_details

为了让这样的工作更容易，scrapy提供了另一个spider基类，利用它我们可以方便的实现自动抓取链接. 我们要用到CrawlSpider

from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor

class MininovaSpider(CrawlSpider):

    name = 'mininova.org'

    allowed_domains = ['mininova.org']

    start_urls = ['http://www.mininova.org/today']

    rules = [Rule(SgmlLinkExtractor(allow=['/tor/\d+'])),

             Rule(SgmlLinkExtractor(allow=['/abc/\d+']), 'parse_torrent')]

    def parse_torrent(self, response):

        x = HtmlXPathSelector(response)

        torrent = TorrentItem()

        torrent['url'] = response.url

        torrent['name'] = x.select("//h1/text()").extract()

        torrent['description'] = x.select("//div[@id='description']").extract()

        torrent['size'] = x.select("//div[@id='info-left']/p[2]/text()[2]").extract()

        return torrent

相比BaseSpider，新的类多了一个rules属性，这个属性是一个列表，它可以包含多个Rule，每个Rule描述了哪些链接需要抓取，哪些不需要。这是Rule类的文档http://doc.scrapy.org/en/latest/topics/spiders.html#scrapy.contrib.spiders.Rule

这些rule可以有callback，也可以没有，当没有callback的时候，scrapy简单的follow所有这些链接.

pipelines.py的使用

在pipelines.py中我们可以添加一些类来过滤掉我们不想要的item，把item保存到数据库。

from scrapy.exceptions import DropItem

class FilterWordsPipeline(object):

    """A pipeline for filtering out items which contain certain words in their

    description"""

    # put all words in lowercase

    words_to_filter = ['politics', 'religion']

    def process_item(self, item, spider):

        for word in self.words_to_filter:

            if word in unicode(item['description']).lower():

                raise DropItem("Contains forbidden word: %s" % word)

        else:

            return item

如果item不符合要求，那么就抛一个异常，这个item不会被输出到json文件中。

要使用pipelines，我们还需要修改settings.py

添加一行

ITEM_PIPELINES = ['dirbot.pipelines.FilterWordsPipeline']

现在执行scrapy crawl dmoz -o items.json -t json，不符合要求的item就被过滤掉了

python scrapy 基础的更多相关文章

0.Python 爬虫之Scrapy入门实践指南（Scrapy基础知识）
目录 0.0.Scrapy基础 0.1.Scrapy 框架图 0.2.Scrapy主要包括了以下组件: 0.3.Scrapy简单示例如下: 0.4.Scrapy运行流程如下: 0.5.还有什么? 0. ...
python scrapy 抓取脚本之家文章(scrapy 入门使用简介)
老早之前就听说过python的scrapy.这是一个分布式爬虫的框架,可以让你轻松写出高性能的分布式异步爬虫.使用框架的最大好处当然就是不同重复造轮子了,因为有很多东西框架当中都有了,直接拿过来使用就 ...
Python——Scrapy初学
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架.可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中.Scrapy最初是为了页面抓取(更确切来说, 网络抓取)所设计的,也 ...
python scrapy版极客学院爬虫V2
python scrapy版极客学院爬虫V2 1 基本技术使用scrapy 2 这个爬虫的难点是 Request中的headers和cookies 尝试过好多次才成功(模拟登录),否则只能抓免费课 ...
python Scrapy安装和介绍
python Scrapy安装和介绍 Windows7下安装1.执行easy_install Scrapy Centos6.5下安装 1.库文件安装yum install libxslt-devel ...
Python.Scrapy.14-scrapy-source-code-analysis-part-4
Scrapy 源代码分析系列-4 scrapy.commands 子包子包scrapy.commands定义了在命令scrapy中使用的子命令(subcommand): bench, check, ...
Python.Scrapy.11-scrapy-source-code-analysis-part-1
Scrapy 源代码分析系列-1 spider, spidermanager, crawler, cmdline, command 分析的源代码版本是0.24.6, url: https://gith ...
Python文件基础
===========Python文件基础========= 写,先写在了IO buffer了,所以要及时保存关闭.关闭会自动保存. file.close() 读取全部文件内容用read,读取一行用 ...
python scrapy cannot import name xmlrpc_client的解决方案，解决办法
安装scrapy的时候遇到如下错误的解决办法: "python scrapy cannot import name xmlrpc_client" 先执行 sudo pip unin ...

随机推荐

KindEditor简单的Demo使用
一般的做网站后台都会用到富文本编辑器,网上也有很多优秀的富文本编辑器,这里是开源中国的富文本编辑器推荐:http://www.oschina.net/project/tag/172/wysiwyg 我 ...
Java基础知识强化39：StringBuffer类之StringBuffer的删除功能
1. StringBuffer的删除功能: public StringBuffer deleteCharAt(int index):删除指定位置的字符,并返回字符串缓冲区本身. public Str ...
linux查看系统版本
RHEL7.0以下,查看系统版本的方式: [rusky@rheltest1 ~]$ cat /proc/version Linux version -.el6.x86_64 (mockbuild ...
linux wc命令
Linux系统中的wc(Word Count)命令的功能为统计指定文件中的字节数.字数.行数,并将统计结果显示输出. 1．命令格式: wc [选项]文件... 2．命令功能: 统计指定文件中的字节数. ...
linux内存机制
~# free -m total used free shared buffers cachedMem: 16086 8579 7507 0 152 800 ...
ASP.NET MVC Controller接收ajax post方式发送过来的json对象或数组数据
本例旨在说明我的一种Controller接收ajax提交(POST)过来的json对象或数组信息的方式,感觉应该有更好的方式,欢迎提出宝贵意见. JSON.stringify(jsonObj)不支持I ...
Android WifiDirect学习(一)
WiFi Direct基本介绍 Wi-Fi Direct标准允许无线网络中的设备无需通过无线路由器即可相互连接.与蓝牙技术类似,这种标准允许无线设备以点对点形式互连,不过在传输速度与传输距离方面则比蓝 ...
myFocus焦点图插件
注意 1.焦点图初始化ID和图片最外层ID保持一致 2.图片列表外面必须包裹一个div,且id必须为pic http://demo.jb51.net/js/myfocus/tutorials.html ...
织梦 {dede:list}列表按多种排序显示
orderby='sortrank' 文档排序方式 orderby='hot' 或 orderby='click' 表示按点击数排列 orderby='sortrank' 或 orderby='pub ...
同步关键字synchronized
同步关键字synchronized 同步关键字synchronized使用简洁,代码可维护性好.在JDK6中,性能也比早期的JDK有很大的改进.如果可以满足程序要求,应该首先考虑这种同步方式. 关键字 ...

python scrapy 基础

python scrapy 基础的更多相关文章

随机推荐

热门专题