python爬虫框架scrapy初试(二)

将该导航网站搜索出结果的页面http://www.dmoz.org/Computers/Programming/Languages/Python/Books/里面标题，及标题的超链接和描述爬下来。

使用scrapy抓取一个网站一共需要四个步骤。

---创建一个scrapy项目

---定义item容器

---编写爬虫

---储存内容

1.新建一个项目

scrapy startproject demoscrapy

2.定义item容器（定义要爬取的内容）

3.编写爬虫(这里以官网的教程为例子)

import scrapyclass Dmos_spider(scrapy.Spider):

    name = 'dmoz'　　　　　　　　#爬虫的名字

    allowed_domains = ['dmoz.org']　　　　　　　　#爬虫允许域名范围

    start_urls = [

        'http://www.dmoz.org/Computers/Programming/Languages/Python/Books/',　　　　　　　　#爬取的页面

        'http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/'

        ]

4.储存内容

import scrapy

from demoscrapy.items import DemoscrapyItem

class Dmos_spider(scrapy.Spider):

    name = 'dmoz'

    allowed_domains = ['dmoz.org']

    start_urls = [

        'http://www.dmoz.org/Computers/Programming/Languages/Python/Books/',

        'http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/'

        ]

    def parse(self,response):　　　　#处理爬去结果

        sel = scrapy.selector.Selector(response)

        items = []

        sites = sel.xpath('//*[@id="site-list-content"]/div/div[3]')　　　　#通过xpath处理页面节点

        for site in sites:

            item = DemoscrapyItem()

            item['title'] = site.xpath('a/div/text()').extract()

            item['link'] = site.xpath('a/@href').extract()

            item['desc'] = site.xpath('div/text()').extract()

            items.append(item)

        return  items

scrapy crawl dmoz -o items.json -t json

-o 输出文件 -t 以json格式储存

注*在存储的时候，要通过xpath抓取想要的数据。

google浏览器有xpath插件可以安装下。

更详细的xpath教程

http://www.w3school.com.cn/xpath/index.asp

python爬虫框架scrapy初试(二)的更多相关文章

python爬虫框架scrapy初试(二点一)
功能:爬取某网站部分新闻列表和对应的详细内容. 列表页面http://www.zaobao.com/special/report/politic/fincrisis 实现代码: import scra ...
教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http://www.xiaohuar.com/,让你体验爬取校花的成就感. Scr ...
【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http:/ ...
Linux 安装python爬虫框架 scrapy
Linux 安装python爬虫框架 scrapy http://scrapy.org/ Scrapy是python最好用的一个爬虫框架.要求: python2.7.x. 1. Ubuntu14.04 ...
Python爬虫框架Scrapy实例（三）数据存储到MongoDB
Python爬虫框架Scrapy实例(三)数据存储到MongoDB任务目标:爬取豆瓣电影top250,将数据存储到MongoDB中. items.py文件复制代码# -*- coding: utf-8 ...
《Python3网络爬虫开发实战》PDF+源代码+《精通Python爬虫框架Scrapy》中英文PDF源代码
下载:https://pan.baidu.com/s/1oejHek3Vmu0ZYvp4w9ZLsw <Python 3网络爬虫开发实战>中文PDF+源代码下载:https://pan. ...
Python爬虫框架Scrapy教程(1)—入门
最近实验室的项目中有一个需求是这样的,需要爬取若干个(数目不小)网站发布的文章元数据(标题.时间.正文等).问题是这些网站都很老旧和小众,当然也不可能遵守 Microdata 这类标准.这时候所有网页 ...
《精通Python爬虫框架Scrapy》学习资料
<精通Python爬虫框架Scrapy>学习资料百度网盘:https://pan.baidu.com/s/1ACOYulLLpp9J7Q7src2rVA
Python爬虫框架Scrapy
Scrapy是一个流行的Python爬虫框架, 用途广泛. 使用pip安装scrapy: pip install scrapy scrapy由一下几个主要组件组成: scheduler: 调度器, 决 ...

随机推荐

linux sar 命令详解(转载)
linux sar 命令详解 2013-04-01 11:05 [小大] 来源: 开源中国社区评论: 0 分享至: 百度权重查询词库网网站监控服务器监控 SEO监控手机游戏 iPhone游 ...
10 Super Useful Tools for Web Designers
36个扁平化设计的iphone和ipad应用界面设计案例 http://designwoop.com/2014/04/36-examples-of-flat-iphone-and-ipad-appli ...
Javascript技巧实例精选(3)—用字符在屏幕上打印金字塔
用Javascript实现用★字符在屏幕上打印金字塔 >>点击这里下载完整html源码<< 这是最后的截图这是相应的Javascript源码 //动态创建表格 var s=' ...
Mvc快速开发
Asp.Net Mvc + ComBoost.Mvc快速开发 ComBoost项目地址 http://comboost.wodsoft.com https://github.com/Kation/ ...
JqGrid帮助文档
JQGrid是一个在jquery基础上做的一个表格控件,以ajax的方式和服务器端通信. JQGrid Demo 是一个在线的演示项目.在这里,可以知道jqgrid可以做什么事情. 下面是转自其他人b ...
事件聚合IEventAggregator和 Ihandle<T>
-事件聚合IEventAggregator和 Ihandle<T> 今天说一下Caliburn.Micro的IEventAggregator和IHandle<T>分成两篇 ...
DevExpress 学习使用之 PrintSystem
这是来自群里边的一段,收集起来,碎片知识是很珍贵的. 傷心孤影(2072201) 16:14:41导出excel加标题用PrintableComponentLink小宝(462561442) 1 ...
由ASP.NET所谓前台调用后台、后台调用前台想到HTTP
由ASP.NET所谓前台调用后台.后台调用前台想到HTTP 在由ASP.NET所谓前台调用后台.后台调用前台想到HTTP——理论篇中描述了一下ASP.NET新手的三个问题及相关的HTTP协议内容,在由 ...
调WScript.Shell时报错:Automation 服务器不能创建对象
我们经常需要通过生成ActiveXObject("WScript.Shell");来调某一exe文件, 如 //设置网页打印的页眉页脚为空 var HKEY_Root,HKEY_P ...
依赖注入(DI)和Ninject
[ASP.NET MVC 小牛之路]04 - 依赖注入(DI)和Ninject 本文目录: 1.为什么需要依赖注入 2.什么是依赖注入 3.使用NuGet安装库 4.使用Ninject的一般步骤 5. ...

python爬虫框架scrapy初试(二)

python爬虫框架scrapy初试(二)的更多相关文章

随机推荐

热门专题