scrapy 的一个例子

1、目标：

　　scrapy 是一个爬虫构架，现用一个简单的例子来讲解，scrapy 的使用步骤

2、创建一个scrapy的项目：

　　创建一个叫firstSpider的项目，命令如下：

scrapy startproject firstSpider

[jianglexing@cstudio ~]$ scrapy startproject firstSpider

New Scrapy project 'firstSpider', using template directory '/usr/local/python-3.6.2/lib/python3.6/site-packages/scrapy/templates/project', created in:

    /home/jianglexing/firstSpider

You can start your first spider with:

    cd firstSpider

    scrapy genspider example example.com

3、创建一个项目时scrapy 命令干了一些什么：

　　创建一个项目时scrapy 会创建一个目录，并向目录中增加若干文件

[jianglexing@cstudio ~]$ tree firstSpider/

firstSpider/

├── firstSpider

│   ├── __init__.py

│   ├── items.py

│   ├── middlewares.py

│   ├── pipelines.py

│   ├── __pycache__

│   ├── settings.py

│   └── spiders

│       ├── __init__.py

│       └── __pycache__

└── scrapy.cfg

 directories,  files

4、进入项目所在的目录并创建爬虫：

[jianglexing@cstudio ~]$ cd firstSpider/

[jianglexing@cstudio firstSpider]$ scrapy genspider financeSpider www.financedatas.com

Created spider 'financeSpider' using template 'basic' in module:

  firstSpider.spiders.financeSpider

5、一只爬虫在scrapy 项目中对应一个文件：

[jianglexing@cstudio firstSpider]$ tree ./

./

├── firstSpider

│   ├── __init__.py

│   ├── items.py

│   ├── middlewares.py

│   ├── pipelines.py

│   ├── __pycache__

│   │   ├── __init__.cpython-.pyc

│   │   └── settings.cpython-.pyc

│   ├── settings.py

│   └── spiders

│       ├── financeSpider.py    # 这个就是刚才创建的爬虫文件

│       ├── __init__.py

│       └── __pycache__

│           └── __init__.cpython-.pyc

└── scrapy.cfg

6、编写爬虫的处理逻辑：

　　以爬取 http://www.financedatas.com 网站首页的title为例

# -*- coding: utf-8 -*-

import scrapy

class FinancespiderSpider(scrapy.Spider):

    name = 'financeSpider'

    allowed_domains = ['www.financedatas.com']

    start_urls = ['http://www.financedatas.com/']

    def parse(self, response):

        """在parse方法中编写处理逻辑"""

        print('*'*64)

        title=response.xpath('//title/text()').extract() #xpath 语法抽取数据

        print(title)

        print('*'*64)

7、运行爬虫，查看效果：

[jianglexing@cstudio spiders]$ scrapy crawl financeSpider

-- :: [scrapy.utils.log] INFO: Scrapy 1.4. started (bot: firstSpider)

-- :: [scrapy.utils.log] INFO: Overridden settings: {'BOT_NAME': 'firstSpider', 'NEWSPIDER_MODULE': 'firstSpider.spiders', 'ROBOTSTXT_OBEY': True, 'SPIDER_MODULES': ['firstSpider.spiders']}

.... ....

-- :: [scrapy.core.engine] DEBUG: Crawled () <GET http://www.financedatas.com/robots.txt> (referer: None)

-- :: [scrapy.core.engine] DEBUG: Crawled () <GET http://www.financedatas.com/> (referer: None)

****************************************************************

['欢迎来到 www.financedatas.com']   # 这里就抽取到的数据

****************************************************************-- :: [scrapy.core.engine] INFO: Spider closed (finished)

----

scrapy 的一个例子的更多相关文章

用Scrapy写一个爬虫
昨天用python谢了一个简单爬虫,抓取页面图片: 但实际用到的爬虫需要处理很多复杂的环境,也需要更加的智能,重复发明轮子的事情不能干, 再说python向来以爬虫作为其擅长的一个领域,想必有许多成熟 ...
spring笔记--使用springAPI以及自定义类实现AOP的一个例子
Spring的另一个重要思想是AOP,面向切面的编程,它提供了一种机制,可以在执行业务前后执行另外的代码,Servlet中的Filter就是一种AOP思想的体现,下面通过一个例子来感受一下. 假设我们 ...
[转]使用Scrapy建立一个网站抓取器
英文原文:Build a Website Crawler based upon Scrapy 标签: Scrapy Python 209人收藏此文章, 我要收藏renwofei423 推荐于 11个月 ...
ReCap 360 photo照片建模技术的又一个例子
这是我做的又一个利用Autodesk ReCap 360 照片建模技术做的一个例子.你可以下载模型自己把玩,或者下载原始照片自己试一试. 拍摄工具: 小米手机照片数量:约120张后期处理工具: p ...
从一个例子中体会React的基本面
[起初的准备工作] npm init npm install --save react react-dom npm install --save-dev html-webpack-plugin web ...
用thinkphp写的一个例子：抓取网站的内容并且保存到本地
我需要写这么一个例子,到电子课本网下载一本电子书. 电子课本网的电子书,是把书的每一页当成一个图片,然后一本书就是有很多张图片,我需要批量的进行下载图片操作. 下面是代码部分: public func ...
Erlang 程序引发共享内存 bug 的一个例子
虽然 Erlang 的广告说得非常好,functional.share-nothing.消息传递,blah blah 的,好像用 Erlang 写并发程序就高枕无忧了,但是由于 Erlang 信奉高度 ...
对Jena的简单理解和一个例子
本文简单介绍Jena(Jena 2.4),使用Protégé 3.1(不是最新版本)创建一个简单的生物(Creature)本体,然后参照Jena文档中的一个例子对本体进行简单的处理,输出本体中的Cla ...
使用flume的一个例子
新项目中需要使用到hadoop和vertica,使用flume把数据加载到hadoop中,我做了一个例子, 即监控一个sharefolder,如果里面有文件,则会文件load到hadoop. 开启Fl ...

随机推荐

ntpdate设置
ntpdate设置学习了:https://www.cnblogs.com/ibnode/p/3573302.html http://www.blogjava.net/spray/archive/20 ...
KETTLE6.0版本体验小结
不知不觉Kettle以及到了6.0,名字似乎也变了Pentaho官方的名称是 Pentaho Data Integration,于是就下载了最新的版本,下载地址为: Pentaho Data Int ...
设置网站expires和max-age属性
转:http://www.zicheng.net/article/982022.htm 在使用百度站长工具测试网站优化建议时,在设置静态内容缓存时间栏目里,会提示类似 FAILED - (未设置 ...
JVM总结-内存监视手段及各区域内存溢出解决
转载:https://blog.csdn.net/xuqu_volition/article/details/53786096 引言本文仅关注一些常见的虚拟机内存监视手段,以及JVM运行时数据区各个 ...
linux 用户管理，用户权限管理，用户组管理
linux 用户管理,用户权限管理,用户组管理一:ls -l 命令解释第个d表示是目录,如果是文件是-,如果是连接是l 第2到4个 rwx 表示创建者的操作权限 r 读,w 写,x 执行第5到 ...
TFS2012强制解除迁出(数据库操作方式)
同事离职,有个文件被迁出,查了好多资料终于解决. 在数据库中找到对应项目名字的数据库,例如Tfs_Project,记得先备份,保证删错了也能恢复~ 然后施行下列sql语句: --找到项目所在库 use ...
C#.Net中操作XML方法一
我们知道XML是一种可标记性的语言,用来标记数据.定义数据类型,是一种执行用户对自己的标记语言进行定义的源语言.由于结构好.而且easy理解,就好比一棵树,层次关系分明,因此也经常把一些数据存储到XM ...
玩转oracle学习第五天
1.上节回想 2.维护数据的完整性 3.管理索引 4.管理权限和角色 1.掌握维护oracle数据完整性的技巧 2.理解索引的概念,会建立索引 3.管理oracle的权限和角色介绍:维 ...
用Java实现AES加密（坑！）
大坑!使用SecureRandom默认的加密方式即SHA1PRNG生成的密码有误,即使使用相同的password来生成,不同runtime或时刻生成的随机密码也有可能不同,造成的错误为javax.cr ...
top(topas),vmstat,iostat在linux和AIX操作系统下显示情况
top(topas),vmstat,iostat在linux和AIX操作系统下显示情况分类: Linux基础 2013-08-09 17:26 1093人阅读评论(0) 收藏举报详细列出各命令 ...

scrapy 的一个例子

scrapy 的一个例子的更多相关文章

随机推荐

热门专题