建立第一个SCRAPY的具体过程

1。安装SCRAPY
2。进入CMD：执行：SCRAPY显示：

Scrapy 1.8.0 - no active project

Usage:
scrapy <command> [options] [args]

Available commands:
bench Run quick benchmark test
fetch Fetch a URL using the Scrapy downloader
genspider Generate new spider using pre-defined templates
runspider Run a self-contained spider (without creating a project)
settings Get settings values
shell Interactive scraping console
startproject Create new project
version Print Scrapy version
view Open URL in browser, as seen by Scrapy

[ more ] More commands available when run from project directory

Use "scrapy <command> -h" to see more info about a command
出现上面的内容则表示SCRAPY安装成功
3。建立放置爬虫的文件夹d:\crapy

4.进入d:\crapy
d:\crapy>

5.建立爬虫项目：scrapy startproject cnblog

New Scrapy project 'cnblog', using template directory 'd:\python\python37\lib\site-packages\scrapy\templates\project', created in:
D:\crapy\cnblog

You can start your first spider with:
cd cnblog
scrapy genspider example example.com

上面的提示表示建立了一个名称叫cnblog的爬虫项目，指明了项目应用的模板及位置：即当前位置下建立了一个与项目同名的文件夹；要想开始爬虫必须进入新建立的文件夹（cnblog)来建立爬虫
6。建立第一个爬虫

D:\crapy>cd cnblog

D:\crapy\cnblog>scrapy genspider cnblog cnblogs.com #指定爬虫名称为cnblogs时出错，提示不能与当前项目同名
Cannot create a spider with the same name as your project

D:\crapy\cnblog>scrapy genspider cnbloga cnblogs.com
Created spider 'cnbloga' using template 'basic' in module
cnblog.spiders.cnbloga
#建立了第一个爬虫名称为“cnbloga",爬取的DOMAIN为“cnblogs.com",只爬取域名内的信息，这是爬取范围限定；并且指定的应用模板为“basic"

7。打开相应的爬虫文件：d:\crapy\cnblog\cnblog\spider\cnbloga.py

# -*- coding: utf-8 -*-

import scrapy

class CnblogaSpider(scrapy.Spider):

    name = 'cnbloga'

    allowed_domains = ['cnblogs.com']

    start_urls = ['http://cnblogs.com/']

    def parse(self, response):

        pass

第一行引用爬虫；声明一个类：Cnblogaspider,继承于scrapy.Spider;爬虫的名称“ cnbloga";爬取的范围'cnblogs.com';开始爬取的网址为http://cnblogs.com/;
默认方法parse,即每得到相应的网址，就交给这个方法来处理；

8。运行爬虫：
d:\crapy\cnblog>scrapy crawl cnbloga#‘cnbloga'为相应的爬虫的名称

建立第一个SCRAPY的具体过程的更多相关文章

【Python3爬虫】第一个Scrapy项目
Python版本:3.5 IDE:Pycharm 今天跟着网上的教程做了第一个Scrapy项目,遇到了很多问题,花了很多时间终于解决了== 一.Scrapy终端(scrapy shell) Sc ...
scrapy（一）建立一个scrapy项目
本项目实现了获取stack overflow的问题,语言使用python,框架scrapy框架,选取mongoDB作为持久化数据库,redis做为数据缓存项目源码可以参考我的github:https ...
已成功与服务器建立连接，但是在登录过程中发生错误。 (provider: SSL Provider, error: 0 - 接收到的消息异常，或格式不正确。)
之前做好的asp.net部署后,发现访问数据库时: 异常:已捕获: "已成功与服务器建立连接,但是在登录过程中发生错误. (provider: SSL Provider, error: 0 ...
.NET Core微服务之路：利用DotNetty实现一个简单的通信过程
上一篇我们已经全面的介绍过<基于gRPC服务发现与服务治理的方案>,我们先复习一下RPC的调用过程(笔者会在这一节的几篇文章中反复的强调这个过程调用方案),看下图
《Linux内核--分析Linux内核创建一个新进程的过程》 20135311傅冬菁
20135311傅冬菁分析Linux内核创建一个新进程的过程一.学习内容进程控制块——PCB task_struct数据结构 PCB task_struct中包含: 进程状态.进程打开的文件. ...
Linux内核分析-分析Linux内核创建一个新进程的过程
作者:江军 ID:fuchen1994 实验题目:分析Linux内核创建一个新进程的过程阅读理解task_struct数据结构http://codelab.shiyanlou.com/xref/li ...
sql server 2008启动时：已成功与服务器建立连接，但是在登录过程中发生错误。(provider:命名管道提供程序，error:0-管道的另一端上无任何进程。)(Microsoft SQL Server,错误:233) 然后再连接：错误：18456
问题:sql server 2008启动时:已成功与服务器建立连接,但是在登录过程中发生错误.(provider:命名管道提供程序,error:0-管道的另一端上无任何进程.)(Microsoft S ...
【转】SQL Server -- 已成功与服务器建立连接，但是在登录过程中发生错误
SQL Server -- 已成功与服务器建立连接,但是在登录过程中发生错误最近在VS2013上连接远程数据库时,突然连接不上,在跑MSTest下跑的时候,QTAgent32 crash.换成IIS ...
linux内核分析作业6：分析Linux内核创建一个新进程的过程
task_struct结构: struct task_struct { volatile long state;进程状态 void *stack; 堆栈 pid_t pid; 进程标识符 u ...

随机推荐

Raft: 一点阅读笔记
前言如果想要对Raft算法的了解更深入一点的话,仅仅做6.824的Lab和读<In Search of an Understandable Consensus Algorithm>这篇论 ...
HTML5之WebSocket（转自知乎）
在认识websocket之前,我们必须了解的是websocket有什么用? 他能解决我们遇到的什么问题? 如果没用,那么我们就么有使用它的必要的. websocket就是建立起全双工协议的,提高了效率 ...
摄像头 ISP 调试的入门之谈（经验总结）
在讲述本文之前,我尽量以一个什么也不清楚的初学到入门的用词来阐述什么是 ISP 调试,以及为什么需要调试. 如果你从来都没有接触过什么是摄像头 ISP 调试,我想这个文章可以给你一些启发和关键词. 因 ...
MindSpore 高阶优化器
MindSpore 高阶优化器 MindSpore自研优化器THOR(Trace-based Hardware-driven layer-ORiented Natural Gradient Desce ...
TensorFlow基础剖析
TensorFlow基础剖析一．概述 TensorFlow 是一个使用数据流图 (Dataflow Graph) 表达数值计算的开源软件库.它使用节点表示抽象的数学计算,并使用 OP 表达计算的逻 ...
mybatis在动态 SQL 中使用了参数作为变量，必须要用 @Param 注解
如果在动态 SQL 中使用了参数作为变量,那么就要用 @Param 注解,即使你只有一个参数.如果我们在动态 SQL 中用到了参数作为判断条件,那么也是一定要加 @Param 注解的,例如如下方法: ...
再看 Java 中的单例
此前面试遇到了单例问题,本以为已经背的滚瓜烂熟,没想到被问单例如何避免被反射和序列化破坏,虽然后来还是等到了通知,但还是复习一下单例的实现方式,并学习防止反射和序列化破坏的手段. 基本实现方式其他相 ...
LM-MLC 一种基于完型填空的多标签分类算法
LM-MLC 一种基于完型填空的多标签分类算法 1 前言本文主要介绍本人在全球人工智能技术创新大赛[赛道一]设计的一种基于完型填空(模板)的多标签分类算法:LM-MLC,该算法拟合能力很强能感知标签 ...
es6快速入门系列 - async
其他章节请看: es6 快速入门系列 async 前文我们已经知道 promise 是一种异步编程的选择.而 async 是一种用于执行异步任务更简单的语法. Tip:建议学完 Promise 在看 ...
R-常见错误
错误一:选择了未定义的列(Undefined columns are selected) 改正方法:把目标列转换成因子类型(as.factor) 使用代码如下: 或者: 错误二:太多(36119)的重 ...

建立第一个SCRAPY的具体过程

建立第一个SCRAPY的具体过程的更多相关文章

随机推荐

热门专题