全局命令,不用在项目中运行
fetch:爬取网页,不依赖爬虫项目直接爬网页信息,并显示爬取过程
scrapy命令格式:scrapy 命令名 --参数,可能通过--控制,例如:scrapy fetch -h fetch相关的使用方式
spider命令:
进行文件所在目录后,通过scrapy runspider 文件名(对文件进行运行)
shell命令:
启动scrapy交互终端,主要是在开发调试的时候用到,不启动scrapy的情况下对网站进行相应的调试,可以写相应的python代码进行测试
例如:scrapy shell http://www.baidu.com --nolog(不显示爬取的log信息)
startproject命令:
创建爬虫项目,scrapy startproject 项目名
version命令:
查看对应的版本信息
view命令:
下载某个网页并用浏览器查看的功能,例如:scrapy view http://news.163.com

项目命令
bench测试本地硬件性能的命令

项目目录介绍:
1.scrapy.cfg是爬虫项目的配置文件
first文件加是爬虫项目的核心目录。
first爬虫项目的目录结构
a.__init__.py:初始化文件
b.items.py:目标文件,要爬取的信息在该文件中设定要爬取的内容
c.piplines.py:爬取文件后的后续信息文件处理
d.settings.py:爬虫的设置文件,例如将爬虫伪装成浏览器或用户代理
e.middlewares.py
spiders是爬虫文件夹,里面可以有多个爬虫文件

创建爬虫文件命令:scrapy genspider(基于模板创建爬虫文件) -l(查看当前由那些模板)
显示由4个爬虫模板
1.basic是基本的爬虫模板
2.crawl是自动爬虫模板。例如:scrapy genspider [options] name domain。options可以选择自己需要的参数, 若留空, 则默认使用basic模板生成spider
3.csvvfeed是基于该模板处理csv文件
4.xmlfeed是基于该模板处理xml文件

基于basic创建一个爬虫的基本格式:scrapy genspider -t(创建用-t) 输入对应的模板 输入爬虫文件名 允许的域名。例如scrapy genspider -t basic weisuen baidu.com

check命令:主要用于测试。scrapy check 爬虫名 例如:scrapy check weisuen

crawl启动运行某个爬虫文件 scrapy crawl 控制参数(可以不添加)爬虫名 例如:scrapy crawl weisuen

list命令:scrapy list 展示当前项目中可以使用的爬虫文件 例如:scrapy list

edit命令:直接通过编辑器打开某一个爬虫文件。在windows下无法运行,在linux可以运行,scrapy edit

parse命令:获取指定的url网址并且可以进行相应的处理和分析。例如:scrapy parse http://www.baidu.com

command指令即可完成,在项目文件下的命令行输入。例如:scrapy crawl AnJuKe -o items.csv

Xpath调试:
命令行输入:scrapy shell "爬取的URL"
[s] Available Scrapy objects:
[s] scrapy scrapy module (contains scrapy.Request, scrapy.Selector, etc)
[s] crawler <scrapy.crawler.Crawler object at 0x0000000005529A58>
[s] item {}
[s] request <GET https://beijing.anjuke.com/sale/>
[s] response <200 https://beijing.anjuke.com/sale/>
[s] settings <scrapy.settings.Settings object at 0x0000000005529898>
[s] spider <DefaultSpider 'default' at 0x57b0320>
[s] Useful shortcuts:
[s] fetch(url[, redirect=True]) Fetch URL and update local objects (by default
, redirects are followed)
[s] fetch(req) Fetch a scrapy.Request and update local object
s
[s] shelp() Shell help (print this help)
[s] view(response) View response in a browser
In [1]:

response.xpath调试,为了判断我们的xpath是否正确,例如:response.xpath('//div/div/a[@class="laisuzhou"]/span/text()').extract()
再可以输入:view.(response)

Scrapy基本命令的更多相关文章

  1. 2.Scrapy基本命令介绍

    1.安装scrapy框架 a.安装wheel pip install wheel -i https://pypi.douban.com/simple/ b.安装twisted pip install ...

  2. scrapy 基本命令

    创建scrapy项目 scrapy startproject project_name 创建爬虫文件 scrapy genspider [-t template] <name> <d ...

  3. Python-S9-Day125-Web微信&爬虫框架之scrapy

    01 今日内容概要 02 内容回顾:爬虫 03 内容回顾:网络和并发编程 04 Web微信之获取联系人列表 05 Web微信之发送消息 06 为什么request.POST拿不到数据 07 到底使用j ...

  4. 09 Scrapy框架在爬虫中的使用

    一.简介 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架.它集成高性能异步下载,队列,分布式,解析,持久化等. Scrapy 是基于twisted框架开发而来,twisted是一个 ...

  5. scrapy 原理,结构,基本命令,item,spider,selector简述

    原理,结构,基本命令,item,spider,selector简述 原理 (1)结构 (2)运行流程 实操 (1) scrapy命令: 注意先把python安装目录的scripts文件夹添加到环境变量 ...

  6. scrapy 的基本命令

    scrapy stratproject projectname  ##创建一个项目 scrapy genspider myspidername fider  ##创建一个spider文件 scrapy ...

  7. Scrapy进阶知识点总结(一)——基本命令与基本类(spider,request,response)

    一.常见命令 scrapy全局命令可以在任何地方用,项目命令只能在项目路径下用 全局命令: 项目命令: startproject crawl genspider check settings list ...

  8. Scrapy框架: 基本命令

    1.创建爬虫项目 scrapy startproject [项目名称] 2.创建爬虫文件 scrapy genspider +文件名+网址 3.运行(crawl) scrapy crawl 爬虫名称 ...

  9. Python scrapy框架

    Scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中.其最初是为了页面抓取 (更确切来说, 网络抓取 )所设 ...

随机推荐

  1. php 通过array_merge()和array+array合并数组的区别和效率比较

    众所周知合并两个数组可以使用array_merge(),这是php提供的一个函数.另外还可以通过 array 的方式来合并数组,这两种直接有什么区别,哪一个的效率更高呢? array_merge() ...

  2. jquery的$post方法不发送空数组的解决办法

    问题:jquery里的ajax在提交post请求时,如果数据里有一个空数组,则这个空数组不会提交上去 技术上的解决办法如下: 源代码: var params = { type : , ids:[] } ...

  3. fjwc2019 D6T1 堆(组合数+打表)

    #193. 「2019冬令营提高组」堆 但是每个点都遍历一遍,有些点的子树完全相同却重复算了 忽然记起完全二叉树的性质之一:每个非叶节点的子树中至少有一个是满二叉树 那么我们预处理满二叉树的那一块,剩 ...

  4. linux 关于redis-trib.rb构建redis集群

    之前搭建集群漏下的坑, 今次再搭一次. 环境 ruby环境 yum install ruby rubygems -y redis的gem环境 gem install redis-3.2.2.gem 部 ...

  5. gitlab服务器迁移

    公司更换了新的服务器,需要把原先的gitlab迁移到新的服务器上. 1.迁移准备工作和思路:从a服务器迁移到b服务器,由于Gitlab自身的兼容性问题,高版本的Gitlab无法恢复低版本备份的数据,需 ...

  6. matlab的三维绘图和四维绘图

    一.三维绘图1.曲线图plot3(X1,Y1,Z1,...):以默认线性属性绘制三维点集(X1,Y1,Z1)确定的曲线plot3(X1,Y1,Z1,LineSpec):以参数LineSpec确定的线性 ...

  7. 安装搭建Python2.* 和3.* 环境详细步骤

    Python是跨平台的,它可以运行在Windows.Mac和各种Linux/Unix系统上. 安装Python 首先进入Python官方网站,将Python下载下来. win7安装python 在官网 ...

  8. Bootstrap3基础 pagination 分页按钮 简单示例

      内容 参数   OS   Windows 10 x64   browser   Firefox 65.0.2   framework     Bootstrap 3.3.7   editor    ...

  9. Python3 tkinter基础 Label pack 设置控件在窗体中的位置

             Python : 3.7.0          OS : Ubuntu 18.04.1 LTS         IDE : PyCharm 2018.2.4       Conda ...

  10. Python 正则表达式学习

    摘要 在正则表达式中,如果直接给出字符,就是精确匹配. {m,n}? 对于前一个字符重复 m到 n 次,并且取尽可能少的情况 在字符串'aaaaaa'中,a{2,4} 会匹配 4 个 a,但 a{2, ...