Scrapy基本命令
全局命令,不用在项目中运行
fetch:爬取网页,不依赖爬虫项目直接爬网页信息,并显示爬取过程
scrapy命令格式:scrapy 命令名 --参数,可能通过--控制,例如:scrapy fetch -h fetch相关的使用方式
spider命令:
进行文件所在目录后,通过scrapy runspider 文件名(对文件进行运行)
shell命令:
启动scrapy交互终端,主要是在开发调试的时候用到,不启动scrapy的情况下对网站进行相应的调试,可以写相应的python代码进行测试
例如:scrapy shell http://www.baidu.com --nolog(不显示爬取的log信息)
startproject命令:
创建爬虫项目,scrapy startproject 项目名
version命令:
查看对应的版本信息
view命令:
下载某个网页并用浏览器查看的功能,例如:scrapy view http://news.163.com
项目命令
bench测试本地硬件性能的命令
项目目录介绍:
1.scrapy.cfg是爬虫项目的配置文件
first文件加是爬虫项目的核心目录。
first爬虫项目的目录结构
a.__init__.py:初始化文件
b.items.py:目标文件,要爬取的信息在该文件中设定要爬取的内容
c.piplines.py:爬取文件后的后续信息文件处理
d.settings.py:爬虫的设置文件,例如将爬虫伪装成浏览器或用户代理
e.middlewares.py
spiders是爬虫文件夹,里面可以有多个爬虫文件
创建爬虫文件命令:scrapy genspider(基于模板创建爬虫文件) -l(查看当前由那些模板)
显示由4个爬虫模板
1.basic是基本的爬虫模板
2.crawl是自动爬虫模板。例如:scrapy genspider [options] name domain。options可以选择自己需要的参数, 若留空, 则默认使用basic模板生成spider
3.csvvfeed是基于该模板处理csv文件
4.xmlfeed是基于该模板处理xml文件
基于basic创建一个爬虫的基本格式:scrapy genspider -t(创建用-t) 输入对应的模板 输入爬虫文件名 允许的域名。例如scrapy genspider -t basic weisuen baidu.com
check命令:主要用于测试。scrapy check 爬虫名 例如:scrapy check weisuen
crawl启动运行某个爬虫文件 scrapy crawl 控制参数(可以不添加)爬虫名 例如:scrapy crawl weisuen
list命令:scrapy list 展示当前项目中可以使用的爬虫文件 例如:scrapy list
edit命令:直接通过编辑器打开某一个爬虫文件。在windows下无法运行,在linux可以运行,scrapy edit
parse命令:获取指定的url网址并且可以进行相应的处理和分析。例如:scrapy parse http://www.baidu.com
command指令即可完成,在项目文件下的命令行输入。例如:scrapy crawl AnJuKe -o items.csv
Xpath调试:
命令行输入:scrapy shell "爬取的URL"
[s] Available Scrapy objects:
[s] scrapy scrapy module (contains scrapy.Request, scrapy.Selector, etc)
[s] crawler <scrapy.crawler.Crawler object at 0x0000000005529A58>
[s] item {}
[s] request <GET https://beijing.anjuke.com/sale/>
[s] response <200 https://beijing.anjuke.com/sale/>
[s] settings <scrapy.settings.Settings object at 0x0000000005529898>
[s] spider <DefaultSpider 'default' at 0x57b0320>
[s] Useful shortcuts:
[s] fetch(url[, redirect=True]) Fetch URL and update local objects (by default
, redirects are followed)
[s] fetch(req) Fetch a scrapy.Request and update local object
s
[s] shelp() Shell help (print this help)
[s] view(response) View response in a browser
In [1]:
response.xpath调试,为了判断我们的xpath是否正确,例如:response.xpath('//div/div/a[@class="laisuzhou"]/span/text()').extract()
再可以输入:view.(response)
Scrapy基本命令的更多相关文章
- 2.Scrapy基本命令介绍
1.安装scrapy框架 a.安装wheel pip install wheel -i https://pypi.douban.com/simple/ b.安装twisted pip install ...
- scrapy 基本命令
创建scrapy项目 scrapy startproject project_name 创建爬虫文件 scrapy genspider [-t template] <name> <d ...
- Python-S9-Day125-Web微信&爬虫框架之scrapy
01 今日内容概要 02 内容回顾:爬虫 03 内容回顾:网络和并发编程 04 Web微信之获取联系人列表 05 Web微信之发送消息 06 为什么request.POST拿不到数据 07 到底使用j ...
- 09 Scrapy框架在爬虫中的使用
一.简介 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架.它集成高性能异步下载,队列,分布式,解析,持久化等. Scrapy 是基于twisted框架开发而来,twisted是一个 ...
- scrapy 原理,结构,基本命令,item,spider,selector简述
原理,结构,基本命令,item,spider,selector简述 原理 (1)结构 (2)运行流程 实操 (1) scrapy命令: 注意先把python安装目录的scripts文件夹添加到环境变量 ...
- scrapy 的基本命令
scrapy stratproject projectname ##创建一个项目 scrapy genspider myspidername fider ##创建一个spider文件 scrapy ...
- Scrapy进阶知识点总结(一)——基本命令与基本类(spider,request,response)
一.常见命令 scrapy全局命令可以在任何地方用,项目命令只能在项目路径下用 全局命令: 项目命令: startproject crawl genspider check settings list ...
- Scrapy框架: 基本命令
1.创建爬虫项目 scrapy startproject [项目名称] 2.创建爬虫文件 scrapy genspider +文件名+网址 3.运行(crawl) scrapy crawl 爬虫名称 ...
- Python scrapy框架
Scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中.其最初是为了页面抓取 (更确切来说, 网络抓取 )所设 ...
随机推荐
- kivy中bind的使用
一般在kivy中使用bind()来绑定回调函数,所谓回调函数,个人理解就是一个预先定义好的方法, 因为APP是静态的, 需要等待用户进行操作, 特定的操作背后都绑定了特定的回调函数, 一般有两种类型: ...
- MySQL&MyBatis 时间处理的配合
1:Mysql 时间类型 mysql数据库:时间类型 1)datetime datetime: "yyyy-mm-dd hh:mm:ss" datetime "1000- ...
- R语言开发环境搭建
R语言开发环境搭建 一.环境 Win7 64bit系统 二.R软件下载 R 3.5.2 for Windows,官网:https://www.r-project.org/ RStudio 1.1.46 ...
- 【题解】Luogu P1204 [USACO1.2]挤牛奶Milking Cows
原题传送门:P1204 [USACO1.2]挤牛奶Milking Cows 实际是道很弱智的题目qaq 但窝还是觉得用珂朵莉树写会++rp(窝都初二了,还要考pj) 前置芝士:珂朵莉树 窝博客里对珂朵 ...
- linux判断文件大小
第一条code ll -s | tail -n +2 | awk '$1 >= 10 {print $1,$10 "容量大于10"} $1 <= 9 {print $1 ...
- CentOS7的安装以及redis的下载安装和连接redis desktop manager出现的问题
因为需要在springboot下使用redis,所以打算在linux下使用redis,并且使用redis desktop manage来连接管理,但是一路上出现个种问题现在总结一下. 如何安装Cent ...
- 怎么删除git本地分支以及Bitbucket的远程分支?
1. 如果分支只是本地分支,则可以使用 -d (如果分支已合并),例如 git branch -d <branch name>如果分支包含不计划合并的代码,请改用 -D (即使有没有mer ...
- 4698: Sdoi2008 Sandy的卡片
前言 总之这个东西说起来很麻烦就是了, 思路 差分合并+后缀数组+二分(dddl) 类似于那个bzoj1031的复制子串和那个poj1743的差分 来看个例子 3 5 1 2 3 4 5 4 1 1 ...
- Java 使用命令对堆线程分析
一.dump基本概念 在故障定位(尤其是out of memory)和性能分析的时候,经常会用到一些文件来帮助我们排除代码问题.这些文件记录了JVM运行期间的内存占用.线程执行等情况,这就是我们常说的 ...
- HDU 5938 Four Operations(乱搞)题解
题意:把'+', '-', '*' 和'/'按顺序插入任意两数字间隔,使得操作得到后计算后最大. 思路:没想到是个水题,打的时候想得太复杂了.这道题其实只要考虑*和/.显然我们要把a*b/c弄到最小. ...