使用Scrapy创建一个爬虫

创建项目

您可以使用下面的命令来创建 Scrapy 项目：

scrapy startproject 项目名称

例：
scrapy startproject scrapy_project

这将创建一个名为 project_name 的项目目录。接下来，进入新创建的项目，使用下面的命令：

cd  scrapy_project

控制项目

您可以控制项目，并通过使用Scrapy工具，也创造了新的蜘蛛(spider)，使用下面的命令进行管理：

scrapy genspider 爬虫名称 url

例：
scrapy genspider Baidu baidu.com

如：抓取等等的命令在 Scrapy 项目中的使用。这里所有命令在接下来 Scrapy 项目内使用运行。

Scrapy包含一些内置的命令，它可以用来为项目。要查看可用命令的列表，请使用以下命令：

scrapy -h

当运行上面的命令，Scrapy将显示如下面所列出可用命令的列表：

fetch: 它使用Scrapy downloader 提取的 URL。
runspider: 它用于而无需创建一个项目运行自行包含蜘蛛(spider)。
settings: 它规定了项目的设定值。
shell: 这是一个给定URL的一个交互式模块。
startproject: 它创建了一个新的 Scrapy 项目。
version: 它显示Scrapy版本。
view: 它使用Scrapy downloader 提取 URL并显示在浏览器中的内容。

一些项目相关的命令，如下：

crawl: 它是用来使用蜘蛛抓取数据；
check: 它检查项目并由 crawl 命令返回；
list: 它显示本项目中可用蜘蛛(spider)的列表；
edit: 可以通过编辑器编辑蜘蛛；
parse:它通过蜘蛛分析给定的URL；
bench: 它是用来快速运行基准测试(基准讲述每分钟可被Scrapy抓取的页面数量)。

爬取

进入项目的根目录，执行下列命令启动spider:

scrapy crawl 爬虫名字
例：
scrapy crawl Baidu

待续·······

关注公众号：

使用Scrapy创建一个爬虫的更多相关文章

Scrapy创建zentao爬虫
1.安装好Scrapy爬虫框架 2.切换到F盘的wooyun目录下执行:scrapy startproject zentao 这个命令会在当前目录下创建一个新目录zentao,它的结构如下:
用Scrapy写一个爬虫
昨天用python谢了一个简单爬虫,抓取页面图片: 但实际用到的爬虫需要处理很多复杂的环境,也需要更加的智能,重复发明轮子的事情不能干, 再说python向来以爬虫作为其擅长的一个领域,想必有许多成熟 ...
Python创建一个爬虫项目===从零开始哟！想说的下次要不要出一期关于pycharm与Python之间的合作
当然,不用爬虫框架,也是可以的比如说 beauitfulsoup xml http 就可以完美的得到一个爬虫的解决方案! 个人的意思是,新手或者刚入门的可以考虑以上的方式进行练习后在使用框架首先 ...
python scrapy 入门,10分钟完成一个爬虫
在TensorFlow热起来之前,很多人学习python的原因是因为想写爬虫.的确,有着丰富第三方库的python很适合干这种工作. Scrapy是一个易学易用的爬虫框架,尽管因为互联网多变的复杂性仍 ...
关于使用scrapy框架编写爬虫以及Ajax动态加载问题、反爬问题解决方案
Python爬虫总结总的来说,Python爬虫所做的事情分为两个部分,1:将网页的内容全部抓取下来,2:对抓取到的内容和进行解析,得到我们需要的信息. 目前公认比较好用的爬虫框架为Scrapy,而且 ...
利用scrapy框架进行爬虫
今天一个网友问爬虫知识,自己把许多小细节都忘了,很惭愧,所以这里写一下大概的步骤,主要是自己巩固一下知识,顺便复习一下.(scrapy框架有一个好处,就是可以爬取https的内容) [爬取的是杨子晚报 ...
scrapy 的一个例子
1.目标: scrapy 是一个爬虫构架,现用一个简单的例子来讲解,scrapy 的使用步骤 2.创建一个scrapy的项目: 创建一个叫firstSpider的项目,命令如下: scrapy sta ...
scrapy的一个简单小项目
使用scrapy抓取目标url下所有的课程名和价格,并将数据保存为json格式url=http://www.tanzhouedu.com/mall/course/initAllCourse 观察网页并 ...
基于scrapy框架的爬虫
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中. scrapy 框架高性能的网络请求高性能的数据解析高性能的 ...

随机推荐

HTML中document.getElementById()方法的操作
转自:http://blog.csdn.net/pyffcwj/article/details/7240232/ obj = document.getElementById("cc" ...
详解java设计模式之责任链模式
详见:http://blog.yemou.net/article/query/info/tytfjhfascvhzxcyt175 从击鼓传花谈起击鼓传花是一种热闹而又紧张的饮酒游戏.在酒宴上宾客依次 ...
教程，Python图片转字符堆叠图
Python 图片转字符画一.实验说明 1. 环境登录无需密码自动登录, 2. 环境介绍本实验环境采用带桌面的UbuntuLinux环境,实验中会用到桌面上的程序: LX终端(LXTermina ...
九度OJ 1016 火星A + B 未AC版，整型存储不下
#include <iostream> #include <string.h> #include <sstream> #include <math.h> ...
JAVA基础第五组（5道题）
21.[程序21] 题目:求1+2!+3!+...+20!的和 1.程序分析:此程序只是把累加变成了累乘. 思路:用递归的思想. package com.niit.homework1; import ...
第2周作业-Java基本语法与类库(20170227-20170304)
本周学习总结 (1)这周学习认识和熟悉了java的一些类型和变量: (2)学习了java的运算符基本使用方法: (3)了解了如何建立远程仓库和本地仓库,和如何让java代码在临时储存,本地仓库和远程仓 ...
201521123088 《Java程序设计》第1周学习总结
第1周学习总结 1.本周学习总结本周我们正式开始了对一门新的编程语言java的学习.Java是一门面向对象编程语言,不仅吸收了C++语言的各种优点,还摒弃了C++里难以理解的多继承.指针等概念,因此J ...
201521123064 《Java程序设计》第11周学习总结
1. 本章学习总结 1.1 以你喜欢的方式(思维导图或其他)归纳总结多线程相关内容. ① 定义Thread类的子类,覆盖Thread类的run()方法,然后创建该子类的实例(一般不用该方法,开销大. ...
201521123087《java程序设计》第13周学习总结
1. 本周学习总结 2. 书面作业 1. 网络基础 1.1 比较ping www.baidu.com与ping cec.jmu.edu.cn,分析返回结果有何不同?为什么会有这样的不同? 答: 往返行 ...
Markdown例子
一个例子: 例子开始 1. 本章学习总结今天主要学习了三个知识点封装继承多态 2. 书面作业 Q1. java HelloWorld命令中,HelloWorld这个参数是什么含义? 今天学了一 ...

使用Scrapy创建一个爬虫

使用Scrapy创建一个爬虫

创建项目

控制项目

爬取

待续·······

关注公众号：

使用Scrapy创建一个爬虫的更多相关文章

随机推荐

热门专题