scrapy工具创建爬虫工程

1、scrapy创建爬虫工程：scrapy startproject scrape_project_name

>scrapy startproject books_scrape
New Scrapy project 'books_scrape', using template directory 's:\\users\\jiangshan\\anaconda3\\lib\\site-packages\\scrapy\\templates\\project', created in:
D:\Workspace\ScrapyTest\books_scrape

You can start your first spider with:
cd books_scrape
scrapy genspider example example.com

2、>cd books_scrape

3、查看目录结构：>tree /F

>tree /F
卷 DATA1 的文件夹 PATH 列表
卷序列号为 3A2E-EB05
D:.
│ scrapy.cfg
│
└─books_scrape
│ items.py
│ middlewares.py
│ pipelines.py
│ settings.py
│ __init__.py
│
├─spiders
│ │ __init__.py
│ │
│ └─__pycache__
└─__pycache__

4、使用scrapy genspider<SPIDER_NAME> <DOMAIN> 命令生成（根据模板）和创建Spider文件以及Spider类，该命令的两个参数分别是Spider的名字和所要爬取的域（网站）。

> scrapy genspider books books.toscrape.com

5、查看目录结构：（标蓝色先不管，因为本人使用远程服务器调试）

>tree /F

D:.
│ scrapy.cfg
│
└─books_scrape
│ items.py
│ middlewares.py
│ pipelines.py
│ run.py
│ settings.py
│ __init__.py
│
├─.idea
│ books_scrape.iml
│ deployment.xml
│ misc.xml
│ modules.xml
│ remote-mappings.xml
│ workspace.xml
│
├─spiders
│ │ books.py
│ │ __init__.py
│ │
│ └─__pycache__
│ __init__.cpython-37.pyc
│
└─__pycache__
settings.cpython-37.pyc
__init__.cpython-37.pyc

6、打开pycharm软件，打开创建的books_scrape工程，以配置文件scrapy.cfg为基准

7、在和├─spiders同级目录新建，run.py文件，写入：

from scrapy import cmdline

cmdline.execute('scrapy crawl books'.split())

或

cmdline.execute('scrapy crawl books -o %(name)s%(time)s.csv'.split())

或

cmdline.execute('scrapy crawl books -o books.csv'.split())

或
cmdline.execute('scrapy crawl books -o books.xml'.split())

scrapy工具创建爬虫工程的更多相关文章

Scrapy：创建爬虫程序的方式
Windows 10家庭中文版,Python 3.6.4,Scrapy 1.5.0, 在Scrapy中,建立爬虫程序或项目的方式有两种(在孤读过Scrapy的大部分文档后): 1.继承官方Spider ...
使用source Insight工具创建uboot工程。
首先在linux下面解压uboot的代码.不能在Windows下面解压,因为Windows的文件名是不区分大小写的. 然后,创建网络驱动器,这样就能在Windows下访问linux的文件夹了.方法:通 ...
python学习之-用scrapy框架来创建爬虫(spider)
scrapy简单说明 scrapy 为一个框架框架和第三方库的区别: 库可以直接拿来就用, 框架是用来运行,自动帮助开发人员做很多的事,我们只需要填写逻辑就好命令: 创建一个项目 : cd 到需 ...
Scrapy创建爬虫项目
1.打开cmd命令行工具,输入scrapy startproject 项目名称 2.使用pycharm打开项目,查看项目目录 3.创建爬虫,打开CMD,cd命令进入到爬虫项目文件夹,输入scrapy ...
eclipse开发scrapy爬虫工程，附爬虫临门级教程
写在前面自学爬虫入门之后感觉应该将自己的学习过程整理一下,也为了留个纪念吧. scrapy环境的配置还请自行百度,其实也不难(仅针对windows系统,centos配置了两天,直到现在都没整明白) ...
Scrapy项目 - 源码工程 - 实现豆瓣 Top250 电影信息爬取的爬虫设计
一.项目目录结构 spiders文件夹内包含doubanSpider.py文件,对于项目的构建以及结构逻辑,详见环境搭建篇. 二.项目源码 1.doubanSpider.py # -*- coding ...
scrapy电影天堂实战(二)创建爬虫项目
公众号原文创建数据库我在上一篇笔记中已经创建了数据库,具体查看<scrapy电影天堂实战(一)创建数据库>,这篇笔记创建scrapy实例,先熟悉下要用到到xpath知识用到的xpat ...
使用scrapy 创建爬虫项目
使用scrapy 创建爬虫项目步骤一: scrapy startproject tutorial 步骤二: you can start your first spider with: cd tuto ...
利用scrapy框架进行爬虫
今天一个网友问爬虫知识,自己把许多小细节都忘了,很惭愧,所以这里写一下大概的步骤,主要是自己巩固一下知识,顺便复习一下.(scrapy框架有一个好处,就是可以爬取https的内容) [爬取的是杨子晚报 ...

随机推荐

第12组 Alpha冲刺（3/6）
Header 队名:To Be Done 组长博客作业博客团队项目进行情况燃尽图(组内共享) 展示Git当日代码/文档签入记录(组内共享) 注: 由于GitHub的免费范围内对多人开发存在较多限 ...
Tkinter 之PanedWindow标签
一.参数说明参数作用 background(bg) 设置背景颜色 borderwidth(bd) 设置边框宽度 cursor 指定当鼠标在PanedWindow上飘过的时候的鼠标样式 handl ...
Nginx服务配置文件介绍
LNMP架构应用实战——Nginx服务配置文件介绍 nginx的配置文件比较简单,但功能相当强大,可以自由灵活的进行相关配置,因此,还是了解下其配置文件的一此信息 1.Nginx服务目录结构介绍安装 ...
数据结构Java版之二叉查找树（七）
二叉查找树(BST : BInary Search Tree) 二叉查找树的性质: 1.每一个元素有一个键值 2.左子树的键值都小于根节点的键值 3.右子树的键值都大于根节点的键值 4.左右子树都是二 ...
CSS（1）
使用CSS的注意点: 1.style标签必须写在head标签的开始标签和结束标签之间(也就是必须和title标签是兄弟关系). 2.style标签中的type属性其实可以不用写,默认就是type=&q ...
查看 systemctl 崩溃日志及运行日志
vi /var/log/syslog 查看指定服务的: grep "bx" /var/log/syslog
《Linux设备驱动程序》编译LDD3的scull驱动问题总结***
由于Linux内核版本更新的原因,LDD3(v2.6.10)提供的源码无法直接使用,下面是本人编译scull源码时出现的一些问题及解决方法.编译环境:Ubuntu 10.04 LTS(kernel v ...
Java从指定URL下载文件并保存到指定目录
1.基本流程当我们想要下载网站上的某个资源时,我们会获取一个url,它是服务器定位资源的一个描述,下载的过程有如下几步: (1)客户端发起一个url请求,获取连接对象. (2)服务器解析url,并且 ...
Shell脚本自动重启Java服务
话不多说直接上代码: cd /home/javaProduct/if [ -d '/home/javaProduct/lib_new/' ]; thenecho 'Has New Lib!'echo ...
OpenCv dnn模块扩展研究(1)--style transfer
一.opencv的示例模型文件使用Torch模型[OpenCV对各种模型兼容并包,起到胶水作用], 下载地址: fast_neural_style_eccv16_starry_night.t7 ...

scrapy工具创建爬虫工程

scrapy工具创建爬虫工程的更多相关文章

随机推荐

热门专题