scrapy工具创建爬虫工程

1、scrapy创建爬虫工程：scrapy startproject scrape_project_name

>scrapy startproject books_scrape
New Scrapy project 'books_scrape', using template directory 's:\\users\\jiangshan\\anaconda3\\lib\\site-packages\\scrapy\\templates\\project', created in:
D:\Workspace\ScrapyTest\books_scrape

You can start your first spider with:
cd books_scrape
scrapy genspider example example.com

2、>cd books_scrape

3、查看目录结构：>tree /F

>tree /F
卷 DATA1 的文件夹 PATH 列表
卷序列号为 3A2E-EB05
D:.
│ scrapy.cfg
│
└─books_scrape
│ items.py
│ middlewares.py
│ pipelines.py
│ settings.py
│ __init__.py
│
├─spiders
│ │ __init__.py
│ │
│ └─__pycache__
└─__pycache__

4、使用scrapy genspider<SPIDER_NAME> <DOMAIN> 命令生成（根据模板）和创建Spider文件以及Spider类，该命令的两个参数分别是Spider的名字和所要爬取的域（网站）。

> scrapy genspider books books.toscrape.com

5、查看目录结构：（标蓝色先不管，因为本人使用远程服务器调试）

>tree /F

D:.
│ scrapy.cfg
│
└─books_scrape
│ items.py
│ middlewares.py
│ pipelines.py
│ run.py
│ settings.py
│ __init__.py
│
├─.idea
│ books_scrape.iml
│ deployment.xml
│ misc.xml
│ modules.xml
│ remote-mappings.xml
│ workspace.xml
│
├─spiders
│ │ books.py
│ │ __init__.py
│ │
│ └─__pycache__
│ __init__.cpython-37.pyc
│
└─__pycache__
settings.cpython-37.pyc
__init__.cpython-37.pyc

6、打开pycharm软件，打开创建的books_scrape工程，以配置文件scrapy.cfg为基准

7、在和├─spiders同级目录新建，run.py文件，写入：

from scrapy import cmdline

cmdline.execute('scrapy crawl books'.split())

或

cmdline.execute('scrapy crawl books -o %(name)s%(time)s.csv'.split())

或

cmdline.execute('scrapy crawl books -o books.csv'.split())

或
cmdline.execute('scrapy crawl books -o books.xml'.split())

scrapy工具创建爬虫工程的更多相关文章

Scrapy：创建爬虫程序的方式
Windows 10家庭中文版,Python 3.6.4,Scrapy 1.5.0, 在Scrapy中,建立爬虫程序或项目的方式有两种(在孤读过Scrapy的大部分文档后): 1.继承官方Spider ...
使用source Insight工具创建uboot工程。
首先在linux下面解压uboot的代码.不能在Windows下面解压,因为Windows的文件名是不区分大小写的. 然后,创建网络驱动器,这样就能在Windows下访问linux的文件夹了.方法:通 ...
python学习之-用scrapy框架来创建爬虫(spider)
scrapy简单说明 scrapy 为一个框架框架和第三方库的区别: 库可以直接拿来就用, 框架是用来运行,自动帮助开发人员做很多的事,我们只需要填写逻辑就好命令: 创建一个项目 : cd 到需 ...
Scrapy创建爬虫项目
1.打开cmd命令行工具,输入scrapy startproject 项目名称 2.使用pycharm打开项目,查看项目目录 3.创建爬虫,打开CMD,cd命令进入到爬虫项目文件夹,输入scrapy ...
eclipse开发scrapy爬虫工程，附爬虫临门级教程
写在前面自学爬虫入门之后感觉应该将自己的学习过程整理一下,也为了留个纪念吧. scrapy环境的配置还请自行百度,其实也不难(仅针对windows系统,centos配置了两天,直到现在都没整明白) ...
Scrapy项目 - 源码工程 - 实现豆瓣 Top250 电影信息爬取的爬虫设计
一.项目目录结构 spiders文件夹内包含doubanSpider.py文件,对于项目的构建以及结构逻辑,详见环境搭建篇. 二.项目源码 1.doubanSpider.py # -*- coding ...
scrapy电影天堂实战(二)创建爬虫项目
公众号原文创建数据库我在上一篇笔记中已经创建了数据库,具体查看<scrapy电影天堂实战(一)创建数据库>,这篇笔记创建scrapy实例,先熟悉下要用到到xpath知识用到的xpat ...
使用scrapy 创建爬虫项目
使用scrapy 创建爬虫项目步骤一: scrapy startproject tutorial 步骤二: you can start your first spider with: cd tuto ...
利用scrapy框架进行爬虫
今天一个网友问爬虫知识,自己把许多小细节都忘了,很惭愧,所以这里写一下大概的步骤,主要是自己巩固一下知识,顺便复习一下.(scrapy框架有一个好处,就是可以爬取https的内容) [爬取的是杨子晚报 ...

随机推荐

JSP带有标签体的自定义标签
新建OutTag类如何添加jsp-api.jar包 OutTag类详细代码 ``` package bid.zhazhapan.fims.tag; import javax.servlet.jsp. ...
UOJ#469. 【ZJOI2019】开关生成函数
原文链接www.cnblogs.com/zhouzhendong/p/UOJ469.html 前言 clytql当场秒掉此题可惜不知道为什么fst了. 题解考虑构建指数生成函数. 对于第 \(i\) ...
python中is 和== 比较的区别？
is 比较两个对象的内存地址是否相同, == 比较连个对象的数据是否相等
python3 之metaclass
如果希望创建某一批类全部具有某种特征,则可通过 metaclass 来实现.使用 metaclass 可以在创建类时动态修改类定义. 为了使用 metaclass 动态修改类定义,程序需要先定义 me ...
computed的用法
其实在摸板中也是可以做简单的计算的,但是会看起来会很乱 ,可以用computed来做计算 <!DOCTYPE html> <html lang="en"> ...
js中的那些遍历
说到遍历,首先想到的是数组的遍历,方法不要太多,比如 for, forEach,map,filter,every,some等下面来看下,用法首先定义一个数组: 1. for循环,需要知道数组的长 ...
软件工程实践2019第五次作业——结对编程的编程实现 version1.1
1.链接我的博客链接https://github.com/S031402112 结对同学的博客https://www.cnblogs.com/jiabingge/ 我们队创建的仓库的Github项目 ...
Cannot start compilation: the output path is not specified for module "salesystem". Specify the output path in Configure Project.
错误是发生在从github上checkout自己的项目时.因为没有将配置文件一起上传,所以在运行java程序时有了这个报错: Cannot start compilation: the output ...
python 设计模式之桥接模式 Bridge Pattern
#写在前面前面写了那么设计模式了,有没有觉得有些模式之间很类似,甚至感觉作用重叠了,模式并不是完全隔离和独立的,有的模式内部其实用到了其他模式的技术,但是又有自己的创新点,如果一味地认为每个模式都是 ...
Flutter -------- Http库网络请求封装（HttpController）
http库再次封装的网络请求类 HttpController 1.添加依赖 dependencies: http: ^0.12.0 #latest version 2.导入库 import 'pac ...

scrapy工具创建爬虫工程

scrapy工具创建爬虫工程的更多相关文章

随机推荐

热门专题