手把手教你如何新建scrapy爬虫框架的第一个项目（上）

前几天给大家分享了如何在Windows下创建网络爬虫虚拟环境及如何安装Scrapy，还有Scrapy安装过程中常见的问题总结及其对应的解决方法，感兴趣的小伙伴可以戳链接进去查看。关于Scrapy的介绍，之前也在文章中提及过，今天小编带大家进入Scrapy爬虫框架，创建Scrapy爬虫框架的第一个项目，具体过程如下所示。

1、进入虚拟环境，不知道进入的环境的小伙伴可以戳这篇文章：在Windows下如何创建指定的虚拟环境和在Windows下如何创建虚拟环境（默认情况下）。进入到环境之后可以通过“pip list”命令查看Scrapy是否安装成功，如下图所示。

可以看到Scrapy已经安装成功。

2、这里小编欲将Scrapy项目放到demo文件夹下，所以先退回到上级目录中去，如下图所示。

3、尔后开始新建Scrapy项目，输入创建Scrapy爬虫项目命令“scrapy startproject article”，其中article是爬虫项目的名称，可以自行更改的。输入创建命令之后，稍等片刻，系统会根据模板进行创建项目，模板所在的目录是“D:pythonDemo8Septemberdemoscrapy_demoLibsite-packagesscrapy emplatesproject”，与你的爬虫环境相关，如下图所示，等待项目创建完成。当然我们可以自定义爬虫模板，不过目前来看，Scrapy爬虫框架提供的模板够我们用的了，我们能把Scrapy搞明白也就可以了。

4、根据上图提示，首先进入到article文件夹下，输入命令“cd article”，之后通过“dir”查看目录，也可以通过“tree /f”生成文件目录的树形结构，如下图所示，可以很清晰的看到Scrapy创建命令生成的文件。

顶层的article文件夹是项目名。

第二层中包含的是一个与项目名同名的文件夹article和一个文件scrapy.cfg，这个与项目同名的文件夹article是一个模块，所有的项目代码都在这个模块内添加，而scrapy.cfg文件是整个Scrapy项目的配置文件。

第三层中有5个文件和一个文件夹，其中__init__.py是个空文件，作用是将其上级目录变成一个模块；items.py是定义储对象的文件，决定爬取哪些项目；middlewares.py文件是中间件，一般不用进行修改，主要负责相关组件之间的请求与响应；pipelines.py是管道文件，决定爬取后的数据如何进行处理和存储；settings.py是项目的设置文件，设置项目管道数据的处理方法、爬虫频率、表名等；spiders文件夹中放置的是爬虫主体文件（用于实现爬虫逻辑）和一个__init__.py空文件。

5、在Windows文件夹下也可以很清晰的看到新建的Scrapy文件，如下图所示。

6、当然，也可以通过Pycharm导入项目的方式进行查看项目文件，此时更加的清晰，如下图所示。

7、点击各个项目文件，可以查看其中的内容，其中settings.py文件的内容如下图所示，其他的文件内容在此就不再赘述了。

至此，第一个Scrapy爬虫项目的创建及Scrapy爬虫项目中的文件解析介绍就先到这里了，下一步开始进行Scrapy爬虫项目的进阶内容，敬请期待~~

手把手教你如何新建scrapy爬虫框架的第一个项目（上）的更多相关文章

手把手教你如何新建scrapy爬虫框架的第一个项目（下）
前几天小编带大家学会了如何在Scrapy框架下创建属于自己的第一个爬虫项目(上),今天我们进一步深入的了解Scrapy爬虫项目创建,这里以伯乐在线网站的所有文章页为例进行说明. 在我们创建好Scrap ...
手把手教大家如何用scrapy爬虫框架爬取王者荣耀官网英雄资料
之前被两个关系很好的朋友拉入了王者荣耀的大坑,奈何技术太差,就想着做一个英雄的随查手册,这样就可以边打边查了.菜归菜,至少得说明咱打王者的态度是没得说的,对吧?大神不喜勿喷!!!感谢!!废话不多说,开 ...
Python之Scrapy爬虫框架安装及简单使用
题记:早已听闻python爬虫框架的大名.近些天学习了下其中的Scrapy爬虫框架,将自己理解的跟大家分享.有表述不当之处,望大神们斧正. 一.初窥Scrapy Scrapy是一个为了爬取网站数据,提 ...
手把手教你写电商爬虫-第三课实战尚妆网AJAX请求处理和内容提取
版权声明:本文为博主原创文章,未经博主允许不得转载. 系列教程: 手把手教你写电商爬虫-第一课找个软柿子捏捏手把手教你写电商爬虫-第二课实战尚妆网分页商品采集爬虫看完两篇,相信大家已经从开始的 ...
Scrapy爬虫框架（实战篇）【Scrapy框架对接Splash抓取javaScript动态渲染页面】
(1).前言动态页面:HTML文档中的部分是由客户端运行JS脚本生成的,即服务器生成部分HTML文档内容,其余的再由客户端生成静态页面:整个HTML文档是在服务器端生成的,即服务器生成好了,再发送 ...
scrapy爬虫框架学习笔记(一)
scrapy爬虫框架学习笔记(一) 1.安装scrapy pip install scrapy 2.新建工程: (1)打开命令行模式 (2)进入要新建工程的目录 (3)运行命令: scrapy sta ...
Python爬虫教程-31-创建 Scrapy 爬虫框架项目
本篇是介绍在 Anaconda 环境下,创建 Scrapy 爬虫框架项目的步骤,且介绍比较详细 Python爬虫教程-31-创建 Scrapy 爬虫框架项目首先说一下,本篇是在 Anaconda 环 ...
手把手教你写电商爬虫-第四课淘宝网商品爬虫自动JS渲染
版权声明:本文为博主原创文章,未经博主允许不得转载. 系列教程: 手把手教你写电商爬虫-第一课找个软柿子捏捏手把手教你写电商爬虫-第二课实战尚妆网分页商品采集爬虫手把手教你写电商爬虫-第三课 ...
scrapy爬虫框架教程（二）-- 爬取豆瓣电影TOP250
scrapy爬虫框架教程(二)-- 爬取豆瓣电影TOP250 前言经过上一篇教程我们已经大致了解了Scrapy的基本情况,并写了一个简单的小demo.这次我会以爬取豆瓣电影TOP250为例进一步为大 ...

随机推荐

Temporary Tables临时表
1简介 ORACLE数据库除了可以保存永久表外,还可以建立临时表temporary tables.这些临时表用来保存一个会话SESSION的数据, 或者保存在一个事务中需要的数据.当会话退出或者用户提 ...
TortoiseSVN—Repo-browser
TortoiseSVN—Repo-browser,打开你要比较的两个版本所在的地址,选择一个版本做为比较的基础(单击右键—选择mark for comparison),再选择另外一个版本(单击右键—选 ...
golang下使用ini配置文件(widuu/goini)
在“widuu/goini”基础上进行了修改,增加了其他数据类型配置值(string.int.int32.int64.[]int.[]string)的支持. 使用方法: ConfigCentor := ...
第一次接触Arduino
1.百度百科: Arduino包含两个主要的部分:硬件部分是可以用来做电路连接的Arduino电路板:另外一个则是 Arduino IDE,你的计算机中的程序开发环境.你只要在IDE中编写程序代码,将 ...
BZOJ 2329/2209 [HNOI2011]括号修复 (splay)
题目大意: 让你维护一个括号序列,支持 1.区间修改为同一种括号 2.区间内所有括号都反转 3.翻转整个区间,括号的方向不变 4.查询把某段区间变为合法的括号序列,至少需要修改多少次括号给跪了,足足 ...
systemctl 控制单元
[root@web01 ~]# systemctl status sshd.service ● sshd.service - OpenSSH server daemon Loaded: loaded ...
Linux系统串口接收数据编
http://blog.csdn.net/bg2bkk/article/details/8668576 之前基于IBM deveplopworks社区的代码,做了串口初始化和发送的程序,今天在此基础上 ...
Django REST Framework - 分页 - 渲染器 - 解析器
为什么要使用分页? 我们数据表中可能会有成千上万条数据,当我们访问某张表的所有数据时,我们不太可能需要一次把所有的数据都展示出来,因为数据量很大,对服务端的内存压力比较大还有就是网络传输过程中耗时也会 ...
jQuery 简单介绍
jQuery 简单介绍 jQuery的定义 jQuery是一个快速,小巧,功能丰富的JavaScript库.它通过易于使用的API在大量浏览器中运行,使得 HTML文档遍历和操作,事件处理,动画 ...
Git：与eclipse搭配使用
Git:与eclipse搭配使用 1)工程初始化为本地库工程 ——>右键 ——>Team ——Share Project 在该目录下创建了本地库这里可以设置用户签名 2)Eclipse ...

手把手教你如何新建scrapy爬虫框架的第一个项目（上）

手把手教你如何新建scrapy爬虫框架的第一个项目（上）的更多相关文章

随机推荐

热门专题