> 参考:https://www.cnblogs.com/hy123456/p/9847570.html

pycharm 中并没有创建 scrapy 工程的选项,需要手动创建。

这里就有两种创建 scrapy 项目的方式,第一种是先手工创建 scrapy 项目,然后导入到 pycharm 中;第二种是直接在 pycharm 中利用其中的命令行窗口创建项目(我使用的是这种,比较方便);

1. 手工创建导入方式

  1. 创建一个用于当前项目的虚拟空间:

    virtualenv --no-site-packages ScrapyLearning
  2. 启动当前虚拟空间:

    # 进入当前虚拟空间的相关目录下,windows下在:ScrapyLearning/Scripts/
    activate # 激活当前虚拟空间
  3. 安装 scrapy

    pip install -i https://pypi.douban.com/simple/ scrapy   # 使用豆瓣源
  4. 使用 scrapy 创建 scrapy 项目:(千万注意不要直接在 script 目录下新建项目)

    scrapy startproject ArticleSpider   # ArticleSpider为项目名
  5. ArticleSpider 项目导入 pycharm

2. pycharm 中创建

  1. pycharm 中新建工程,并选择创建一个用于当前项目的虚拟空间;

  2. pycharm 的下端的 Terminal 中输入以下命令以安装 scrapy (如果没有的话):

    pip install -i https://pypi.douban.com/simple/ scrapy   # 使用豆瓣源
  3. pycharm 的下端的 Terminal 中输入:

    scrapy startproject ArticlePaqu

    便会在当前项目目录下生成 ArticlePaqu 文件夹,这个便是 scrapy 项目文件夹。

3.创建一个小爬虫

创建一个单个小爬虫,爬取 scrapy 官方指定的一个示例页面:example.com

命令行或 pycharmTermina 窗口中输入(这里需要进入前面新建的项目目录下):

scrapy genspider example 'www.example.com'

便会在 spider 文件夹下创建一个爬虫 python 文件,并自动写入初始代码:

# -*- coding: utf-8 -*-
import scrapy

class ExampleSpider(scrapy.Spider):
name = 'example'
allowed_domains = ['example.com']
start_urls = ['http://example.com/']

def parse(self, response):
pass

4.运行爬虫

4-1.命令行或 pycharmTerminal 中输入:

scrapy crawl example

即可启动 example 爬虫。

4-2.直接通过运行 pycharmpython 文件的方式运行:

需要在 scrapy 项目的根目录下创建一个 main.py 文件:

from scrapy.cmdline import execute

import sys
import os # 用来获取路径的模块

sys.path.append(os.path.dirname(os.path.abspath(__file__)))
execute(['scrapy', 'crawl', 'example'])

即相当于将

scrapy crawl example

命令分成三段组成 list 放入 python 执行程序中的 execute 函数中了。

然后就可以通过右键 run main.py 函数即可运行 example 爬虫。

(一)scrapy 安装及新建爬虫项目并运行的更多相关文章

  1. 如何利用scrapy新建爬虫项目

    抓取豆瓣top250电影数据,并将数据保存为csv.json和存储到monogo数据库中,目标站点:https://movie.douban.com/top250 一.新建项目 打开cmd命令窗口,输 ...

  2. scrapy抓取拉勾网职位信息(一)——scrapy初识及lagou爬虫项目建立

    本次以scrapy抓取拉勾网职位信息作为scrapy学习的一个实战演练 python版本:3.7.1 框架:scrapy(pip直接安装可能会报错,如果是vc++环境不满足,建议直接安装一个visua ...

  3. Django安装 测试、导入项目以及运行开发服务器

    安装Django  下载Django包,解压缩. CMD 进入解压路径下. 执行:python setup.py install 增加环境变量: C:\Python27\Scripts 测试djang ...

  4. eclipse新建web项目,运行后在tomcat安装目录下webapps中没有该项目

    一.发现问题在eclipse中新建Dynamic Web Project,配置好本地的tomcat并写好代码后选择Run on Server,但运行后发现在tomcat的安装目录下的webapps并没 ...

  5. 安卓开发第一记 android stdio 安装后 新建测试项目报错

    Failed to resolve:com.android.support:appcompat-v7:报错处理   你在使用android studio时是否也出现过上图的报错,你还在为它的出现烦恼? ...

  6. python爬虫框架—Scrapy安装及创建项目

    linux版本安装 pip3 install scrapy 安装完成 windows版本安装 pip install wheel 下载twisted,网址:http://www.lfd.uci.edu ...

  7. 在windows下如何新建爬虫虚拟环境和进行scrapy安装

    Scrapy是Python开发的一个快速.高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改.Sc ...

  8. 在Pycharm中运行Scrapy爬虫项目的基本操作

    目标在Win7上建立一个Scrapy爬虫项目,以及对其进行基本操作.运行环境:电脑上已经安装了python(环境变量path已经设置好), 以及scrapy模块,IDE为Pycharm .操作如下: ...

  9. python3 scrapy爬虫项目的诞生

    前提安装好scrapy模块最好 requests和bs4模块都安装好 可以概括为五个步骤 步骤一:新建一个项目 无论你用windows也好,linux也罢,在cmd或者终端 切换到目标文件夹,然后输入 ...

随机推荐

  1. preg_match绕过总结

    preg_match绕过总结 什么是preg_match 绕过方法 1.数组绕过 preg_match只能处理字符串,当传入的subject是数组时会返回false 2.PCRE回溯次数限制 PHP利 ...

  2. STC8H开发(六): SPI驱动ADXL345三轴加速度检测模块

    目录 STC8H开发(一): 在Keil5中配置和使用FwLib_STC8封装库(图文详解) STC8H开发(二): 在Linux VSCode中配置和使用FwLib_STC8封装库(图文详解) ST ...

  3. 2月1日 体温APP开发记录

    1.阅读构建之法 现代软件工程(第三版) 2.观看Android开发视频教程最新版 Android Studio开发

  4. 数据库DDL、DML、DCL、DQL、DPL、CCL的全称和使用

    数据库DDL.DML.DCL.DQL.DPL.CCL的全称和使用 简介: SQL (Structure Query Language):结构化查询语言,一种特殊目的的编程语言,一种数据库查询和程序设计 ...

  5. Elasticsearch使用系列-ES增删查改基本操作+ik分词

    Elasticsearch使用系列-ES简介和环境搭建 Elasticsearch使用系列-ES增删查改基本操作+ik分词 一.安装可视化工具Kibana ES是一个NoSql数据库应用.和其他数据库 ...

  6. linux虚拟机xshell安装

    目录 一:虚拟机安装 二:配置windows网络 三:linux操作系统安装 四:xshell安装使用 一:虚拟机安装 1.双击虚拟机软件 ---> 下一步 直至安装完毕 2.安装Linux操作 ...

  7. PyCharm专业版破解教程

    破解步骤: 1. 下载激活包和注册码:https://pan.baidu.com/s/1_1nrQdTElf4aEg8vGnMTzg 2. 将下载的破解包放入PyCham安装目录的bin文件夹中 3. ...

  8. CSS Modules 的六种用法

    一.局部作用域 二.全局作用域 三.定制哈希类名 四. Class 的组合 五.输入其他模块 六.输入变量

  9. URL跳转空白页参数传递封装

    这东西主要是为了vue和平时打开一个空白界面_blank时的参数传递,不涉及到浏览器存储(session,local等) 众所周知,请求传参无非就用的query和params,相对应就是get和pos ...

  10. JDBC工具包commons-dbutils的基本介绍

    感谢原文作者:simonXi-tech 原文链接:https://blog.csdn.net/simonforfuture/article/details/90480147 更多请查阅在线API文档: ...