(一)scrapy 安装及新建爬虫项目并运行
> 参考:https://www.cnblogs.com/hy123456/p/9847570.html
在 pycharm 中并没有创建 scrapy 工程的选项,需要手动创建。
这里就有两种创建 scrapy 项目的方式,第一种是先手工创建 scrapy 项目,然后导入到 pycharm 中;第二种是直接在 pycharm 中利用其中的命令行窗口创建项目(我使用的是这种,比较方便);
1. 手工创建导入方式
创建一个用于当前项目的虚拟空间:
virtualenv --no-site-packages ScrapyLearning
启动当前虚拟空间:
# 进入当前虚拟空间的相关目录下,windows下在:ScrapyLearning/Scripts/
activate # 激活当前虚拟空间安装
scrapy:pip install -i https://pypi.douban.com/simple/ scrapy # 使用豆瓣源
使用
scrapy创建scrapy项目:(千万注意不要直接在script目录下新建项目)scrapy startproject ArticleSpider # ArticleSpider为项目名
将
ArticleSpider项目导入pycharm。
2. pycharm 中创建
pycharm中新建工程,并选择创建一个用于当前项目的虚拟空间;在
pycharm的下端的Terminal中输入以下命令以安装scrapy(如果没有的话):pip install -i https://pypi.douban.com/simple/ scrapy # 使用豆瓣源
在
pycharm的下端的Terminal中输入:scrapy startproject ArticlePaqu
便会在当前项目目录下生成
ArticlePaqu文件夹,这个便是scrapy项目文件夹。
3.创建一个小爬虫
创建一个单个小爬虫,爬取 scrapy 官方指定的一个示例页面:example.com。
命令行或 pycharm 的 Termina 窗口中输入(这里需要进入前面新建的项目目录下):
scrapy genspider example 'www.example.com'
便会在 spider 文件夹下创建一个爬虫 python 文件,并自动写入初始代码:
# -*- coding: utf-8 -*-
import scrapy
class ExampleSpider(scrapy.Spider):
name = 'example'
allowed_domains = ['example.com']
start_urls = ['http://example.com/']
def parse(self, response):
pass
4.运行爬虫
4-1.命令行或 pycharm 的 Terminal 中输入:
scrapy crawl example
即可启动 example 爬虫。
4-2.直接通过运行 pycharm 中 python 文件的方式运行:
需要在 scrapy 项目的根目录下创建一个 main.py 文件:
from scrapy.cmdline import execute
import sys
import os # 用来获取路径的模块
sys.path.append(os.path.dirname(os.path.abspath(__file__)))
execute(['scrapy', 'crawl', 'example'])
即相当于将
scrapy crawl example
命令分成三段组成 list 放入 python 执行程序中的 execute 函数中了。
然后就可以通过右键 run main.py 函数即可运行 example 爬虫。
(一)scrapy 安装及新建爬虫项目并运行的更多相关文章
- 如何利用scrapy新建爬虫项目
抓取豆瓣top250电影数据,并将数据保存为csv.json和存储到monogo数据库中,目标站点:https://movie.douban.com/top250 一.新建项目 打开cmd命令窗口,输 ...
- scrapy抓取拉勾网职位信息(一)——scrapy初识及lagou爬虫项目建立
本次以scrapy抓取拉勾网职位信息作为scrapy学习的一个实战演练 python版本:3.7.1 框架:scrapy(pip直接安装可能会报错,如果是vc++环境不满足,建议直接安装一个visua ...
- Django安装 测试、导入项目以及运行开发服务器
安装Django 下载Django包,解压缩. CMD 进入解压路径下. 执行:python setup.py install 增加环境变量: C:\Python27\Scripts 测试djang ...
- eclipse新建web项目,运行后在tomcat安装目录下webapps中没有该项目
一.发现问题在eclipse中新建Dynamic Web Project,配置好本地的tomcat并写好代码后选择Run on Server,但运行后发现在tomcat的安装目录下的webapps并没 ...
- 安卓开发第一记 android stdio 安装后 新建测试项目报错
Failed to resolve:com.android.support:appcompat-v7:报错处理 你在使用android studio时是否也出现过上图的报错,你还在为它的出现烦恼? ...
- python爬虫框架—Scrapy安装及创建项目
linux版本安装 pip3 install scrapy 安装完成 windows版本安装 pip install wheel 下载twisted,网址:http://www.lfd.uci.edu ...
- 在windows下如何新建爬虫虚拟环境和进行scrapy安装
Scrapy是Python开发的一个快速.高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改.Sc ...
- 在Pycharm中运行Scrapy爬虫项目的基本操作
目标在Win7上建立一个Scrapy爬虫项目,以及对其进行基本操作.运行环境:电脑上已经安装了python(环境变量path已经设置好), 以及scrapy模块,IDE为Pycharm .操作如下: ...
- python3 scrapy爬虫项目的诞生
前提安装好scrapy模块最好 requests和bs4模块都安装好 可以概括为五个步骤 步骤一:新建一个项目 无论你用windows也好,linux也罢,在cmd或者终端 切换到目标文件夹,然后输入 ...
随机推荐
- WPF使用MVVM(二)-命令绑定
WPF使用MVVM(二)-命令绑定 上一节已经介绍了WPF的属性绑定,这使得我们只需要指定界面的DataContext,然后就可以让界面绑定我们的属性数据呢. 但是上一节还遗留了一个问题就是我们的按钮 ...
- dp问题解题思路
[基本问题单元的定义]这取决于你所查看问题的角度,找到一个划分,推进问题的角度十分重要.作者找到的方式是dp[ i ][ j ],用来表示 substring( i , j),然后站在这个角度,假设s ...
- MySQL基本使用(开机自启动-环境变量-忘记密码-统一编码)
目录 一:mysql简介 1.什么是MySQL? 2.MySQL的本质 3.MySQL的特点与优势 二:基本操作命令 1.登录服务端 2.2.结束符c 3.查看当前所有的库名称 4.取消之前的命令 5 ...
- iptables的概念与底层原理(详解)
目录 一:iptables 1.iptables简介 2.什么是防火墙? 3.防火墙种类 二:iptables基本介绍 1.解析内容 三:iptables流程(讲解) 1.流入本机 2.解析(流入本机 ...
- 题解 - 「MLOI」小兔叽
小兔叽 \(\texttt{Link}\) 简单题意 有 \(n\) 个小木桩排成一行,第 \(i\) 个小木桩的高度为 \(h_i\),分数为 \(c_i\). 如果一只小兔叽在第 \(i\) 个小 ...
- 学习JAVAWEB第一天
第一天:单元测试(junit)黑盒测试:不需要写代码,给输入值,看程序能否给出期望值白盒测试:需要写代码,关注程序的具体执行流程junit使用步骤:步骤1:定义一个测试类建议类名,被测试类名后面加一个 ...
- 【源码】Redis Server启动过程
本文基于社区版Redis 4.0.8 1. 初始化参数配置 由函数initServerConfig()实现,具体操作就是给配置参数赋初始化值: //设置时区 setlocale(LC_CO ...
- spring学习五:Spring Bean 定义继承
Bean 定义继承 bean 定义可以包含很多的配置信息,包括构造函数的参数,属性值,容器的具体信息例如初始化方法,静态工厂方法名,等等. 子 bean 的定义继承父定义的配置数据.子定义可以根据需要 ...
- SQLite 基础不扎实造成的:error code 19: constraint failed
感谢大佬:https://www.cnblogs.com/flintlovesam/p/5241866.html (https://www.cnblogs.com/flintlovesam/p/524 ...
- TestNG--@Factory
原文地址:http://blog.csdn.net/wanghantong TestNg的@Factory注解从字面意思上来讲就是采用工厂的方法来创建测试数据并配合完成测试 其主要应对的场景是:对于某 ...