scrapy基础笔记

公众号原文

公众号排版更友好，建议查看公众号原文

前言

reference: https://www.tutorialspoint.com/scrapy/scrapy_quick_guide.htm

offical doc: http://doc.scrapy.org/en/1.0/intro/tutorial.html

安装

reference: http://doc.scrapy.org/en/1.0/intro/install.html#intro-install

启动个容器安装scrapy(耗时比较长)

root@ubuntu:/home/vickey# docker run -itd --name test-scrapy ubuntu

root@ubuntu:/home/vickey# docker exec -it test-scrapy /bin/bash

root@8b825656f58b:/# apt-get update

...

root@8b825656f58b:/# apt-get install python-dev python-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev

...

root@8b825656f58b:/# pip install scrapy

...

root@8b825656f58b:/# scrapy -v

Scrapy 1.6.0 - no active project

...

还可以直接用本人做好的镜像: vickeywu/scrapy-python3

root@ubuntu:/home/vickey# docker pull vickeywu/scrapy-python3

Using default tag: latest

latest: Pulling from vickeywu/scrapy-python3

Digest: sha256:e1bdf37f93ac7ced9168a7a697576ce905e73fb4775f7cb80de196fa2df5a549

Status: Downloaded newer image for vickeywu/scrapy-python3:latest

root@ubuntu:/home/vickey# docker run -itd --name test-scrapy vickeywu/scrapy-python3

创建项目

reference: http://doc.scrapy.org/en/1.0/intro/tutorial.html#creating-a-project

root@ubuntu:/home/vickey# docker exec -it test-scrapy /bin/bash

root@2fb0da64a933:/# cd /home

root@2fb0da64a933:/home# scrapy startproject test_scrapy

New Scrapy project 'test_scrapy', using template directory '/usr/local/lib/python2.7/dist-packages/scrapy/templates/project', created in:

    /home/test_scrapy

You can start your first spider with:

    cd test_scrapy

    scrapy genspider example example.com

创建项目爬虫

root@2fb0da64a933:/home/test_scrapy# cd test_scrapy/

root@2fb0da64a933:/home/test_scrapy/test_scrapy# scrapy genspider test_spider baidu.com

Created spider 'test_spider' using template 'basic' in module:

  test_scrapy.spiders.test_spider

项目及爬虫文件

概览

root@8b825656f58b:/home# tree -L 2 test_scrapy/

test_scrapy/                                            # Deploy the configuration file

|-- scrapy.cfg                                          # Name of the project

`-- test_scrapy

    |-- __init__.py

    |-- items.py                                        # It is project's items file

    |-- middlewares.py                                  # It is project's pipelines file

    |-- pipelines.py                                    # It is project's pipelines file

    |-- settings.py                                     # It is project's settings file

    `-- spiders

        |-- __init__.py

        `-- test_spider.py                              # It is project's spiders file

2 directories, 6 files

scrapy.cfg

root@2fb0da64a933:/home# cd test_scrapy/                # 进入创建的项目

root@2fb0da64a933:/home/test_scrapy# ls

scrapy.cfg  test_scrapy

root@2fb0da64a933:/home/test_scrapy# cat scrapy.cfg

# Automatically created by: scrapy startproject

#

# For more information about the [deploy] section see:

# https://scrapyd.readthedocs.io/en/latest/deploy.html

[settings]

default = test_scrapy.settings                          # default = 项目名.settings  

[deploy]

#url = http://localhost:6800/

project = test_scrapy                                   # project = 项目名

root@2fb0da64a933:/home/test_scrapy# cd test_scrapy/

root@2fb0da64a933:/home/test_scrapy/test_scrapy# ls     # 创建项目时默认创建的文件

__init__.py  __init__.pyc  items.py  middlewares.py  pipelines.py  settings.py	settings.pyc  spiders

items.py

设置数据库字段

root@2fb0da64a933:/home/test_scrapy/test_scrapy# cat items.py

# -*- coding: utf-8 -*-

# Define here the models for your scraped items

#

# See documentation in:

# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy

class TestScrapyItem(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    pass

middlewares.py(暂忽略)

root@2fb0da64a933:/home/test_scrapy/test_scrapy# cat middlewares.py

# -*- coding: utf-8 -*-

# Define here the models for your spider middleware

#

# See documentation in:

# https://doc.scrapy.org/en/latest/topics/spider-middleware.html

from scrapy import signals

class TestScrapySpiderMiddleware(object):

    # Not all methods need to be defined. If a method is not defined,

    # scrapy acts as if the spider middleware does not modify the

    # passed objects.

    ...

class TestScrapyDownloaderMiddleware(object):

    # Not all methods need to be defined. If a method is not defined,

    # scrapy acts as if the downloader middleware does not modify the

    # passed objects.

    ...

pipelines.py

连接、写入数据库的操作等写在这里(先看模版，之后会给出实例)

root@2fb0da64a933:/home/test_scrapy/test_scrapy# cat pipelines.py

# -*- coding: utf-8 -*-

# Define your item pipelines here

#

# Don't forget to add your pipeline to the ITEM_PIPELINES setting

# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html

class TestScrapyPipeline(object):

    def process_item(self, item, spider):

        return item

settings.py

root@2fb0da64a933:/home/test_scrapy/test_scrapy# cat settings.py|grep -v ^# |grep -v ^$

BOT_NAME = 'test_scrapy'

SPIDER_MODULES = ['test_scrapy.spiders']

NEWSPIDER_MODULE = 'test_scrapy.spiders'

ROBOTSTXT_OBEY = True

项目爬虫文件

reference: https://docs.scrapy.org/en/latest/topics/spiders.html?highlight=filter#scrapy-spider

root@2fb0da64a933:/home/test_scrapy/test_scrapy# cd spiders/

root@2fb0da64a933:/home/test_scrapy/test_scrapy/spiders# ls

__init__.py test_spider.py                              # test.spider.py就是创建的爬虫文件，创建的所有同一项目爬虫都会放在这里

root@2fb0da64a933:/home/test_scrapy/test_scrapy/spiders# cat test_spider.py

# -*- coding: utf-8 -*-

import scrapy

class TestSpiderSpider(scrapy.Spider):                  # 类名为：爬虫名+Spider

    name = 'test_spider'                                # 创建爬虫时定义的爬虫名

    allowed_domains = ['baidu.com']                     # 创建爬虫时定义的爬虫要爬的域名或URL

    start_urls = ['http://baidu.com/']                  # 爬虫要爬取信息的根URL，是个列表类型

    def parse(self, response):

        pass

运行项目爬虫

不带参数运行爬虫

官方文档说需要回到项目顶层目录运行爬虫，但实际上好像不用，只要在项目目录内就行

root@2fb0da64a933:/home/test_scrapy/test_scrapy/spiders# scrapy crawl test_spider

2019-06-26 07:02:52 [scrapy.utils.log] INFO: Scrapy 1.5.0 started (bot: test_scrapy)

......

2019-06-26 07:02:53 [scrapy.core.engine] INFO: Spider closed (finished)

带参数运行爬虫

前提是需要在__init__中先接收该传入参数

root@2fb0da64a933:/home/test_scrapy/test_scrapy/spiders# cat test_spider.py

# -*- coding: utf-8 -*-

import scrapy

class TestSpiderSpider(scrapy.Spider):

    name = 'test_spider'

    allowed_domains = ['baidu.com']

    start_urls = ['http://baidu.com/']

    def __init__(self, group, *args, **kargs):

        super(TestSpiderSpider, self).__init__(*args, **kwargs)

        self.start_urls = ['http://www.example.com/group/%s' % group]

    def parse(self, response):

        pass

root@2fb0da64a933:/home/test_scrapy/test_scrapy/spiders# scrapy crawl test_spider -a group=aa

2019-06-27 03:11:35 [scrapy.utils.log] INFO: Scrapy 1.5.0 started (bot: test_scrapy)

......

2019-06-27 03:11:35 [scrapy.core.engine] INFO: Spider closed (finished)

电影天堂爬虫实战

内容太多，放到下一篇笔记吧

scrapy基础笔记的更多相关文章

Java基础笔记 – Annotation注解的介绍和使用自定义注解
Java基础笔记 – Annotation注解的介绍和使用自定义注解本文由arthinking发表于5年前 | Java基础 | 评论数 7 | 被围观 25,969 views+ 1.Anno ...
php代码审计基础笔记
出处: 九零SEC连接:http://forum.90sec.org/forum.php?mod=viewthread&tid=8059 --------------------------- ...
MYSQL基础笔记（六）- 数据类型一
数据类型(列类型) 所谓数据烈性,就是对数据进行统一的分类.从系统角度出发时为了能够使用统一的方式进行管理,更好的利用有限的空间. SQL中讲数据类型分成三大类:1.数值类型,2.字符串类型和时间日期 ...
MYSQL基础笔记（五）- 练习作业：站点统计练习
作业:站点统计 1.将用户的访问信息记录到文件中,独占一行,记录IP地址 <?php //站点统计 header('Content-type:text/html;charset=utf-8'); ...
MYSQL基础笔记（四）-数据基本操作
数据操作新增数据:两种方案. 1.方案一,给全表字段插入数据,不需要指定字段列表,要求数据的值出现的顺序必须与表中设计的字段出现的顺序一致.凡是非数值数据,到需要使用引号(建议使用单引号)包裹. i ...
MYSQL基础笔记(三)-表操作基础
数据表的操作表与字段是密不可分的. 新增数据表 Create table [if not exists] 表名( 字段名数据类型, 字段名数据类型, 字段n 数据类型 --最后一行不需要加逗号 ...
MYSQL基础笔记（二）-SQL基本操作
SQL基本操作基本操作:CRUD,增删改查将SQL的基本操作根据操作对象进行分类: 1.库操作 2.表操作 3.数据操作库操作: 对数据库的增删改查新增数据库: 基本语法: Create da ...
MYSQL基础笔记(一)
关系型数据库概念: 1.什么是关系型数据库? 关系型数据库:是一种建立在关系模型(数学模型)上的数据库关系模型:一种所谓建立在关系上的模型. 关系模型包含三个方面: 1.数据结构:数据存储的问题,二 ...
JavaScript基础笔记二
一.函数返回值1.什么是函数返回值函数的执行结果2. 可以没有return // 没有return或者return后面为空则会返回undefined3.一个函数应该只返回一种类型的值二.可变 ...

随机推荐

JAVA总结--分布式锁
1.概念分布式锁出现的原因:单体应用单机部署环境下,为了解决多线程并发问题,我们会使用ReentrantLcok或synchronized来解决互斥问题:但业务的需求,单机部署演变成分布式系统后,在 ...
极*Java速成教程 - (3)
Java语言基础访问权限控制 Java是一个面向对象的语言,当你不是它所设计的要面向的对象时,它就不会给你看你不该看到的东西,也就是"访问权限控制". 亲疏有别,才能权限控制包 ...
Collections与Arrays工具类
Collections工具类: 排序操作: void reverse(List list)//反转 void shuffle(List list)//随机排序 void sort(List list) ...
java 注解 Annontation
什么是注解? 对于很多初次接触的开发者来说应该都有这个疑问?Annontation是Java5开始引入的新特征,中文名称叫注解.它提供了一种安全的类似注释的机制,用来将任何的信息或元数据(metada ...
js+css实现点击回到顶部的效果（最低兼容至ie7）
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content ...
C# 判断文件夹与文件是否存在
//在上传文件时经常要判断文件夹是否存在,如果存在就上传文件,否则新建文件夹再上传文件判断语句为 if (System.IO.Directory.Exists(Server.MapPath(&quo ...
c# winfrom程序中 enter键关联button按钮
1,关联按钮上的Key事件在按钮上的keypress,keydown,keyup事件必须要获得焦点,键盘上的键才能有效. private void btnEnt ...
JS中兼容问题的汇总
获取非行内样式的兼容方式 function getStyle(obj,attr){ //获取非行间样式,obj是对象,attr是值 if(obj.currentStyle){ //针对ie获取非行间样 ...
Docker镜像恢复与迁移
首先我们先删除掉 mycentos_new:1.1 镜像(注意先停止并删除所有引用了的容器) docker rmi mycentos_new:1.1 然后执行此命令进行恢复 mycentos_new: ...
Katalon Recorder初探
缘由最近工作中,有大量web页面上的重复操作,实在麻烦,就想利用selenium ide录制出一些操作集合,以便复用.新版本的selenium ide 3目前只支持firefox最新的版本,而且代码 ...

scrapy基础笔记

公众号原文

前言

安装

相关命令

创建项目

创建项目爬虫

项目及爬虫文件

运行项目爬虫

电影天堂爬虫实战

scrapy基础笔记的更多相关文章

随机推荐

热门专题