scrapy入门

  1. 创建一个scrapy项目

    • scrapy startporject mySpider
  2. 生产一个爬虫
    • scrapy genspider itcast "itcast.cn"
  3. 提取数据
    • 完善spider,使用xpath等方法
  4. 保存数据
    • pipeline中保存数据

创建一个scrapy项目

命令:scrapy startproject+<项目名字>

scrapy startproject myspider

使用pipeline

从pipeline的字典形式可以看出来,pipline可以有多个,而且确实pipeline能够定义多个

为什么需要多个pipeline:

1. 可能会有多个spider,不同的pipeline处理不同的item内容

2. 一个spider的内容可能要做不同的操作,比如存入不同的数据库中

注意:

1. pipeline的权重越小优先级越高

2. pipeline中process_item方法名不能修改为其他的名称

loggin 模块的使用

  • scrapy

    • settings中设置LOG_LEVEL="WANRING"
    • settings中设置LOG_FILE="./a.log" # 设置日志保存位置,设置后终端不会显示日志内容
    • import logging,实例化logger的方式在任何文件中使用logger输出

实现翻页请求

通过爬取腾讯招聘的页面的招聘信息,学习如何实现翻页请求

http://hr.tencent.com/position.php

next_page_url = response.xpath("//a[text()='下一页']/@href").extract()
while len(next_page_url) > 0:
yield scrapy.Request(next_page_url, callback=self.parese)
# scrapy.Request能构建一个requests,同时指定提取数据的callback函数

在setting中设置User-Agent:

USER_AGENT = 'User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36 Edge/17.17134'

scrapy.Request知识点:

scrapy.Request(url[, callback, method='GET', header, body, cookies, meta, dont_filter=False])

注:一般文档中方括号中的参数表示可选参数

scrapy.Request常用参数为:

callback:指定传入的url交给哪个解析函数去处理

meta:实现在不同的解析函数中传递数据,meta默认会携带部分信息,比如下载延迟,请求深度等

dont_filter:让scrapy的去重不会过滤当前url.scrapy默认有url去重的功能,对需要重复请求的url有重要用途

Scrapy深入之认识程序debug信息

[scrapy.utils.log] INFO: Overridden setting:自己设置的setting的信息
[scrapy.middleware] INFO: Enabled extensions extensions:启动的扩展,默认有一堆
[scrapy.middleware] INFO: Enabled downloader extensions:启动的下载扩展,默认一堆
[scrapy.middleware] INFO: Enabled spider extensions:启动的爬虫中间件,默认一堆
[scrapy.middleware] INFO: Enabled pipelines extensions:启动的管道
[scrapy.extensions.telnet] DEBUG:爬虫运行的时候能够使用telenet命令对爬虫做一些控制,比如暂停等
[scrapy.statscollectors] INFO: Dumping Scrapy stats:爬虫结束时候的一些统计信息,比如请求响应数量等
[scrapy.core.scraper] DEBUG: Scraped from <200 http://wz.sun0769.com/html/question/201707/340346.shtml>{'content':......} :每次yield item的时候会提示item的内容以及这个item来自的url地址

Scrapy深入之scrapy shell

Scrapy shell是一个交互终端,我们在未启动spider的情况下尝试及调式代码,也可以用来测试Xpath表达式

使用方法:

scrapy shell http://www.itcast.cn/channel/teacher.shtml

response.url:当前响应的url地址

response.request.url:当前响应对应的请求的url地址

response.headers:响应头

response.body:响应体,也就是html代码,默认是byte类型

response.request.headers:当前响应的请求头

scrapy深入之认识setting文件

为什么需要配置文件:

配置文件存放一些公共的变量(比如数据库的地址,账号密码等)

方便自己和别人修改

一般用全大写字母命名变量名 SQL_HOST = '192.168.0.1'

scrapy深入之pipeline使用

import json
class JsonWritePipeline(object): def open_spider(self, spider): # 在爬虫开启的时候执行,仅执行一次
self.file = open(spider.settings.get("SAVE_FILE", "./temp.json"), 'w') def close_spider(self, spider): # 在爬虫关闭的时候执行,仅执行一次
self.file.close() def process_item(self, item, spider):
line = json.dumps(dict(item)) + "\n"
self.file.write(line)
return item # 不return的情况下,另一个权重较低的pipline就不会获取该item

JsonItemExporter和JsonLinesItemExporter:

保存json数据的时候,可以使用这个两个类,让让操作变得更简单

  1. JsonItemExporter:每次把数据添加到内存中,最后统一写入到磁盘中。存储的数据是一个满足json规则的数据。但消耗内存较大。示例代码:
from scrapy.exporters import JsonItemExporter
class QsbkPipeline(object):
def __init__(self):
self.fp = open("duanzi.json", "wb")
self.exporter = JsonItemExporter(self.fp, ensure_ascii=False,encoding='utf-8') def open_spider(self, spider):
print("爬虫开始了。。。") def process_item(self, item, spider):
self.exporter.export_item(item)
return item def close_spider(self, spider):
self.exporter.finish_exporting()
self.fp.close()
print("爬虫结束了")
  1. JsonLinesItemExporter:这个是每次调用export_item的时候就把这个item存储到硬盘中。每次处理数据的时候直接存储到硬盘中,但每一个字典是一行,整个文件不是满足json格式的文件
from scrapy.exporters import JsonLinesItemExpoprter
class QsbkPipline(object):
def __init__(self):
self.fp = open("duanzi.json", 'wb')
self.exporter = JsonLinesItemExporter(self.fp, ensure_ascii=False, encoding='utf-8') def open_spider(self, spider):
print("爬虫开始了。。。") def process_item(self, item, spider):
self.exporter.export_item(item)
return item def close_spider(self, spider):
self.fp.close()
print("爬虫结束了")

scrapy入门使用的更多相关文章

  1. [转]Scrapy入门教程

    关键字:scrapy 入门教程 爬虫 Spider 作者:http://www.cnblogs.com/txw1958/ 出处:http://www.cnblogs.com/txw1958/archi ...

  2. Scrapy入门教程

    关键字:scrapy 入门教程 爬虫 Spider作者:http://www.cnblogs.com/txw1958/出处:http://www.cnblogs.com/txw1958/archive ...

  3. Scrapy入门教程(转)

    关键字:scrapy 入门教程 爬虫 Spider作者:http://www.cnblogs.com/txw1958/出处:http://www.cnblogs.com/txw1958/archive ...

  4. 0.Python 爬虫之Scrapy入门实践指南(Scrapy基础知识)

    目录 0.0.Scrapy基础 0.1.Scrapy 框架图 0.2.Scrapy主要包括了以下组件: 0.3.Scrapy简单示例如下: 0.4.Scrapy运行流程如下: 0.5.还有什么? 0. ...

  5. 2019-03-22 Python Scrapy 入门教程 笔记

    Python Scrapy 入门教程 入门教程笔记: # 创建mySpider scrapy startproject mySpider # 创建itcast.py cd C:\Users\theDa ...

  6. 小白学 Python 爬虫(34):爬虫框架 Scrapy 入门基础(二)

    人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...

  7. 小白学 Python 爬虫(35):爬虫框架 Scrapy 入门基础(三) Selector 选择器

    人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...

  8. 小白学 Python 爬虫(36):爬虫框架 Scrapy 入门基础(四) Downloader Middleware

    人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...

  9. 小白学 Python 爬虫(37):爬虫框架 Scrapy 入门基础(五) Spider Middleware

    人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...

随机推荐

  1. 第十节: 利用SQLServer实现Quartz的持久化和双机热备的集群模式 :

    背景: 默认情况下,Quartz.Net作业是持久化在内存中的,即 quartz.jobStore.type = "Quartz.Simpl.RAMJobStore, Quartz" ...

  2. Django - 模式、简单使用

    著名的MVC模式:所谓MVC就是把web应用分为模型(M),控制器(C),视图(V)三层:他们之间以一种插件似的,松耦合的方式连接在一起. 模型负责业务对象与数据库的对象(ORM) 视图负责与用户的交 ...

  3. linux内存 free命令 buffer cache作用

    free命令用于查看linux内存使用情况 #free shared:用于进程之间相互共享数据. Used:已使用内存. total:内存总量. free:未使用的内存. available:开启一个 ...

  4. 快速查看linux命令的用法----------TLDR

    之前我们如果用一个命令,但是忘了具体的参数是什么的时候,通常会用man,比如 man tar 但是man有时候特别的冗长,你要找到想要的例子非常困难,所以tldr命令就是一个很好的补充,里边会有经常用 ...

  5. .Net IOC框架入门之三 Autofac

    一.简介   Autofac是.NET领域最为流行的IOC框架之一,传说是速度最快的一个 目的 1.依赖注入的目的是为了解耦. 2.不依赖于具体类,而依赖抽象类或者接口,这叫依赖倒置. 3.控制反转即 ...

  6. javaWeb之使用servlet搭建服务器入门

    servlet: 百度百科说法: Servlet(Server Applet)是Java Servlet的简称,称为小服务程序或服务连接器,用Java编写的服务器端程序,主要功能在于交互式地浏览和修改 ...

  7. Python 回溯算法

    回溯算法(试探法) 在搜索尝试过程中寻找问题的解,当发现已不满足求解条件时,就"回溯"返回,尝试别的路径.回溯法是一种选优搜索法,按选优条件向前搜索,以达到目标.但当探索到某一步时 ...

  8. 《剑指offer》数组中出现一半次数的数字

    本题来自<剑指offer> 反转链表 题目: 思路: C++ Code: Python Code: 总结:

  9. 商品规格笛卡尔积PHP

    <?php $color = array('red', 'green'); $size = array(39, 40, 41); $local = array('beijing', 'shang ...

  10. 树上背包O(n*m^2)|| 多叉树转二叉树 || o(n*m)???

    #. 选课 描述 提交 自定义测试 问题描述 在大学里每个学生,为了达到一定的学分,必须从很多课程里选择一些课程来学习,在课程里有些课程必须在某些课程之前学习,如高等数学总是在其它课程之前学习.现在有 ...