Python3爬虫（十七） Scrapy框架（一）

Infi-chu:

http://www.cnblogs.com/Infi-chu/

1.框架架构图：

2.各文件功能
scrapy.cfg 项目的配置文件
items.py 定义了Item数据结构，所有Item的定义都可以放在这里
pipelines.py 定义了Item Pipeline的实现
settings.py 定义了项目的全局配置
middlewares.py 定义了spider 中间件和downloader中间件
spiders 每一个爬虫的实现，每一个爬虫对应一个文件

3.创建项目

scrapy startproject 项目名

4.创建爬虫

cd 项目名称

scrapy genspider spider名称 网站域名

创建后会生成一个包含文件名的spider类，其中有三个属性和一个方法
三个属性：
name 每个项目唯一的名字
allow_domains 允许爬取的域名
start_urls 在启动时爬取的URL列表
一个方法：
parse() 默认情况下，被调用start_urls里面的链接构成的请求完成下载执行后，返回的响应就会作为唯一的参数传递给这个函数。这个方法是负责解析返回的响应、提取数据或进一步生成要处理的请求

5.创建Item
Item是保存爬虫的容器，他的使用方法和字典比较类似。
Item需要继承scrapy.Item类且定义类型是scrapy.Field字段。
能获取到的内容有比如有text、author、tags

import scrapy

class spider名Item(scrapy.Item):

    text=scrapy.Field()

	author=scrapy.Field()

	tags=scrapy.Field()

6.解析response
在scrapy.Item类中可以直接对response变量包含的内容进行解析
divclass名.css('.text') 带有此标签的节点
divclass名.css('.text::text') 获取正文内容
divclass名.css('.text').extract() 获取整个列表
divclass名.css('.text::text').extract() 获取整个列表的内容
divclass名.css('.text::text').extract_first() 获取第一个

7.使用Item
对新创建的spider进行改写

import scrapy

from 项目名.item import spider名Item

class spider名Spider(scrapy.Spider):

    name = '爬虫名'

	allow_domains = ["quotes.toscrape.com"]

	start_urls = ["http://quotes.toscrape.com"]

	def parse(self,response):

		r = response.css('.quote')

		for i in r:

		    item = spider名Item()

			item['text']=i.css['.text::text'].extract_first()

			item['author']=i.css['.author::text'].extract_first()

			item['tags']=i.css('.tags .tag::text').extract_first()

			yield item

8.后续request
前面讲了初始页面的抓取，现在讲解之后的页面怎么抓取

class spider名Spider(scrapy.Spider):

    name = '爬虫名'

	allow_domains = ["quotes.toscrape.com"]

	start_urls = ["http://quotes.toscrape.com"]

	def parse(self,response):

		r = response.css('.quote')

		for i in r:

		    item = spider名Item()

			item['text']=i.css['.text::text'].extract_first()

			item['author']=i.css['.author::text'].extract_first()

			item['tags']=i.css('.tags .tag::text').extract_first()

			yield item

		next_page=response.css('.pager .next a::attr("href")').extract_first()

		url=response.urljoin(next_page)

		yield scrapy.Request(url=url,callback=self.parse)	# url是请求链接，callback是回调函数，当指定了回调函数的请求完成之后，获取到响应，引擎将把这个响应作为参数传递给这个回调函数，回调函数将进行解析或生成下一个请求。

9.运行

scrapy crawl spider名

10.保存

#保存到JSON文件

scrapy crawl spider名 -o spider名.json	# 输入

# 输出

scrapy crawl spider名 -o spider名.jl

scrapy crawl spider名 -o spider名.jsonlines

scrapy crawl spider名 -o spider名.csv

scrapy crawl spider名 -o spider名.pickle

scrapy crawl spider名 -o spider名.xml

scrapy crawl spider名 -o spider名.marshal

scrapy crawl spider名 -o ftp://username:password@.../spider名.xml

11.使用Item Pipeline
如果想存入到数据库或筛选有用的Item，此时需要用到我们自己定义的Item Pipeline
我们一般使用Item Pipeline做如下操作
　　清理HTML数据
　　验证爬取数据，检查爬取字段
　　查重并丢弃重复内容
　　将爬取结果保存到数据库
在pipelines.py文件中编写

import pymongo

from scrapy.exceptions import DropItem

class TextPipeline(obj):

    def __init__(self):

	    self.limit=50

	def process_item(self,item,spider):

	    if item['text']:

		    if len(item['text']) > self.limit:

			    item['text'] = item['text'][0:self.limit].rstrip()+'...'

			return item

		else:

			return DropItem('Missing Text')

class MongoPipeline(obj):

    def __init__(self,mongo_uri,mongo_db):

	    self.mongo_uri=mongo_uri

		self.mongo_db=mongo_db

	@classmethod

	def from_crawler(cls,crawl):

	    return cls(

			mongo_uri=crawler.settings.get('MONGO_URI'),

			mongo_db=crawler.settings.get('MONGO_DB')

		)

	def open_spider(self,spider):

		self.client = pymongo.MongoClient(self.mongo_uri)

		self.db = self.client[self.mongo_db]

	def process_item(self,item,spider):

	    name = item.__class__.__name__

		self.db[name].insert(dict(item))

		return item

	def close_spider(self,spider):

	    self.client.close()

在settings.py中编写

ITEM_PIPELINES = {

	'项目名.pipelines.TextPipeline':300,

	'项目名.pipelines.MongoPipeline':400,

}

MONGO_URI = 'localhost'

MONGO_DB = '项目名'

Python3爬虫（十七） Scrapy框架（一）的更多相关文章

Python3 爬虫之 Scrapy 框架安装配置（一）
博客地址:http://www.moonxy.com 基于 Python 3.6.2 的 Scrapy 爬虫框架使用,Scrapy 的爬虫实现过程请参照本人的另一篇博客:Python3 爬虫之 Scr ...
Python3 爬虫之 Scrapy 核心功能实现（二）
博客地址:http://www.moonxy.com 基于 Python 3.6.2 的 Scrapy 爬虫框架使用,Scrapy 的搭建过程请参照本人的另一篇博客:Python3 爬虫之 Scrap ...
Python网络爬虫之Scrapy框架（CrawlSpider）
目录 Python网络爬虫之Scrapy框架(CrawlSpider) CrawlSpider使用爬取糗事百科糗图板块的所有页码数据 Python网络爬虫之Scrapy框架(CrawlSpider) ...
爬虫06 /scrapy框架
爬虫06 /scrapy框架目录爬虫06 /scrapy框架 1. scrapy概述/安装 2. 基本使用 1. 创建工程 2. 数据分析 3. 持久化存储 3. 全栈数据的爬取 4. 五大核心组 ...
Python逆向爬虫之scrapy框架,非常详细
爬虫系列目录目录 Python逆向爬虫之scrapy框架,非常详细一.爬虫入门 1.1 定义需求 1.2 需求分析 1.2.1 下载某个页面上所有的图片 1.2.2 分页 1.2.3 进行下载图片 ...
爬虫之scrapy框架
解析 Scrapy解释 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中.其最初是为了页面抓取 (更确切来说, 网络抓 ...
Python学习---爬虫学习[scrapy框架初识]
Scrapy Scrapy是一个框架,可以帮助我们进行创建项目,运行项目,可以帮我们下载,解析网页,同时支持cookies和自定义其他功能. Scrapy是一个为了爬取网站数据,提取结构性数据而编写的 ...
Python爬虫进阶(Scrapy框架爬虫)
准备工作: 配置环境问题什么的我昨天已经写了,那么今天直接安装三个库首先第一步: ...
爬虫之Scrapy框架介绍
Scrapy介绍 Scrapy是用纯Python实现一个为了爬取网站数据.提取结构性数据而编写的应用框架,用途非常广泛. 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内 ...
16.Python网络爬虫之Scrapy框架（CrawlSpider）
引入提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法 ...

随机推荐

nfs 笔记
问题:客户端在nfs文件目录下读写文件提示Permission denied: 解决方法: 修改/etc/exports 中文件共享方式为 no_root_squash no_root_squash ...
MySQL闪回-binlog2sql
功能提取SQL 生成回滚SQL 限制: mysql server必须开启,离线模式下不能解析binlog. binlog格式必须是row模式. flashback模式只支持DML,DDL将不 ...
bzoj2336 [HNOI2011]任务调度
Description 正解:搜索+随机化. 先写个搜索,枚举所有没有要求的任务属于哪一种任务,然后再用爬山来更新最优解. 具体来说就是先把所有先做任务$A$的按照$a$时间从大到小排序,先做任务$B ...
iOS 人机交互指导方针（iOS Human Interface Guidelines）
iOS 人机交互指导方针(iOS Human Interface Guidelines) 太阳火神的漂亮人生 (http://blog.csdn.net/opengl_es) 本文遵循"署名 ...
sql时间格式转换
sql server2000中使用convert来取得datetime数据类型样式(全) 日期数据格式的处理,两个示例: CONVERT(varchar(16), 时间一, 20) 结果:2007-0 ...
js 实现分享功能
分享功能初步测试,title为当前页面的title. 其他详见注释!!! <!doctype html> <html> <head> <meta http-e ...
mongodb安装（比较全一点）
Linux下MongoDB安装和配置详解转:https://www.cnblogs.com/pfnie/articles/6759105.html 一.创建MongoDB的安装路径在/usr/l ...
【poj Roads in the North】题解
题目链接:http://poj.org/problem?id=2631 求树的直径模板. 定理: 树上任意一个点的在树上的最长路一定以树的直径的两端点其中一点结束. 做法: 两边bfs,第一次先找到n ...
Many-to-many relationships in EF Core 2.0 – Part 4: A more general abstraction
In the last few posts we saw how to hide use of the join entity from two entities with a many-to-man ...
商业化IM 客户端接口设计分析
对于刚接触IM(即时通讯)开发,通过阅读成熟的商业代码能够对即时通讯软件大体上有个认识,比如消息发送,消息接受,消息监听,群聊,单聊,聊天室.我这边直接拿[Gobelieve IM]源码来做剖析.IM ...

Python3爬虫（十七） Scrapy框架（一）

Python3爬虫（十七） Scrapy框架（一）的更多相关文章

随机推荐

热门专题