python爬虫之scrapy文件下载

我们在写普通脚本的时候，从一个网站拿到一个文件的下载url，然后下载，直接将数据写入文件或者保存下来，但是这个需要我们自己一点一点的写出来，而且反复利用率并不高，为了不重复造轮子，scrapy提供很流畅的下载文件方式，只需要随便写写便可用了。

mat.py文件

 # -*- coding: utf-8 -*-

 import scrapy

 from scrapy.linkextractor import LinkExtractor

 from weidashang.items import matplotlib

 class MatSpider(scrapy.Spider):

     name = "mat"

     allowed_domains = ["matplotlib.org"]

     start_urls = ['https://matplotlib.org/examples']

     def parse(self, response):
　　　　　　　#抓取每个脚本文件的访问页面，拿到后下载

         link = LinkExtractor(restrict_css='div.toctree-wrapper.compound li.toctree-l2')

         for link in link.extract_links(response):

             yield scrapy.Request(url=link.url,callback=self.example)

     def example(self,response):
　　　　　　#进入每个脚本的页面，抓取源码文件按钮，并和base_url结合起来形成一个完整的url

         href = response.css('a.reference.external::attr(href)').extract_first()

         url = response.urljoin(href)

         example = matplotlib()

         example['file_urls'] = [url]

         return example

pipelines.py

 class MyFilePlipeline(FilesPipeline):

     def file_path(self, request, response=None, info=None):

         path = urlparse(request.url).path

         return join(basename(dirname(path)),basename(path))

settings.py

 ITEM_PIPELINES = {

    'weidashang.pipelines.MyFilePlipeline': 1,

 }

 FILES_STORE = 'examples_src'

items.py

class matplotlib(Item):

    file_urls = Field()

    files = Field()

run.py

 from scrapy.cmdline import execute

 execute(['scrapy', 'crawl', 'mat','-o','example.json'])

python爬虫之scrapy文件下载的更多相关文章

教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http://www.xiaohuar.com/,让你体验爬取校花的成就感. Scr ...
【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http:/ ...
Linux 安装python爬虫框架 scrapy
Linux 安装python爬虫框架 scrapy http://scrapy.org/ Scrapy是python最好用的一个爬虫框架.要求: python2.7.x. 1. Ubuntu14.04 ...
Python爬虫框架Scrapy实例（三）数据存储到MongoDB
Python爬虫框架Scrapy实例(三)数据存储到MongoDB任务目标:爬取豆瓣电影top250,将数据存储到MongoDB中. items.py文件复制代码# -*- coding: utf-8 ...
《Python3网络爬虫开发实战》PDF+源代码+《精通Python爬虫框架Scrapy》中英文PDF源代码
下载:https://pan.baidu.com/s/1oejHek3Vmu0ZYvp4w9ZLsw <Python 3网络爬虫开发实战>中文PDF+源代码下载:https://pan. ...
Python爬虫框架Scrapy教程(1)—入门
最近实验室的项目中有一个需求是这样的,需要爬取若干个(数目不小)网站发布的文章元数据(标题.时间.正文等).问题是这些网站都很老旧和小众,当然也不可能遵守 Microdata 这类标准.这时候所有网页 ...
0.Python 爬虫之Scrapy入门实践指南（Scrapy基础知识）
目录 0.0.Scrapy基础 0.1.Scrapy 框架图 0.2.Scrapy主要包括了以下组件: 0.3.Scrapy简单示例如下: 0.4.Scrapy运行流程如下: 0.5.还有什么? 0. ...
《精通Python爬虫框架Scrapy》学习资料
<精通Python爬虫框架Scrapy>学习资料百度网盘:https://pan.baidu.com/s/1ACOYulLLpp9J7Q7src2rVA
初识python爬虫框架Scrapy
Scrapy,按照其官网(https://scrapy.org/)上的解释:一个开源和协作式的框架,用快速.简单.可扩展的方式从网站提取所需的数据. 我们一开始上手爬虫的时候,接触的是urllib.r ...

随机推荐

重新安装liteide后无法关联.go文件的解决办法（及更改liteide配色方案）
现象:双击.go文件,从打开方式中选择新安装的liteide.exe无效. 解决办法: 打开regedit 找到HKCU\Software\Classes\go_auto_file 发现下面有shel ...
转://Window下安装Oracle ASM单实例数据库
之前做的Oracle ASM实验都是基于Linux或者Unix操作系统的,最近想试试如何在Windows环境下使用Oracle ASM.本文介绍如何在windows下创建裸设备,并创建ASM磁盘组以及 ...
leetCode练习1
代码主要采用C#书写题目: 给定一个整数数组 nums 和一个目标值 target,请你在该数组中找出和为目标值的那两个整数,并返回他们的数组下标. 你可以假设每种输入只会对应一个答案.但是,你 ...
004_浅析Python的GIL和线程安全
在这里我们将介绍Python的GIL和线程安全,希望大家能从中理解Python里的GIL,以及GIL的前世今生. 对于Python的GIL和线程安全很多人不是很了解,通过本文,希望能让大家对Pytho ...
WiFi-ESP8266入门http(1)-建立服务器，直接发送网
#include <ESP8266WiFi.h> /*** 该工程可以在2.4.0版本esp8266库中运行,没在更高版本库中进行测试 ***/ const char *ssid = &q ...
【转】git-stash用法小结
https://www.cnblogs.com/tocy/p/git-stash-reference.html 缘起今天在看一个bug,之前一个分支的版本是正常的,在新的分支上上加了很多日志没找到原 ...
Windows10下使用python+selenium实现谷歌浏览器的自动控制
第一谷歌浏览器一直是开发人员最喜欢的浏览器,python爬虫在进行抓包时尤其好用,今天为大家带来python+selenium进行自动化控制的安装教程安装selenium windows下在cmd ...
Ubuntu中libprotobuf版本冲突的解决方案
先说解决方法: 因为我出现这个比较奇特,我再下面环境中的第一个项目有这个问题,但是不知道怎么瞎折腾就搞定了,不报这个异常了不论是Qt Creator直接运行Debug或者Release都没问题但是 ...
Winform开发框架之字段权限控制
在我的很多Winform开发项目中(包括混合框架的项目),统一采用了权限管理模块来进行各种权限的控制,包括常规的功能权限(按钮.菜单权限).数据权限(记录的权限),另外还可以进行字段级别的字段权限控制 ...
[翻译] .NET Standard 2.1 公布
[翻译] .NET Standard 2.1 公布原文: Announcing .NET Standard 2.1 校对: Cloud 自从大约一年前发布 .NET Standard 2.0以来,我 ...

python爬虫之scrapy文件下载

python爬虫之scrapy文件下载的更多相关文章

随机推荐

热门专题