scrapy实例matplotlib脚本下载

利用scrapy框架实现matplotlib实例脚本批量下载至本地并进行文件夹分类；话不多说上代码：

首先是爬虫代码：

import scrapy

from scrapy.linkextractors import LinkExtractor

from urllib.parse import urljoin

from ..items import MatplotlibExamplesItem

class MatExamplesSpider(scrapy.Spider):

    name = 'mat_examples'

    # allowed_domains = ['matplotlib.org']

    start_urls = ['https://matplotlib.org/gallery/index.html']

    def parse(self, response):

        le = LinkExtractor(restrict_xpaths='//span[contains(@class, "caption-text")]/a[contains(@class, "reference internal")]')

        links = le.extract_links(response)

        for link in links:

            yield scrapy.Request(link.url, callback=self.parse_mat)



    def parse_mat(self, response):

        href = response.xpath('//div[contains(@class, "docutils container")]/a/@href').extract_first()

        # print('href:', href)

        url = response.urljoin(href)

        # print('url:', url)

        example = MatplotlibExamplesItem()

        example['file_urls'] = [url]

        return example

分析代码：

parse函数主要为了获取初始url中的所有实例所在页面的url，通过yield输出scrapy.Request中的callback来调用parse_mat函数，下面继续介绍parse_mat函数的作用；

le = LinkExtractor(restrict_xpaths='//span[contains(@class, "caption-text")]/a[contains(@class, "reference internal")]')

此处代码主要是为了获取单个实例代码所在页面链接，如下图示：

parse_mat函数主要是为了获取每个实例所在的下载链接，并存入item中返回至pipelines中进行下载；

href = response.xpath('//div[contains(@class, "docutils container")]/a/@href').extract_first() ---通过xpath规则获取对应的下载链接；

url = response.urljoin(href) ---通过urljoin方法将链接补全；

example = MatplotlibExamplesItem()

example['file_urls'] = [url] ----存入item中返回

下图为显示下载链接所在页面位置，便于使用xpath规则获取链接；

接下来写pipelines代码，具体代码如下：

from scrapy.pipelines.files import FilesPipeline

from urllib.parse import urlparse

from os.path import basename, dirname, join

class MatplotlibExamplesFilesPipeline(FilesPipeline):

    """docstring for Matploitem, spiderbExamplesFilesPipeline"""

    def file_path(self, request, response=None, info=None):

        # print('rl:', request.url)

        path = urlparse(request.url).path

        print('path', path)

        # return join(basename(dirname(path)), basename(path))

        return join(basename(path).split('.')[0], basename(path))

通过重写file_path方法保存下载文件，至于文件下载的文件或者路径可在setting中配置；

分析代码：

path = urlparse(request.url).path ---通过urlparse方法将url进行分解，以下用实例进行介绍该方法的输出：

实例1：介绍urlparse方法的输出

实例2:介绍basename与dirname方法的输出

return join(basename(path).split('.')[0], basename(path))

由于获取的下载链接：https://matplotlib.org/_downloads/2d6b8e81608ecb4383d20d5637cff5f8/arctest.py

所以basename(dirname(path))得到的是一串’2d6b8e81608ecb4383d20d5637cff5f8‘哈希值，于是就直接用basename(path).split('.')[0]为文件夹的名字

接下来写上简单的item的代码（这个代码最简单了，就是写url和file）：

import scrapy

class MatplotlibExamplesItem(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    file_urls = scrapy.Field()

    files = scrapy.Field()

最后贴上setting的代码：

BOT_NAME = 'matplotlib_examples'   

SPIDER_MODULES = ['matplotlib_examples.spiders']

NEWSPIDER_MODULE = 'matplotlib_examples.spiders'

ITEM_PIPELINES = {

    # 'scrapy.pipelines.files.FilesPipeline':1,

    'matplotlib_examples.pipelines.MatplotlibExamplesFilesPipeline':1,

}

FILES_STORE = 'result'

# Obey robots.txt rules

ROBOTSTXT_OBEY = False

# Disable cookies (enabled by default)

COOKIES_ENABLED = False

# Override the default request headers:

DEFAULT_REQUEST_HEADERS = {

  'user-agent' : 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'

}

'BOT_NAME' ----爬虫项目名称；一般进行新建scrapy爬虫后都自动写入了；

'ITEM_PIPELINES ' ---此处记得改为自己写的pipelines类名；

'FILES_STORE' ---此处为下载文件所在的文件夹；

其他的配置就基本了；例如是否遵循robots.txt协议，是否用cookies，user-agent改为与浏览器相同，这些都是为了避免被‘ban’；

最后的最后附上项目：

scrapy实例matplotlib脚本下载的更多相关文章

爬虫入门六总结资料与Scrapy实例-bibibili番剧信息
title: 爬虫入门六总结资料与Scrapy实例-bibibili番剧信息 date: 2020-03-16 20:00:00 categories: python tags: crawler ...
10个提供免费PHP脚本下载的网站
本文将重点介绍10个PHP脚本的免费资源下载站.之前推荐 <16个下载超酷脚本的热门网站>,这些网站除了PHP脚本,还有JavaScript.Java.Perl.ASP等脚本.如果你已是脚 ...
Python爬虫框架Scrapy实例（三）数据存储到MongoDB
Python爬虫框架Scrapy实例(三)数据存储到MongoDB任务目标:爬取豆瓣电影top250,将数据存储到MongoDB中. items.py文件复制代码# -*- coding: utf-8 ...
第三百四十一节，Python分布式爬虫打造搜索引擎Scrapy精讲—编写spiders爬虫文件循环抓取内容—meta属性返回指定值给回调函数—Scrapy内置图片下载器
第三百四十一节,Python分布式爬虫打造搜索引擎Scrapy精讲—编写spiders爬虫文件循环抓取内容—meta属性返回指定值给回调函数—Scrapy内置图片下载器编写spiders爬虫文件循环 ...
第三百二十五节，web爬虫，scrapy模块标签选择器下载图片，以及正则匹配标签
第三百二十五节,web爬虫,scrapy模块标签选择器下载图片,以及正则匹配标签标签选择器对象 HtmlXPathSelector()创建标签选择器对象,参数接收response回调的html对象需 ...
python爬虫脚本下载YouTube视频
python爬虫脚本下载YouTube视频爬虫 python YouTube视频工作环境: python 2.7.13 pip lxml, 安装 pip install lxml,主要用xpath ...
二十 Python分布式爬虫打造搜索引擎Scrapy精讲—编写spiders爬虫文件循环抓取内容—meta属性返回指定值给回调函数—Scrapy内置图片下载器
编写spiders爬虫文件循环抓取内容 Request()方法,将指定的url地址添加到下载器下载页面,两个必须参数, 参数: url='url' callback=页面处理函数使用时需要yield ...
python脚本下载 Google Driver 文件
使用python脚本下载 Google Driver 文件 import yaml import sys import requests import os import re import tarf ...
Python爬虫框架Scrapy实例（四）下载中间件设置
还是豆瓣top250爬虫的例子,添加下载中间件,主要是设置动态Uesr-Agent和代理IP Scrapy代理IP.Uesr-Agent的切换都是通过DOWNLOADER_MIDDLEWARES进行控 ...

随机推荐

struts2 全局拦截器，显示请求方法和參数
后台系统中应该须要一个功能那就是将每一个请求的url地址和请求的參数log出来,方便系统调试和bug追踪,使用struts2时能够使用struts2的全局拦截器实现此功能: import java.u ...
小贝_mysql sql语句优化过程
sql语句优化一.SQL优化的一般步骤 (1).通过show status命令了解各种SQL的运行频率. (2).定位运行效率较低的SQL语句-(重点select) (3).通过explain分析低 ...
luogu2346 四子连棋
题目大意在一个4*4的棋盘上摆放了14颗棋子,其中有7颗白色棋子,7颗黑色棋子,有两个空白地带,任何一颗黑白棋子都可以向上下左右四个方向移动到相邻的空格,这叫行棋一步,黑白双方交替走棋,任意一方可以 ...
[Android]通过adb shell input上报命令模拟屏幕点击事件【转】
本文转载自:http://blog.csdn.net/yuanzihui/article/details/52871652 常用的 input上报命令: input text 1234 实际向界面注入 ...
B1826 [JSOI2010]缓存交换贪心+离散化+堆
这个题仔细一想可以直接贪心做,因为队列里下一个出现的早的一定最优.正确性显然.然后我只拿了50,我直接模拟另一个队列暴力修改最后一个点的nxt值,自然会T.但是其实不用修改,直接插入就行了前面的不影响 ...
POJ 1635 Subway tree systems 有根树的同构
POJ 1635 题目很简单给个3000节点以内的根确定的树判断是否同构.用Hash解决,类似图的同构,不过效率更高. #include<iostream> #include<c ...
java静态代理实例
package test; class ProxyTest { public static void main(String[] args) { ProxyClass proxy = new Prox ...
Java Socket编程深入讲解？你之前真的学懂了吗
很多人学习Socket往往会碰到这样哪样的问题,可以看看下面,加深理解.能看懂多少看懂多少. Socket是Java网络编程的基础,了解还是有好处的,这篇文章主要讲解Socket的基础编程.Socke ...
SharePoint通过IP地址访问
问题:SP站点通过计算机名称可以访问,但不能通过IP地址访问解决方案:打开SharePoint2010管理中心>应用程序管理>配置备用访问映射>编辑公用 URL 备用访问映射集:选 ...
HDFS你一定要知道，要考的
你肯定听过Hadoop,对就是那头奔跑的小象. Hadoop作为大数据时代代表性的解决方案被大家所熟知,它主要包含两部分内容: HDFS分布式文件存储 MapReduce分布式计算框架前面我们分析存 ...

scrapy实例matplotlib脚本下载

scrapy实例matplotlib脚本下载的更多相关文章

随机推荐

热门专题