scrapy--matplotlib

　　昨天晚上看了一些关于保存文件的相关资料,早早的睡了,白天根据网上查找的资料,自己再捡起来.弄了一上午就爬取出来了,开心!!!好吧,让我们开始

老规矩,先上图。大家也赶快行动起来

分类文件:

文件内coding.py

1.matlib.py

# -*- coding: utf-8 -*-

import scrapy

from scrapy.linkextractors import LinkExtractor

from Matlib.items import MatlibItem

import pdb

class MatlibSpider(scrapy.Spider):

    name = 'matlib'

    allowed_domains = ['matplotlib.org']

    start_urls = ['https://matplotlib.org/examples/index.html']

    def parse(self, response):

        #le = LinkExtractor(restrict_css='div.toctree-wrapper.compound li.toctree-l2')

        le = LinkExtractor(restrict_css='div.toctree-wrapper.compound li.toctree-l1', deny='/index.html$')

        for link in le.extract_links(response):

            yield scrapy.Request(link.url,callback=self.parse_url)

    def parse_url(self,response):

        sel = response.css('a.reference.external::attr(href)').extract()[0]

        url = response.urljoin(sel)

        mpl = MatlibItem()

        #mpl['files_url'] = [url]

        #pdb.set_trace()

        mpl['files_url'] = url.encode('utf-8')

        #return mpl

        yield mpl

2.items.py

import scrapy

class MatlibItem(scrapy.Item):

    files_url = scrapy.Field()

    files     = scrapy.Field()

3.pipelines.py# -*- coding: utf-8 -*-



# Define your item pipelines here

#

# Don't forget to add your pipeline to the ITEM_PIPELINES setting

# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html

import scrapy

from scrapy.pipelines.files import FilesPipeline

import urlparse

from os.path import basename,dirname,join

import pdb

class MyFilePipeline(FilesPipeline):

    def get_media_requests(self,item,info):    #调用这个方法,爬虫才能保存文件!!

        #for file in item['files_url']:

            #yield scrapy.Request(file.encode('utf-8'))

        yield scrapy.Request(item['files_url'])

　　

    '''

    def file_path(self, request, response=None, info=None):    #重写文件名,和路径

        split_url = str(request.url).split('/')

        kind_name = split_url[-2]

        file_name = split_url[-1]

        return '%s/%s' % (kind_name, file_name)

    '''
    def file_path(self,request,response=None,info=None):
        path=urlparse.urlparse(request.url).path
　　　　 return join(basename(dirname(path)),basename(path))

4.settings.py(其他和我之前发表的一样,大家可以去查找下)

ITEM_PIPELINES = {

    #'Matlib.pipelines.MatlibPipeline': 200,

    'Matlib.pipelines.MyFilePipeline': 2,

    #'scrapy.pipelines.files.FilesPipeline': 1,

}

遇到的问题:

　　1.matlib.py

　　　　1.url = response.urljoin(sel) :url需要解码才能在pipelines.py/scrapy.Request(item[''files_url]) 中运行下载

　　2.pipelines.py:

　　　　1.未重写文件名,会自动保存为checksum名,

　　　　　　'checksum': '715610c4375a1d749bc26b39cf7e7199',
　　　　　　'path': 'animation/bayes_update.py',
　　　　　　'url': 'https://matplotlib.org/examples/animation/bayes_update.py'}],

　　　　2.def get_media_requests(self,item,info): 调用这个函数,文件才能下载!!!看其他人重写路径的时候,没有调用这个函数,误导了我很久

如果有小伙伴,遇到了其他问题,欢迎留言,大家一起进步

scrapy--matplotlib的更多相关文章

scrapy实例matplotlib脚本下载
利用scrapy框架实现matplotlib实例脚本批量下载至本地并进行文件夹分类:话不多说上代码: 首先是爬虫代码: import scrapy from scrapy.linkextractors ...
win7下matplotlib安装（64位）
前段时间爬了一些数据,想着以后要将数据的分析结果什么的展示出来,就想着下个MATLAB,某天在微信上的一篇文章发现matplotlib库,是用于Python的一个不错的图形化库,就想着装上耍耍.不过安 ...
Python爬虫入门教程 37-100 云沃客项目外包网数据爬虫 scrapy
爬前叨叨 2019年开始了,今年计划写一整年的博客呢~,第一篇博客写一下一个外包网站的爬虫,万一你从这个外包网站弄点外快呢,呵呵哒数据分析官方网址为 https://www.clouderwor ...
Python爬虫入门教程 38-100 教育部高校名单数据爬虫 scrapy
爬前叨叨今天要爬取一下正规大学名单,这些名单是教育部公布具有招生资格的高校名单,除了这些学校以外,其他招生的单位,其所招学生的学籍.发放的毕业证书国家均不予承认,也就是俗称的野鸡大学! 网址是 ht ...
Scrapy爬取猫眼《复仇者联盟4终局之战》影评
一.分析首先简单介绍一下Scrapy的基本流程: 引擎从调度器中取出一个链接(URL)用于接下来的抓取引擎把URL封装成一个请求(Request)传给下载器下载器把资源下载下来,并封装成应答包( ...
python爬虫之scrapy文件下载
我们在写普通脚本的时候,从一个网站拿到一个文件的下载url,然后下载,直接将数据写入文件或者保存下来,但是这个需要我们自己一点一点的写出来,而且反复利用率并不高,为了不重复造轮子,scrapy提供很流 ...
scrapy爬取知乎问答
登陆参考 https://github.com/zkqiang/Zhihu-Login # -*- coding: utf-8 -*- import scrapy import time impor ...
scrapy 登陆知乎
参考 https://github.com/zkqiang/Zhihu-Login # -*- coding: utf-8 -*- import scrapy import time import r ...
PyCharm+Scrapy爬取安居客楼盘信息
一.说明 1.1 开发环境说明开发环境--PyCharm 爬虫框架--Scrapy 开发语言--Python 3.6 安装第三方库--Scrapy.pymysql.matplotlib 数据库--M ...
使用scrapy爬取dota2贴吧数据并进行分析
一直好奇贴吧里的小伙伴们在过去的时间里说的最多的词是什么,那我们就来抓取分析一下贴吧发文的标题内容,并提取分析一下,看看吧友们在说些什么. 首先我们使用scrapy对所有贴吧文章的标题进行抓取 scr ...

随机推荐

jquery截取、判断字符串的长度，中英文都可
计算字符串的长度(一个双字节字符长度计2,ASCII字符计1) String.prototype.len=function(){return this.replace([^\x00-\xff]/g,& ...
C#中实现输入汉字获取其拼音（汉字转拼音）的2种方法
主要介绍了C#中实现输入汉字获取其拼音(汉字转拼音)的2种方法,本文分别给出了使用微软语言包.手动编码实现两种实现方式,需要的朋友可以参考下本文刚发布时,只写了一个实现方式,使用的是微软的语言包,但 ...
Unity C# 使用JsonUtility读写Json文件
本文原创,转载请注明出处:http://www.cnblogs.com/AdvancePikachu/p/7146731.html 今天,为大家分享一下unity上的Json序列化,应该一说到这个词语 ...
C#设计模式——单例
单例模式是设计模式中最简单的形式之一.这一模式的目的是使得类的一个对象成为系统中的唯一实例.对于系统中的某些类来说,只有一个实例很重要,例如,一个系统中可以存在多个打印任务,但是只能有一个正在工作的任 ...
让GIt忽略SSL证书错误的方法
当你通过HTTPS访问Git远程仓库,如果服务器的SSL证书未经过第三方机构签署,那么Git就会报错.这是十分合理的设计,毕竟未知的没有签署过的证书意味着很大安全风险.但是,如果你正好在架设Git服务 ...
IDEA 生成 JPA实体类
文章目录1.创建工程2.连接数据源3.生成`JPA`实体类4.生成实体类结果1.创建工程使用Maven来构建工程,为了简化创建步骤创建一个新工程不包含任何Maven模板,[按需添加] 命名 Grou ...
springboot Aop配置，并使用自定义注解annotation，并且拦截service层
前言用Spring Boot的AOP来简化处理自定义注解,并将通过实现一个简单的方法执行判断节点是否开始的状态示列源码. AOP概念面向侧面的程序设计(aspect-oriented progra ...
Android学习笔记4——Activity详解
在 Android 开发过程中,与程序员打交道最多的应该就是作为四大组件之一的 Activity 了.接下来我们就一起来揭开 Activity 的神秘面纱吧~ 一.概述什么是 Activity(活动 ...
VOS落地网关前缀优先级
问题描述: 假如:A客户业务方向:酒水B客户业务方向:增值酒水业务网关前缀:9150增值业务网关前缀:660 公司原来落地全跑酒水量9150前缀,但B客户加入后公司又不想添加新的落地网关,计划在原来网 ...
anaconda添加源(channels)
如果使用environment.yml下载conda环境时,系统很慢,那么可以增加其他的下载源: - https://conda.anaconda.org/menpo - https://mirror ...

scrapy--matplotlib

scrapy--matplotlib的更多相关文章

随机推荐

热门专题