scrapy --爬取媒体文件示例详解

scrapy 图片数据的爬取

基于scrapy进行图片数据的爬取:
- 在爬虫文件中只需要解析提取出图片地址，然后将地址提交给管道
- 配置文件中写入文件存储位置：IMAGES_STORE = './imgsLib'
- 在管道文件中进行管道类的制定：
  - 1.from scrapy.pipelines.images import ImagesPipeline
  - 2.将管道类的父类修改成ImagesPipeline
  - 3.重写父类的三个方法

校花网爬取示例

spider.py文件

import scrapy

from imgspider.items import ImgspiderItem

class ImgSpiderSpider(scrapy.Spider):

    name = 'img_spider'

    # allowed_domains = ['www.xxx.com']

    start_urls = ['http://www.521609.com/daxuemeinv/']

    url = 'http://www.521609.com/daxuemeinv/list8%d.html'

    pageNum = 1

    def parse(self, response):

        li_list = response.xpath('//*[@id="content"]/div[2]/div[2]/ul/li')

        # 拼接图片url

        for li in li_list:

            print(self.pageNum)

            img_src = 'http://www.521609.com' + li.xpath('./a[1]/img/@src').extract_first()

            item = ImgspiderItem()

            item['src'] = img_src

            yield item

            if self.pageNum < 3:

                self.pageNum += 1

                new_url = format(self.url % self.pageNum)

                yield scrapy.Request(new_url, callback=self.parse)

pipelines.py文件

import scrapy

from imgspider.items import ImgspiderItem

class ImgSpiderSpider(scrapy.Spider):

    name = 'img_spider'

    # allowed_domains = ['www.xxx.com']

    start_urls = ['http://www.521609.com/daxuemeinv/']

    url = 'http://www.521609.com/daxuemeinv/list8%d.html'

    pageNum = 1

    def parse(self, response):

        li_list = response.xpath('//*[@id="content"]/div[2]/div[2]/ul/li')

        # 拼接图片url

        for li in li_list:

            print(self.pageNum)

            img_src = 'http://www.521609.com' + li.xpath('./a[1]/img/@src').extract_first()

            item = ImgspiderItem()

            item['src'] = img_src

            yield item

            if self.pageNum < 3:

                self.pageNum += 1

                new_url = format(self.url % self.pageNum)

                yield scrapy.Request(new_url, callback=self.parse)

scrapy --爬取媒体文件示例详解的更多相关文章

Python爬虫之爬取淘女郎照片示例详解
这篇文章主要介绍了Python爬虫之爬取淘女郎照片示例详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧本篇目标抓取淘宝MM ...
Python爬虫：爬取喜马拉雅音频数据详解
前言喜马拉雅是专业的音频分享平台,汇集了有声小说,有声读物,有声书,FM电台,儿童睡前故事,相声小品,鬼故事等数亿条音频,我最喜欢听民间故事和德云社相声集,你呢? 今天带大家爬取喜马拉雅音频数据,一 ...
python 爬取媒体文件（使用chrome代理，启动客户端，有防火墙）
#coding = utf-8 ''' 中文转经纬度 ''' import time,json import urllib.request from selenium import webdriver ...
python 爬取媒体文件（无防火墙）
#coding = utf-8 import requests import pandas as pd import os,time root_path = './根目录/' input_file = ...
Scrapy框架——介绍、安装、命令行创建，启动、项目目录结构介绍、Spiders文件夹详解（包括去重规则）、Selectors解析页面、Items、pipelines（自定义pipeline）、下载中间件（Downloader Middleware）、爬虫中间件、信号
一介绍 Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速.简单.可扩展的方式从网站中提取所需的数据.但目前Scrapy的用途十分广泛,可 ...
【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http:/ ...
转 Scrapy笔记（5）- Item详解
Item是保存结构数据的地方,Scrapy可以将解析结果以字典形式返回,但是Python中字典缺少结构,在大型爬虫系统中很不方便. Item提供了类字典的API,并且可以很方便的声明字段,很多Scra ...
在java poi导入Excel通用工具类示例详解
转: 在java poi导入Excel通用工具类示例详解更新时间:2017年09月10日 14:21:36 作者:daochuwenziyao 我要评论这篇文章主要给大家介绍了关于在j ...
史上最全的maven pom.xml文件教程详解
<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/20 ...

随机推荐

运行jar包使用外部依赖
nohup java -Dloader.path="lib/" -Dfile.encoding=utf-8 -jar test.jar > test.out 2>&am ...
Windows server 2008 R2 多用户远程桌面配置详解(超过两个用户)
转至:https://www.jb51.net/article/139542.htm 注意:一下是针对win2008 server r2的操作 1. 创建三个本地管理员测试用户 user01 use ...
CSS/CSS3语法新特性笔记
CSS层叠样式表三大特性层叠性:相同的样式会覆盖继承性:属性可向下继承优先级:范围越小权重越高选择器基础选择器标签选择器 1 body { 2 color:#fff; 3 } 类选择器 ...
Chrome：查看用户代理User-Agent
用户代理(User-Agent)是浏览器客户端与服务器交互时的重要信息之一,用于帮助服务器识别请求用户的浏览器类别,以便于网站发送相应的网页数据. 用户代理数据包括:操作系统标识.加密等级标识和浏览器 ...
logging日志模块、配置字典
logging日志模块知识点很多但是需要掌握的很少(会用即可) import logging # 日志有五个等级(从上往下重要程度不一样) # logging.debug('debug级别') # ...
python的变量与基本数据类型
今日内容 python多版本共存 python的注释 python的变量与常量变量的本质变量的命名规范 python基本数据类型内容详细 python多版本共存先将两个版本的python解释器 ...
MySQL-5.7.29解压版安装教程【全网最新】
作者:北顾箫博客园地址:https://www.cnblogs.com/Aarom 1.下载解压下载地址:https://downloads.mysql.com/archives/communit ...
zookeeper的JAVA API使用
1.创建连接 2.创建节点 3.监听信息 Watcher.class 4.获取节点 Stat stat = new Stat(); zk.getData(Path,true,stat); 5.修改节点 ...
想了解MQ，读这篇就够了
一.简介 MQ全称为Message Queue-消息队列,是一种应用程序对应用程序的消息通信,一端只管往队列不断发布信息,另一端只管往队列中读取消息,发布者不需要关心读取消息的谁,读取消息者不需要关心 ...
Seastar 教程（三）
原文:https://github.com/scylladb/seastar/blob/master/doc/tutorial.md Fiber Seastar 延续通常很短,但经常相互链接,因此一个 ...

scrapy --爬取媒体文件示例详解

scrapy 图片数据的爬取

scrapy --爬取媒体文件示例详解的更多相关文章

随机推荐

热门专题