通过scrapy内置的ImagePipeline下载图片到本地、并提取本地保存地址

1.通过scrapy内置的ImagePipeline下载图片到本地

1）在settings.py中打开 ITEM_PIPELINES 的注释，在 ITEM_PIPELINES 中加入

ITEM_PIPELINES = {

   'spider_first.pipelines.SpiderFirstPipeline': 300,
   'scrapy.pipelines.images.ImagesPipeline':5,   #后面的数字代表执行优先级 ，当执行pipeine的时候会按照数字由小到大执行 
}

2）settings.py中加入

IMAGES_URLS_FIELD ="image_url"  #image_url是在items.py中配置的网络爬取得图片地址
#配置保存本地的地址
project_dir=os.path.abspath(os.path.dirname(__file__))  #获取当前爬虫项目的绝对路径
IMAGES_STORE=os.path.join(project_dir,'images')  #组装新的图片路径

　还有很多设置有特殊需要的话可以用哦（详情可以去imagepipeine源码查看）

IMAGES_MIN_HEIGHT=100 #设定下载图片的最小高度

IMAGES_MIN_WIDTH=100　　#设定下载图片的最小宽度

........

可能报错：

ModuleNotFoundError: No module named 'PIL'

安装pillow库即可
pip install pillow

启动爬虫，即可images文件夹下看到下载的图片

2.获取图片保存本地的地址

1是下载图片，如果想获取图片保存本地的地址，则需要重写ImagesPipeline，并且在setting中调用重写的pipeline

#既然要重写，记得提前引入
from scrapy.pipelines.images import ImagesPipeline

class ArticleImagePipeline(ImagesPipeline):
# 重载ImagePipeline中的item_completed方法，获取下载地址
def item_completed(self, results, item, info):

　 for ok,value in results: #通过断点可以看到图片路径存在results内

　　　　image_file_path=value['path'] #将路径保存在item中返回

　　　　item['front_image_path']=image_file_path
　　return item

通过scrapy内置的ImagePipeline下载图片到本地、并提取本地保存地址的更多相关文章

Scrapy框架学习 - 使用内置的ImagesPipeline下载图片
需求分析需求:爬取斗鱼主播图片,并下载到本地思路: 使用Fiddler抓包工具,抓取斗鱼手机APP中的接口使用Scrapy框架的ImagesPipeline实现图片下载ImagesPipeline实 ...
scrapy中的ImagePipeline下载图片到本地、并提取本地的保存地址
通过scrapy内置到ImagePipeline下载图片到本地在settings中打开 ITEM_PIPELINES的注释,并在这里面加入 'scrapy.pipelines.images.Imag ...
第三百四十一节，Python分布式爬虫打造搜索引擎Scrapy精讲—编写spiders爬虫文件循环抓取内容—meta属性返回指定值给回调函数—Scrapy内置图片下载器
第三百四十一节,Python分布式爬虫打造搜索引擎Scrapy精讲—编写spiders爬虫文件循环抓取内容—meta属性返回指定值给回调函数—Scrapy内置图片下载器编写spiders爬虫文件循环 ...
二十 Python分布式爬虫打造搜索引擎Scrapy精讲—编写spiders爬虫文件循环抓取内容—meta属性返回指定值给回调函数—Scrapy内置图片下载器
编写spiders爬虫文件循环抓取内容 Request()方法,将指定的url地址添加到下载器下载页面,两个必须参数, 参数: url='url' callback=页面处理函数使用时需要yield ...
使用Scrapy自带的ImagesPipeline下载图片，并对其进行分类。
ImagesPipeline是scrapy自带的类,用来处理图片(爬取时将图片下载到本地)用的. 优势: 将下载图片转换成通用的JPG和RGB格式避免重复下载缩略图生成图片大小过滤异步下载 . ...
iOS使用自定义字体的方法(内置和任意下载ttf\otf\ttc字体文件)
最近做了个有关阅读的应用,使用了自定义字体,学习了一下这方面的知识. 1.首先是最简单也普遍的做法,打包内置字符库文件: 把字体库文件添加到工程,如font1.ttf添加到工程,然后在工程plist添 ...
使用python内置库pytesseract实现图片验证码的识别
环境准备: 1.安装Tesseract模块 git文档地址:https://digi.bib.uni-mannheim.de/tesseract/ 下载后就是一个exe安装包,直接右击安装即可,安装完 ...
（二）scrapy 中如何自定义 pipeline 下载图片
这里以一个很简单的小爬虫为例,爬取壹心理网站的阅读页面第一页的所有文章及其对应的图片,文章页面如下: 创建项目首先新建一个 scrapy 项目,安装好相关依赖(步骤可参考:scrapy 安装及新 ...
LcdTools如何导出内置画面为bmp图片
运行LcdTools,先设置好图片所需分辨率参数,点击"画面设置"栏,修改下图所示参数点击"画面设置"栏,在"画面资源"栏找到需要导出的画 ...

随机推荐

perl中设置POST登录时的重定向
默认地, perl提交post登录时是不会重定向的要让它重定向, 可以用如下方法: my $cookie = HTTP::Cookies->new(); push @{$ua->requ ...
第一章: 文件句柄转化为 typeglob/glob 与文件句柄检测
#为了使在子例程中传递文件句柄不出问题 #我们要把文件句柄转为glob或typeglob #转为glob $fd = *MY_FILE; #转为typeblog $fd = \*MY_FILE; #两 ...
[Leetcode Week15]Populating Next Right Pointers in Each Node II
Populating Next Right Pointers in Each Node II 题解原创文章,拒绝转载题目来源:https://leetcode.com/problems/popul ...
关于might_sleep的一点说明【转】
转自:http://blog.csdn.net/chen_chuang_/article/details/48462575 这个函数我在看代码时基本上是直接忽略的(因为我知道它实际上不干什么事),不过 ...
1003: FFF团的情侣活动--课程作业--找出N个数字中唯一出现奇数次的数
1003: FFF团的情侣活动 Time Limit: 1 Sec Memory Limit: 2 MB Description 圣诞节快到了,Water作为大FFF团团长,组织许多对情侣进行电影院 ...
service XXX start启动报start: Rejected send message, 1 matche
转,原文地址:http://blog.sina.com.cn/s/blog_56d8ea9001018w1l.html [问题]start: Rejected send messag现象:crifan ...
C#判断目录是否为隐藏
判断方法: DirectoryInfo di = new DirectoryInfo(path); if ((di.Attributes & FileAttributes.Hidden) == ...
P4819 [中山市选]杀人游戏
题目描述一位冷血的杀手潜入Na-wiat,并假装成平民.警察希望能在NN个人里面,查出谁是杀手.警察能够对每一个人进行查证,假如查证的对象是平民,他会告诉警察,他认识的人,谁是杀手,谁是平民.假如查 ...
JAVA中静态块、静态变量加载顺序详解
http://blog.csdn.net/mrzhoug/article/details/51581994 一般顺序:静态块(静态变量)——>成员变量——>构造方法——>静态方法
Django在根据models生成数据库表时报错
报错信息: E:\Python\s6day103>python manage.py makemigrations Traceback (most recent call last): File ...

通过scrapy内置的ImagePipeline下载图片到本地、并提取本地保存地址

通过scrapy内置的ImagePipeline下载图片到本地、并提取本地保存地址的更多相关文章

随机推荐

热门专题