scrapy图片-爬取哈利波特壁纸

话不多说，直接开始，直接放上整个程序过程

1、创建工程和生成spiders就不用说了，会用scrapy的都知道。

2、items.py

class HarryItem(scrapy.Item):

    # define the fields for your item here like:

    img_url = scrapy.Field()

    img_name = scrapy.Field()

3、pipelines.py

import os

from  harry.settings import IMAGES_STORE as IMGS

from scrapy.pipelines.images import ImagesPipeline

from scrapy import Request

class HarryPipeline(object):

    def process_item(self, item, spider):

        return item

class HarryDownLoadPipeline(ImagesPipeline):

    def get_media_requests(self, item, info):

        for imgurl in item['img_url']:

            yield Request(imgurl)

#以下代码为自定义图片名称的新增代码

#    def item_completed(self, results, item, info):

#        print ('******the results is********:',results)

#        os.rename(IMGS + '/' + results[0][1]['path'], IMGS + '/' + item['img_name'])

#    def __del__(self):

#            #完成后删除full目录

#            os.removedirs(IMGS + '/' + 'full')

4、settings.py

BOT_NAME = 'harry'

SPIDER_MODULES = ['harry.spiders']

NEWSPIDER_MODULE = 'harry.spiders'

ROBOTSTXT_OBEY = False

IMAGES_URLS_FIELD = "img_url"  # 对应item里面设定的字段，取到图片的url

IMAGES_STORE = 'E:/harrypotter'

ITEM_PIPELINES = {

    'harry.pipelines.HarryDownLoadPipeline': 300,

}

5、最主要的爬虫组件hr.py

# -*- coding: utf-8 -*-

import scrapy

from  harry.items import HarryItem

from scrapy import Request

class HrSpider(scrapy.Spider):

    name = 'hr'

    allowed_domains = ['www.ivsky.com']

    sts=[]

    st='http://www.ivsky.com/bizhi/harry_potter5_v3477/pic_1018'

    for x in range(6,24):

        if x<10:

            sts.append(st+''+str(x)+'.html')

        else:

            sts.append(st+str(x)+'.html')

    start_urls = sts

    def parse(self, response):

        item=HarryItem()

        urls=response.xpath('//div[@id="pic_con"]/div/img[@id="imgis"]/@src').extract()
　　　　
        names=response.xpath('//div[@id="pic_con"]/div/img[@id="imgis"]/@src').extract()[0].split('/')[-1]

　　　　　 item['img_name']=names

　　　　　　print ('links is :--','\n',urls)

        item['img_url']=urls

        yield item

6、执行爬虫

　　进入到工程路径，比如我的是harry这个路径中，执行 scrapy crawl hr #hr 是我设置的爬虫名称

7、总结

　　此次爬虫，有两方面的小收获。

　　收获①这个网站的网页设置很奇怪，用google浏览器F12打开看到图片链接结构是div/div/a/img/@src，但用这个结构去爬取，发现链接都是空的（这也就是我的spiders中故意设置一　　行print ('links is :--','\n',urls)的原因了，可以看到爬取过程的log，图片链接有没有正常爬取到）。所以直接邮件查看网页源代码，发现了猫腻，以下两张图片做对比可以发现实际只有div/div/img/@src这个结构才能真正获取到图片链接。怀疑是网站的程序猿将tag搞错<img> 和</a>配对了，在“查看网页源代码”可以看到是这样。

图片一：F12查看的结构

图片二、右键“查看网页源代码”

　　收获②

如果有些网页是类似下面数字翻页的，而且下一页中的链接不容易提取到的，那么可以用以下将要爬取的图片页面链接全部放置在start_urls这个list中
www.ivsky.com/bizhi/harry_potter5_v3477/pic_101808.html
www.ivsky.com/bizhi/harry_potter5_v3477/pic_101809.html
www.ivsky.com/bizhi/harry_potter5_v3477/pic_101811.html

class HrSpider(scrapy.Spider):

    name = 'hr'

    allowed_domains = ['www.ivsky.com']

    sts=[]

    st='http://www.ivsky.com/bizhi/harry_potter5_v3477/pic_1018'

    for x in range(6,24):

        if x<10:

            sts.append(st+''+str(x)+'.html')

        else:

            sts.append(st+str(x)+'.html')

    start_urls = sts

欢迎大家留言讨论,转载请注明出处。

scrapy图片-爬取哈利波特壁纸的更多相关文章

爬虫07 /scrapy图片爬取、中间件、selenium在scrapy中的应用、CrawlSpider、分布式、增量式
爬虫07 /scrapy图片爬取.中间件.selenium在scrapy中的应用.CrawlSpider.分布式.增量式目录爬虫07 /scrapy图片爬取.中间件.selenium在scrapy ...
scrapy之360图片爬取
#今日目标 **scrapy之360图片爬取** 今天要爬取的是360美女图片,首先分析页面得知网页是动态加载,故需要先找到网页链接规律, 然后调用ImagesPipeline类实现图片爬取 *代码实 ...
使用scrapy框架爬取自己的博文（2）
之前写了一篇用scrapy框架爬取自己博文的博客,后来发现对于中文的处理一直有问题- - 显示的时候 [u'python\u4e0b\u722c\u67d0\u4e2a\u7f51\u9875\u76 ...
[Python_scrapy图片爬取下载]
welcome to myblog Dome地址爬取某个车站的图片 item.py 中 1.申明item 的fields class PhotoItem(scrapy.Item): # define ...
scrapy版本爬取某网站，加入了ua池，ip池，不限速不封号，100个线程爬崩网站
目录 scrapy版本爬取妹子图关键所在下载图片前期准备代理ip池 UserAgent池 middlewares中间件(破解反爬) settings配置正题爬虫保存下载图片 scrapy版 ...
简单的scrapy实战:爬取腾讯招聘北京地区的相关招聘信息
简单的scrapy实战:爬取腾讯招聘北京地区的相关招聘信息简单的scrapy实战:爬取腾讯招聘北京地区的相关招聘信息系统环境:Fedora22(昨天已安装scrapy环境) 爬取的开始URL:ht ...
Python爬虫入门教程 26-100 知乎文章图片爬取器之二
1. 知乎文章图片爬取器之二博客背景昨天写了知乎文章图片爬取器的一部分代码,针对知乎问题的答案json进行了数据抓取,博客中出现了部分写死的内容,今天把那部分信息调整完毕,并且将图片下载完善到代码中 ...
如何提高scrapy的爬取效率
提高scrapy的爬取效率增加并发: 默认scrapy开启的并发线程为32个,可以适当进行增加.在settings配置文件中修改CONCURRENT_REQUESTS = 100值为100,并发设置 ...
scrapy框架爬取笔趣阁完整版
继续上一篇,这一次的爬取了小说内容 pipelines.py import csv class ScrapytestPipeline(object): # 爬虫文件中提取数据的方法每yield一次it ...

随机推荐

【转】android gravity属性和 weight属性
有点忘记这两个属性了,复习一下. 来看这个布局文件 <?xml version="1.0" encoding="utf-8"?> <Linea ...
Nginx启用Gzip压缩js无效的原因
Nginx启用gzip很简单,只需要设置一下配置文件即可完成,可以参考文章Nginx如何配置Gzip压缩功能.不过,在群里常有人提到,他们的网站Gzip压缩虽然成功了,但检测到JS仍然没有压缩成功,这 ...
IIS/IIS Express中遇到的证书问题
上面这幅图大家应该不陌生(觉得陌生的话就不用看下面的内容了,呵呵),再放上中英两段关键字: 根据验证过程,远程证书无效. The remote certificate is invalid accor ...
阅读detection
关于detecion的几篇文章,感觉有必要系统学习一下,并记录一下了,最近看书比较多,文章看得少,赶紧看看吧. FPN:Feature Pyramid Networks for Object Dete ...
Spring的jdbcTemplate 与原始jdbc 整合c3p0的DBUtils 及Hibernate 对比 Spring配置文件生成约束的菜单方法
以User为操作对象 package com.swift.jdbc; public class User { private Long user_id; private String user_cod ...
git(将现有项目加入osChina)
将现有项目加入osChina 在osChina中创建项目注意不要初始化项目.(其实初始化也没有什么问题,可以直接clone到本地,再把项目添加进去就行了,后续操作一样的) 项目现在基本为空,得到项目 ...
用FileReader对象获取图片base64代码并预览
MDN中FileReader的详细介绍: https://developer.mozilla.org/zh-CN/docs/Web/API/FileReader 用FileReader获取图片base ...
[优化]Steamroller-freecodecamp算法题目
晚上在medium看到一篇关于找工作的文章,里面提到一个面试题目--flattening an array(扁平化数组).这我好像在哪看过!应该是freecodecamp里的算法某一题.翻了下博客记录 ...
hdu_1452_Happy 2004 （乘法逆元
Consider a positive integer X,and let S be the sum of all positive integer divisors of 2004^X. Your ...
yii2邮箱发送
yii2 邮件发送 163邮箱 1.在配置文件main-local.php components=>[]里面配置 'mailer' => [ 'class' => 'yii\swi ...

scrapy图片-爬取哈利波特壁纸

scrapy图片-爬取哈利波特壁纸的更多相关文章

随机推荐

热门专题