一个简单的scrapy爬虫抓取豆瓣刘亦菲的图片地址

一.第一步是创建一个scrapy项目

sh-3.2# scrapy startproject liuyifeiImage

sh-3.2# chmod -R 777 liuyifeiImage/

二.分析图片特征

1.解决分页url部分：

我们爬虫的start_url是"http://movie.douban.com/celebrity/1049732/photos/?type=C&start=0&sortby=vote&size=a&subtype=a",

第二页地址是"http://movie.douban.com/celebrity/1049732/photos/?type=C&start=40&sortby=vote&size=a&subtype=a"，

第三页是"http://movie.douban.com/celebrity/1049732/photos/?type=C&start=80&sortby=vote&size=a&subtype=a",能显而易见得到豆瓣图片的分页规则，因此我们的start_urls可以用一个for循环把所有的页面的url放进来。

start_urls = [];

for i in range(0,1120,40):

    start_urls.append('http://movie.douban.com/celebrity/1049732/photos/

    type=C&start=%d&sortby=vote&size=a&subtype=a'%i)

2.解决每一页的图片url部分：

我们在"http://movie.douban.com/celebrity/1049732/photos/?type=C&start=0&sortby=vote&size=a&subtype=a"这一页来分析，审查第一张图片的页面元素

href对应的是每张图的大图地址，而<img src对应的是缩略图地址，我们来看看原图地址链接，

而根据href地址进入的页面图片地址为：

<img src="http://img3.douban.com/view/photo/photo/public/p752034364.jpg">

因此，显而易见，如果想要得到原图地址，只要吧".../view/photo/thumb/public/..."中的"thumb"替换成"photo"或者"raw"即可。

所以spider中的parse部分对应为：

def parse(self,response):
        hxs=HtmlXPathSelector(response)

        sites=hxs.select('//ul/li/div/a/img/@src').extract()
　　　　　for site in sites:
　　　　　　　　＃site=site.replace('thumb','photo')　　　　　　
　　　　　　　　site=site.replace('thumb','raw')

三.保存生成的url列表

在这里用了两种保存方式json和txt

1.先来看看txt保存方式：

f=open('liuyifei_pic_address.txt','wb')

def parse(self,response):

        hxs=HtmlXPathSelector(response)

        sites=hxs.select('//ul/li/div/a/img/@src').extract()

        items=[]

        for site in sites:

            site=site.replace('thumb','raw')

            self.f.write(site)

            self.f.write('\r\n')

2.json保存：

直接在命令行里用参数执行即可：

scrapy crawl liuyifei -o image.json -t json

这样就能把url列表放置在本地文件image.json中，当然，运行scrapy时也是这条命令。

四.接下来，看看这个scrapy的全貌吧，主要修改的文件就是item.py和liuyifei.py(自己创建的spider文件)。

以下是items.py文件

#items.py

from scrapy.item import Item,Field

class LiuyifeiimageItem(Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    ImageAddress = Field()

    pass

以下是liuyifei.py文件：

＃liuyifei.py

from scrapy.spider import BaseSpider

from scrapy.selector import HtmlXPathSelector

from liuyifeiImage.items import LiuyifeiimageItem

'''http://movie.douban.com/celebrity/1049732/photos/'''

class liuyifeiImage(BaseSpider):

    name='liuyifei'

    allowed_domain=["douban.com"]

    start_urls=[]

    f=open('liuyifei_pic_address.txt','wb')

    for i in range(0,1120,40):

        start_urls.append('http://movie.douban.com/celebrity/1049732/photos/?type=C&start=%d&sortby=vote&size=a&subtype=a'%i)

    def parse(self,response):

        hxs=HtmlXPathSelector(response)

        sites=hxs.select('//ul/li/div/a/img/@src').extract()

        items=[]

        for site in sites:

            site=site.replace('thumb','raw')

            self.f.write(site)

            self.f.write('\r\n')

            item=LiuyifeiimageItem()

            item['ImageAddress']=site

            items.append(item)

        return items

最后，运行scrapy,以下是部分打印结果。

sh-3.2# scrapy crawl liuyifei -o image.json -t json

/Users/lsf/PycharmProjects/liuyifeiImage/liuyifeiImage/spiders/liuyifei.py:8: ScrapyDeprecationWarning: liuyifeiImage.spiders.liuyifei.liuyifeiImage inherits from deprecated class scrapy.spider.BaseSpider, please inherit from scrapy.spider.Spider. (warning only on first subclass, there may be others)

  class liuyifeiImage(BaseSpider):

2014-10-04 12:57:37+0800 [scrapy] INFO: Scrapy 0.24.4 started (bot: liuyifeiImage)

2014-10-04 12:57:37+0800 [scrapy] INFO: Optional features available: ssl, http11

2014-10-04 12:57:37+0800 [scrapy] INFO: Overridden settings: {'NEWSPIDER_MODULE': 'liuyifeiImage.spiders', 'FEED_FORMAT': 'json', 'SPIDER_MODULES': ['liuyifeiImage.spiders'], 'FEED_URI': 'image.json', 'BOT_NAME': 'liuyifeiImage'}

2014-10-04 12:57:37+0800 [scrapy] INFO: Enabled extensions: FeedExporter, LogStats, TelnetConsole, CloseSpider, WebService, CoreStats, SpiderState

2014-10-04 12:57:37+0800 [scrapy] INFO: Enabled downloader middlewares: HttpAuthMiddleware, DownloadTimeoutMiddleware, UserAgentMiddleware, RetryMiddleware, DefaultHeadersMiddleware, MetaRefreshMiddleware, HttpCompressionMiddleware, RedirectMiddleware, CookiesMiddleware, ChunkedTransferMiddleware, DownloaderStats

2014-10-04 12:57:37+0800 [scrapy] INFO: Enabled spider middlewares: HttpErrorMiddleware, OffsiteMiddleware, RefererMiddleware, UrlLengthMiddleware, DepthMiddleware

2014-10-04 12:57:37+0800 [scrapy] INFO: Enabled item pipelines:

2014-10-04 12:57:37+0800 [liuyifei] INFO: Spider opened

2014-10-04 12:57:37+0800 [liuyifei] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)

2014-10-04 12:57:37+0800 [scrapy] DEBUG: Telnet console listening on 127.0.0.1:6026

2014-10-04 12:57:37+0800 [scrapy] DEBUG: Web service listening on 127.0.0.1:6083

2014-10-04 12:57:38+0800 [liuyifei] DEBUG: Crawled (200) <GET http://movie.douban.com/celebrity/1049732/photos/?type=C&start=240&sortby=vote&size=a&subtype=a> (referer: None)

/Users/lsf/PycharmProjects/liuyifeiImage/liuyifeiImage/spiders/liuyifei.py:17: ScrapyDeprecationWarning: scrapy.selector.HtmlXPathSelector is deprecated, instantiate scrapy.Selector instead.

  hxs=HtmlXPathSelector(response)

/Users/lsf/PycharmProjects/liuyifeiImage/liuyifeiImage/spiders/liuyifei.py:18: ScrapyDeprecationWarning: Call to deprecated function select. Use .xpath() instead.

  sites=hxs.select('//ul/li/div/a/img/@src').extract()

/Library/Python/2.7/site-packages/Scrapy-0.24.4-py2.7.egg/scrapy/selector/unified.py:106: ScrapyDeprecationWarning: scrapy.selector.HtmlXPathSelector is deprecated, instantiate scrapy.Selector instead.

  for x in result]

2014-10-04 12:57:38+0800 [liuyifei] DEBUG: Scraped from <200 http://movie.douban.com/celebrity/1049732/photos/?type=C&start=240&sortby=vote&size=a&subtype=a>

        {'ImageAddress': u'http://img3.douban.com/view/photo/raw/public/p2179423125.jpg'}

2014-10-04 12:57:38+0800 [liuyifei] DEBUG: Scraped from <200 http://movie.douban.com/celebrity/1049732/photos/?type=C&start=240&sortby=vote&size=a&subtype=a>

        {'ImageAddress': u'http://img3.douban.com/view/photo/raw/public/p2179423105.jpg'}

2014-10-04 12:57:38+0800 [liuyifei] DEBUG: Scraped from <200 http://movie.douban.com/celebrity/1049732/photos/?type=C&start=240&sortby=vote&size=a&subtype=a>

        {'ImageAddress': u'http://img3.douban.com/view/photo/raw/public/p2179423084.jpg'}

...

2014-10-04 13:34:17+0800 [liuyifei] DEBUG: Scraped from <200 http://movie.douban.com/celebrity/1049732/photos/?type=C&start=1040&sortby=vote&size=a&subtype=a>

        {'ImageAddress': u'http://img3.douban.com/view/photo/raw/public/p958573512.jpg'}

2014-10-04 13:34:17+0800 [liuyifei] DEBUG: Scraped from <200 http://movie.douban.com/celebrity/1049732/photos/?type=C&start=1040&sortby=vote&size=a&subtype=a>

        {'ImageAddress': u'http://img5.douban.com/view/photo/raw/public/p958572938.jpg'}

2014-10-04 13:34:17+0800 [liuyifei] INFO: Closing spider (finished)

2014-10-04 13:34:17+0800 [liuyifei] INFO: Stored json feed (1120 items) in: image.json

2014-10-04 13:34:17+0800 [liuyifei] INFO: Dumping Scrapy stats:

        {'downloader/request_bytes': 8331,

         'downloader/request_count': 28,

         'downloader/request_method_count/GET': 28,

         'downloader/response_bytes': 221405,

         'downloader/response_count': 28,

         'downloader/response_status_count/200': 28,

         'finish_reason': 'finished',

         'finish_time': datetime.datetime(2014, 10, 4, 5, 34, 17, 736723),

         'item_scraped_count': 1120,

         'log_count/DEBUG': 1150,

         'log_count/INFO': 8,

         'response_received_count': 28,

         'scheduler/dequeued': 28,

         'scheduler/dequeued/memory': 28,

         'scheduler/enqueued': 28,

         'scheduler/enqueued/memory': 28,

         'start_time': datetime.datetime(2014, 10, 4, 5, 34, 14, 681268)}

2014-10-04 13:34:17+0800 [liuyifei] INFO: Spider closed (finished)

以下是json文件和txt文件：

image.json:

liuyifei_pic_address.txt

一个简单的scrapy爬虫抓取豆瓣刘亦菲的图片地址的更多相关文章

Python爬虫----抓取豆瓣电影Top250
有了上次利用python爬虫抓取糗事百科的经验,这次自己动手写了个爬虫抓取豆瓣电影Top250的简要信息. 1.观察url 首先观察一下网址的结构 http://movie.douban.com/to ...
做一个简单的scrapy爬虫
前言: 做一个简单的scrapy爬虫,带大家认识一下创建scrapy的大致流程.我们就抓取扇贝上的单词书,python的高频词汇. 步骤: 一,新建一个工程scrapy_shanbay 二,在工程中中 ...
一个简单的python爬虫,爬取知乎
一个简单的python爬虫,爬取知乎主要实现爬取一个收藏夹里所有问题答案下的图片文字信息暂未收录,可自行实现,比图片更简单具体代码里有详细注释,请自行阅读项目源码: # -*- cod ...
Python小爬虫——抓取豆瓣电影Top250数据
python抓取豆瓣电影Top250数据 1.豆瓣地址:https://movie.douban.com/top250?start=25&filter= 2.主要流程是抓取该网址下的Top25 ...
利用python scrapy 框架抓取豆瓣小组数据
因为最近在找房子在豆瓣小组-上海租房上找,发现搜索困难,于是想利用爬虫将数据抓取. 顺便熟悉一下Python. 这边有scrapy 入门教程出处:http://www.cnblogs.com/txw1 ...
一个简单的python爬虫，以豆瓣妹子“http://www.dbmeizi.com/category/2?p= ”为例
本想抓取网易摄影上的图,但发现查看html源代码时找不到图片的url,但firebug却能定位得到.(不知道为什么???) 目标是抓取前50页的爆乳图,代码如下: import urllib2,url ...
python爬虫抓取豆瓣电影
抓取电影名称以及评分,并排序(代码丑炸) import urllib import re from bs4 import BeautifulSoup def get(p): t=0 k=1 n=1 b ...
python实现的一个简单的网页爬虫
学习了下python,看了一个简单的网页爬虫:http://www.cnblogs.com/fnng/p/3576154.html 自己实现了一个简单的网页爬虫,获取豆瓣的最新电影信息. 爬虫主要是获 ...
Scrapy爬虫入门系列4抓取豆瓣Top250电影数据
豆瓣有些电影页面需要登录才能查看. 目录 [隐藏] 1 创建工程 2 定义Item 3 编写爬虫(Spider) 4 存储数据 5 配置文件 6 艺搜参考创建工程 scrapy startproj ...

随机推荐

Crash日志符号化
1.符号化crash日志需要3样东西: 1).crash日志本身(如:example.crash),从Xcode的organizer导出或者来自Itunes Connect. 2).crash日志所对 ...
树莓派上安装2.8寸TFT触摸屏
在某宝的这里买了一个2.8寸的TFT触摸屏,其实就是中国版的ADAFRUIT 结合店家的帮助文档做了一下,一次点亮,这里也记录一下自己的安装过程(话说会硬件是会比会软件有不同的乐趣~~~) 由于店家推 ...
异步post请求之Block方法
#import "ViewController.h" #import "Header.h" @interface ViewController ()<NS ...
iOS应用程序开发之应用间的跳转(用着微信等第三方分享登陆)
简介配置和实现判断应用启动方式一.简介最实际项目开发中,我们难免会遇到需要从一个应用跳转到另一个应用的情况.比如微信分享,实际就是一种应用间的跳转.但是有时候我们需要实现自己的两个应用间的跳转 ...
ios 删除系统从相册压缩的视频
iOS的沙盒机制,应用只能访问自己应用目录下的文件.iOS不像android,没有SD卡概念,不能直接访问图像.视频等内容.iOS应用产生的内容,如图像.文件.缓存内容等都必须存储在自己的沙盒内.默认 ...
IOS之UI -- UITableView -- 2 -- 等高的Cell
内容大纲: 1.纯代码添加子控件 2.Autolayout纯代码 -- Masonry框架的使用 3.自定义等高的cell -- storyboard的使用(更加简单) 4.静态cell 等高的Ce ...
java集合之 set 集合
set集合可以存储多个对象,但并不会记住元素的存储顺序,也不允许集合中有重复元素(不同的set集合有不同的判断方法). 1.HashSet类 HashSet按照Hash算法存储集合中的元素,具有很好的 ...
MySQL 强制操作以及order by 使用
我们以MySQL中常用的hint来进行详细的解析,如果你是经常使用Oracle的朋友可能知道,Oracle的hincvt功能种类很多,对于优化sql语句提供了很多方法. 同样,在MySQL里,也有类似 ...
Greenplum 4.3 For Centos 6.5 安装指南
1.greenplum数据库安装前期准备工作 1.1 安装Linux l 内存:最小1GB,推荐2GB或以上. l 交换空间: 内存大小是1-2GB时,交换空间是内存的1.5倍,内存大小2-16G ...
Ubuntu升级内核
看到微软开源.兼容.豁达,很高兴,今天研究一下Docker,查看Ubuntu内核版本,发现2.3有点低,不符合当前版本. 最低内核版本要求3.10. 升级Ubuntu内核. 首先下载内核网站htt ...

一个简单的scrapy爬虫抓取豆瓣刘亦菲的图片地址

一个简单的scrapy爬虫抓取豆瓣刘亦菲的图片地址的更多相关文章

随机推荐

热门专题