如何抓取Amazon大图

https://www.douban.com/note/277033391/

進入到日本Amazon看到某些商品有預覽圖可以放大欣賞，當你想要右鍵下載卻發現只得到空白圖或白邊圖、縮圖、切割圖，究竟原圖在哪裡？其實Amazon大圖並不是把切割後的圖拼貼起來，而是拿原圖下去做分析，接著來看看Amazon圖片的規則性。
圖片URL的組成
先拿一個商品來分析看看 KERA! (ケラ) 2012年 05月号 [雑誌]
進入商品預覽圖視窗，查看原始碼，找出圖片網址 http://z2-ec2.images-amazon.com/images/P/B007FSZHP8.01._SX291_SCLZZZZZZZ_V135421998_.jpg

不過很可惜這不是原圖，但我們先來看看圖片網址的組成結構
「z2-ec2.images-amazon.com」：Amazon的圖片伺服器位址「B007FSZHP8」：商品代碼，從商品頁面網址中也可以看到代碼「01」：國別代碼，例如01美國、09日本，改變數字應該不會影響「SX291」：縮圖尺寸，即使改變數字也只能得到500x500以內的圖「SCLZZZZZZZ」：圖片的種類，也就是圖片大小，分為三種 → SCRMZZZZZZ（大）、SCLZZZZZZZ（中）、SCMZZZZZZZ（小）「V135421998」：應該是另一種編號，可以先不用理它
以上得知圖片網址的組成是： http:// z2-ec2.images-amazon.com/images/P/[商品代碼10字元].[國別代碼2字元].[圖片尺寸]._[圖片的種類]_.jpg 然後Amazon.co.jp官方說明頁面也有提到一些規則原來「MAIN」是指主要圖片，「PT+數字」是指其他圖片
所以再稍微改變一下組成結構，把MAIN替代[圖片尺寸]： http://z2-ec2.images-amazon.com/images/P/[商品代碼10字元].[國別代碼2字元].MAIN.[圖片的種類 ].jpg
得到組成的公式後，進行代入的動作： http://z2-ec2.images-amazon.com/images/P/B007FSZHP8.01.MAIN._SCRMZZZZZZ_.jpg

測試後是成功的！所以想要得到Amazon大圖，只要用下面公式去做代入就可以了： http://z2-ec2.images-amazon.com/images/P/[商品代碼].01.MAIN._SCRMZZZZZZ_.jpg
另外也可以縮減成： http://z2-ec2.images-amazon.com/images/P/[商品代碼].01.MAIN._SCRM_.jpg http://z2-ec2.images-amazon.com/images/P/[商品代碼].01._SCRM_.jpg
其他預覽圖的大圖URL組成
如果不只一張預覽圖，還想抓其他張的呢？拿スマップ・エイド這項商品來做範例スマップ・エイド http://www.amazon.co.jp/dp/B0056W96V6/ref=cm_sw_r_tw_dp_lOlypb1M753F2
上面有提到「PT+數字是指其他圖片」，例如PT01、PT02等等以此類推所以再把組成公式改變一下，將PT01代替MAIN： http://z2-ec2.images-amazon.com/images/P/[商品代碼].01.PT01._SCRMZZZZZZ_.jpg 接著做代入動作 http://z2-ec2.images-amazon.com/images/P/B0056W96V6.01.PT01._SCRMZZZZZZ_.jpg

其他預覽圖的原圖就出來了

不過以上抓取大圖的方式其實沒有所有代碼都通用 Amazon的圖片網址還有其他規則性，本篇只是簡單敘述一下分析過程
上面說了這麼多，如果你覺得改網址很懶很麻煩，我有發現到一個網站： http://tool.horan.cc/amazon/amazon.html 直接貼網址、點按鈕就可以跑大圖網址出來了，想不想打我阿 XDDDD

如何抓取Amazon大图的更多相关文章

网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(3): 抓取amazon.com价格
通过上一篇随笔的处理,我们已经拿到了书的书名和ISBN码.(网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(2): 抓取allitebooks.com书籍信息 ...
网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(2): 抓取allitebooks.com书籍信息及ISBN码
这一篇首先从allitebooks.com里抓取书籍列表的书籍信息和每本书对应的ISBN码. 一.分析需求和网站结构 allitebooks.com这个网站的结构很简单,分页+书籍列表+书籍详情页. ...
网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(1): 基础知识Beautiful Soup
开始学习网络数据挖掘方面的知识,首先从Beautiful Soup入手(Beautiful Soup是一个Python库,功能是从HTML和XML中解析数据),打算以三篇博文纪录学习Beautiful ...
Amazon关键词抓取
亚马逊的网址构造很简单,几乎算是静态的网页,花费3小时完美收工,不要在意细节! 在python3下利用xpath就可以完美解决 xpath的使用方法请见: python之lxml(xpath) 入口图 ...
async 异步抓取花瓣网高清大图 30s爬取500张
废话不多说,直接上代码,不懂得看注释先安装 pip install aiohttp "异步抓取花瓣网图片" # pip install aiohttp import requ ...
Phantomjs+Nodejs+Mysql数据抓取（2.抓取图片）
概要这篇博客是在上一篇博客Phantomjs+Nodejs+Mysql数据抓取(1.抓取数据) http://blog.csdn.net/jokerkon/article/details/50868 ...
Hawk: 无编程抓取淘女郎的所有高清照片
1.这是什么鬼? 哦?美女? 最近看了这一篇文章:http://cuiqingcai.com/1001.html 大概说的是用Python和Pyspider(这货好像是我的一位师兄写的,吓尿),抓取淘 ...
R语言XML包的数据抓取
htmlParse 函数 htmlParse加抓HTML页面的函数. url1<-"http://www.caixin.com/"url<-htmlParse(url1 ...
php抓取ajax页面返回图片。
要抓取的页面:http://pic.hao123.com/ 当我们往下滚动的时候,图片是用ajax来动态获取的.这就需要我们仔细分析页面了. 可以看到,异步加载的ajax文件为: http://pic ...

随机推荐

定制FileField中的上传文件名称
FileField中的upload_to属性可以设定上传文件的存储目录和名称,它可以是个字符串,也可以是个callable,比如一个方法. 当upload_to的值设为一个方法时,就可以对上传文件的名 ...
LightOJ 1151 Snakes and Ladders（概率DP + 高斯消元）
题意:1~100的格子,有n个传送阵,一个把进入i的人瞬间传送到tp[i](可能传送到前面,也可能是后面),已知传送阵终点不会有另一个传送阵,1和100都不会有传送阵.每次走都需要掷一次骰子(1~6且 ...
（转）mblog解读（二）
(二期)12.开源博客项目mblog解读(二) [课程12]freema...模板.xmind77.9KB [课程12]hibernat...arch.xmind0.1MB freemarker模板技 ...
Oracle联合多个子查询（inner join）
select aaa.*,bbb.xh from (select xn,xq,kcdm,kcmc,xf,xkkh,kcxz from jxrwbview where xn='2017-2018' gr ...
Vue内置的Component标签用于动态切换组件
html <div id="app"> <component :is="cut"></component> <butt ...
(转载)Sublime Text 3 快捷键大全
选择类Ctrl+D 选中光标所占的文本,继续操作则会选中下一个相同的文本.Alt+F3 选中文本按下快捷键,即可一次性选择全部的相同文本进行同时编辑.举个栗子:快速选中并更改所有相同的变量名.函数名等 ...
LightOJ 1268 Unlucky Strings（KMP+矩阵乘法+基础DP）
题意给出字符串的长度 \(n\) ,以及该字符串是由哪些小写字母组成,现给出一个坏串 \(S\) ,求存在多少种不同的字符串,使得其子串不含坏串. \(1 \leq n \leq 10^9\) \( ...
.psl脚本介绍
.ps1文件是PowerShell写好的脚本文件可以在记事本中写一段PowerShell代码,然后将其保存为“xxx.ps1”,后面要使用它的时候,双击即可运行了.这有点像批处理的“.bat”文件, ...
KNN——图像分类
内容参考自:https://zhuanlan.zhihu.com/p/20894041?refer=intelligentunit 用像素点的rgb值来判断图片的分类准确率并不高,但是作为一个练习kn ...
Spring框架学习
没有状态变化的对象(无状态对象):应当做成单例. Spring-framework的下载:http://repo.spring.io/release/org/springframework/sprin ...

如何抓取Amazon大图

如何抓取Amazon大图的更多相关文章

随机推荐

热门专题