selenuim爬虫实战(日lofter.com)

LOFTER是网易公司2011年8月下旬推出的一款轻博客产品。

LOFTER专注于为用户提供简约、易用、有品质、重原创的博客工具、原创社区，以及有品质的手机博客应用。

LOFTER首次采用独立域名，口号为”专注兴趣，分享创作”。一经上线，便受到了互联网众多文艺青年、摄影师、插画师的喜爱。

作为中国的Instagram,自然是很多人爬虫的目标,之前我写过一篇关于如何电脑批量上传Instagram图片的文章,这次来点高级的,来做一个lofter的批量下载器.

环境

eclipse, selenium包, firefox

目标

制作下载器,输入用户名,下载其账户上的所有照片

原理介绍

“http://” + username + “.lofter.com/view”是lofter提供的用户图片摘要视图,可以通过ajax动态加载的方法在一张网页上显示出用户所有的图片.我们就可以通过selenium模拟用户滚动瀑布流,再通过ECMAScript捕捉到所有图片的url,最后利用java发送get包下载所有图片.

准备工作

为了节省流量和时间,我们既不加载图片(加载出来的只是缩略图,没用),也不要加载界面了(节省本地资源).

注意,这两个节省是相互独立的.

FirefoxOptions options = new FirefoxOptions();

    // 启动配置"不加载图片"

    options.addPreference("permissions.default.image", 2);

    // 启动参数"无界面"

    FirefoxBinary myBinary = new FirefoxBinary();

    myBinary.addCommandLineOptions("--headless");

    options.setBinary(myBinary);

FirefoxDriver driver = new FirefoxDriver(options);

实现方式

下一篇文章将公布源码

键入pageDown键以触发ajax瀑布流
通过Dom元素的element.children.length属性值的累加获得图片总数
在控制台输出所有url(暂停),以便核实再下载
开启多线程超时跳过机制,防止损坏的url
设置selenium的隐式等待和显式等待

注意事项

在经过了多次试验之后得到的最优方案.

利用页面提供的数据(页首’文章数量’字段)可以得到用户全部的图片数量以供参考
循环检测的时候不要傻不拉几的数元素的数量,而要通过length值直接获得,因为JS比java要脆弱的多
结束标志最好基于数量增长周期超时
url需要裁剪,去掉问号之后的参数(这些参数用来生成缩略图)
下载时切记从流的头字节获取mime信息,用来生成后缀名

源码请见下文.

selenuim爬虫实战(日lofter.com)的更多相关文章

selenuim爬虫实战 (下)
SuperLOFTERDownloader7.java package test; import java.io.IOException; import java.util.ArrayList; im ...
Pyhton爬虫实战 - 抓取BOSS直聘职位描述和数据清洗
Pyhton爬虫实战 - 抓取BOSS直聘职位描述和数据清洗零.致谢感谢BOSS直聘相对权威的招聘信息,使本人有了这次比较有意思的研究之旅. 由于爬虫持续爬取 www.zhipin.com 网 ...
转 Python爬虫实战一之爬取糗事百科段子
静觅 » Python爬虫实战一之爬取糗事百科段子首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致 ...
Python爬虫实战之爬取糗事百科段子【华为云技术分享】
首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致之前的代码没法用了,会导致无法输出和CPU占用过高的 ...
Pyhton爬虫实战
Pyhton爬虫实战零.致谢感谢BOSS直聘相对权威的招聘信息,使本人有了这次比较有意思的研究之旅. 由于爬虫持续爬取 www.zhipin.com 网站,以致产生的服务器压力,本人深感歉意,并没 ...
【图文详解】python爬虫实战——5分钟做个图片自动下载器
python爬虫实战——图片自动下载器之前介绍了那么多基本知识[Python爬虫]入门知识,(没看的先去看!!)大家也估计手痒了.想要实际做个小东西来看看,毕竟: talk is cheap sho ...
Python爬虫实战（4）：豆瓣小组话题数据采集—动态网页
1, 引言注释:上一篇<Python爬虫实战(3):安居客房产经纪人信息采集>,访问的网页是静态网页,有朋友模仿那个实战来采集动态加载豆瓣小组的网页,结果不成功.本篇是针对动态网页的数据 ...
Python爬虫实战（2）：爬取京东商品列表
1,引言在上一篇<Python爬虫实战:爬取Drupal论坛帖子列表>,爬取了一个用Drupal做的论坛,是静态页面,抓取比较容易,即使直接解析html源文件都可以抓取到需要的内容.相反 ...
关于Python网络爬虫实战笔记③
Python网络爬虫实战笔记③如何下载韩寒博客文章 Python网络爬虫实战笔记③如何下载韩寒博客文章 target:下载全部的文章 1. 博客列表页面规则也就是, http://blog.sina ...

随机推荐

dTree无限级文件夹树和JQuery同步Ajax请求
曾经都是用JQuery对树的支持来实现文件夹树的,近来闲来无事就弄了下dTree,感觉其无限级文件夹还是挺好的,并且它的使用也比較方便,基本上就是先把要用的js文件即dtree.js和css文件dtr ...
IOS效率提升工具
在应用开发过程中,有太多繁杂的事务需要开发者认真去解决.如何才能对开发流程进行改善或自动化,从而提高效率?这成为许多开发者共同探讨的命题.有的开发者会别出心裁地想出熟记他们最喜欢使用的文本编辑器的快捷 ...
算法笔记_035:寻找最小的k个数（Java）
目录 1 问题描述 2 解决方案 2.1 全部排序法 2.2 部分排序法 2.3 用堆代替数组法 2.4线性选择算法 1 问题描述有n个整数,请找出其中最小的k个数,要求时间复杂度尽可能低. 2 ...
HTTP 协议 Cache-Control 头——性能啊
原文地址:http://tools.ietf.org/html/rfc2616#section-14.9 本文内容概述术语HTTP Cache-Control 头可缓存的资源可被高速 ...
带有关闭按钮的alertView
概述由于讨厌系统自带的alertView只能通过点击按钮才能关闭.你说万一按钮区域都是功能性的操作呢(这可不是我胡思乱想哦,要怪就产品的想法吧,呵呵哒),所以我们还是应该备有一个带有“X”(关闭按钮 ...
发布WebService 1.1
webservice1.1是基于jdk发布的 package cn.itcast.service01; import javax.jws.WebService; import javax.xml.ws ...
Oracle常用单行函数（原创）
前言: 想把单行函数进行一个比较全面的总结,并分享给有需要的人,有不明之处还请多多指教. SQL函数:Oracle的内置函数,包括了单行函数和多行函数,本文重点讲解单行函数.单行函数又可以分为许多类, ...
[翻译] C# 8.0 新特性 Redis基本使用及百亿数据量中的使用技巧分享（附视频地址及观看指南）【由浅至深】redis 实现发布订阅的几种方式 .NET Core开发者的福音之玩转Redis的又一傻瓜式神器推荐
[翻译] C# 8.0 新特性 2018-11-13 17:04 by Rwing, 1179 阅读, 24 评论, 收藏, 编辑原文: Building C# 8.0[译注:原文主标题如此,但内容 ...
迭代器类vector::iterator 和 vector::reverse_iterator 的实现、迭代器类型、常用的容器成员
一.迭代器迭代器是泛型指针普通指针可以指向内存中的一个地址迭代器可以指向容器中的一个位置 STL的每一个容器类模版中,都定义了一组对应的迭代器类.使用迭代器,算法函数可以访问容器中指定位置的元素 ...
map 类简介和例程
一.标准库的map类型使用map得包含map类所在的头文件 template < class Key, class Type, class Traits = less<Key>, ...