crawler_Docker_解决用 JavaScript 框架开发的 Web 站点抓取
[转载,后续补上实践case]
有了 Docker,用 JavaScript 框架开发的 Web 站点也能很好地支持网络爬虫的内容抓取

如果你正在使用 AngularJS 构建一个面向大众消费者的应用,你肯定希望用户能把它分享到社交媒体上。对于特定的应用而言,丰富的社交分享差不多是最重要的营销渠道。所谓「丰富的社交分享」,是指像下面这样的分享:

可以看到, Facebook, Twitter 等社交站点能够获取非常丰富的内容,不仅限于网页标题和图片。为什么可以做到这一点?因为在网页 HTML 文档的 head 部分包含了有特别含义的元数据标记。像 Facebook 以及 Pinterest 和 Google+ 等社交站点能读取遵循开放图协议标准的元数据,例如,
<head>
<meta property="og:title" content="My Page" />
<meta property="og:description" content="A description of my page." />
<meta property="og:image" content="http://www.mysite.com/images/my_lovely_face.jpg" />
<!-- etc. -->
</head>
Twitter 也支持类似的机制,不过它用的元数据属性前缀是 twitter: ,而不是 og: 。
当用户在社交站点上分享一个 URL 时,社交站点会启动一个网络爬虫去抓取该页面的内容。网络爬虫首先在网页源文档中找出各种元数据标记,然后才会查看常规 HTML 元素的内容,例如, <head> 标记和网页中的图像等。
用 AngularJS(以及其它 JavaScript 框架)开发的 Web 站点不支持爬虫的抓取
我已经在 Earlyclaim 站点的网页中添加了所有必需的遵循开放图协议标准的元数据标记。但是,当我把 Earlyclaim 站点的一个链接分享到 Facebook 时,显示的结果却是非常令人失望的:

导致如此糟糕的结果的原因很简单:抓取网页时,网络爬虫并不会执行网页中的 JavaScript 代码。因此,爬虫抓取到的内容是这样的:
<head>
<meta property="og:title" content="{{meta.title}} - earlyclaim.com" />
<meta property="og:description" content="{{meta.description}}" />
<meta property="og:image" content="{{meta.image}}" />
<!-- etc. -->
</head>
解决方案
解决方案的基本思想是:应用一种在服务器端执行的用户代理探测方法,识别出当前请求来自于社交站点的爬虫;此时,服务器不会像处理浏览器请求那样返回一个 AngularJS 模板文件,而是重定向到一个服务器端生成的页面,页面中包含了希望提供的元数据标记以及正确填写的信息。
经过 Google 搜索,以及与其它创业公司 startypchile 的技术人员的讨论,我们发现了 prerender.io 服务,它能够预先渲染好动态页面的内容。这为问题的解决奠定了良好的开端。
Prerender 的开发者提供了很多中间件, 还把 prerender 引擎开源,因为他们认为
我们相信搜索引擎优化(SEO)是一种权利,而非一种特权!
当然,如果你愿意,也可以付费使用他们提供的 Prerender 托管服务。
支撑 Earlyclaim 的基础设施是以 Docker 为基础构建的。为了集成 Prerender 服务,我们首先在 Docker Hub 中找出相关的几个容器镜像,然后进行试用,结果难以令人感到满意。
我们的需求包括:
这些也是我们自行构建容器镜像的原因!

为什么公开我们的解决方案
首先,我们信仰「协同智能」:
协同智能是多主体、分布式系统的特征,其中每个主体(人或者机器)都有唯一的位置,自主地为问题解决网络作贡献。在生态系统中,有机体的协同自治使得演化成为可能。在自然生态系统中,每个有机体的唯一标识来自于自身的基因、环境以及它在生态系统中的行为和位置。自然生态系统为设计下一代社交网络提供原则,使之能够支持协同智能、众包个人的专长、偏好以及在问题解决过程中的独特贡献。
- 摘自 维基百科
我们的解决方案是建立在开源的 prerender.io 引擎 的基础之上:没有它,就不会有我们的解决方案。 Prerender 团队太棒了。
其次,同样重要的是,在与很多创业公司的开发者交流之后,我们了解到:他们很多人都在使用 AngularJS 或者其它框架构建 Web 应用,也需要解决搜索引擎优化/丰富的社交分享问题。然而,由于不知道解决方法,或者感觉解决起来太耗费时间,或许会影响更为重要的产品发布时间,他们暂时搁置这个问题,留待以后解决。还有些开发者甚至没有意识到有这个问题,当从我们这里听说了之后,他们请求我们把解决方案分享出来。
我们相信这个方案能够加速整个开发进程,因为它解决了一个普遍的问题。很高兴能够分享这个方案。
实现
如果技术人员想把我们构建的容器镜像添加到自己的基础设施中,请参考 Docker Hub 上的文档:https://registry.hub.docker.co ... edis/
AngularJS 服务
如果是 AngularJS 应用,首先实现下面的代码:
'use strict';
!(function (window, document, undefined) {
var getModule = function (angular) {
return angular.module('seo', [])
.run([
'$rootScope',
function ($rootScope) {
$rootScope.htmlReady = function () {
$rootScope.$evalAsync(function () { // fire after $digest
setTimeout(function () { // fire after DOM rendering
if (typeof window.callPhantom === 'function') {
window.callPhantom();
}
}, 0);
});
};
}
]);
};
if (typeof define === 'function' && define.amd) {
define(['angular'], getModule);
} else {
getModule(angular);
}
})(window, document);
然后通过angular.module('youApp', ['seo'])调用。
结论
如果你使用我们的容器,觉得还不错,请一定告知我们(@Earlyclaim)。
如果你觉得有人会对此感兴趣,请转发给他们(点击社交分享按钮)!
任何建议,请发推特并通知 @Earlyclaim :非常期待您的观点和文字!
任何代码改进,请通过 GitHub 推送合并请求!
顺便说一句,我们热爱创业公司,我们热爱开发者,我们热爱社区!开放生态系统万岁!
原文:Get your Javascript website perfectly crawled with Docker (翻译:柳泉波 校对:佚名)
=====================================
译者介绍
柳泉波,读书喝茶踢球写程序,目前在华南师范大学广东高校计算机网络与信息系统工程中心工作。
crawler_Docker_解决用 JavaScript 框架开发的 Web 站点抓取的更多相关文章
- 有了 Docker,用 JavaScript 框架开发的 Web 站点也能很好地支持网络爬虫的内容抓取
点这里 阅读目录 用 AngularJS(以及其它 JavaScript 框架)开发的 Web 站点不支持爬虫的抓取 解决方案 为什么公开我们的解决方案 实现 AngularJS 服务 结论 Pr ...
- Web站点抓取工具webhttrack
近来发现Ubuntu下一个很好用的web站点抓取工具webhttrack,能够将给定网址的站点抓取到本地的目录中,并实现离线浏览,很实用. 1.安装webhttrack ubuntu 16.04的官方 ...
- web scraper 抓取分页数据和二级页面内容
如果是刚接触 web scraper 的,可以看第一篇文章. web scraper 是一款免费的,适用于普通用户(不需要专业 IT 技术的)的爬虫工具,可以方便的通过鼠标和简单配置获取你所想要数据. ...
- web scraper 抓取数据并做简单数据分析
其实 web scraper 说到底就是那点儿东西,所有的网站都是大同小异,但是都还不同.这也是好多同学总是遇到问题的原因.因为没有统一的模板可用,需要理解了 web scraper 的原理并且对目标 ...
- 联系我们_鲲鹏Web数据抓取 - 专业Web数据采集服务提供者
联系我们_鲲鹏Web数据抓取 - 专业Web数据采集服务提供者 首页 > 联系我们 我们的联系方式如下: 029 - 82542052(陕西 西安) 13389148466 或 13571845 ...
- 测试开发Python培训:抓取新浪微博抓取数据-技术篇
测试开发Python培训:抓取新浪微博抓取数据-技术篇 poptest是国内唯一一家培养测试开发工程师的培训机构,以学员能胜任自动化测试,性能测试,测试工具开发等工作为目标.在poptest的se ...
- 测试开发Python培训:抓取新浪微博评论提取目标数据-技术篇
测试开发Python培训:抓取新浪微博评论提取目标数据-技术篇 在前面我分享了几个新浪微博的自动化脚本的实现,下面我们继续实现新的需求,功能需求如下: 1,登陆微博 2,抓取评论页内容3,用正则表 ...
- web scraper 抓取网页数据的几个常见问题
如果你想抓取数据,又懒得写代码了,可以试试 web scraper 抓取数据. 相关文章: 最简单的数据抓取教程,人人都用得上 web scraper 进阶教程,人人都用得上 如果你在使用 web s ...
- 吴裕雄--天生自然python学习笔记:WEB数据抓取与分析
Web 数据抓取技术具有非常巨大的应用需求及价值, 用 Python 在网页上收集数据,不仅抓取数据的操作简单, 而且其数据分析功能也十分强大. 通过 Python 的时lib 组件中的 urlpar ...
随机推荐
- spring mvc 错误摘要--。位。
1....identifier of an instance of org.szgzw.ent.profile.baseinfo.enterprise.EnterpriseEntity was alt ...
- 卓尼斯ZT-180点评
卓尼斯ZT-180点评 ——我们出差,使用10”上网本发布,没有图片.并写冲忙.遗憾的不足之处. 一.购买 1.由于旅游.不想拿那台14"笔记本,台平板电脑.当时,选择的对象有维智A8 ...
- webBrower控件实现winform和webpage交互
添加WebBrowser控件 private WebBrowser webBrowser1; 引用页面的document对象 HtmlDocument doc = webBrowser1.Docume ...
- 告别乱码,针对GBK、UTF-8两种编码的智能URL解码器的java实现(转)
效果图 字符 字符是早于计算机而存在,从人类有文明那时起,人们就用一个个符号代表世间万象.如ABC,如“一.二.三”. 字符集 字符集是所有字符的集合. XXX字符集 给字符集中的每一个字符套上一个序 ...
- win8.1 usb3 速度慢的解决方法
我买的金士顿u盘 驱动也装了,口业插对了 速度还是很慢 30m左右 解决方法 1 搞定了·,主板驱动问题.卸了主板驱动usb3.0的速度立马上100m/s,即使装了联想官方的驱动也会影响USB3.0的 ...
- Python 获得Facebook用户有一个共同的兴趣Friends
CODE: #!/usr/bin/python # -*- coding: utf-8 -*- ''' Created on 2014-8-13 @author: guaguastd @name: c ...
- HDU 1026 Ignatius and the Princess I 迷宫范围内的搜索剪枝问题
这个问题是一个典型的类型的问题迷宫广泛的搜索. 在网上看到了很多解决方案. 没什么解决问题的分析报告,不指出其中的关键点.代码更像是一大抄.一些分析师也有很大的文章分析.只是不要全部命中关键,什么是广 ...
- Android EventBus源代码解析 带你深入理解EventBus
转载请标明出处:http://blog.csdn.net/lmj623565791/article/details/40920453,本文出自:[张鸿洋的博客] 上一篇带大家初步了解了EventBus ...
- C++输出IP地址段内的合法地址
近半年的Intel实习生活快要结束了.马上要找工作了,这段时间打算把以前的知识复习复习,顺便在这里记录一下.这是当时去Intel面试的时候,面试官问的一道题.当时因为时间关系,只让我提供一个思路,并没 ...
- Android 异步消息处理机制 让你在深入了解 Looper、Handler、Message之间的关系
转载请注明出处:http://blog.csdn.net/lmj623565791/article/details/38377229 ,本文出自[张鸿洋的博客] 非常多人面试肯定都被问到过,请问And ...