【技术与商业案例解读笔记】095:Google大数据三驾马车笔记
1.谷歌三驾马车地位
【关键词】开启时代,指明方向
聊起大数据,我们通常言必称谷歌,谷歌有“三驾马车”:谷歌文件系统(GFS)、MapReduce和BigTable。谷歌的“三驾马车”开启了大数据时代,并为我们指明了大数据的发展方向。
2.谷歌三驾马车诞生
(1)诞生时间
【关键词】2010、2003、2004、2006
大数据在2010年开始有火起来的苗头,谷歌三驾马车诞生更早。谷歌文件系统第一次公开发表的论文是在2003年,MapReduce公开发表的时间是2004年,而BigTable则公开发表于2006年。
(2)诞生背景
【关键词】海量存储、倒排索引、增量更新
三驾马车”,主要是为谷歌的核心搜索业务服务的。谷歌搜索业务,需要存储整个互联网的内容,并且要在这个内容的基础上构建倒排索引。
谷歌文件系统:基于大量的廉价个人计算机的海量存储系统,它可以轻松地存储整个互联网的内容。
MapReduce:海量数据计算引擎,是Google第一代倒排索引基础,它可以大规模并行地处理整个互联网上的所有文档。有天然缺陷,每次更新索引需全量更新所有索引,耗时几天,新的信息更新不及时。
BigTable:一个键值存储系统,可存储一个主键的不同时期的多个版本的值。使用互联网地址作为某个BigTable的主键,只更新那些值已经发生变化的互联网地址,可实现增量更新索引。
Tips:倒排索引是对互联网内容的一种索引方法,是指从搜索词到对应的互联网文档的索引方法。用户可以通过搜索词去搜索互联网,返回的则是和搜索词相关的文档。之所以称为倒排索引,是因为文档到文档里面的词是顺序的,而从文档里面的词到文档是逆序的。
3.个性化广告推荐服务
【关键词】互联网模式,用户隐私数据分析
三驾马车其它应用,最著名的是个性化广告推荐业务。首创了流行互联网模式“羊毛出在狗身上,猪来买单”。
具体来说,谷歌通过提供免费的互联网服务,比如搜索、邮箱、地图等(狗),然后记录并分析用户的使用习惯,有针对性地为用户提供个性化的广告推荐服务(羊毛),企业广告主来买单。
个性化推荐实现,主要是利用谷歌对用户隐私数据的分析。谷歌文件系统和BigTable用来存储和记录用户的隐私信息和产品使用情况,MapReduce用来分析海量数据。
4.技术封闭
【关键词】技术封闭, hadoop崛起,一无所获
个性化广告推荐业务这种互联网模式非常赚钱,但只有Google具备这样的强大数据存储、分析和处理能力,而且它也没有打算开放这些独家技术。雅虎和Facebook,觉得凭借一己之力很难做到,于是开始抱团取暖,与众多互联网公司联合打造了后来闻名于世的Hadoop生态圈,并让Hadoop成为事实上的标准。谷歌自此彻底丧失了在大数据时代的先发优势,后来谷歌对外提供的云服务也不得不和这个Hadoop生态圈兼容。
谷歌在大数据上,可谓“起个大早,赶个晚集”。它给大家指明了方向,最后确一无所获。
参考文档
【技术与商业案例解读笔记】095:Google大数据三驾马车笔记的更多相关文章
- Google大数据三篇著名论文----中文版
Google File System中文版 Google Bigtable中文版 Google MapReduce中文版
- Google大数据三篇著名论文中文版
Google File System中文版 Google MapReduce中文版 Google Bigtable中文版
- Google三驾马车
Google旧三驾马车: GFS,mapreduce,Bigtable http://blog.sina.com.cn/s/blog_4ed630e801000bi3.html Google新三驾马车 ...
- 大数据笔记01:大数据之Hadoop简介
1. 背景 随着大数据时代来临,人们发现数据越来越多.但是如何对大数据进行存储与分析呢? 单机PC存储和分析数据存在很多瓶颈,包括存储容量.读写速率.计算效率等等,这些单机PC无法满足要求. 2. ...
- [MapReduce] Google三驾马车:GFS、MapReduce和Bigtable
声明:此文转载自博客开发团队的博客,尊重原创工作.该文适合学分布式系统之前,作为背景介绍来读. 谈到分布式系统,就不得不提Google的三驾马车:Google FS[1],MapReduce[2],B ...
- 分布式系统漫谈一 —— Google三驾马车: GFS,mapreduce,Bigtable
分布式系统学习必读文章!!!! 原文:http://blog.sina.com.cn/s/blog_4ed630e801000bi3.html 分布式系统漫谈一 —— Google三驾马车: GFS, ...
- Google三驾马车:GFS、MapReduce和Bigtable
谈到分布式系统,就不得不提Google的三驾马车:Google fs[1],Mapreduce[2],Bigtable[3]. 虽然Google没有公布这三个产品的源码,但是他发布了这三个产品的详细设 ...
- Google大数据技术架构探秘
原文地址:https://blog.csdn.net/bingdata123/article/details/79927507 Google是大数据时代的奠基者,其大数据技术架构一直是互联网公司争相学 ...
- 【大数据】Scala学习笔记
第 1 章 scala的概述1 1.1 学习sdala的原因 1 1.2 Scala语言诞生小故事 1 1.3 Scala 和 Java 以及 jvm 的关系分析图 2 1.4 Scala语言的特点 ...
随机推荐
- 【转载】PhpStudy修改Apache的端口号
phpStudy是一个PHP调试环境的程序集成包.该程序包集成最新的Apache+PHP+MySQL+phpMyAdmin+ZendOptimizer,一次性安装,无须配置即可使用,是非常方便.好用的 ...
- OKR20180607
OKR---目标与关键成果法 一套明确和跟踪目标及其完成情况的管理工具和方法 OKR的主要目标是明确公司和团队的“目标”以及每个目标达成的可衡量的“关键结果”. “目标”是设定一个定性的时间目标.“关 ...
- C#中设置窗口在最前显示而其他窗口不能使用
对程序中的一个Form1处理,让其在打开的情况下,其他窗体都无法使用,全部焦点都在他身上. 1.这种方法最简单,直接调用窗体的模态对话框函数显示窗体 Form1.ShowDialog(): 2.设置窗 ...
- Ext.isEmpty()的使用
说明如下: isEmpty( Object value, Boolean allowEmptyString ) : Boolean 如果传递的值为空,则返回 true,否则返回 false.该值被认为 ...
- 2018-12-16 VS Code英汉词典进化效果演示: 翻译文件所有命名
续VS Code英汉词典插件v0.0.7-尝试词性搭配, 下一个功能打算实现文件的批量命名翻译: 批量代码汉化工具 · Issue #86 · program-in-chinese/overview ...
- 2018-10-17 Chrome插件实现GitHub代码翻译v0.0.3
续前文浏览器插件实现GitHub代码翻译原型演示, 通过调用浏览器插件-离线英汉词典的批量查词接口, 实现了源码的初步命名直译. 源码库仍在: program-in-chinese/webextens ...
- 【20190223】HTTP-知识点整理:HTTPS
HTTPS:添加了加密及认证机制的HTTP HTTPS 并非是应用层的一种新协议.只是 HTTP 通信接口部分用SSL(Secure Socket Layer)和 TLS(Transport Laye ...
- LNMP的配置与优化
一.LNMP的下载 LNMP一键安装包是一个用Linux Shell编写的可以为CentOS/RadHat/Fedora.Debian/Ubuntu/Raspbian/Deepin VPS或独立主机安 ...
- BDD实战篇 - .NET Core里跑Specflow - 可以跑集成测试和单元测试
这是<如何用ABP框架快速完成项目 >系列中和DevOps系列文章其中一篇文章. BDD很赞!比TDD先进很多,能够大大提高编码效率. 上一篇文章说了如何在.NET Core里安装 ...
- JDCP连接池连接数据库报错:java.lang.AbstractMethodError: com.mysql.jdbc.Connection.isValid(I)Z
完整报错是这样的: 小编的情况: 使用mysql的jar包版本: 使用的jdcp的相关jar包版本: 报错的原因: mysql的jar包版本过低. 更新到最新版mysql的jar包即可. 小编更新后的 ...