【技术与商业案例解读笔记】095：Google大数据三驾马车笔记

1.谷歌三驾马车地位

【关键词】开启时代，指明方向

聊起大数据，我们通常言必称谷歌，谷歌有“三驾马车”：谷歌文件系统（GFS）、MapReduce和BigTable。谷歌的“三驾马车”开启了大数据时代，并为我们指明了大数据的发展方向。

2.谷歌三驾马车诞生
（1）诞生时间

【关键词】2010、2003、2004、2006
大数据在2010年开始有火起来的苗头，谷歌三驾马车诞生更早。谷歌文件系统第一次公开发表的论文是在2003年，MapReduce公开发表的时间是2004年，而BigTable则公开发表于2006年。
（2）诞生背景

【关键词】海量存储、倒排索引、增量更新

三驾马车”，主要是为谷歌的核心搜索业务服务的。谷歌搜索业务，需要存储整个互联网的内容，并且要在这个内容的基础上构建倒排索引。

谷歌文件系统：基于大量的廉价个人计算机的海量存储系统，它可以轻松地存储整个互联网的内容。

MapReduce：海量数据计算引擎，是Google第一代倒排索引基础，它可以大规模并行地处理整个互联网上的所有文档。有天然缺陷，每次更新索引需全量更新所有索引，耗时几天，新的信息更新不及时。

BigTable：一个键值存储系统，可存储一个主键的不同时期的多个版本的值。使用互联网地址作为某个BigTable的主键，只更新那些值已经发生变化的互联网地址，可实现增量更新索引。

Tips:倒排索引是对互联网内容的一种索引方法，是指从搜索词到对应的互联网文档的索引方法。用户可以通过搜索词去搜索互联网，返回的则是和搜索词相关的文档。之所以称为倒排索引，是因为文档到文档里面的词是顺序的，而从文档里面的词到文档是逆序的。

3.个性化广告推荐服务

【关键词】互联网模式，用户隐私数据分析

三驾马车其它应用，最著名的是个性化广告推荐业务。首创了流行互联网模式“羊毛出在狗身上，猪来买单”。
具体来说，谷歌通过提供免费的互联网服务，比如搜索、邮箱、地图等（狗），然后记录并分析用户的使用习惯，有针对性地为用户提供个性化的广告推荐服务（羊毛），企业广告主来买单。
个性化推荐实现，主要是利用谷歌对用户隐私数据的分析。谷歌文件系统和BigTable用来存储和记录用户的隐私信息和产品使用情况，MapReduce用来分析海量数据。

4.技术封闭

【关键词】技术封闭， hadoop崛起，一无所获

个性化广告推荐业务这种互联网模式非常赚钱，但只有Google具备这样的强大数据存储、分析和处理能力，而且它也没有打算开放这些独家技术。雅虎和Facebook，觉得凭借一己之力很难做到，于是开始抱团取暖，与众多互联网公司联合打造了后来闻名于世的Hadoop生态圈，并让Hadoop成为事实上的标准。谷歌自此彻底丧失了在大数据时代的先发优势，后来谷歌对外提供的云服务也不得不和这个Hadoop生态圈兼容。

谷歌在大数据上，可谓“起个大早，赶个晚集”。它给大家指明了方向，最后确一无所获。

参考文档

谷歌的大数据路：从“三驾马车”到一无所有

【技术与商业案例解读笔记】095：Google大数据三驾马车笔记的更多相关文章

Google大数据三篇著名论文----中文版
Google File System中文版 Google Bigtable中文版 Google MapReduce中文版
Google大数据三篇著名论文中文版
Google File System中文版 Google MapReduce中文版 Google Bigtable中文版
Google三驾马车
Google旧三驾马车: GFS,mapreduce,Bigtable http://blog.sina.com.cn/s/blog_4ed630e801000bi3.html Google新三驾马车 ...
大数据笔记01：大数据之Hadoop简介
1. 背景随着大数据时代来临,人们发现数据越来越多.但是如何对大数据进行存储与分析呢? 单机PC存储和分析数据存在很多瓶颈,包括存储容量.读写速率.计算效率等等,这些单机PC无法满足要求. 2. ...
[MapReduce] Google三驾马车：GFS、MapReduce和Bigtable
声明:此文转载自博客开发团队的博客,尊重原创工作.该文适合学分布式系统之前,作为背景介绍来读. 谈到分布式系统,就不得不提Google的三驾马车:Google FS[1],MapReduce[2],B ...
分布式系统漫谈一 ——　Google三驾马车: GFS,mapreduce,Bigtable
分布式系统学习必读文章!!!! 原文:http://blog.sina.com.cn/s/blog_4ed630e801000bi3.html 分布式系统漫谈一 —— Google三驾马车: GFS, ...
Google三驾马车：GFS、MapReduce和Bigtable
谈到分布式系统,就不得不提Google的三驾马车:Google fs[1],Mapreduce[2],Bigtable[3]. 虽然Google没有公布这三个产品的源码,但是他发布了这三个产品的详细设 ...
Google大数据技术架构探秘
原文地址:https://blog.csdn.net/bingdata123/article/details/79927507 Google是大数据时代的奠基者,其大数据技术架构一直是互联网公司争相学 ...
【大数据】Scala学习笔记
第 1 章 scala的概述1 1.1 学习sdala的原因 1 1.2 Scala语言诞生小故事 1 1.3 Scala 和 Java 以及 jvm 的关系分析图 2 1.4 Scala语言的特点 ...

随机推荐

[转]ASP.NET Core: Static Files cache control using HTTP Headers
本文转自:https://www.ryadel.com/en/asp-net-core-static-files-cache-control-using-http-headers/ Every sea ...
Tomcat日志设定
1 Tomcat 日志概述 Tomcat 日志信息分为两类 : 一.是运行中的日志,它主要记录运行的一些信息,尤其是一些异常错误日志信息 .二.是访问日志信息,它记录的访 ...
mysql 数据库的备份与还原 at winows
把cmd的当前目录切换到mysql安装目录; 备份数据库world mysqldump -u root -p world < c:\all.sql 导入数据库新建schema world 常 ...
axios 中文文档（转载）
axios中文文档转载来源:https://www.jianshu.com/p/7a9fbcbb1114 原始出处:lewis1990@amoy axios 基于promise用于浏览器和node. ...
UWP: 妙用自定义 Action 以简化并重用代码
相信每一位 App 开发者,在开发过程中,都会有一些代码被反复用到,比如:复制文本,打电话,发短信,发邮件,给应用添加评论等等.在项目之间复制这些代码段,实在不是一个好办法,所以大家可能会把这些代码放 ...
[PHP] 算法-数值的整数次方的PHP实现
给定一个double类型的浮点数base和int类型的整数exponent.求base的exponent次方. 思路: 1.指数的二进制表达10^6次方可以表示10^110(二进制) 10^100 ...
【Java每日一题】20170324
20170323问题解析请点击今日问题下方的“[Java每日一题]20170324”查看(问题解析在公众号首发,公众号ID:weknow619) package Mar2017; public cla ...
MyBatis：自定义Mapper
在开发中有时可能需要我们自己自定义一些mapper还有些一些自定义的xml,SQL语句.其实在我们的框架中很方便.只需要在mapper中添加自定义接口,在resources中自定义一个mapper的x ...
sqoop将mysql数据导入hbase、hive的常见异常处理
原创不易,如需转载,请注明出处https://www.cnblogs.com/baixianlong/p/10700700.html,否则将追究法律责任!!! 一.需求: 1.将以下这张表(test_ ...
python基础学习（五）while循环语句
while循环基本使用循环的作用就是让指定的代码重复的执行 while循环最常用的应用场景就是让执行的代码按照指定的次数重复执行流程图基本语法初始条件设置 —— 通常是重复执行的计数器 wh ...

【技术与商业案例解读笔记】095：Google大数据三驾马车笔记

【技术与商业案例解读笔记】095：Google大数据三驾马车笔记的更多相关文章

随机推荐

热门专题