Google大数据技术架构探秘
原文地址:https://blog.csdn.net/bingdata123/article/details/79927507
Google是大数据时代的奠基者,其大数据技术架构一直是互联网公司争相学习和 研究的重点,也是行业大数据技术架构的标杆和示范。
1、谷歌的数据中心
谷歌已经建立了世界上最快、最强大、最高质量的数据中心,它的8个主要数据中心都远离其位于加州山景城的总部,分别位于美国南卡罗来纳州的伯克利郡,爱荷华州的康瑟尔布拉夫斯,乔治亚州的道格拉斯郡,俄克拉荷马州的梅斯郡,北卡罗来纳州的勒努瓦,俄勒冈州的达尔斯;另外2个在美国境外,分别是芬兰的哈米纳和比利时的圣吉斯兰。此外,谷歌公司还在中国香港和中国台湾,以及新加坡和智利建立了数据中心。
2、谷歌新一代搜索引擎平台和大数据分析核心技术
Google是GFS MapReduce BigTable的缔造者,但Google 新一代搜索引擎平台正逐步用更强计算能力的系统来替换原有系统,新一代搜索引擎平台有几个核心技术系统:
一是用基于Percolator的增量处理索引系统来取代MapReduce批处理索引系统,这个索引系统被称作Caffeine,它比MapReduce批处理索引系统搜索更快。
二是专为BigTable设计的分布式存储Colossus,也被称为GFS2(二代Google文件系统),它专为建立Caffeine搜索索引系统而用。
三是列存储数据库BigTable,但为了更好地支持大数据集的互动分析,Google推出了Dremel和PowerDrill。Dremel被设计用来管理非常大量的大数据集(指数据集的数量和每数据集的规模都大),而PowerDrill则设计用来分析少量的大数据集(指数据集的规模大,但数据集的数量不多)时提供更强大的分析性能。
四是为Google Instant提供服务的实时搜索引擎存储和分析架构。
五是Pregel,这是谷歌更快捷的网络和图算法。
在谷歌新一代搜索引擎平台上,每月40亿小时的视频,4.25亿Gmail用户,150,000,000 GB Web索引,却能实现0.25秒搜索出结果。
3、谷歌基础云服务
基于Colossus,谷歌为用户提供计算、存储和应用的云服务。计算服务包括计算的引擎(ComputeEngine)和应用APP的引擎(AppEngine);存储服务包括云存储(CloudStorge)、云SQL(CLoudSQL)、云数据存储(Cloud
DataStore)、永久磁盘等服务;云应用服务包括BigQuery、云终端(Cloud Endpoints)、缓冲、队列等。
4、谷歌的大数据智能应用服务
Google提供的大数据分析智能应用包括客户情绪分析、交易风险(欺诈分析)、产品推荐、消息路由、诊断、客户流失预测、法律文案分类、电子邮件内容过滤、政治倾向预测、物种鉴定等多个方面。据称,大数据已经给Google每天带来2300万美元的收入。例如,一些典型应用如下:
(1)基于Map Reduce,Google的传统应用包括数据存储、数据分析、日志分析、搜索质量以及其他数据分析应用。
(2)基于Dremel系统,
Google推出其强大的数据分析软件和服务 —
BigQuery,它也是Google自己使用的互联网检索服务的一部分。Google已经开始销售在线数据分析服务,试图与市场上类似亚马逊网络服务(Amazon
Web Services)这样的企业云计算服务竞争。这个服务,能帮助企业用户在数秒内完成万亿字节的扫描。
(3)基于搜索统计算法,Google推出搜索引擎的输写纠错、统计型机器翻译等服务。
(4)Google的趋势图应用。通过用户对于搜索词的关注度,很快的理解社会上的热点是什么。对广告主来说,它的商业价值就是很快的知道现在用户在关心什么,他们应该在什么地方投入一个广告。据此,Google公司也开发了一些大数据产品,如“Brand
Lift in Adwords”、“Active GRP”等,以帮助广告客户分析和评估其广告活动的效率。
(5)Google Instant。输入关键词的过程,Google Instant 会边打边预测可能的搜索结果。
谷歌的大数据平台架构仍在演进中,追去的目标是更大数据集、更快、更准确的分析和计算。这将进一步引领大数据技术发展的方向。
Bingdata优网助帮汇聚多平台采集的海量数据,通过大数据技术的分析及预测能力为企业提供智能化的数据分析、运营优化、投放决策、精准营销、竞品分析等整合营销服务。
北京优网助帮信息技术有限公司(简称优网助帮)是以大数据为基础,并智能应用于整合营销的大数据公司,隶属于亨通集团。Bingdata是其旗下品牌。优网助帮团队主要来自阿里、腾讯、百度、金山、搜狐及移动、电信、联通、华为、爱立信等著名企业的技术大咖,兼有互联网与通信运营商两种基因,为大数据的算法分析提供强大的技术支撑。
Google大数据技术架构探秘的更多相关文章
- hadoop大数据技术架构详解
大数据的时代已经来了,信息的爆炸式增长使得越来越多的行业面临这大量数据需要存储和分析的挑战.Hadoop作为一个开源的分布式并行处理平台,以其高拓展.高效率.高可靠等优点越来越受到欢迎.这同时也带动了 ...
- 从大数据技术变迁猜一猜AI人工智能的发展
目前大数据已经成为了各家互联网公司的核心资产和竞争力了,其实不仅是互联网公司,包括传统企业也拥有大量的数据,也想把这些数据发挥出作用.在这种环境下,大数据技术的重要性和火爆程度相信没有人去怀疑. 而A ...
- 开源大数据技术专场(上午):Spark、HBase、JStorm应用与实践
16日上午9点,2016云栖大会“开源大数据技术专场” (全天)在阿里云技术专家封神的主持下开启.通过封神了解到,在上午的专场中,阿里云高级技术专家无谓.阿里云技术专家封神.阿里巴巴中间件技术部高级技 ...
- 量化派基于Hadoop、Spark、Storm的大数据风控架构--转
原文地址:http://www.csdn.net/article/2015-10-06/2825849 量化派是一家金融大数据公司,为金融机构提供数据服务和技术支持,也通过旗下产品“信用钱包”帮助个人 ...
- 【学习笔记】大数据技术原理与应用(MOOC视频、厦门大学林子雨)
1 大数据概述 大数据特性:4v volume velocity variety value 即大量化.快速化.多样化.价值密度低 数据量大:大数据摩尔定律 快速化:从数据的生成到消耗,时间窗口小,可 ...
- 大数据技术之HBase
第1章 HBase简介 1.1 什么是HBase HBase的原型是Google的BigTable论文,受到了该论文思想的启发,目前作为Hadoop的子项目来开发维护,用于支持结构化的数据存储. 官方 ...
- 大数据技术之Hadoop入门
第1章 大数据概论 1.1 大数据概念 大数据概念如图2-1 所示. 图2-1 大数据概念 1.2 大数据特点(4V) 大数据特点如图2-2,2-3,2-4,2-5所示 图2-2 大数据特点之大量 ...
- 除Hadoop大数据技术外,还需了解的九大技术
除Hadoop外的9个大数据技术: 1.Apache Flink 2.Apache Samza 3.Google Cloud Data Flow 4.StreamSets 5.Tensor Flow ...
- 参加2013中国大数据技术大会(BDTC2013)
2013年12月5日-6日参加了为期两天的2013中国大数据技术大会(Big Data Technology Conference, BDTC2013),本期会议主题是:“应用驱动的架构与技术 ”.大 ...
随机推荐
- mongodb的用法
关于新版(2.***)的c#用法,网上基本没有.昨天折腾半天,去构造server,发现现在新版本不需要了,文档是这样的,大概意思,无需像原来那样获取server,直接从client获取db就行了. h ...
- 论文阅读:Memory Networks
一.论文所解决的问题 实现长期记忆(大量的记忆),而且实现怎样从长期记忆中读取和写入,此外还增加了推理功能 为什么长期记忆非常重要:由于传统的RNN连复制任务都不行,LSTM预计也够玄乎. 在QA问题 ...
- ORA-16038: log 3 sequence# 103 cannot be archived
[size=large]今天在自己机器做了个实验,插入10万条,由于空间少,重启数据库时出现: [size=x-large]SQL> startup ORACLE instance starte ...
- Java Synchronized 关键字
本文内容 Synchronized 关键字 示例 Synchronized 方法 内部锁(Intrinsic Locks)和 Synchronization 参考资料 下载 Demo Synchron ...
- Android 模仿QQ风格的 UI
本文内容 环境 演示模仿QQ风格的界面 本文主要演示的是 UI,如何模仿 QQ 风格的界面.虽然这个 UI 跟现在的QQ空间有点差别,但是也能学到很多东西. 下载 Demo 环境 Windows 7 ...
- C#--串行化与反串行化
串行化是指存储和获取磁盘文件.内存或其他地方中的对象.在串行化时,所有的实例数据都保存到存储介质上,在取消串行化时,对象会被还原,且不能与其原实例区别开来.只需给类添加Serializable属性,就 ...
- FIS.js前端开发的使用说明文档
文档结构 什么是FIS 部署FIS FIS基本使用 模块定义 加载方式 调用Tangram 2.0 一.什么是FIS FIS提供了一套贯穿开发流程的开发体系和集成开发环境,为产品线提供前端开发底层架构 ...
- ZH奶酪:Python中zip函数的使用方法
定义:zip([iterable, …]) zip()是Python的一个内建函数,它接受一系列可迭代的对象作为参数,将对象中对应的元素打包成一个个tuple(元组),然后返回由这些 tuples组成 ...
- centos7.2安装社区版docker-ce-17.06.1
先yum install安装如下包: container-selinux-2.21-1.el7.noarch libcgroup-0.41-13.el7.x86_64 libtool-ltdl-2.4 ...
- 使用gradle的application插件进行Spring-boot项目打包
1:在build.gradle中增加以下配置 fat jar并不总是一个合适的选择,比如需要依赖跟jar分离,使用gradle的application插件就可以做到. 在GradleTest项目中,b ...