“数据上帝” Jeff Hammerbacher

出生于1983年的数学天才Jeff Hammerbacher在23岁时加入了Facebook，一手组建起数据分析队伍。他是“数据科学”（data science）一词的提出者之一，被人们称为“数据上帝”（data god）。

Facebook的数据团队由 Jeff Hammerbacher创立，他和Mark Zuckerberg曾同时在哈佛就学，攻读数学，在2006年春季加入Facebook之前，他在纽约贝尔斯登商行做一名数据科学家。

Hammerbacher喜欢谈起Facebook的数据运维的起源，这要回到在贝尔斯登的一个下午，当时路透数据服务突然中断，数据无法采集，致使所有交易被迫中止，系统瘫痪了整整一个小时，调查发现故障是由一个人疯狂的运行了某个程序引起的。Hammerbacher从这次教训学到了：数据工具与数据专家同样重要。

“我意识到，相对于在路透数据服务崩溃的两小时期产生的损失，我创建的数据模型和另一家公司数学家们建立的数据模型的付出就显得微不足道，”Hammerbacher回忆道。“我感觉我们有机会创建一个完整的系统，最初先获取数据，然后再过渡到数据模式创建——并尝试从每个点对系统进行优化。”

这也是他在Facebook时所做的。他入职的身份是数据分析师——这一职位可通过信息分析对公司运营起到辅助作用——但是由于他难以抹去脑中路透数据服务崩溃的记忆，所以他走得更远一点。他创建了一支可以控制公司数据的团队。这个团队不仅可以分析数据，还可以创建可用于收集和处理这些数据的工具。
他刚加入Facebook的时候，公司仍很保守的使用甲骨文的数据仓库。但是这类软件的数据处理能力并不能跟上Facebook的步伐。Hammerbacher的加入，促进了公司使用Hadoop的进程，Yahoo使用Hadoop为其网页搜索引擎创建索引，但是Hammerbacher和Facebook则将其视为公司数据科学家的助手——把它作为分析大量信息的方式，而不是把数据塞进甲骨文数据仓库。公司借助Hive——该工具可以让分析师在Hadoop之上快速处理大量数据
Yahoo使用Hadoop为其网页搜索引擎创建索引，但是Hammerbacher和Facebook则将其视为公司数据科学家的助手——把它作为分析大量信息的方式，而不是把数据塞进甲骨文数据仓库。公司借助Hive——该工具可以让分析师在Hadoop之上快速处理大量数据，作用类似于80年代以来被广泛使用的SQL——很快这一工具就成为了雅虎分析在线广告等性能的主要工具。
Hammerbacher在2008年秋季离开Facebook，协助创建了Cloudera。Cloudera是一家致力于将Hadoop带入商业超越网络的初创公司。

“数据上帝” Jeff Hammerbacher的更多相关文章

为什么数据科学家们选择了Python语言?
本文由伯乐在线 - HanSir 翻译,toolate 校稿英文出处:Quora [伯乐在线导读]:这个问题来自 Quora,题主还补充说,“似乎很多搞数据的程序员都挺擅长 Python 的,这是 ...
Cloudra公司CCP:DS——认证数据专家
原文:http://vision.cloudera.com/24195/. 译文: 每天我都能看到大数据怎样改变我们生活的文章.数据科学家们正在生物医药领域找寻新的方法治愈癌症.帮助银行与欺诈做斗争, ...
数据挖掘(data mining)，机器学习(machine learning)，和人工智能(AI)的区别是什么？数据科学(data science)和商业分析(business analytics)之间有什么关系？
本来我以为不需要解释这个问题的,到底数据挖掘(data mining),机器学习(machine learning),和人工智能(AI)有什么区别,但是前几天因为有个学弟问我,我想了想发现我竟然也回答 ...
大数据培训班 cloudera公司讲师面对面授课 CCDH CCAH CCP
大数据助力成就非凡.大数据正在改变着商业游戏规则,为企业解决传统业务问题带来变革的机遇.毫无疑问,当未来企业尝试分析现有海量信息以推动业务价值增值时,必定会采用大数据技术. 目前对大数据的分析工具,首 ...
Hadoop发行版本介绍
前言从2011年开始,中国进入大数据风起云涌的时代,以Hadoop为代表的家族软件,占据了大数据处理的广阔地盘.开源界及厂商,所有数据软件,无一不向Hadoop靠拢.Hadoop也从小众的高富帅领域 ...
data mining，machine learning，AI，data science，data science，business analytics
数据挖掘(data mining),机器学习(machine learning),和人工智能(AI)的区别是什么? 数据科学(data science)和商业分析(business analytics ...
Hadoop2.X管理与开发
Hadoop 2.X 管理与开发一.Hadoop的起源与背景知识 (一)什么是大数据大数据(Big Data),指无法在一定时间范围内用常规软件工具进行捕捉.管理和处理的数据集合,是需要新处理模式 ...
R语言(资源)
#学习 R 的方法知识和耐心,是成为强者的唯一方法. - 通过阅读来学习.包括了阅读经典的教材.代码.论文.学习公开课.- 通过牛人来学习.包括同行的聚会.讨论.大牛的博客.微博.twitter.R ...
JVM(三) 垃圾回收时间点和垃圾收集器
收集器组合章节来自第一篇参考文章,非原创,作者总结地非常好! 分代收集相关概念来自参考文章第二篇,非原创第二篇参考资料的文章质量很高,推荐阅读! 分代收集(Ge ...

随机推荐

hdu 5564 Clarke and digits 矩阵快速幂优化数位dp
Clarke and digits Time Limit: 5000/3000 MS (Java/Others) Memory Limit: 65536/65536 K (Java/Others ...
Eclispe创建maven工程缺失web.xml报web.xml is missing and <failOnMissingWebXml> is set to true的错误
Eclispe创建maven工程缺失web.xml报web.xml is missing and <failOnMissingWebXml> is set to true的错误,一看,还缺 ...
聊聊Flume和Logstash的那些事儿
在某个Logstash的场景下,我产生了为什么不能用Flume代替Logstash的疑问,因此查阅了不少材料在这里总结,大部分都是前人的工作经验下,加了一些我自己的思考在里面,希望对大家有帮助. 本文 ...
一、Beego介绍与项目创建及启动
一.beego 简介 beego 是一个快速开发 Go 应用的 HTTP 框架,他可以用来快速开发 API.Web 及后端服务等各种应用,是一个 RESTful 的框架,主要设计灵感来源于 torna ...
hdoj5754
题意:略国王和骑士用记忆搜索,注意骑士的移动是x-2,y-1或x-1,y-2.车是NIM博弈,后是威佐夫博弈.注意威佐夫博弈中两堆石子有大小之分,而输入不一定小在前. #include <io ...
yii框架通过http协议获取地址栏中的内容
//创建一个控制器 <?php namespace frontend\controllers; use frontend\models\Zhuce; use Yii; use yii\web\C ...
mybatis_generator合并xml和Java
之前写了合并xml的插件,今天改了改mybatis-generator源码,合并java和xml都改进去了. 先上图吧. 左边是一开始生成的,中间去掉author加了password字段和方法,右边重 ...
bzoj2190
题解: 显然当坐标不互质的时候是可以看得见的所以线性筛选欧拉函数代码: #include<bits/stdc++.h> using namespace std; ; int n,an ...
第一章01：熟悉java，发展历史
1. java由来: 原公司,sun,后来被oracle\甲骨文公司收购 java,主要用于开发互联网软件,例如:QQ.迅雷.淘宝.京东
Centos7安装xenserver tools
mount /dev/cdrom /mnt [root@192 ~]# mount /dev/cdrom /mntmount: /dev/sr0 写保护,将以只读方式挂载[root@192 ~]# c ...

“数据上帝” Jeff Hammerbacher

“数据上帝” Jeff Hammerbacher的更多相关文章

随机推荐

热门专题