“数据上帝” Jeff Hammerbacher
出生于1983年的数学天才Jeff Hammerbacher在23岁时加入了Facebook,一手组建起数据分析队伍。他是“数据科学”(data science)一词的提出者之一,被人们称为“数据上帝”(data god)。
Facebook的数据团队由 Jeff Hammerbacher创立,他和Mark Zuckerberg曾同时在哈佛就学,攻读数学,在2006年春季加入Facebook之前,他在纽约贝尔斯登商行做一名数据科学家。
Hammerbacher喜欢谈起Facebook的数据运维的起源,这要回到在贝尔斯登的一个下午,当时路透数据服务突然中断,数据无法采集,致使所有交易被迫中止,系统瘫痪了整整一个小时,调查发现故障是由一个人疯狂的运行了某个程序引起的。Hammerbacher从这次教训学到了:数据工具与数据专家同样重要。
“我意识到,相对于在路透数据服务崩溃的两小时期产生的损失,我创建的数据模型和另一家公司数学家们建立的数据模型的付出就显得微不足道,”Hammerbacher回忆道。“我感觉我们有机会创建一个完整的系统,最初先获取数据,然后再过渡到数据模式创建——并尝试从每个点对系统进行优化。”
这也是他在Facebook时所做的。他入职的身份是数据分析师——这一职位可通过信息分析对公司运营起到辅助作用——但是由于他难以抹去脑中路透数据服务崩溃的记忆,所以他走得更远一点。他创建了一支可以控制公司数据的团队。这个团队不仅可以分析数据,还可以创建可用于收集和处理这些数据的工具。
他刚加入Facebook的时候,公司仍很保守的使用甲骨文的数据仓库。但是这类软件的数据处理能力并不能跟上Facebook的步伐。Hammerbacher的加入,促进了公司使用Hadoop的进程,Yahoo使用Hadoop为其网页搜索引擎创建索引,但是Hammerbacher和Facebook则将其视为公司数据科学家的助手——把它作为分析大量信息的方式,而不是把数据塞进甲骨文数据仓库。公司借助Hive——该工具可以让分析师在Hadoop之上快速处理大量数据
Yahoo使用Hadoop为其网页搜索引擎创建索引,但是Hammerbacher和Facebook则将其视为公司数据科学家的助手——把它作为分析大量信息的方式,而不是把数据塞进甲骨文数据仓库。公司借助Hive——该工具可以让分析师在Hadoop之上快速处理大量数据,作用类似于80年代以来被广泛使用的SQL——很快这一工具就成为了雅虎分析在线广告等性能的主要工具。
Hammerbacher在2008年秋季离开Facebook,协助创建了Cloudera。Cloudera是一家致力于将Hadoop带入商业超越网络的初创公司。
“数据上帝” Jeff Hammerbacher的更多相关文章
- 为什么数据科学家们选择了Python语言?
本文由 伯乐在线 - HanSir 翻译,toolate 校稿 英文出处:Quora [伯乐在线导读]:这个问题来自 Quora,题主还补充说,“似乎很多搞数据的程序员都挺擅长 Python 的,这是 ...
- Cloudra公司CCP:DS——认证数据专家
原文:http://vision.cloudera.com/24195/. 译文: 每天我都能看到大数据怎样改变我们生活的文章.数据科学家们正在生物医药领域找寻新的方法治愈癌症.帮助银行与欺诈做斗争, ...
- 数据挖掘(data mining),机器学习(machine learning),和人工智能(AI)的区别是什么? 数据科学(data science)和商业分析(business analytics)之间有什么关系?
本来我以为不需要解释这个问题的,到底数据挖掘(data mining),机器学习(machine learning),和人工智能(AI)有什么区别,但是前几天因为有个学弟问我,我想了想发现我竟然也回答 ...
- 大数据培训班 cloudera公司讲师面对面授课 CCDH CCAH CCP
大数据助力成就非凡.大数据正在改变着商业游戏规则,为企业解决传统业务问题带来变革的机遇.毫无疑问,当未来企业尝试分析现有海量信息以推动业务价值增值时,必定会采用大数据技术. 目前对大数据的分析工具,首 ...
- Hadoop发行版本介绍
前言 从2011年开始,中国进入大数据风起云涌的时代,以Hadoop为代表的家族软件,占据了大数据处理的广阔地盘.开源界及厂商,所有数据软件,无一不向Hadoop靠拢.Hadoop也从小众的高富帅领域 ...
- data mining,machine learning,AI,data science,data science,business analytics
数据挖掘(data mining),机器学习(machine learning),和人工智能(AI)的区别是什么? 数据科学(data science)和商业分析(business analytics ...
- Hadoop2.X管理与开发
Hadoop 2.X 管理与开发 一.Hadoop的起源与背景知识 (一)什么是大数据 大数据(Big Data),指无法在一定时间范围内用常规软件工具进行捕捉.管理和处理的数据集合,是需要新处理模式 ...
- R语言(资源)
#学习 R 的方法 知识和耐心,是成为强者的唯一方法. - 通过阅读来学习.包括了阅读经典的教材.代码.论文.学习公开课.- 通过牛人来学习.包括同行的聚会.讨论.大牛的博客.微博.twitter.R ...
- JVM(三) 垃圾回收时间点和垃圾收集器
收集器组合章节来自第一篇参考文章,非原创,作者总结地非常好! 分代收集相关概念来自参考文章第二篇,非原创 第二篇参考资料的文章质量很高,推荐阅读! 分代收集(Ge ...
随机推荐
- P2922 [USACO08DEC]秘密消息Secret Message
传送门 思路: 还是比较水的(不看题解不看书),用 vis 存字典树上的每个点是多少个单词的前缀,bo 来存每个点是多少个单词的结尾(坑点:会有很多相同的单词,不能只有 bool 来存).统计时:① ...
- DAY11 函数(二)
一.函数的对象 1.1定义:函数名就是存放了函数的内存地址,存放了内存地址的变量都是对象,即 函数名 就是 函数对象 1.2函数对象的应用 1 可以直接被引用 fn = cp_fn def fn(): ...
- Netflix分享构建Microservices的经验
Netflix分享构建Microservices的经验 http://t.cn/Rwjgutw 新词:Microservices.我觉得就是service oriented architecture的 ...
- 《剑指offer》总结二 之二叉树
目录 17.树的子结构(27ms,5836k) 18.二叉树的镜像(38ms) 22.从上往下打印二叉树(50ms,5832k) 24.二叉树中和为某一值的路径(26ms,5728k) 38.二叉树的 ...
- 『TensorFlow』梯度优化相关
tf.trainable_variables可以得到整个模型中所有trainable=True的Variable,也是自由处理梯度的基础 基础梯度操作方法: tf.gradients 用来计算导数.该 ...
- PV、PVC和Storeclass等官方内容翻译
k8s1.13版本 PV apiVersion: v1 kind: PersistentVolume metadata: name: filesystem-pvc spec: capacity: #未 ...
- "她等待刀尖已经太久"--茨维塔耶娃诗抄
生活 1 你无法夺走我的红晕—— 它强大——如同河水的汛潮! 你是猎人,可我不会上当, 你若追逐,我就会逃跑. 你无法夺走我鲜活的灵魂! 就这样,在急遽的追逐中—— 一匹阿拉伯的骏马, 微 ...
- Vim 常用配置及插件安装使用
在 Linux 中习惯了 vim 编辑器. 找了一些资料后自己尝试配置起来了.下面是一些过程. 首先需要知道 vim 相关的配置都是写在 ~/.vimrc 文件中.我下面的笔记只配置了一些我常用的功能 ...
- 学习笔记-AngularJs(十)
前面一直在说自定义指令,但是却一直没有一次系统地去了解,现在需要我们一起来学习如何去使用自定义指令,去丰富html标签.属性,实现多元化.多功能的标签(或是属性).辣么,啥是指令?要了解指令,首先需要 ...
- Python—装饰器详解
装饰器:(语法糖) 本质是函数,它是赋予函数新功能,但是不改变函数的源代码及调用方式 原则: 1.不能修改被装饰函数的源代码 2.不能修改被装饰函数的调用方式 3.函数的返回值也不变 这两点简而言 ...