“数据上帝” Jeff Hammerbacher
出生于1983年的数学天才Jeff Hammerbacher在23岁时加入了Facebook,一手组建起数据分析队伍。他是“数据科学”(data science)一词的提出者之一,被人们称为“数据上帝”(data god)。
Facebook的数据团队由 Jeff Hammerbacher创立,他和Mark Zuckerberg曾同时在哈佛就学,攻读数学,在2006年春季加入Facebook之前,他在纽约贝尔斯登商行做一名数据科学家。
Hammerbacher喜欢谈起Facebook的数据运维的起源,这要回到在贝尔斯登的一个下午,当时路透数据服务突然中断,数据无法采集,致使所有交易被迫中止,系统瘫痪了整整一个小时,调查发现故障是由一个人疯狂的运行了某个程序引起的。Hammerbacher从这次教训学到了:数据工具与数据专家同样重要。
“我意识到,相对于在路透数据服务崩溃的两小时期产生的损失,我创建的数据模型和另一家公司数学家们建立的数据模型的付出就显得微不足道,”Hammerbacher回忆道。“我感觉我们有机会创建一个完整的系统,最初先获取数据,然后再过渡到数据模式创建——并尝试从每个点对系统进行优化。”
这也是他在Facebook时所做的。他入职的身份是数据分析师——这一职位可通过信息分析对公司运营起到辅助作用——但是由于他难以抹去脑中路透数据服务崩溃的记忆,所以他走得更远一点。他创建了一支可以控制公司数据的团队。这个团队不仅可以分析数据,还可以创建可用于收集和处理这些数据的工具。
他刚加入Facebook的时候,公司仍很保守的使用甲骨文的数据仓库。但是这类软件的数据处理能力并不能跟上Facebook的步伐。Hammerbacher的加入,促进了公司使用Hadoop的进程,Yahoo使用Hadoop为其网页搜索引擎创建索引,但是Hammerbacher和Facebook则将其视为公司数据科学家的助手——把它作为分析大量信息的方式,而不是把数据塞进甲骨文数据仓库。公司借助Hive——该工具可以让分析师在Hadoop之上快速处理大量数据
Yahoo使用Hadoop为其网页搜索引擎创建索引,但是Hammerbacher和Facebook则将其视为公司数据科学家的助手——把它作为分析大量信息的方式,而不是把数据塞进甲骨文数据仓库。公司借助Hive——该工具可以让分析师在Hadoop之上快速处理大量数据,作用类似于80年代以来被广泛使用的SQL——很快这一工具就成为了雅虎分析在线广告等性能的主要工具。
Hammerbacher在2008年秋季离开Facebook,协助创建了Cloudera。Cloudera是一家致力于将Hadoop带入商业超越网络的初创公司。
“数据上帝” Jeff Hammerbacher的更多相关文章
- 为什么数据科学家们选择了Python语言?
本文由 伯乐在线 - HanSir 翻译,toolate 校稿 英文出处:Quora [伯乐在线导读]:这个问题来自 Quora,题主还补充说,“似乎很多搞数据的程序员都挺擅长 Python 的,这是 ...
- Cloudra公司CCP:DS——认证数据专家
原文:http://vision.cloudera.com/24195/. 译文: 每天我都能看到大数据怎样改变我们生活的文章.数据科学家们正在生物医药领域找寻新的方法治愈癌症.帮助银行与欺诈做斗争, ...
- 数据挖掘(data mining),机器学习(machine learning),和人工智能(AI)的区别是什么? 数据科学(data science)和商业分析(business analytics)之间有什么关系?
本来我以为不需要解释这个问题的,到底数据挖掘(data mining),机器学习(machine learning),和人工智能(AI)有什么区别,但是前几天因为有个学弟问我,我想了想发现我竟然也回答 ...
- 大数据培训班 cloudera公司讲师面对面授课 CCDH CCAH CCP
大数据助力成就非凡.大数据正在改变着商业游戏规则,为企业解决传统业务问题带来变革的机遇.毫无疑问,当未来企业尝试分析现有海量信息以推动业务价值增值时,必定会采用大数据技术. 目前对大数据的分析工具,首 ...
- Hadoop发行版本介绍
前言 从2011年开始,中国进入大数据风起云涌的时代,以Hadoop为代表的家族软件,占据了大数据处理的广阔地盘.开源界及厂商,所有数据软件,无一不向Hadoop靠拢.Hadoop也从小众的高富帅领域 ...
- data mining,machine learning,AI,data science,data science,business analytics
数据挖掘(data mining),机器学习(machine learning),和人工智能(AI)的区别是什么? 数据科学(data science)和商业分析(business analytics ...
- Hadoop2.X管理与开发
Hadoop 2.X 管理与开发 一.Hadoop的起源与背景知识 (一)什么是大数据 大数据(Big Data),指无法在一定时间范围内用常规软件工具进行捕捉.管理和处理的数据集合,是需要新处理模式 ...
- R语言(资源)
#学习 R 的方法 知识和耐心,是成为强者的唯一方法. - 通过阅读来学习.包括了阅读经典的教材.代码.论文.学习公开课.- 通过牛人来学习.包括同行的聚会.讨论.大牛的博客.微博.twitter.R ...
- JVM(三) 垃圾回收时间点和垃圾收集器
收集器组合章节来自第一篇参考文章,非原创,作者总结地非常好! 分代收集相关概念来自参考文章第二篇,非原创 第二篇参考资料的文章质量很高,推荐阅读! 分代收集(Ge ...
随机推荐
- maven打包时出现 Failed to execute goal org.apache.maven.plugins:maven-install-plugin:2.4:install (default-install) on project……
maven在打包时只会默认打jar包,而那些xml等配置文件默认不打包进去的,这样的话在mybatis的配置使用中就有问题了. 要自己配置后手动打包才能将xml文件也纳入打包的范围,配置后打包发现出现 ...
- DAY15 模块
一.模块 1.1 模块的定义:模块就是一系列功能的集合体 1.2 模块的四种存在方式: 1.使用python编写的.py文件(任一py文件都可以作为模块) 2.包:一堆py文件的集合体 3.使用C编写 ...
- Session 和 Cookie的区别
2019-03-26 18:16:47 一.区别概论 Session是在服务端保存的一个数据结构,用来跟踪用户的状态,这个数据可以保存在集群.数据库.文件中:Cookie是客户端保存用户信息的一种机制 ...
- [Hibernate] One-To-Many 配置文件和注解的方式以及HQL语句
一对多需要在一的类配置多的类的set泛型集合. 多的一端需要添加一的类作为属性,其和数据库对应的是对应表的主键. 一个购物车有多个商品,购物车有个cart_id作为主键,商品除了自己的items_id ...
- Web版记账本开发记录(六)
经过今天的学习和实践,终于把这个web版的记账系统给做出来了, 虽然是很简单的一个系统,但是自己花费的时间也着实不少. 今天将大部分功能都实现了,接下来就是完善和美化, 接下来会对不足的地方进行改善, ...
- git项目远程地址修改后本地如何处理
今天运维人员为了方便管理,将远程的项目地址给迁移了, 原来是 git@git.lalala.com:yuanlaide/happy.git 变成了 git@git.lalala.com:houlaid ...
- 数据结构与算法之PHP排序算法(希尔排序)
一.基本思想 希尔排序算法是希尔排序,也称递减增量排序算法,是插入排序的一种更高效的改进版本. 该方法的基本思想是:先将整个待排元素序列分割成若干个子序列(由相隔某个“增量”的元素组成的)分别进行直接 ...
- elastic search 重要的系统配置
文章翻译自 https://www.elastic.co/guide/en/elasticsearch/reference/current/file-descriptors.html 1.文件描述符 ...
- OC学习笔记
备注:这里只是个人的观点,有的地方也是copy,多多指教,个人笔记,有侵犯你们版权的地方还望海涵!!! ARC单例模式的实现 使用alloc方法初始化一个类的实例的时候,默认是调用了 allocWit ...
- http/ftp等的URL匹配正则表达式 ZT
网上流传着多种匹配URL的正则表达式版本,但我经过试验,最好用的还是从stackoverflow上查到的: (https?|ftp|file)://[-A-Za-z0-9+&@#/%?=~_| ...