本书英文版是2014年出的,基本是作者2004年的<IT不再重要>的修订版,还是在说<IT不再重要>的那个主题:计算会想电力一样变成技术设施,只需要按需购买. 以下是书中一些观点的摘抄: 我们有可能很快发现,那些我们认为是社会长期基础的东西,事实上只是临时的结构,它们很容易就会像亨利·伯登的大水车一样被弃用.#279 爱迪生发明了首个有生命力的电厂系统,但他无法从逻辑上解释下一步该做的事:所有的电都是由统一建设的大电厂发出的,并设有一个全国性电网来分发这种动力能源.爱迪生设想和实现…
1.Spark介绍 Spark是起源于美国加州大学伯克利分校AMPLab的大数据计算平台,在2010年开源,目前是Apache软件基金会的顶级项目.随着 Spark在大数据计算领域的暂露头角,越来越多的企业开始关注和使用.2014年11月,Spark在Daytona Gray Sort 100TB Benchmark竞赛中打破了由Hadoop MapReduce保持的排序记录.Spark利用1/10的节点数,把100TB数据的排序时间从72分钟提高到了23分钟. Spark在架构上包括内核部分和…
转自:https://www.cnblogs.com/reed/p/7730338.html 今天做题,其中一道是 请简要描述一下Hadoop, Spark, MPI三种计算框架的特点以及分别适用于什么样的场景. 一直想对这些大数据计算框架总结一下,只可惜太懒,一直拖着.今天就借这个机会好好学习一下. 一张表 名称 发起者 语言 简介 特点 适用场景 Hadoop Yahoo工程师,Apache基金会 Java MapReduce分布式计算框架+HDFS分布式文件系统(GFS)+HBase数据存…
1.Spark介绍 Spark是起源于美国加州大学伯克利分校AMPLab的大数据计算平台,在2010年开源,目前是Apache软件基金会的顶级项目.随着Spark在大数据计算领域的暂露头角,越来越多的企业开始关注和使用.2014年11月,Spark在Daytona Gray Sort 100TB Benchmark竞赛中打破了由Hadoop MapReduce保持的排序记录.Spark利用1/10的节点数,分钟提高到了分钟. Spark在架构上包括内核部分和4个官方子模块--Spark SQL.…
原文地址: 大数据计算引擎之Flink Flink CEP复杂事件编程 复杂事件编程(CEP)是一种基于流处理的技术,将系统数据看作不同类型的事件,通过分析事件之间的关系,建立不同的时事件系序列库,并利用过滤.关联.聚合等技术,最终有简单事件产生高级事件,并通过模式规则的方式对重要信息进行跟踪和分析,从实时数据中心发掘有价值的信息.复杂事件处理主要应用于防范网络欺诈.设备故障检测.风险规避和智能营销等领域.目前主流的CEP工具具有Esper,Jboss Drools和上夜班的MicroSoft…
MapReduce Google File System提供了大数据存储的方案,这也为后来HDFS提供了理论依据,但是在大数据存储之上的大数据计算则不得不提到MapReduce. 虽然现在通过框架的不断发展,MapReduce已经渐渐的淡出人们的视野,越来越多的框架提供了简单的SQL语法来进行大数据计算.但是,MapReduce所提供的编程模型为这一切奠定了基础,所以Google的这篇MapReduce 论文值得我们去认真的研读. 摘要 MapReduce 是一个编程模型,也是一个处理和生成超大…
http://www.csdn.net/article/2014-06-05/2820089 摘要:MapReduce在实时查询和迭代计算上仍有较大的不足,目前,Spark由于其可伸缩.基于内存计算等特点,且可以直接读写Hadoop上任何格式的数据,逐渐成为大数据处理的新宠,腾讯分享了Spark的原理和应用案例. [编者按]MapReduce由于其设计上的约束只适合处理离线计算,在实时查询和迭代计算上仍有较大的不足,而随着业务的发展,业界对实时查询和迭代分析有更多的需求,单纯依靠MapReduc…
大数据计算:如何仅用1.5KB内存为十亿对象计数  Big Data Counting: How To Count A Billion Distinct Objects Using Only 1.5K This is a guest post by Matt Abrams (@abramsm), from Clearspring, discussing how they are able to accurately estimate the cardinality of sets with bi…
一.前言 1.从今天开始进行流式大数据计算的实践之路,需要完成一个车辆实时热力图 2.技术选型:HBase作为数据仓库,Storm作为流式计算框架,ECharts作为热力图的展示 3.计划使用两台虚拟机来打一个小型的分布式系统,使用Ubuntu系统 二.HBase简介 1.HBase是基于HDFS(Hadoop分布式文件系统)的NoSQL数据库,采用k-v的存储方式,所以查询速度相对比较快. 2.下面画图比较HBase与传统的RDS(关系型数据库)数据库的区别 (1)RDS,经常用的比如MySQ…
Hadoop MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算.早期的MapReduce(MR)框架简单明了,JobTracker作为MR框架的集中处理点,随着分布式系统集群的规模和其工作负荷的增长,显得力不从心: 1. JobTracker 存在单点故障. 2. JobTracker 任务重,资源消耗多,当MR任务非常多的时候,会造成很大的内存开销,增加了 JobTracker fail 的风险,业界总结出旧MR框架只能支持 4000节点主机的上限. 3. 在Task…