Why Apache Spark?


1 Why Apache Spark

2 关于Apache Spark

3 如何安装Apache Spark

4 Apache Spark的工作原理

5 spark弹性分布式数据集

6 RDD持久性

7 spark共享变量

8 Spark SQL

9 Spark Streaming

原文链接:http://blogxinxiucan.sh1.newtouch.com/2017/07/23/Why-Apache-Spark/

我们生活在“大数据”的时代,其中以各种类型的数据以前所未有的速度生成数据,而这种速度似乎只是在天文学上加速。该数据可以广泛地分类为交易数据,社交媒体内容(例如文本,图像,音频和视频)以及来自仪器化设备的传感器馈送。

但是人们可能会问为什么要重视这一点。原因是:“数据是有价值的,因为它可以做出决定”。

直到几年前,只有少数有技术和资金的公司投资存储和挖掘大量数据才能获得宝贵的见解。不过,雅虎在2009年开放Apache Hadoop的时候,一切都发生了变化。这是一个破坏性的变化,大大降低了大数据处理的水平。因此,许多行业,如医疗保健,基础设施,金融,保险,远程信息处理,消费者,零售,营销,电子商务,媒体,制造和娱乐等行业已经大大受益于Hadoop上的实际应用。

Apache Hadoop提供两个主要功能:

  • HDFS是使用水平可扩展的商品硬件廉价地存储大量数据的容错方式。
  • Map-Reduce,为挖掘数据提供编程结构并获得洞察力。

下面的图1说明了如何通过一系列Map-Reduce步骤处理数据,其中Map-Reduce步骤的输出在典型的Hadoop作业中输入到下一个。

中间结果存储在磁盘上,这意味着大多数Map-Reduce作业都是I / O绑定的,而不是计算上的约束。对于诸如ETL,数据整合和清理等用例,处理时间并不是很大的问题,但是处理时间很重要的其他类型的大数据用例也不是问题。这些用例如下:

  1. 流数据处理进行近实时分析。例如,点击流数据分析来制作视频推荐,这增强了用户参与度。我们必须在准确性和处理时间之间进行权衡。
  2. 大型数据集的交互式查询,因此数据科学家可以对数据集进行自组织查询。

下图2显示了Hadoop如何发展成为几种技术的生态系统,为这些用例提供了非常专门的工具。

虽然我们喜欢Hadoop生态系统中的工具之间的丰富选择,但是使用生态系统繁琐的挑战有几个:

  1. 需要一种不同的技术方案来解决每种类型的用例,因为一些解决方案在不同的用例中不可重用。
  2. 生产力需要熟练掌握多项技术
  3. 某些技术面临版本兼容性问题
  4. 它不适合并行作业中更快的数据共享需求。

这些是Apache Spark解决的挑战!Spark是闪电式快速内存集群计算平台,具有统一的解决方案,解决了批处理,流式传输和交互式用例,如图3所示。

1.Why Apache Spark?的更多相关文章

  1. Apache Spark简单介绍、安装及使用

    Apache Spark简介 Apache Spark是一个高速的通用型计算引擎,用来实现分布式的大规模数据的处理任务. 分布式的处理方式可以使以前单台计算机面对大规模数据时处理不了的情况成为可能. ...

  2. 关于Apache Spark

    Apache Spark :  https://www.oschina.net/p/spark-project

  3. Apache Spark源码剖析

    Apache Spark源码剖析(全面系统介绍Spark源码,提供分析源码的实用技巧和合理的阅读顺序,充分了解Spark的设计思想和运行机理) 许鹏 著   ISBN 978-7-121-25420- ...

  4. [翻译]Apache Spark入门简介

    原文地址:http://blog.jobbole.com/?p=89446 我是在2013年底第一次听说Spark,当时我对Scala很感兴趣,而Spark就是使用Scala编写的.一段时间之后,我做 ...

  5. Apache Spark技术实战之9 -- 日志级别修改

    摘要 在学习使用Spark的过程中,总是想对内部运行过程作深入的了解,其中DEBUG和TRACE级别的日志可以为我们提供详细和有用的信息,那么如何进行合理设置呢,不复杂但也绝不是将一个INFO换为TR ...

  6. Apache Spark技术实战之8:Standalone部署模式下的临时文件清理

    未经本人同意严禁转载,徽沪一郎. 概要 在Standalone部署模式下,Spark运行过程中会创建哪些临时性目录及文件,这些临时目录和文件又是在什么时候被清理,本文将就这些问题做深入细致的解答. 从 ...

  7. ERROR actor.OneForOneStrategy: org.apache.spark.SparkContext

    今天在用Spark把Kafka的数据往ES写的时候,代码一直报错,错误信息如下: 15/10/20 17:28:56 ERROR actor.OneForOneStrategy: org.apache ...

  8. Apache Spark技术实战之6 -- spark-submit常见问题及其解决

    除本人同意外,严禁一切转载,徽沪一郎. 概要 编写了独立运行的Spark Application之后,需要将其提交到Spark Cluster中运行,一般会采用spark-submit来进行应用的提交 ...

  9. Apache Spark源码走读之24 -- Sort-based Shuffle的设计与实现

    欢迎转载,转载请注明出处. 概要 Spark 1.1中对spark core的一个重大改进就是引入了sort-based shuffle处理机制,本文就该处理机制的实现进行初步的分析. Sort-ba ...

  10. Apache Spark技术实战之4 -- 利用Spark将json文件导入Cassandra

    欢迎转载,转载请注明出处. 概要 本文简要介绍如何使用spark-cassandra-connector将json文件导入到cassandra数据库,这是一个使用spark的综合性示例. 前提条件 假 ...

随机推荐

  1. centOS下服务启动

    nginx应该在mongodb之后启动,也可以通过chkconfig <服务名> on将服务设置为开机自启动.具体命令如下 service mysql start service memc ...

  2. KNN算法介绍

    KNN算法全名为k-Nearest Neighbor,就是K最近邻的意思. 算法描述 KNN是一种分类算法,其基本思想是采用测量不同特征值之间的距离方法进行分类. 算法过程如下: 1.准备样本数据集( ...

  3. Deep Q-Network 学习笔记(一)—— Q-Learning 学习与实现过程中碰到的一些坑

    这方面的资料比较零散,学起来各种碰壁,碰到各种问题,这里就做下学习记录. 参考资料: https://morvanzhou.github.io/ 非常感谢莫烦老师的教程 http://mnemstud ...

  4. 前端的3D(css3版本)

    其实是依托Css3的功劳,先上一个例子 代码地址:链接: https://pan.baidu.com/s/1sldhljJ 密码: i6qh 这动画纵有万般变化,也离不开以下几个属性 transfor ...

  5. Ubuntu下录音机程序的使用

    在Ubuntu中使用系统自带的录音机程序可以录制电脑的音频输出(比如,电脑正在播放视频的声音),或录制外部环境音频输入(比如,自己说话的声音) 1.录制电脑音频输出 在“硬件”选项中,将”选中设备的设 ...

  6. Idea 常用功能汇总,工作中常用技巧

    1.隐藏没用到的文件 比如 IDEA 的项目配置文件(.iml 和.idea),打开 Settings-File Types, 加入要隐藏的文件后缀.  2.常用技巧 2.1 通过Alt+F8查看变量 ...

  7. 【css技能提升】css高级技巧

    本文是一个帮你提升 CSS 技巧的收藏集. 使用CSS复位 CSS复位可以在不同的浏览器上保持一致的样式风格.您可以使用CSS reset 库Normalize等,也可以使用一个更简化的复位方法: * ...

  8. Discuz论坛提速优化技巧

    Discuz是国内最受站长们欢迎的建站源码之一,除了开源以外还有着很强大的后台,即便是没有建站基础和不懂代码的站长也能很快的架设出一个论坛,甚至是门户. 一个网站的加载速度除了影响你在搜索引擎里的排名 ...

  9. 【操作教程】SequoiaDB分布式存储教程

    1.各模式适用场景介绍 由于SequoiaDB对比其他的NoSQL有更多的方式将数据分布到多台服务器上,所以下面笔者为阅读者一一介绍每种分布式方式适合于哪种场景. 1.1 Hash 方式分布数据 在H ...

  10. npm 的用法

    当用npm 安装依赖时如果加上  --save  就会自动把依赖模块添加到package.json中  别人下载时直接npm install 加载后就可以了