入门大数据---Spark简介】的更多相关文章

一.简介 Spark 于 2009 年诞生于加州大学伯克利分校 AMPLab,2013 年被捐赠给 Apache 软件基金会,2014 年 2 月成为 Apache 的顶级项目.相对于 MapReduce 的批处理计算,Spark 可以带来上百倍的性能提升,因此它成为继 MapReduce 之后,最为广泛使用的分布式计算框架. 二.特点 Apache Spark 具有以下特点: 使用先进的 DAG 调度程序,查询优化器和物理执行引擎,以实现性能上的保证: 多语言支持,目前支持的有 Java,Sc…
一. Spark简介 1.1 前言 Apache Spark是一个基于内存的计算框架,它是Scala语言开发的,而且提供了一站式解决方案,提供了包括内存计算(Spark Core),流式计算(Spark Streaming),交互式查询(Spark SQL),图形计算(GraphX),机器学习(MLLib). 1.2 安全性 默认情况下Spark安全性是关闭的.(正式环境要开启) 1.3 版本兼容性 Spark版本 Java版本 Python版本 Scala版本 R版本 2.4.1~2.4.5…
一.简介 在 Spark 中,提供了两种类型的共享变量:累加器 (accumulator) 与广播变量 (broadcast variable): 累加器:用来对信息进行聚合,主要用于累计计数等场景: 广播变量:主要用于在节点间高效分发大对象. 二.累加器 这里先看一个具体的场景,对于正常的累计求和,如果在集群模式中使用下面的代码进行计算,会发现执行结果并非预期: var counter = 0 val data = Array(1, 2, 3, 4, 5) sc.parallelize(dat…
一.项目简介 这是一个车辆监控项目.主要实现了三个功能: 1.计算每一个区域车流量最多的前3条道路. 2.计算道路转换率 3.实时统计道路拥堵情况(当前时间,卡口编号,车辆总数,速度总数,平均速度) 二.项目结构 ├─TrafficBySparkAndKafka ├─data └─src ├─main │ ├─java │ │ └─vip │ │ ├─producedate2hive(模拟数据到文件和Hive) │ │ ├─shuai7boy │ │ │ └─trafficTemp │ │ │…
一.Flume简介 Apache Flume 是一个分布式,高可用的数据收集系统.它可以从不同的数据源收集数据,经过聚合后发送到存储系统中,通常用于日志数据的收集.Flume 分为 NG 和 OG (1.0 之前) 两个版本,NG 在 OG 的基础上进行了完全的重构,是目前使用最为广泛的版本.下面的介绍均以 NG 为基础. 二.Flume架构和基本概念 下图为 Flume 的基本架构图: 2.1 基本架构 外部数据源以特定格式向 Flume 发送 events (事件),当 source 接收到…
一.Sqoop 简介 Sqoop 是一个常用的数据迁移工具,主要用于在不同存储系统之间实现数据的导入与导出: 导入数据:从 MySQL,Oracle 等关系型数据库中导入数据到 HDFS.Hive.HBase 等分布式文件存储系统中: 导出数据:从 分布式文件系统中导出数据到关系数据库中. 其原理是将执行命令转化成 MapReduce 作业来实现数据的迁移,如下图: 二.安装 版本选择:目前 Sqoop 有 Sqoop 1 和 Sqoop 2 两个版本,但是截至到目前,官方并不推荐使用 Sqoo…
一.简介 ApacheKafka 是一个分布式的流处理平台.它具有以下特点: 支持消息的发布和订阅,类似于 RabbtMQ.ActiveMQ 等消息队列: 支持数据实时处理: 能保证消息的可靠性投递: 支持消息的持久化存储,并通过多副本分布式的存储方案来保证消息的容错: 高吞吐率,单 Broker 可以轻松处理数千个分区以及每秒百万级的消息量. 二.基本概念 2.1 Messages And Batches Kafka 的基本数据单元被称为 message(消息),为减少网络开销,提高效率,多个…
一.安装Spark 1.1 下载并解压 官方下载地址:http://spark.apache.org/downloads.html ,选择 Spark 版本和对应的 Hadoop 版本后再下载: 解压安装包: # tar -zxvf spark-2.2.3-bin-hadoop2.6.tgz 1.2 配置环境变量 # vim /etc/profile 添加环境变量: export SPARK_HOME=/usr/app/spark-2.2.3-bin-hadoop2.6 export PATH=…
一.作业提交 1.1 spark-submit Spark 所有模式均使用 spark-submit 命令提交作业,其格式如下: ./bin/spark-submit \ --class <main-class> \ # 应用程序主入口类 --master <master-url> \ # 集群的 Master Url --deploy-mode <deploy-mode> \ # 部署模式 --conf <key>=<value> \ # 可选…
基本信息 作者: Spark亚太研究院   王家林 丛书名:决胜大数据时代Spark全系列书籍 出版社:电子工业出版社 ISBN:9787121247446 上架时间:2015-1-6 出版日期:2015 年1月 开本:16 页码:812 版次:1-1 所属分类: 计算机 > 数据库 > 数据库存储与管理 编辑推荐 Life is short, you need Spark! Spark是当今大数据领域最活跃最热门的高效的大数据通用计算平台.基于RDD,Spark成功地构建起了一体化.多元化的…