Spark学习之路（十二）—— Spark SQL JOIN操作

【Spark学习之路（十二）—— Spark SQL JOIN操作】的更多相关文章

Spark学习之路（二十二）SparkStreaming的官方文档

官网地址:http://spark.apache.org/docs/latest/streaming-programming-guide.html 一.简介 1.1 概述 Spark Streaming 是Spark核心API的一个扩展,可以实现高吞吐量的.具备容错机制的实时流数据的处理.支持从多种数据源获取数据,包括Kafk.Flume.Twitter.ZeroMQ.Kinesis 以及TCP sockets,从数据源获取数据之后,可以使用诸如map.reduce.join和window等高级…

Spark学习之路（二）Spark2.3 HA集群的分布式安装

一.下载Spark安装包 1.从官网下载 http://spark.apache.org/downloads.html 2.从微软的镜像站下载 http://mirrors.hust.edu.cn/apache/ 3.从清华的镜像站下载 https://mirrors.tuna.tsinghua.edu.cn/apache/ 二.安装基础 1.Java8安装成功 2.zookeeper安装成功 3.hadoop2.7.5 HA安装成功 4.Scala安装成功(不安装进程也可以启动) 三.Spar…

Spark学习之路（二十三）SparkStreaming的官方文档

一.SparkCore.SparkSQL和SparkStreaming的类似之处二.SparkStreaming的运行流程 2.1 图解说明 2.2 文字解说 1.我们在集群中的其中一台机器上提交我们的Application Jar,然后就会产生一个Application,开启一个Driver,然后初始化SparkStreaming的程序入口StreamingContext: 2.Master会为这个Application的运行分配资源,在集群中的一台或者多台Worker上面开启Excuter…

Spark学习之路（二）Spark2.3 HA集群的分布式安装[转]

下载Spark安装包从官网下载 http://spark.apache.org/downloads.html 从微软的镜像站下载 http://mirrors.hust.edu.cn/apache/ 从清华的镜像站下载 https://mirrors.tuna.tsinghua.edu.cn/apache/ 安装基础 Java8安装成功 zookeeper安装成功 hadoop2.7.5 HA安装成功 Scala安装成功(不安装进程也可以启动) Spark安装过程上传并解压缩 [hadoop…

Spark学习之路（二十三）SparkStreaming的官方文档[转]

SparkCore.SparkSQL和SparkStreaming的类似之处 SparkStreaming的运行流程 1.我们在集群中的其中一台机器上提交我们的Application Jar,然后就会产生一个Application,开启一个Driver,然后初始化SparkStreaming的程序入口StreamingContext: 2.Master会为这个Application的运行分配资源,在集群中的一台或者多台Worker上面开启Excuter,executer会向Driver注册: 3…

Spark学习之路（二十八）分布式图计算系统

一.引言在了解GraphX之前,需要先了解关于通用的分布式图计算框架的两个常见问题:图存储模式和图计算模式. 二.图存储模式巨型图的存储总体上有边分割和点分割两种存储方式.2013年,GraphLab2.0将其存储方式由边分割变为点分割,在性能上取得重大提升,目前基本上被业界广泛接受并使用. 2.1 边分割(Edge-Cut) 每个顶点都存储一次,但有的边会被打断分到两台机器上.这样做的好处是节省存储空间:坏处是对图进行基于边的计算时,对于一条两个顶点被分到不同机器上的边来说,要跨机器通信传…

Spark学习之路（二十）SparkSQL的元数据

一.概述 SparkSQL 的元数据的状态有两种: 1.in_memory,用完了元数据也就丢了 2.hive , 通过hive去保存的,也就是说,hive的元数据存在哪儿,它的元数据也就存在哪儿. 换句话说,SparkSQL的数据仓库在建立在Hive之上实现的.我们要用SparkSQL去构建数据仓库的时候,必须依赖于Hive. 二.Spark-SQL脚本如果用户直接运行bin/spark-sql命令.会导致我们的元数据有两种状态: 1.in-memory状态: 如果SPARK-HOME/co…

Spark学习之路（二十八）分布式图计算系统[转]

引言在了解GraphX之前,需要先了解关于通用的分布式图计算框架的两个常见问题:图存储模式和图计算模式. 图存储模式巨型图的存储总体上有边分割和点分割两种存储方式.2013年,GraphLab2.0将其存储方式由边分割变为点分割,在性能上取得重大提升,目前基本上被业界广泛接受并使用. 边分割(Edge-Cut) 每个顶点都存储一次,但有的边会被打断分到两台机器上.这样做的好处是节省存储空间:坏处是对图进行基于边的计算时,对于一条两个顶点被分到不同机器上的边来说,要跨机器通信传输数据,内网通信…

Spark学习之路（二十）SparkSQL的元数据[转]

概述 SparkSQL 的元数据的状态有两种: 1.in_memory,用完了元数据也就丢了 2.hive , 通过hive去保存的,也就是说,hive的元数据存在哪儿,它的元数据也就存在哪儿. 换句话说,SparkSQL的数据仓库在建立在Hive之上实现的.我们要用SparkSQL去构建数据仓库的时候,必须依赖于Hive. Spark-SQL脚本如果用户直接运行bin/spark-sql命令.会导致我们的元数据有两种状态: 1.in-memory状态: 如果SPARK-HOME/conf目录…

Spark学习之路（二十七）图简介

一.图 1.1 基本概念图是由顶点集合(vertex)及顶点间的关系集合(边edge)组成的一种数据结构. 这里的图并非指代数中的图.图可以对事物以及事物之间的关系建模,图可以用来表示自然发生的连接数据,如:社交网络.互联网web页面常用的应用有:在地图应用中找到最短路径.基于与他人的相似度图,推荐产品.服务.人际关系或媒体二.术语 2.1 顶点和边一般关系图中,事物为顶点,关系为边 2.2 有向图和无向图在有向图中,一条边的两个顶点一般扮演者不同的角色,比如父子关系.页面A连接向页面…