使用spark操作kudu

Spark与KUDU集成支持：

DDL操作（创建/删除）
本地Kudu RDD
Native Kudu数据源，用于DataFrame集成
从kudu读取数据
从Kudu执行插入/更新/ upsert /删除
谓词下推
Kudu和Spark SQL之间的模式映射

到目前为止，我们已经听说过几个上下文，例如SparkContext，SQLContext，HiveContext，SparkSession，现在，我们将使用Kudu引入一个KuduContext。这是可在Spark应用程序中广播的主要可序列化对象。此类代表在Spark执行程序中与Kudu Java客户端进行交互。

KuduContext提供执行DDL操作所需的方法，与本机Kudu RDD的接口，对数据执行更新/插入/删除，将数据类型从Kudu转换为Spark等。

比较常见的操作：

// Create a Spark and SQL context

val sc = new SparkContext(sparkConf)

val sqlContext = new SQLContext(sc)

// Comma-separated list of Kudu masters with port numbers

val master1 = "ip-10-13-4-249.ec2.internal:7051"

val master2 = "ip-10-13-5-150.ec2.internal:7051"

val master3 = "ip-10-13-5-56.ec2.internal:7051"

val kuduMasters = Seq(master1, master2, master3).mkString(",")

// Create an instance of a KuduContext

val kuduContext = new KuduContext(kuduMasters)

Maven导包

 <repositories>

        <repository>

            <id>cloudera</id>

            <url>https://repository.cloudera.com/artifactory/cloudera-repos/</url>

        </repository>

    </repositories>

<dependencies>

    <!-- https://mvnrepository.com/artifact/org.apache.kudu/kudu-client -->

    <dependency>

        <groupId>org.apache.kudu</groupId>

        <artifactId>kudu-client</artifactId>

        <version>1.6.0-cdh5.14.0</version>

        <scope>test</scope>

    </dependency>

    <!-- https://mvnrepository.com/artifact/org.apache.kudu/kudu-client-tools -->

    <dependency>

        <groupId>org.apache.kudu</groupId>

        <artifactId>kudu-client-tools</artifactId>

        <version>1.6.0-cdh5.14.0</version>

    </dependency>

    <!-- https://mvnrepository.com/artifact/org.apache.kudu/kudu-spark2 -->

    <dependency>

        <groupId>org.apache.kudu</groupId>

        <artifactId>kudu-spark2_2.11</artifactId>

        <version>1.6.0-cdh5.14.0</version>

    </dependency>

    <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-sql -->

    <dependency>

        <groupId>org.apache.spark</groupId>

        <artifactId>spark-sql_2.11</artifactId>

        <version>2.1.0</version>

    </dependency>

</dependencies>

具体详细代码看下一章介绍

使用spark操作kudu的更多相关文章

spark操作Kudu之写 - 使用DataFrame API
在通过DataFrame API编写时,目前只支持一种模式“append”.尚未实现的“覆盖”模式 import org.apache.kudu.spark.kudu._ import org.apa ...
spark操作Kudu之读 - 使用DataFrame API
虽然我们可以通过上面显示的KuduContext执行大量操作,但我们还可以直接从默认数据源本身调用读/写API. 要设置读取,我们需要为Kudu表指定选项,命名我们要读取的表以及为表提供服务的Kudu ...
spark操作kudu之DML操作
Kudu支持许多DML类型的操作,其中一些操作包含在Spark on Kudu集成包括: INSERT - 将DataFrame的行插入Kudu表.请注意,虽然API完全支持INSERT,但不鼓励在 ...
使用sparkSQL的insert操作Kudu
可以选择使用Spark SQL直接使用INSERT语句写入Kudu表:与'append'类似,INSERT语句实际上将默认使用UPSERT语义处理: import org.apache.kudu.sp ...
spark 操作hbase
HBase经过七年发展,终于在今年2月底,发布了 1.0.0 版本.这个版本提供了一些让人激动的功能,并且,在不牺牲稳定性的前提下,引入了新的API.虽然 1.0.0 兼容旧版本的 API,不过还是应 ...
Spark操作hbase
于Spark它是一个计算框架,于Spark环境,不仅支持单个文件操作,HDFS档,同时也可以使用Spark对Hbase操作. 从企业的数据源HBase取出.这涉及阅读hbase数据,在本文中尽快为了尽 ...
使用spark集成kudu做DDL
spark对kudu表的创建定义kudu的表需要分成5个步骤: 1:提供表名 2:提供schema 3:提供主键 4:定义重要选项:例如:定义分区的schema 5:调用create Table a ...
Spark操作实战
1. local模式 $SPARK_HOME/bin/spark-shell --master local import org.apache.log4j.{Level,Logger} // 导入ja ...
Spark操作算子本质-RDD的容错
Spark操作算子本质-RDD的容错spark模式1.standalone master 资源调度 worker2.yarn resourcemanager 资源调度 nodemanager在一个集群 ...

随机推荐

ansible笔记（6）：常用模块之命令类模块
ansible笔记():常用模块之命令类模块 command模块 command模块可以帮助我们在远程主机上执行命令注意:使用command模块在远程主机中执行命令时,不会经过远程主机的shell处 ...
开启gtid导入报错
导入报错 [root@redis02 data]# mysql -u root -p < ht.sqlEnter password: ERROR 1840 (HY000) at line 24: ...
[HTTP]HTTP 中的 Transfer-Encoding 报文头
一.背景: 持续连接的问题:对于非持续连接,浏览器可以通过连接是否关闭来界定请求或响应实体的边界:而对于持续连接,这种方法显然不奏效.有时,尽管我已经发送完所有数据,但浏览器并不知道这一点,它无法得知 ...
Codeforces 438E The Child and Binary Tree [DP，生成函数，NTT]
洛谷 Codeforces 思路看到计数和$998244353$,可以感觉到这是一个DP+生成函数+NTT的题. 设$s_i$表示$i$是否在集合中,$A$为$s$的生成函数,即 ...
select下拉框插件jquery.editable-select
项目中有个需求,下拉框既可以下拉选择,也可以手动填写 html代码 <span>数据来源</span> </select> js代码 $('#noMean').ed ...
iOS -- Effective Objective-C 阅读笔记 (1)
1: 在类的头文件中尽量少的引用其他头文件,尽量用 @class xxxxxx; 理解: 当你创建了一个 A 类,这个类又需要具有 B 类的实例, 你可以直接为 A 类添加 B 类类型的属性, ...
Confluence 6 配置白名单
Confluence 管理员可以通过添加 URLs 到白名单选择出入的链接和使用 RSS 宏,HTML 包含宏和小工具中的内容. 如果一个内容被添加到 Confluence 系统中,但是这个 URLs ...
JPA整合Spring案例
目录 Spring-SpringMVC-JPA整合案例三种整合方式 Spring整合JPA步骤解决JPA懒加载问题 Spring-SpringMVC-JPA整合案例 author :SimpleW ...
kafka消息的分发与消费
关于 Topic 和 Partition: Topic: 在 kafka 中,topic 是一个存储消息的逻辑概念,可以认为是一个消息集合.每条消息发送到 kafka 集群的消息都有一个类别.物理上来 ...
LeetCode（116）：填充同一层的兄弟节点
Medium! 题目描述: 给定一个二叉树 struct TreeLinkNode { TreeLinkNode *left; TreeLinkNode *right; TreeLinkNode *n ...

使用spark操作kudu

Maven导包

具体详细代码看下一章介绍

使用spark操作kudu的更多相关文章

随机推荐

热门专题