spark2.4.3+kudu1.9

1 批量读

val df = spark.read.format("kudu")

      .options(Map("kudu.master" -> "master:7051", "kudu.table" -> "impala::test_db.test_table"))

      .load

df.createOrReplaceTempView("tmp_table")

spark.sql("select * from tmp_table limit 10").show()

2 批量写

import org.apache.kudu.spark.kudu.{KuduContext, KuduWriteOptions}

val kuduMaster = "master:7051"

val table = "impala::test_db.test_table"

val kuduContext = new KuduContext(kuduMaster, sc)

kuduContext.upsertRows(df, table, new KuduWriteOptions(false, true))

3 单个读/条件读

cd $SPARK_HOME

bin/spark-shell --packages org.apache.kudu:kudu-spark2_2.11:1.9.0

import org.apache.kudu.client.{KuduPredicate, RowResult}

import org.apache.kudu.spark.kudu.KuduContext

val kuduMaster = "master:7051"

val table = "impala::test_db.test_table"

val kuduContext = new KuduContext(kuduMaster, sc)

val table = kuduContext.syncClient.openTable(table)

val predicate = KuduPredicate.newComparisonPredicate(table.getSchema().getColumn("id"),KuduPredicate.ComparisonOp.EQUAL, "testid")

val scanner = kuduContext.syncClient.newScannerBuilder(table).addPredicate(predicate).build()

scanner.hasMoreRows

val rows = scanner.nextRows

rows.hasNext

val row = rows.next

println(row.getString(0))

4 单个写

cd $SPARK_HOME

bin/spark-shell --packages org.apache.kudu:kudu-spark2_2.11:1.9.0

import org.apache.kudu.client.{KuduPredicate, RowResult}

import org.apache.kudu.spark.kudu.KuduContext

import org.apache.kudu.client.SessionConfiguration

val kuduMaster = "172.26.192.219:7051"

val kuduContext = new KuduContext(kuduMaster, sc)

val kuduClient = kuduContext.syncClient

val kuduTable = kuduClient.openTable("impala::dataone_xishaoye.tbl_order_union")

val kuduSession = kuduClient.newSession()

//AUTO_FLUSH_BACKGROUND AUTO_FLUSH_SYNC MANUAL_FLUSH

kuduSession.setFlushMode(SessionConfiguration.FlushMode.AUTO_FLUSH_SYNC)

kuduSession.setMutationBufferSpace(1000)

val insert = kuduTable.newInsert()

val row = insert.getRow()

row.addString(0, "hello")

kuduSession.apply(insert)

//kuduSession.flush

其他：newInsert/newUpdate/newDelete/newUpsert

5 错误定位

如果apply之后发现修改没有生效，并且确认已经提交，可能有报错（不会抛异常），需要从OperationResponse中打印错误信息

val opResponse = session.apply(op)

if (opResponse != null && opResponse.hasRowError) println(opResponse.getRowError.toString)

注意一定要使用FlushMode.AUTO_FLUSH_SYNC，详见源代码

org.apache.kudu.client.KuduSession

    public OperationResponse apply(Operation operation) throws KuduException {

        while(true) {

            try {

                Deferred<OperationResponse> d = this.session.apply(operation);

                if(this.getFlushMode() == FlushMode.AUTO_FLUSH_SYNC) {

                    return (OperationResponse)d.join();

                }

                return null;

            } catch (PleaseThrottleException var5) {

                PleaseThrottleException ex = var5;

                try {

                    ex.getDeferred().join();

                } catch (Exception var4) {

                    LOG.error("Previous batch had this exception", var4);

                }

            } catch (Exception var6) {

                throw KuduException.transformException(var6);

            }

        }

    }

参考：

https://kudu.apache.org/docs/developing.html

【原创】大数据基础之Kudu（4）spark读写kudu的更多相关文章

【原创】大数据基础之Flume（2）kudu sink
kudu中的flume sink代码路径: https://github.com/apache/kudu/tree/master/java/kudu-flume-sink kudu-flume-sin ...
【原创】大数据基础之Zookeeper（2）源代码解析
核心枚举 public enum ServerState { LOOKING, FOLLOWING, LEADING, OBSERVING; } zookeeper服务器状态:刚启动LOOKING,f ...
大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建图文详解
引言在之前的大数据学习系列中,搭建了Hadoop+Spark+HBase+Hive 环境以及一些测试.其实要说的话,我开始学习大数据的时候,搭建的就是集群,并不是单机模式和伪分布式.至于为什么先写单 ...
CentOS6安装各种大数据软件第十章：Spark集群安装和部署
相关文章链接 CentOS6安装各种大数据软件第一章:各个软件版本介绍 CentOS6安装各种大数据软件第二章:Linux各个软件启动命令 CentOS6安装各种大数据软件第三章:Linux基础 ...
大数据平台搭建（hadoop+spark）
大数据平台搭建(hadoop+spark) 一.基本信息 1. 服务器基本信息主机名 ip地址安装服务 spark-master 172.16.200.81 jdk.hadoop.spark.sc ...
大数据系列之并行计算引擎Spark部署及应用
相关博文: 大数据系列之并行计算引擎Spark介绍之前介绍过关于Spark的程序运行模式有三种: 1.Local模式: 2.standalone(独立模式) 3.Yarn/mesos模式本文将介绍 ...
大数据系列之并行计算引擎Spark介绍
相关博文:大数据系列之并行计算引擎Spark部署及应用 Spark: Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎. Spark是UC Berkeley AMP lab ( ...
【原创】大数据基础之Kudu（5）kudu增加或删除目录/数据盘
kudu加减数据盘不能直接修改配置fs_data_dirs后重启,否则会报错: Check failed: _s.ok() Bad status: Already present: FS layout ...
大数据基础知识问答----spark篇，大数据生态圈
Spark相关知识点 1.Spark基础知识 1.Spark是什么? UCBerkeley AMPlab所开源的类HadoopMapReduce的通用的并行计算框架 dfsSpark基于mapredu ...

随机推荐

ubuntu18.04安装mysql以及重置密码创建新用户
1.安装mysqlsudo apt-get install mysql-serversudo apt-get install mysql-clientsudo apt-get install libm ...
linux系统空间不足，不重启进程，清理僵尸文件。
问题:通过lsof |grep delete命令可以看到状态为delete的进程文件占用了较多的空间,导致系统磁盘空间不足,而du 命令看到的磁盘空间占用没那么高. 得到僵尸文件名称:catalina ...
用socket.io实现websocket的一个简单例子
socket.io 是基于 webSocket 构建的跨浏览器的实时应用. 逛博客发现几个比较好的一.用socket.io实现websocket的一个简单例子 http://biyeah.iteye ...
Mac下安装brew
1.Mac 终端下,执行以下命令,即可安装brew: /usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Hom ...
微信小程序跳转问题：wx.redirectTo、wx.navigateTo、wx.reLaunch、wx.switchTap、wx.navigateBack区别
wx.redirectTo:关闭当前页,跳转到指定页: wx.navigateTo:保留当前页,跳转到指定页: wx.reLaunch:关闭所有页面,打开到应用内的某个页面. wx.switchTap ...
Django运行项目时候出现DisallowedHost at / Invalid HTTP_HOST header:
web端错误现象: DisallowedHost at / Invalid HTTP_HOST header: 'ip:8000'. You may need to add u'ip' to ALLO ...
linux安装sz、rz的方法，及安装zip
Linux系统下安装rz/sz命令及使用说明对于经常使用Linux系统的人员来说,少不了将本地的文件上传到服务器或者从服务器上下载文件到本地,rz / sz命令很方便的帮我们实现了这个功能,但是 ...
selenium 2019 笔记
1.get打开本地目录的方法
.Netcore 2.0 Ocelot Api网关教程（1）- 入门
Ocelot(Github)Ocelot官方文档(英文)本文不会介绍Api网关是什么以及Ocelot能干什么需要对Api网关及Ocelot有一定的理论了解开始使用Ocelot搭建一个入门级Api网关 ...
RocketMQ之八：水平扩展及负载均衡详解
RocketMQ是一个分布式具有高度可扩展性的消息中间件.本文旨在探索在broker端,生产端,以及消费端是如何做到横向扩展以及负载均衡的. NameServer集群提供轻量级的服务发现和路由.每个 ...

【原创】大数据基础之Kudu（4）spark读写kudu