spark操作Kudu之读 - 使用DataFrame API

虽然我们可以通过上面显示的KuduContext执行大量操作，但我们还可以直接从默认数据源本身调用读/写API。

要设置读取，我们需要为Kudu表指定选项，命名我们要读取的表以及为表提供服务的Kudu集群的Kudu主服务器列表。

import org.apache.kudu.spark.kudu._

import org.apache.spark.{SparkConf, SparkContext}

import org.apache.spark.sql.SparkSession

/**

  * Created by angel；

  */

object DataFrame_read {

  def main(args: Array[String]): Unit = {

    val sparkConf = new SparkConf().setAppName("AcctfileProcess")

      //设置Master_IP并设置spark参数

      .setMaster("local")

      .set("spark.worker.timeout", "500")

      .set("spark.cores.max", "10")

      .set("spark.rpc.askTimeout", "600s")

      .set("spark.network.timeout", "600s")

      .set("spark.task.maxFailures", "1")

      .set("spark.speculationfalse", "false")

      .set("spark.driver.allowMultipleContexts", "true")

      .set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")

    val sparkContext = SparkContext.getOrCreate(sparkConf)

    val sqlContext = SparkSession.builder().config(sparkConf).getOrCreate().sqlContext

    //TODO 1:定义表名

    val kuduTableName = "spark_kudu_tbl"

    val kuduMasters = "hadoop01:7051,hadoop02:7051,hadoop03:7051"

    //使用spark创建kudu表

    val kuduContext = new KuduContext(kuduTableName, sqlContext.sparkContext)

    //TODO 2：配置kudu参数

    val kuduOptions: Map[String, String] = Map(

      "kudu.table"  -> kuduTableName,

      "kudu.master" -> kuduMasters)

    //TODO 3：执行读取操作

    val customerReadDF = sqlContext.read.options(kuduOptions).kudu

    val filterData = customerReadDF.select("name" ,"age", "city").filter("age<30")

    //TODO 4：打印

    filterData.show()

  }

}

spark操作Kudu之读 - 使用DataFrame API的更多相关文章

spark操作Kudu之写 - 使用DataFrame API
在通过DataFrame API编写时,目前只支持一种模式“append”.尚未实现的“覆盖”模式 import org.apache.kudu.spark.kudu._ import org.apa ...
spark操作kudu之DML操作
Kudu支持许多DML类型的操作,其中一些操作包含在Spark on Kudu集成包括: INSERT - 将DataFrame的行插入Kudu表.请注意,虽然API完全支持INSERT,但不鼓励在 ...
使用spark操作kudu
Spark与KUDU集成支持: DDL操作(创建/删除) 本地Kudu RDD Native Kudu数据源,用于DataFrame集成从kudu读取数据从Kudu执行插入/更新/ upsert ...
使用sparkSQL的insert操作Kudu
可以选择使用Spark SQL直接使用INSERT语句写入Kudu表:与'append'类似,INSERT语句实际上将默认使用UPSERT语义处理: import org.apache.kudu.sp ...
spark 操作hbase
HBase经过七年发展,终于在今年2月底,发布了 1.0.0 版本.这个版本提供了一些让人激动的功能,并且,在不牺牲稳定性的前提下,引入了新的API.虽然 1.0.0 兼容旧版本的 API,不过还是应 ...
Spark操作hbase
于Spark它是一个计算框架,于Spark环境,不仅支持单个文件操作,HDFS档,同时也可以使用Spark对Hbase操作. 从企业的数据源HBase取出.这涉及阅读hbase数据,在本文中尽快为了尽 ...
使用spark集成kudu做DDL
spark对kudu表的创建定义kudu的表需要分成5个步骤: 1:提供表名 2:提供schema 3:提供主键 4:定义重要选项:例如:定义分区的schema 5:调用create Table a ...
Spark SQL怎么创建编程创建DataFrame
创建DataFrame在Spark SQL中,开发者可以非常便捷地将各种内.外部的单机.分布式数据转换为DataFrame.以下Python示例代码充分体现了Spark SQL 1.3.0中DataF ...
【原创】大叔经验分享（55）spark连接kudu报错
spark-2.4.2kudu-1.7.0 开始尝试 1)自己手工将jar加到classpath spark-2.4.2-bin-hadoop2.6+kudu-spark2_2.11-1.7.0-cd ...

随机推荐

035_lua快速入门
执行下面的脚本用luajit test.lua即可一.变量及逻辑运算 --number, string, boolean, table, function, thread, userdata, ni ...
ansible笔记（4）：常用模块之文件操作
前文中,我们已经介绍了怎样使用模块,而且我们知道,ansible有很多模块,每个模块都有自己的功能,"模块"涉及到的方向比较多,所以对于个人来说,并没有必要了解所有的模块,我们只需 ...
Go Rand小结
对于Random的使用,在业务中使用频率是非常高的,本文就小结下常用的方法: 在Golang中,有两个包提供了rand,分别为 "math/rand" 和 "crypto ...
MVC异步方法
在mvc的开发过程中,有时候我们会需要在action中调用异步方法,这个时候会需要做一些特殊处理.我们会使用到await和async.对应的controller也应该是async的. 在MVC4中直接 ...
Laravel资源理由器跟隐式控制的对比及是怎样的吧？- Route::resource vs Route::controller
stackoverflow找到的问题:http://stackoverflow.com/questions/23505875/laravel-routeresource-vs-routecontrol ...
[转]PHP开发中涉及到emoji表情的三种处理方法
最近几个月做微信开发比较多,存储微信昵称必不可少,可这万恶的微信支持emoji表情做昵称,这就有点蛋疼了一般Mysql表设计时,都是用UTF8字符集的.把带有emoji的昵称字段往里面insert一 ...
Java RMI与RPC的区别
转载请注明原文地址:http://www.cnblogs.com/ygj0930/p/6542811.html 一:RPC 远程过程调用 RPC(Remote Procedure Call Prot ...
Java学习——面向对象【3】
1. 继承 java的类是单继承(一个子类只能继承一个父类),不能多继承(多个父类):A继承自B,A也继承自C,可以多重继承,就是A继承自B,B继承自C(A->B->C), 所有的类都继 ...
swift 学习- 11 -- 属性
// '属性'将值跟特定的类, 结构体或枚举关联, 存储属性常量或变量作为实例的一部分,而计算属性计算(不是存储) 一个值, 计算属性可以用于类, 结构体, 枚举, 存储属性只能用于类和结构体 ...
oracle数据库定时任务dbms_job的用法详解
本文来源:Ruthless <oracle数据库定时任务dbms_job的用法详解> 一.dbms_job涉及到的知识点 1.创建job: variable jobno number; ...

spark操作Kudu之读 - 使用DataFrame API

spark操作Kudu之读 - 使用DataFrame API的更多相关文章

随机推荐

热门专题