spark操作Kudu之读 - 使用DataFrame API

虽然我们可以通过上面显示的KuduContext执行大量操作，但我们还可以直接从默认数据源本身调用读/写API。

要设置读取，我们需要为Kudu表指定选项，命名我们要读取的表以及为表提供服务的Kudu集群的Kudu主服务器列表。

import org.apache.kudu.spark.kudu._

import org.apache.spark.{SparkConf, SparkContext}

import org.apache.spark.sql.SparkSession

/**

  * Created by angel；

  */

object DataFrame_read {

  def main(args: Array[String]): Unit = {

    val sparkConf = new SparkConf().setAppName("AcctfileProcess")

      //设置Master_IP并设置spark参数

      .setMaster("local")

      .set("spark.worker.timeout", "500")

      .set("spark.cores.max", "10")

      .set("spark.rpc.askTimeout", "600s")

      .set("spark.network.timeout", "600s")

      .set("spark.task.maxFailures", "1")

      .set("spark.speculationfalse", "false")

      .set("spark.driver.allowMultipleContexts", "true")

      .set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")

    val sparkContext = SparkContext.getOrCreate(sparkConf)

    val sqlContext = SparkSession.builder().config(sparkConf).getOrCreate().sqlContext

    //TODO 1:定义表名

    val kuduTableName = "spark_kudu_tbl"

    val kuduMasters = "hadoop01:7051,hadoop02:7051,hadoop03:7051"

    //使用spark创建kudu表

    val kuduContext = new KuduContext(kuduTableName, sqlContext.sparkContext)

    //TODO 2：配置kudu参数

    val kuduOptions: Map[String, String] = Map(

      "kudu.table"  -> kuduTableName,

      "kudu.master" -> kuduMasters)

    //TODO 3：执行读取操作

    val customerReadDF = sqlContext.read.options(kuduOptions).kudu

    val filterData = customerReadDF.select("name" ,"age", "city").filter("age<30")

    //TODO 4：打印

    filterData.show()

  }

}

spark操作Kudu之读 - 使用DataFrame API的更多相关文章

spark操作Kudu之写 - 使用DataFrame API
在通过DataFrame API编写时,目前只支持一种模式“append”.尚未实现的“覆盖”模式 import org.apache.kudu.spark.kudu._ import org.apa ...
spark操作kudu之DML操作
Kudu支持许多DML类型的操作,其中一些操作包含在Spark on Kudu集成包括: INSERT - 将DataFrame的行插入Kudu表.请注意,虽然API完全支持INSERT,但不鼓励在 ...
使用spark操作kudu
Spark与KUDU集成支持: DDL操作(创建/删除) 本地Kudu RDD Native Kudu数据源,用于DataFrame集成从kudu读取数据从Kudu执行插入/更新/ upsert ...
使用sparkSQL的insert操作Kudu
可以选择使用Spark SQL直接使用INSERT语句写入Kudu表:与'append'类似,INSERT语句实际上将默认使用UPSERT语义处理: import org.apache.kudu.sp ...
spark 操作hbase
HBase经过七年发展,终于在今年2月底,发布了 1.0.0 版本.这个版本提供了一些让人激动的功能,并且,在不牺牲稳定性的前提下,引入了新的API.虽然 1.0.0 兼容旧版本的 API,不过还是应 ...
Spark操作hbase
于Spark它是一个计算框架,于Spark环境,不仅支持单个文件操作,HDFS档,同时也可以使用Spark对Hbase操作. 从企业的数据源HBase取出.这涉及阅读hbase数据,在本文中尽快为了尽 ...
使用spark集成kudu做DDL
spark对kudu表的创建定义kudu的表需要分成5个步骤: 1:提供表名 2:提供schema 3:提供主键 4:定义重要选项:例如:定义分区的schema 5:调用create Table a ...
Spark SQL怎么创建编程创建DataFrame
创建DataFrame在Spark SQL中,开发者可以非常便捷地将各种内.外部的单机.分布式数据转换为DataFrame.以下Python示例代码充分体现了Spark SQL 1.3.0中DataF ...
【原创】大叔经验分享（55）spark连接kudu报错
spark-2.4.2kudu-1.7.0 开始尝试 1)自己手工将jar加到classpath spark-2.4.2-bin-hadoop2.6+kudu-spark2_2.11-1.7.0-cd ...

随机推荐

html5 - history 历史管理
参考文章: w3c : http://www.w3.org/html/ig/zh/wiki/HTML5/history 张鑫旭 : http://www.zhangxinxu.com/wo ...
关于flock
昨天在研究dropbear实现时,看到初始化脚本/etc/init.d/dropbear中有关于文件锁lock的内容,如下: lock /tmp/.switch2jffs mkdir -p /e ...
ES--01
ES概念: 垂直搜索(站内搜索) 什么是全文检索和Lucene? 1 全文检索倒排索引 2 Lucene 就是一个jar包里面包含了封装好的各种简历倒排索引以及进行搜索的代码包括各种算法我们 ...
Sublime Text 3安装Package Control快速建立html5和xhtml文档
Sublime Text 3安装Package Control快速建立html5和xhtml文档先关闭Sublime text 3:第1步:下载sublime_package_control-mas ...
gdb 调试程序步骤
在程序a.c编译过程中加入调试信息: g++ -g -o a.debug a.c 启动gdb,在终端下输入:gdb 此时启动了gdb,在gdb中加载需要调试的程序,在终端输入命令: file a.de ...
Android App签名打包
Andriod应用程序如果要在手机或模拟器上安装,必须要有签名! 1.签名的意义为了保证每个应用程序开发商合法ID,防止部分开放商可能通过使用相同的Package Name来混淆替换已经安装的程序 ...
<转载>关系规范化之求最小函数依赖集(最小覆盖)
原文链接http://blog.csdn.net/icurious/article/details/51240114 最小函数依赖集一.等价和覆盖定义:关系模式R<U,F>上的两个依赖 ...
基于MVC 的Quartz.Net组件实现的定时执行任务调度
新建mvc项目之后,首先引用Quartz组件.工具-->NuGet包管理器-->管理解决方案的 NuGet包管理器组件安装完成. Quartz.Net一个最简单任务至少包括三部分实现:j ...
使用第三方组件(django-redis)创建连接池
settings里面: ##redis配置CACHES={ 'default':{ 'BACKEND':'django_redis.cache.RedisCache', 'LOCATION':'red ...
cdh5.15集群添加spark2.3服务（parcels安装）
背景: 机器系统:redhat7.3:已经配置了http服务集群在安装的时候没有启动spark服务,因为cdh5.15自带的spark不是2.0,所以直接进行spark2.3的安装参考文档:htt ...

spark操作Kudu之读 - 使用DataFrame API

spark操作Kudu之读 - 使用DataFrame API的更多相关文章

随机推荐

热门专题