Spark SQL UDF示例

UDF即用户自定函数，注册之后，在sql语句中使用。

基于scala-sdk-2.10.7，Spark2.0.0。

package UDF_UDAF

import java.util

import org.apache.spark.sql.{RowFactory, SparkSession}

import org.apache.spark.SparkConf

import org.apache.spark.sql.api.java.UDF1

import org.apache.spark.sql.types.{DataTypes, StructField}


// 自定义一个继承自 UDF1（或UDF2，UDF3，UDF4...）的类

class UDF extends UDF1[String,Int]{

  override def call(t1: String): Int = {

    t1.length

  }

}

object UDF{

  def main(args: Array[String]): Unit = {

    val warehouseLocation = "/code/VersionTest/spark-warehouse" //必须是相对路径

    val conf = new SparkConf().setMaster("local").setAppName("udf")

    val sparkSession = SparkSession.builder()

      .config(conf)

      .config("spark.sql.warehouse.dir", warehouseLocation) //设置warehouse

      .getOrCreate()

    val sc = sparkSession.sparkContext

    val parallize = sc.parallelize(Array("zhangsan","lisi","wangwu"))

    val rowRDD = parallize.map(s=>RowFactory.create(s))

    val fields = new util.ArrayList[StructField]()

    fields.add(DataTypes.createStructField("name",DataTypes.StringType,true))

    val schema = DataTypes.createStructType(fields)

    val df = sqlSession.createDataFrame(rowRDD, schema)

    df.createOrReplaceTempView("user")

    sparkSession.udf.register("StrLen", new UDF(),DataTypes.IntegerType)

    sparkSession.sql("select name, StrLen(name) as length from user").show()

    sparkSession.stop()

  }

}

结果

Spark SQL UDF示例的更多相关文章

转】 Spark SQL UDF使用
原博文出自于: http://blog.csdn.net/oopsoom/article/details/39401391 感谢! Spark1.1推出了Uer Define Function功能,用 ...
Spark SQL UDAF示例
UDAF:用户自定义聚合函数 Scala 2.10.7,spark 2.0.0 package UDF_UDAF import java.util import org.apache.spark.Sp ...
Spark学习之Spark SQL
一.简介 Spark SQL 提供了以下三大功能. (1) Spark SQL 可以从各种结构化数据源(例如 JSON.Hive.Parquet 等)中读取数据. (2) Spark SQL 不仅支持 ...
Spark SQL External DataSource简介
随着Spark1.2的发布,Spark SQL开始正式支持外部数据源.这使得Spark SQL支持了更多的类型数据源,如json, parquet, avro, csv格式.只要我们愿意,我们可以开发 ...
6. Spark SQL和Beeline
*以下内容由<Spark快速大数据分析>整理所得. 读书笔记的第六部分是讲的是Spark SQL和Beeline. Spark SQL是Spark用来操作结构化和半结构化数据的接口. 一. ...
Spark SQL 用户自定义函数UDF、用户自定义聚合函数UDAF 教程（Java踩坑教学版）
在Spark中,也支持Hive中的自定义函数.自定义函数大致可以分为三种: UDF(User-Defined-Function),即最基本的自定义函数,类似to_char,to_date等 UDAF( ...
Spark注册UDF函数，用于DataFrame DSL or SQL
import org.apache.spark.sql.SparkSession import org.apache.spark.sql.functions._ object Test2 { def ...
十一、spark SQL的scala示例
简介 spark SQL官网:http://spark.apache.org/docs/latest/sql-programming-guide.html sparkSQL是构建在sparkCore之 ...
二、spark SQL交互scala操作示例
一.安装spark spark SQL是spark的一个功能模块,所以我们事先要安装配置spark,参考: https://www.cnblogs.com/lay2017/p/10006935.htm ...

随机推荐

[Windows Doc]微软官方文档
desktop: https://docs.microsoft.com/en-us/windows/desktop/index server:https://docs.microsoft.com/en ...
Linux-Jenkins安装部署
Jenkins 安装及插件安装 Jenkins简介: Jenkins只是一个平台,真正运作的都是插件.这就是jenkins流行的原因,因为jenkins什么插件都有 Hudson是Jenkins的前身 ...
[Sdoi2017]新生舞会（分数规划+费用流）
题解:二分答案mid,然后将每个位置看成a-b*mid,然后由于是n个男生和n个女生匹配,每个人搭配一个cp,于是有点类似于https://www.lydsy.com/JudgeOnline/prob ...
JavaScript开发中常用的代码规范配置文件
一.jsconfig.json { compilerOptions: { target: 'es6', experimentalDecorators: true, allowSyntheticDefa ...
python第十四天
今日内容 1. 带参装饰器 | wrapper 2. 迭代器 3. 可迭代对象 4.迭代器对象 5.for 迭代器 6.枚举对象带参装饰器是指装饰器为被装饰的函数添加新功能,需要外界的参数 - ...
Java第二次实训
package fsafsa; import java.util.Scanner; public class fafas { public static void main(String[] args ...
static_assert与assert
C++0x中引入了static_assert这个关键字,用来做编译期间的断言,因此叫做静态断言. 其语法:static_assert(常量表达式,提示字符串). 如果第一个参数常量表达式的值为fals ...
CC1310 笔记
GPIO控制: #include <ti/drivers/GPIO.h> GPIO_init() 函数会调用结构体实例 GPIOCC26XX_config,把需要使用到的GPIO放一起, ...
XGBboost 特征评分的计算原理
xgboost是基于GBDT原理进行改进的算法,效率高,并且可以进行并行化运算,而且可以在训练的过程中给出各个特征的评分,从而表明每个特征对模型训练的重要性, 调用的源码就不准备详述,本文主要侧重的是 ...
C# 处理文件，视频，音频，压缩包下载
文章介绍了通过HttpWebRequest和HttpWebResponse实现视频下载的功能:首先HttpWebRequest类利用HTTP 协议和服务器交互,再由HttpWebResponse返回来 ...

Spark SQL UDF示例

Spark SQL UDF示例的更多相关文章

随机推荐

热门专题