1、编写udf类
  1. package hive.udf;
  2. import org.apache.hadoop.hive.ql.exec.Description;
  3. import org.apache.hadoop.hive.ql.exec.UDF;
  4. /**
  5. * UDF的说明文档
  6. * name是UDF的名称
  7. * value是desc function xx输出的内容
  8. * extended是desc function extended xx输出的内容
  9. *
  10. */
  11. @Description(name="uppernum",
  12. value="_FUNC_ the input is a num, the output is the UpperNum",
  13. extended="Example:\n" +
  14. "> select uppernum(1) from src \n")
  15. public class UpperNumUDF extends UDF {
  16. /**
  17. * UDF类需要自定义evaluate方法,可以重载多个
  18. *
  19. * evaluate的参数、返回值必须是hive可以序列化的类型
  20. *
  21. * 参数:
  22. * 1)可以是java基本类型、String
  23. * 2)可以是Text
  24. * 3)可以包含多个参数,参数类型也可以不同
  25. * 4)可以是List<?>。如果hive表字段是Array<?>类型的,则是List
  26. *
  27. * 返回值:
  28. * 1)必须有返回值,可以为null
  29. * 2)返回值只能是java基本类型、String、Writable
  30. *
  31. * 可以自定义 UDFMethodResolver来手动匹配方法的执行
  32. *
  33. * @param num
  34. * @return
  35. */
  36. public String evaluate(int num) {
  37. String str = "ERROR";
  38. switch (num) {
  39. case 0:
  40. str = "零";
  41. break;
  42. case 1:
  43. str = "壹";
  44. break;
  45. case 2:
  46. str = "贰";
  47. break;
  48. case 3:
  49. str = "叁";
  50. break;
  51. case 4:
  52. str = "肆";
  53. break;
  54. case 5:
  55. str = "伍";
  56. break;
  57. default:
  58. break;
  59. }
  60. return str;
  61. }
  62. public String evaluate(String num) {
  63. int intnum = 100;
  64. try {
  65. intnum = Integer.parseInt(num);
  66. } catch (NumberFormatException e) {
  67. }
  68. return evaluate(intnum);
  69. }
  70. }

2、打包类,将jar上传到hive所在机器上

3、启动hive,在hive会话里执行:
1)加载jar包
  1. hive (test)> add jar ${env:HOME}/udf.jar;
ps:jar包路径没有引号

2)创建uppernum 
  1. hive (test)> create [temporary] function uppernum as 'hive.udf.UpperNumUDF';
ps:创建的function,在hive会话结束后将消失,可以在.hiverc里设置,来确保每次hive启动时都执行create。

3)使用uppernum 
  1. hive (test)> select uppernum(2) from dual;
  2. OK
  3. Time taken: 0.118 seconds, Fetched: 1 row(s)
  4. hive (test)> select uppernum(5) from dual;
  5. OK

4)查看uppernum的说明文档
  1. hive (test)> desc function uppernum;
  2. OK
  3. uppernum the input is a num, the output is the UpperNum
  4. Time taken: 0.138 seconds, Fetched: 1 row(s)
  5. hive (test)> desc function extended uppernum;
  6. OK
  7. uppernum the input is a num, the output is the UpperNum
  8. Example:
  9. > select uppernum(1) from src
  10. Time taken: 0.138 seconds, Fetched: 4 row(s)

5)删除UDF
  1. hive> drop [temporary] function uppernum;
  2. OK
  3. Time taken: 0.221 seconds



附件列表

自定义UDF的更多相关文章

  1. Hive UDF IP解析(二):使用geoip2数据库自定义UDF

    开发中经常会碰到将IP转为地域的问题,所以以下记录Hive中自定义UDF来解析IP. 使用到的地域库位maxmind公司的geoIP2数据库,分为免费版GeoLite2-City.mmdb和收费版Ge ...

  2. 自定义udf添加一列

    //创建得分窗口字典 var dict= new mutable.HashMap[Double, Int]() ){ dict.put(result_Score(i),i) } //自定义Udf函数 ...

  3. 2.13 Hive中自带Function使用及自定义UDF编程

    UDF:User Definition Function 一.function #查看自带的函数 hive (db_hive)> show functions; #查看一个函数的详细用法 hiv ...

  4. 自定义UDF函数应用异常

    自定义UDF函数应用异常 版权声明:本文为yunshuxueyuan原创文章.如需转载请标明出处: http://www.cnblogs.com/sxt-zkys/QQ技术交流群:299142667 ...

  5. 如何给Apache Pig自定义UDF函数?

    近日由于工作所需,需要使用到Pig来分析线上的搜索日志数据,散仙本打算使用hive来分析的,但由于种种原因,没有用成,而Pig(pig0.12-cdh)散仙一直没有接触过,所以只能临阵磨枪了,花了两天 ...

  6. Hive 自定义UDF操作步骤

    Hive 自定义UDF操作步骤 需要自定义类,然后继承UDF 然后在方法envluate()方法里面实现具体的业务逻辑,打包上传到linux(以免出错打包成RunningJar) 一.创建临时函数 ( ...

  7. 【Spark篇】---SparkSQL中自定义UDF和UDAF,开窗函数的应用

    一.前述 SparkSQL中的UDF相当于是1进1出,UDAF相当于是多进一出,类似于聚合函数. 开窗函数一般分组取topn时常用. 二.UDF和UDAF函数 1.UDF函数 java代码: Spar ...

  8. 047 SparkSQL自定义UDF函数

    一:程序部分 1.需求 Double数据类型格式化,可以给定小数点位数 2.程序 package com.scala.it import org.apache.spark.{SparkConf, Sp ...

  9. Spark(十三)【SparkSQL自定义UDF/UDAF函数】

    目录 一.UDF(一进一出) 二.UDAF(多近一出) spark2.X 实现方式 案例 ①继承UserDefinedAggregateFunction,实现其中的方法 ②创建函数对象,注册函数,在s ...

随机推荐

  1. -webkit-CSS属性拾遗

    -webkit-input-placeholder 这个伪类用于设置输入框placeholder文字的样式,基本可以设置例子如下: input::-webkit-input-placeholder { ...

  2. Shell脚本 | 性能测试之启动时间

    安卓应用的性能测试,通常包括六个指标:启动时间.内存.CPU.耗电量.流量.流畅度. 除了耗电量,其他五个指标的数据在我们团队中已经可以通过运行脚本的方式获取到. 今天给大家分享下启动时间的脚本吧- ...

  3. spring boot 与 thymeleaf (3): 设置属性、条件、遍历、局部变量、优先级、内联语法

    前面记录了 thymeleaf 基本表达式, 这里继续看一下其他功能. 一. 设置属性值 这里的controller, html框架 还是沿用上一篇的部分. html: <div class=& ...

  4. 2015年第六届蓝桥杯C/C++程序设计本科B组决赛 完美正方形

    完美正方形 如果一些边长互不相同的正方形,可以恰好拼出一个更大的正方形,则称其为完美正方形.历史上,人们花了很久才找到了若干完美正方形.比如:如下边长的22个正方形 2 3 4 6 7 8 12 13 ...

  5. mysql dbcp Caused By: com.mysql.jdbc.exceptions.jdbc4.CommunicationsException: The last packet successfully received

    <bean id="dataSource" class="org.apache.commons.dbcp.BasicDataSource" destroy ...

  6. intellij idea 怎么全局搜索--转

    https://jingyan.baidu.com/article/29697b9163ac7dab20de3cbf.html intellij idea是一款智能,功能强大的ide,对比eclips ...

  7. 让浏览器兼容ES6语法(gulp+babel)

    使用gulp+babel搭建ES6环境 前言 我们查阅资料可以知道ECMAScript 2015(简称ES6)已经于2015年发布,由于用户使用的浏览器版本在安装的时候可能早于ES6的发布,而到了今天 ...

  8. SpringMVC之使用 POJO 对象绑定请求参数值

    Spring MVC 会按请求参数名和 POJO 属性名进行自动匹配,自动为该对象填充属性值.支持级联属性.如:dept.deptId.dept.address.tel 等 示例: User实体类 p ...

  9. c# 读取机器CPU信息,硬盘信息,网卡信息

    Windows 管理规范 (WMI) 是可伸缩的系统管理结构,它采用一个统一的.基于标准的.可扩展的面向对象接口.WMI 为您提供与系统管理信息和基础 WMI API 交互的标准方法.WMI 主要由系 ...

  10. html+ashx制作网页发布之后遇到的问题

    html+ashx发布之后访问不了ashx文件.(开发时一直是对的) .NETFramework开发时是4.5,服务器上的网站是2.0的. 开始意识到这个问题,发布时选择4.5的Framework.之 ...