公众号后台越来越多人问关于数据湖相关的内容，看来大家对新技术还是很感兴趣的。关于数据湖的资料网络上还是比较少的，特别是实践系列，对于新技术来说，基础的入门文档还是很有必要的，所以这一篇希望能够帮助到想使用Hudi的同学入门。

本篇的Hudi使用的是孵化版本 0.5.2；其他依赖 Spark-2.4.4，Hive-1.1.0

Hudi 服务器环境准备

wget https://github.com/apache/hudi/archive/release-0.5.2-incubating.tar.gz

tar zxvf release-0.5.2-incubating.tar.gz

cd release-0.5.2-incubating

mvn clean package -DskipTests -DskipITs

cp ./hudi-hadoop-mr/target/hudi-hadoop-mr-0.5.2-incubating.jar $HIVE_HOME/lib/

拷贝依赖包到 Hive 路径是为了 Hive 能够正常读到 Hudi 的数据，至此服务器环境准备完毕。

用 Spark 写一段数据

一切准备完毕先写一段数据到 Hudi 里，首先数据源 ods.ods_user_event 的表结构为：

CREATE TABLE ods.ods_user_event(

    uuid STRING,

    name STRING,

    addr STRING,

    update_time STRING,

    date STRING)

stored as parquet;

然后是 Maven 的依赖，详细代码关注公众号【老蒙大数据】回复 hudi 后即可获取。

      <dependency>

            <groupId>org.apache.hudi</groupId>

            <artifactId>hudi-spark_2.11</artifactId>

            <version>0.5.2-incubating</version>

        </dependency>

        <dependency>

            <groupId>org.apache.hudi</groupId>

            <artifactId>hudi-common</artifactId>

            <version>0.5.2-incubating</version>

        </dependency>

代码逻辑：

初始化 SparkSession，配置相关配置项
构建 DataFrame，大家可以自由发挥，这里的案例是从Hive读数据构建。
DataFrame写入Hudi，这一块说到底就是把数据写入 HDFS 路径下，但是需要一堆配置，这些配置就体现了 Hudi 的特性：
- DataSourceWriteOptions.RECORDKEY_FIELD_OPT_KEY：指定唯一id的列名
- DataSourceWriteOptions.PRECOMBINE_FIELD_OPT_KEY：指定更新时间，该字段数值大的数据会覆盖小的
- DataSourceWriteOptions.PARTITIONPATH_FIELD_OPT_KEY：指定分区列，和Hive的分区概念类似
- HoodieIndexConfig.BLOOM_INDEX_UPDATE_PARTITION_PATH：设置当分区变更时，当前数据的分区目录是否变更
- HoodieIndexConfig.INDEX_TYPE_PROP：设置索引类型目前有 HBASE,INMEMORY,BLOOM,GLOBAL_BLOOM 四种索引
  
  上述例子中，选择了 HoodieGlobalBloomIndex(全局索引)，会在所有分区内查找指定的 recordKey。而 HoodieBloomIndex 只在指定的分区内查找。

  def main(args: Array[String]): Unit = {

    val sss = SparkSession.builder.appName("hudi")

      .config("spark.serializer", "org.apache.spark.serializer.KryoSerializer")

      .config("hive.metastore.uris", "thrift://ip:port")

      .enableHiveSupport().getOrCreate()

    val sql = "select * from ods.ods_user_event"

    val df: DataFrame = sss.sql(sql)

    df.write.format("org.apache.hudi")

      .option(DataSourceWriteOptions.RECORDKEY_FIELD_OPT_KEY, "recordKey")

      .option(DataSourceWriteOptions.PRECOMBINE_FIELD_OPT_KEY, "update_time")

      .option(DataSourceWriteOptions.PARTITIONPATH_FIELD_OPT_KEY, "date")

      .option(HoodieIndexConfig.BLOOM_INDEX_UPDATE_PARTITION_PATH, "true")

      .option(HoodieIndexConfig.INDEX_TYPE_PROP, HoodieIndex.IndexType.GLOBAL_BLOOM.name())

      .option("hoodie.insert.shuffle.parallelism", "10")

      .option("hoodie.upsert.shuffle.parallelism", "10")

      .option(HoodieWriteConfig.TABLE_NAME, "ods.ods_user_event_hudi")

      .mode(SaveMode.Append)

      .save("/user/hudi/lake/ods.db/ods_user_event_hudi")

  }

执行成功后会有如下结果，因为我们是按照date分区，每一天的数据会生成一个文件夹和Hive类似。

[hadoop@hadoop31 ~]# hdfs dfs -ls /user/hudi/lake/ods.db/ods_user_event_hudi/

Found 4 items

drwxr-xr-x   - hadoop hadoop 0 2020-05-25 18:42 /user/hudi/lake/ods.db/ods_user_event_hudi/20200501

drwxr-xr-x   - hadoop hadoop 0 2020-05-25 18:42 /user/hudi/lake/ods.db/ods_user_event_hudi/20200502

drwxr-xr-x   - hadoop hadoop 0 2020-05-25 18:42 /user/hudi/lake/ods.db/ods_user_event_hudi/20200503

drwxr-xr-x   - hadoop hadoop 0 2020-05-25 18:42 /user/hudi/lake/ods.db/ods_user_event_hudi/20200504

另外，注意 recordKey 必须唯一，不然数据会被覆盖，且值不能为 null，否则会有以下报错。

Caused by: org.apache.hudi.exception.HoodieKeyException: recordKey value: "null" for field: "user_uid" cannot be null or empty.

Hive 创建外部表读数据

上一步中 Spark 将数据写到了 hudi，想要通过Hive访问到这块数据，就需要创建一个Hive外部表了，因为 Hudi 配置了分区，所以为了能读到所有的数据，咱们的外部表也得分区，分区字段名可随意配置。

CREATE TABLE ods.ods_user_event_hudi(

    uuid STRING,

    name STRING,

    addr STRING,

    update_time STRING,

    date STRING)

PARTITIONED BY (

  `dt` string)

ROW FORMAT SERDE

  'org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe'

STORED AS INPUTFORMAT

  'org.apache.hudi.hadoop.HoodieParquetInputFormat'

OUTPUTFORMAT

  'org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat'

LOCATION

  '/user/hudi/lake/ods.db/ods_user_event_hudi'

至此，直接读数据肯定是空的，因为我们创建的是个分区表，所以还需要指定分区

alter table ods.ods_user_event_hudi add if not exists partition(dt='20200504') location '/user/hudi/lake/ods.db/ods_user_event_hudi/20200504'

那么这个时候问题来了，一年有365个分区，要一个一个建立手动创建分区吗？

抱歉我也没发现更好的办法，只能送你个简单的脚本了。

#!/bin/bash

start_date=20190101

end_date=20200520

start=`date -d "$start_date" "+%s"`

end=`date -d "$end_date" "+%s"`

for((i=start;i<=end;i+=86400)); do

    dt=$(date -d "@$i" "+%Y%m%d")

    hive -e "alter table ods.ods_user_event_hudi add if not exists partition(dt='${dt}') location '/user/hudi/lake/ods.db/ods_user_event_hudi/${dt}';

    "

done

后记

最后，执行 select * from ods.ods_user_event_hudi 要是没有数据你来找我。另外值得注意的是，如果此时直接用 Hive 将数据 insert into ods.ods_user_event_hudi，虽然数据会写入到 hudi 的目录下，但是相同的 recordKey 是不会覆盖原有数据的。

下一篇详细写 Spark 操作 Hudi 的相关内容，敬请期待。本篇详细代码关注公众号【老蒙大数据】回复 hudi 后即可获取。

Hive 集成 Hudi 实践（含代码）| 可能是全网最详细的数据湖系列的更多相关文章

Hive集成HBase实践
#step1: create hive table 't_test' hive -e "create table test.t_user(id int,name string,age int ...
Robinhood基于Apache Hudi的下一代数据湖实践
1. 摘要 Robinhood 的使命是使所有人的金融民主化. Robinhood 内部不同级别的持续数据分析和数据驱动决策是实现这一使命的基础. 我们有各种数据源--OLTP 数据库.事件流和各种第 ...
如何使用Hive集成Solr?
(一)Hive+Solr简介 Hive作为Hadoop生态系统里面离线的数据仓库,可以非常方便的使用SQL的方式来离线分析海量的历史数据,并根据分析的结果,来干一些其他的事情,如报表统计查询等. So ...
Apache Hudi：云数据湖解决方案
1. 引入开源Apache Hudi项目为Uber等大型组织提供流处理能力,每天可处理数据湖上的数十亿条记录. 随着世界各地的组织采用该技术,Apache开源数据湖项目已经日渐成熟. Apache ...
大数据学习系列之九---- Hive整合Spark和HBase以及相关测试
前言在之前的大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建中介绍了集群的环境搭建,但是在使用hive进行数据查询的时候会非常的慢,因为h ...
Apache Hudi 与 Hive 集成手册
1. Hudi表对应的Hive外部表介绍 Hudi源表对应一份HDFS数据,可以通过Spark,Flink 组件或者Hudi客户端将Hudi表的数据映射为Hive外部表,基于该外部表, Hive可以方 ...
科学经得起实践检验-python3.6通过决策树实战精准准确预测今日大盘走势(含代码)
科学经得起实践检验-python3.6通过决策树实战精准准确预测今日大盘走势(含代码) 春有百花秋有月,夏有凉风冬有雪: 若无闲事挂心头,便是人间好时节. --宋．无门慧开不废话了,以下训练模型数据 ...
生态 | Apache Hudi集成Alluxio实践
原文链接:https://mp.weixin.qq.com/s/sT2-KK23tvPY2oziEH11Kw 1. 什么是Alluxio Alluxio为数据驱动型应用和存储系统构建了桥梁, 将数据从 ...
大数据技术之_11_HBase学习_02_HBase API 操作 + HBase 与 Hive 集成 + HBase 优化
第6章 HBase API 操作6.1 环境准备6.2 HBase API6.2.1 判断表是否存在6.2.2 抽取获取 Configuration.Connection.Admin 对象的方法以及关 ...

随机推荐

最小生成树之prime算法
public class Prime { public static void main(String[] args) { //路径矩阵 int arcs[][] = {{-1,6,1,5,-1,-1 ...
muduo网络库源码学习————线程安全
线程安全使用单例模式,保证了每次只创建单个对象,代码如下: Singleton.h // Use of this source code is governed by a BSD-style lice ...
turtle库应用实例2-六芒星的绘制
六芒星的绘制 ‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪ ...
JAVA基础篇之方法的重载
任何程序语言都具备了一项重要的特性就是对名字的运用.当创建一个对象时,也就给此对象分配到的存储空间取了一个名字.所谓方法则是给某个动作取的名字.通过使用名字你可以引用所有的对象和方法. 将人类 ...
Spring 循环引用(三)源码深入分析版
@ 目录前言正文分析 doGetBean 为什么Prototype不可以 createBean doCreateBean getEarlyBeanReference getSingleton b ...
【HBase】通过Bulkload批量加载数据到Hbase表中
目录需求步骤一.开发MapReduce 二.打成Jar包放到linux执行三.有两种办法将HFile文件加载到HBase表中开发代码 Hadoop命令运行需求将hdfs上面的这个路径 / ...
Linux dts 设备树详解(一) 基础知识
Linux dts 设备树详解(一) 基础知识 Linux dts 设备树详解(二) 动手编写设备树dts 文章目录 1 前言 2 概念 2.1 什么是设备树 dts(device tree)? 2. ...
花店橱窗布置问题(FLOWER)
目录问题描述问题分析 Java代码实现运行结果今天老师上完课说所有花都要被放,这个算法还是考虑多了,包含了这个选择,代码就不给了,用dp思想就可以解决了. 问题描述假设你想以最美观的方式 ...
extract变量覆盖
0x01 extract变量覆盖 <?php $flag='xxx'; extract($_GET); if(isset($shiyan)) { $content=trim(file_get_c ...
influxes 基本概念
Influxes 基本概念 1.安装两种,虚机的话直接下载二进制文件起就好了,容器也很方便,存储挂载到/var/lib/influxdb 起就ok,配置文件可以通过configmap挂载进去. 2. ...

Hive 集成 Hudi 实践（含代码）| 可能是全网最详细的数据湖系列

Hudi 服务器环境准备

用 Spark 写一段数据

Hive 创建外部表读数据

后记

Hive 集成 Hudi 实践（含代码）| 可能是全网最详细的数据湖系列的更多相关文章

随机推荐

热门专题