使用spark-sql处理Doris大表关联

背景

最近项目上有一个需求，需要将两张表(A表和B表)的数据进行关联并回写入其中一张表(A表)，两张表都是分区表，但是关联条件不包括分区字段。

分析过程

方案一

最朴素的想法，直接关联执行，全表关联，一条SQL搞定全部逻辑。想法越简单，执行越困难。由于数据量大，服务器规模较小，尽管各台服务器内存和CPU配置都很高，关联会将数据读取到内存，内存根本放不下，而且集群配置了workload group，可使用内存更小了，方案一不可行。

方案二

可以在关联时增加分区字段对任务进行拆解，这样可以实现，但是会形成笛卡尔积，历史数据量巨大，分区较多(A表和B表都是1年)，缺点也很明显。

执行耗时长
执行语句太多，操作不便
如果按照单分区关联，A表的每一个分区将会扫描B表全表

经过评估上述方案二不可行。

方案三

通过外部计算和存储来实现，可选的有Hive、Spark、Flink。三种方案都是可行的，但是从操作复杂度来看使用spark-sql直接读取Doris进行关联并写回Doris，除DDL外，只需要一条SQL即可搞定。

详细过程

下载预编译的spark和spark-doris-connector

部署

将上述安装文件上传至Hadoop集群的其中一台机器，放置到任意目录，比如/opt，请保证使用的用户可以向Yarn提交任务。

解压缩spark-3.4.3-bin-hadoop3.tgz得到spark-3.4.3-bin-hadoop3目录

将spark-doris-connector-3.4_2.12-1.3.2.jar放到spark-3.4.3-bin-hadoop3/jars/
启动spark-sql

bin/spark-sql --master yarn --num-executors 40 --executor-memory 7G --name Spark-SQL:Doris

创建映射表

-- 用于读取A表数据

CREATE

TEMPORARY VIEW spark_doris_a

USING doris

OPTIONS(

  "table.identifier"="mydb.table_a",

  "fenodes"="10.*.*.1:9030,10.*.*.2:9030,10.*.*.3:9030",

  "user"="root",

  "password"="$YOUR_DORIS_PASSWORD"

);

-- 用于读取B表数据

CREATE

TEMPORARY VIEW spark_doris_b

USING doris

OPTIONS(

  "table.identifier"="mydb.table_b",

  "fenodes"="10.*.*.1:9030,10.*.*.2:9030,10.*.*.3:9030",

  "user"="root",

  "password"="$YOUR_DORIS_PASSWORD"

);

-- 用于向A表部分列写入数据

CREATE

TEMPORARY VIEW spark_doris_a_sink

USING doris

OPTIONS(

  "table.identifier"="mydb.table_a",

  "fenodes"="10.*.*.1:9030,10.*.*.2:9030,10.*.*.3:9030",

  "user"="root",

  "password"="$YOUR_DORIS_PASSWORD",

  "sink.properties.partial_columns"="true",

  "sink.properties.column"="'column_a','column_b','column_c'"

);

DML语句

set enable_unique_key_partial_update=true;

set enable_insert_strict=false;

insert into spark_doris_a_sink

(column_a,column_b,column_c)

select a.column_a,b.column_b,b.column_c from spark_doris_a a left join spark_doris_b b on a.colum_d = b.column_e;

遇到的问题

处理过程很简单，但是实际也是遇到了很多问题

DML语句中不能使用分区字段进行过滤，因为Doris 2.0版本在提供的获取执行计划的API中对于引号的处理存在问题，如果传递的是"2024-06-12"，则会得到数值2006，该数值无法转换为日期，如果传递"20240612"也无法得到Date("20240612")。理论上，如果调整此处的写法增加嵌套的引号配合转义字符也能实现功能，Java程序员都懂的，有兴趣可以自行验证。
spark executor 内存和并行度设置，这个需要不断调整，我也是尝试了多次，才得到这个可以运行的结果。并行度设置太高了，将会对Doris形成较大的网络和IO冲击，一定要慎重。并行度低了，内存就要高一点，不然数据都已经从Doris读取出来了，关联的时候会内存溢出。
读取Doris的速率还是很快的，而且spark在读取doris前获取了执行计划，对数据进行了行和列的裁剪，不会将整表数据都读出来。

使用spark-sql处理Doris大表关联的更多相关文章

Oracle\MS SQL Server Update多表关联更新
原文:Oracle\MS SQL Server Update多表关联更新一条Update更新语句是不能更新多张表的,除非使用触发器隐含更新.而表的更新操作中,在很多情况下需要在表达式中引用要更新的表 ...
Hive中小表与大表关联(join)的性能分析【转】
Hive中小表与大表关联(join)的性能分析 [转自:http://blog.sina.com.cn/s/blog_6ff05a2c01016j7n.html] 经常看到一些Hive优化的建议中说当 ...
Oracle SQL性能优化 - 根据大表关联更新小表
需求: 小表数据量20w条左右,大表数据量在4kw条左右,需要根据大表筛选出150w条左右的数据并关联更新小表中5k左右的数据. 性能问题: 对筛选条件中涉及的字段加index后,如下常规的updat ...
【SQL】在SQL Server中多表关联查询问题
好久没有写SQL语句的多表连接查询,总在用框架进行持久化操作.今天写了一个多表关联查询,想根据两个字段唯一确定一条数据失败的案例如下: SELECT cyb.id,ad.name FROM [Gen ...
Databricks 第6篇：Spark SQL 维护数据库和表
Spark SQL 表的命名方式是db_name.table_name,只有数据库名称和数据表名称.如果没有指定db_name而直接引用table_name,实际上是引用default 数据库下的表. ...
【Spark调优】大表join大表，少数key导致数据倾斜解决方案
[使用场景] 两个RDD进行join的时候,如果数据量都比较大,那么此时可以sample看下两个RDD中的key分布情况.如果出现数据倾斜,是因为其中某一个RDD中的少数几个key的数据量过大,而另一 ...
hive两大表关联优化试验
呼叫结果(call_result)与销售历史(sale_history)的join优化: CALL_RESULT: 32亿条/444G SALE_HISTORY:17亿条/439G 原逻辑 Map: ...
sql中修改多表关联的字段
表1:USERID USERNAME USERREMARK 表2:ROLEID USERID ROLENAME 其中表1的USERID与表2的USERID为关联字段. 若现在只知道ROLEID,要修改 ...
mysql数据库-初始化sql建库建表-关联查询投影问题
下面是一个简易商城的几张表的创建方式 drop database if exists shop ; create database shop CHARACTER SET 'utf8' COLLATE ...
SQL精华总结索引类型优化SQL优化事务大表优化思维导图❤️
索引类型从数据结构角度: B+树索引, hash索引,基于哈希表实现,只有全值匹配才有效.以链表的形式解决冲突.查找速度非常快 O(1) 全文索引,查找的是文本中的关键词,而不是直接比较索引中的值, ...

随机推荐

MongoDB 5.0新特性概览
简介: MongoDB 5.0标志着一个新的发布周期的到来,以更快地交付新特性给到用户.版本化API与在线重新分片相结合,使用户不必担心未来的数据库升级以及业务变化问题:本地原生时间序列数据平台也使 ...
[Caddy2] 无法访问 Lets Encrypt OCSP 的解决方法
更换国内 DNS 为国外 DNS. Caddy 使用对应 DNS 的 provider. 重新运行即可获取到证书,Certificate obtained successfully. 其它参考: [C ...
[Contract] 一次搞懂 Solidity 的 using xx for xx
using A for *; # 把 A 的函数附给任意类型使用 using A for B; # 意思是把 A 中的方法附给 B 使用使用上面的方式,那么在我们的合约中定义了 B 类型的变量 ...
dotnet 理解 IConfigurationProvider 的 GetChildKeys 方法用途
我最近遇到了一个有趣的 Bug 让我调试了半天,这个 Bug 的现象是我的好多个模块都因为读取不到配置信息而炸掉,开始我没有定位到具体的问题,以为是我的配置服务器挂掉了.经过了半天的调试,才找到了是我 ...
The instance of entity type 'Model' cannot be tracked because another instance with the same key value for {'Id'} is already being tracked.
The instance of entity type 'Model' cannot be tracked because another instance with the same key val ...
windows系统桌面壁纸切换的三种csharp办法，兼容win10及旧版，还有一个现成桌面小程序
我自己用这些代码做的小app如下: 最新版本已经改成了服务的方式,也可以选择性添加系统的右键菜单,并且我自己使用的源码库已经开源到了nuget,大家可以直接拿来做二次开发, 新版的下载地址为:http ...
01 redis 基础入门
目录介绍特点 redis与memcache比较适用场景 redis 核心配置说明 Redis 对key的通用操作命令字符串 Hash类型课程学习地址: https://www.bilibil ...
tomcat（3）- tomcat部署zrlog
目录 1. Tomcat单独部署 2. nginx+tomcat部署 1. Tomcat单独部署部署场景为: 客户端:192.168.20.1 tomcat:主机名:tomcat01,地址:192. ...
了解Oracle中的Dual系统表
首发微信公众号:SQL数据库运维原文链接:https://mp.weixin.qq.com/s?__biz=MzI1NTQyNzg3MQ==&mid=2247485212&idx=1 ...
【OpenVINO™】在 C# 中使用OpenVINO™ 部署PP-YOLOE实现物体检测
前言 OpenVINO C# API 是一个 OpenVINO 的 .Net wrapper,应用最新的 OpenVINO 库开发,通过 OpenVINO C API 实现 .Net 对 OpenV ...