在数据驱动决策的时代,企业对于数据处理和分析的需求日益增加。ETL作为数据处理的核心环节,扮演着将原始数据转化为有价值信息的关键角色。而StarRocks作为一款极速全场景MPP(Massively Parallel Processing)企业级数据库产品,凭借其创新的架构设计与卓越的性能表现,正成为企业实现高效数据处理与实时分析的优选方案。那如何通过ETL工具把StarRocks中的数据同步到数仓呢?接下来我们通过实操演示下过程。

一、StarRocks数据同步到Doris演示

新建数据源创建StarRocks源数据库:

进入数据源管理选择新建数据源,在数据源中找到StarRocks进行创建。

填写StarRocks相关配置

新建数据源创建Doris源数据库:

Doris数据源创建步骤和上述相同

新建流程

新建流程,在流程中配置库表输入组件和doris输出组件,没有组件的需要前往官网购买。库表输入用于读取StarRocks数据,Doris输出用于往Doris中同步数据。

配置库表输入组件,只需选择刚才创建的数据源和数据源中表。当前表中有30万条数据。

选中表后会默认生成查询语句,也可以更具需要更改语句。后续的输入字段也会自动识别。

配置Doris快速输出组件,同样的Doris选择数据源和目标表。

同时使用了自动建表功能在目标端Doris数据库中自动创建表。

在路由线中开启5个并发线程优化同步速度

执行流程并查看结果

如何通过ETL把StarRocks中的数据同步到数仓的更多相关文章

  1. C# .net 多线程中集合数据同步

    from:http://www.cnblogs.com/GavinCome/archive/2008/04/09/1145250.html C# .net 多线程中集合数据同步(转) 集合类通常不是线 ...

  2. 将SQLServer2005中的数据同步到Oracle中

    有时由于项目开发的需要,必须将SQLServer2005中的某些表同步到Oracle数据库中,由其他其他系统来读取这些数据.不同数据库类型之间的数据同步我们可以使用链接服务器和SQLAgent来实现. ...

  3. 在HUE中将文本格式的数据导入hive数仓中

    今天有一个需求需要将一份文档形式的hft与fdd的城市关系关系的数据导入到hive数仓中,之前没有在hue中进行这项操作(上家都是通过xshell登录堡垒机直接连服务器进行操作的),特此记录一下. - ...

  4. 利用haohedi ETL将数据库中的数据抽取到hadoop Hive中

    采用HIVE自带的apache 的JDBC驱动导入数据基本上只能采用Load data命令将文本文件导入,采用INSERT ... VALUES的方式插入速度极其慢,插入一条需要几十秒钟,基本上不可用 ...

  5. pandas读取excel中指定数据的行数

    shuju = pd.read_excel(filename) loandata = pd.DataFrame(shuju) ncol = (len(loandata.keys())) data = ...

  6. 大数据学习——hive数仓DML和DDL操作

    1 创建一个分区表 create table t_partition001(ip string,duration int) partitioned by(country string) row for ...

  7. 国产开源优秀新一代MPP数据库StarRocks入门之旅-数仓新利器(上)

    概述 背景 Apache Doris官方地址 https://doris.apache.org/ Apache Doris GitHub源码地址 https://github.com/apache/i ...

  8. ETL数仓测试

    前言 datalake架构 离线数据 ODS -> DW -> DM https://www.jianshu.com/p/72e395d8cb33 https://www.cnblogs. ...

  9. phpwind数据同步本地之后板块排版乱

    排版紊乱的问题一般是css文件的问题 解决思路 1.打开chrome调用F12,查看是不是css文件没有获取. 2.如果没有获取到的话检查css文件的路径. 在本例中phpwind数据同步到本地之后, ...

  10. 数据同步DataX

    数据同步那些事儿(优化过程分享)   简介 很久之前就想写这篇文章了,主要是介绍一下我做数据同步的过程中遇到的一些有意思的内容,和提升效率的过程. 当前在数据处理的过程中,数据同步如同血液一般充满全过 ...

随机推荐

  1. 借助 QT 的反射机制实现数据类的序列化

    在 C++ 工程中经常需要使用数据类,并对数据类进行存储.打印.调试等操作.由于数据类中有大量数据字段,每次都编写存储或输出数据内容,工作重复量太大.C++ 不支持用户自定义的注解,所以没办法使用类似 ...

  2. php 二维数组转成一维数组

    // 1 $c = call_user_func('array_merge', $reds);// 2 $c = array_merge(...$reds);// 3 array_map(functi ...

  3. 36.3K star!开发者专属PPT神器,Markdown秒变炫酷幻灯片!

    嗨,大家好,我是小华同学,关注我们获得"最新.最全.最优质"开源项目和高效工作学习方法 Slidev 是专为开发者打造的现代化幻灯片制作工具,基于 Markdown + Vue 技 ...

  4. 21.7K star!全流程研发项目管理神器,开源免费不限商用!

    嗨,大家好,我是小华同学,关注我们获得"最新.最全.最优质"开源项目和高效工作学习方法 「禅道开源版」作为国内首个开源项目管理软件,已为100万+团队提供专业研发管理解决方案.从需 ...

  5. 【ROS】1.1 ROS基本命令介绍

    原视频 ROS基本命令 右键新标签页查看大图! have to do Command Command Result 中文解释 图示 roscore Open the core of the ROS. ...

  6. 【经验】微信小程序|云后台比价(自带云开发、leancloud、bmob)(2022/10/31更新)

    这个博客UI不太好看,我另外也发在了博客园里,可点击链接查看. 文章目录 前言 1. 免费配额 2. 超过额度时收费情况 3. 另外的价钱 总结 前言 作为前端开发者,没有购买云服务器的习惯,在只需要 ...

  7. 突破Excel百万数据导出瓶颈:全链路优化实战指南

    在日常工作中,Excel数据导出是一个常见的需求. 然而,当数据量较大时,性能和内存问题往往会成为限制导出效率的瓶颈. 当用户点击"导出"按钮时,后台系统往往会陷入三重困境: ‌内 ...

  8. DeepSeek 多模态模型 Janus-Pro 本地部署

    一.概述 Janus-Pro是DeepSeek最新开源的多模态模型,是一种新颖的自回归框架,统一了多模态理解和生成.通过将视觉编码解耦为独立的路径,同时仍然使用单一的.统一的变压器架构进行处理,该框架 ...

  9. 第六章: SEO与交互指标 二

    上一篇文章地址 5. 提升用户参与度 提高用户参与度不仅有利于SEO,还能增加转化率和用户留存. 5.1 内容结构优化 使用吸引人的标题和小标题: 使用数字列表.问题形式或"如何" ...

  10. golang+gin实现api接口开发

    一.简介: Gin是Go语言的一个微框架,也是是一个用 Go (Golang) 编写的 HTTP Web 框架,封装比较优雅,API相对友好.Gin具有性能优异和灵活快速等优点.它具有类似 Marti ...