使用GO语言通过Stream Load实现Doris数据导入
Doris github地址欢迎加Star
本文使用的GO是1.17.2
Doris 0.15.0 release版
Doris的数据导入有各种语言的版本,但是GO语言版本的基本见不到,简单学了一下,写了一个简单的Stream Load入库的示例,仅供参考
示例中使用的表结构:
CREATE TABLE IF NOT EXISTS user_info
(
user_id LARGEINT NOT NULL COMMENT "用户id",
username varchar(50) NOT NULL COMMENT "用户名",
city VARCHAR(20) COMMENT "用户所在城市",
age SMALLINT COMMENT "用户年龄",
sex TINYINT COMMENT "用户性别",
phone LARGEINT COMMENT "电话",
address VARCHAR(500) COMMENT "地址",
register_time datetime COMMENT "用户注册时间"
)
Unique KEY(user_id, username)
DISTRIBUTED BY HASH(user_id) BUCKETS 3
PROPERTIES (
"replication_num" = "3"
);
下面是GO的示例代码,其中支持从文件导入,从内存数据导入,同时提供了获取BE节点列表的方法,你在导入的时候可以从这里随机获取一个BE节点IP及端口,直连BE进行导入
package main
import (
"container/list"
"encoding/base64"
"encoding/json"
"fmt"
"github.com/gofrs/uuid"
"io/ioutil"
"log"
"net/http"
"strconv"
"strings"
)
type StreamLoad struct {
url string
dbName string
tableName string
data string
userName string
password string
}
//实现Doris用户认证信息
func auth(load StreamLoad) string {
s := load.userName + ":" + load.password
b := []byte(s)
sEnc := base64.StdEncoding.EncodeToString(b)
fmt.Printf("enc=[%s]\n", sEnc)
sDec, err := base64.StdEncoding.DecodeString(sEnc)
if err != nil {
fmt.Printf("base64 decode failure, error=[%v]\n", err)
} else {
fmt.Printf("dec=[%s]\n", sDec)
}
return sEnc
}
//使用Stream load将文件数据导入到Doris对应的数据表中
func batch_load_file(load StreamLoad, file string) {
client := &http.Client{}
//生成要访问的url
url := "http://10.220.146.10:8030/api/test_2/user_info/_stream_load"
//fmt.Formatter(.Format(url,load.dbName,l))
fileContext, err := ioutil.ReadFile(file)
if err != nil {
log.Println("Failed to Read the File", file, err)
}
record := strings.NewReader(string(fileContext))
//提交请求
reqest, err := http.NewRequest(http.MethodPut, url, record)
//增加header选项
reqest.Header.Add("Authorization", "basic "+auth(load))
reqest.Header.Add("EXPECT", "100-continue")
var u1 = uuid.Must(uuid.NewV4())
reqest.Header.Add("label", u1.String())
reqest.Header.Add("column_separator", ",")
if err != nil {
panic(err)
}
//处理返回结果
response, _ := client.Do(reqest)
if response.StatusCode == 200 {
body, _ := ioutil.ReadAll(response.Body)
responseBody := ResponseBody{}
jsonStr := string(body)
err := json.Unmarshal([]byte(jsonStr), &responseBody)
if err != nil {
fmt.Println(err.Error())
}
if responseBody.Status == "Success" {
//如果有被过滤的数据,打印错误的URL
if responseBody.NumberFilteredRows > 0 {
fmt.Printf("Error Data : %s ", responseBody.ErrorURL)
} else {
fmt.Printf("Success import data : %d", responseBody.NumberLoadedRows)
}
}
fmt.Println(string(body))
}
defer response.Body.Close()
}
//内存流数据,通过Stream Load导入Doris表中
func batch_load_data(load StreamLoad, data string) {
client := &http.Client{}
//生成要访问的url
url := "http://10.220.146.10:8030/api/test_2/user_info/_stream_load"
//fmt.Formatter(.Format(url,load.dbName,l))
record := strings.NewReader(data)
//提交请求
reqest, err := http.NewRequest(http.MethodPut, url, record)
//增加header选项
reqest.Header.Add("Authorization", "basic "+auth(load))
reqest.Header.Add("EXPECT", "100-continue")
var u1 = uuid.Must(uuid.NewV4())
reqest.Header.Add("label", u1.String())
reqest.Header.Add("column_separator", ",")
if err != nil {
panic(err)
}
//处理返回结果
response, _ := client.Do(reqest)
if response.StatusCode == 200 {
body, _ := ioutil.ReadAll(response.Body)
responseBody := ResponseBody{}
jsonStr := string(body)
err := json.Unmarshal([]byte(jsonStr), &responseBody)
if err != nil {
fmt.Println(err.Error())
}
if responseBody.Status == "Success" {
//如果有被过滤的数据,打印错误的URL
if responseBody.NumberFilteredRows > 0 {
fmt.Printf("Error Data : %s ", responseBody.ErrorURL)
} else {
fmt.Printf("Success import data : %d", responseBody.NumberLoadedRows)
}
} else {
fmt.Printf("Error Message : %s \n", responseBody.Message)
fmt.Printf("Error Data : %s ", responseBody.ErrorURL)
}
//fmt.Println(jsonStr)
}
defer response.Body.Close()
}
//获取BE列表
func get_doris_be_list() *list.List {
var load StreamLoad
load.userName = "root"
load.password = ""
client := &http.Client{}
//生成要访问的url
url := "http://10.220.146.10:8030/api/backends?is_alive=true"
//提交请求
reqest, err := http.NewRequest("GET", url, nil)
//增加header选项
reqest.Header.Add("Authorization", "basic "+auth(load))
if err != nil {
panic(err)
}
//处理返回结果
response, _ := client.Do(reqest)
bes := list.New()
if response.StatusCode == 200 {
body, _ := ioutil.ReadAll(response.Body)
backends := Backend{}
jsonStr := string(body)
err := json.Unmarshal([]byte(jsonStr), &backends)
if err != nil {
fmt.Println(err.Error())
}
for _, beinfo := range backends.Data.Backends {
be := beinfo.IP + ":" + strconv.Itoa(beinfo.HTTPPort)
bes.PushBack(be)
}
}
defer response.Body.Close()
return bes
}
//Stream load返回消息结构体
type ResponseBody struct {
TxnID int `json:"TxnId"`
Label string `json:"Label"`
Status string `json:"Status"`
Message string `json:"Message"`
NumberTotalRows int `json:"NumberTotalRows"`
NumberLoadedRows int `json:"NumberLoadedRows"`
NumberFilteredRows int `json:"NumberFilteredRows"`
NumberUnselectedRows int `json:"NumberUnselectedRows"`
LoadBytes int `json:"LoadBytes"`
LoadTimeMs int `json:"LoadTimeMs"`
BeginTxnTimeMs int `json:"BeginTxnTimeMs"`
StreamLoadPutTimeMs int `json:"StreamLoadPutTimeMs"`
ReadDataTimeMs int `json:"ReadDataTimeMs"`
WriteDataTimeMs int `json:"WriteDataTimeMs"`
CommitAndPublishTimeMs int `json:"CommitAndPublishTimeMs"`
ErrorURL string `json:"ErrorURL"`
}
//获取BE列表返回结构体
type Backend struct {
Msg string `json:"msg"`
Code int `json:"code"`
Data struct {
Backends []struct {
IP string `json:"ip"`
HTTPPort int `json:"http_port"`
IsAlive bool `json:"is_alive"`
} `json:"backends"`
} `json:"data"`
Count int `json:"count"`
}
func main() {
var load StreamLoad
load.userName = "root"
load.password = ""
//auth_info := auth(load)
//fmt.Println(auth_info)
//backends := get_doris_be_list()
//for e := backends.Front(); e != nil; e = e.Next() {
// fmt.Println(e.Value)
//}
data := "10001,张***,西安,30,1,133****760,陕西省**********,2021-03-12 12:34:12"
batch_load_data(load, data)
//batch_load_file(/load, "/Users/zhangfeng/Downloads/test.csv")
}
使用GO语言通过Stream Load实现Doris数据导入的更多相关文章
- Bulk Load-HBase数据导入最佳实践
一.概述 HBase本身提供了非常多种数据导入的方式,通常有两种经常使用方式: 1.使用HBase提供的TableOutputFormat,原理是通过一个Mapreduce作业将数据导入HBase 2 ...
- R语言基础入门之二:数据导入和描述统计
by 写长城的诗 • October 30, 2011 • Comments Off This post was kindly contributed by 数据科学与R语言 - go there t ...
- MySQL Load Data InFile 数据导入数据库
常用如下: Load Data InFile 'C:/Data.txt' Into Table `TableTest` Lines Terminated By '\r\n'; 这个语句,字段默认用制表 ...
- R语言XML格式数据导入与处理
数据解析 XML是一种可扩展标记语言,它被设计用来传输和存储数据.XML是各种应用程序之间进行数据传输的最常用的工具.它与Access,Oracle和SQL Server等数据库不同,数据库提供了更强 ...
- mysql 开发进阶篇系列 50 表的数据导入(load data infile,mysqlimport )
一.概述 上篇讲到的表的数据导出(select .. into outfile 或者mysqldump),这篇继续讲表的数据导入,导入也同样有二个方法,分别是load data infile... 和 ...
- Java中使用Oracle的客户端 load data和sqlldr命令执行数据导入到数据库中
Windows环境下测试代码: import java.io.BufferedReader; import java.io.File; import java.io.FileNotFoundExcep ...
- go语言入门教程百度网盘 mysql图形化操作与数据导入
mysql图形化操作与数据导入 @author:Davie 版权所有:北京千锋互联科技有限公司 数据库存储技术 数据库(Database)是按照数据结构来组织.存储和管理数据的仓库.每个数据库都有一个 ...
- MySQL 之 LOAD DATA INFILE 快速导入数据
SELECT INTO OUTFILE > help select; Name: 'SELECT' Description: Syntax: SELECT [ALL | DISTINCT | D ...
- Mysql load data infile 命令导入含中文csv源数据文件 【错误代码 1300】
[1]Load data infile 命令导入含中文csv源数据文件 报错:Invalid utf8 character string: '??֧' (1)问题现象 csv格式文件源数据: 导入SQ ...
随机推荐
- [WC2018]州区划分(FWT,FST)
[WC2018]州区划分(FWT,FST) Luogu loj 题解时间 经典FST. 在此之前似乎用到FST的题并不多? 首先预处理一个子集是不是欧拉回路很简单,判断是否连通且度数均为偶数即可. 考 ...
- Pytorch自动混合精度(AMP)介绍与使用
背景: pytorch从1.6版本开始,已经内置了torch.cuda.amp,采用自动混合精度训练就不需要加载第三方NVIDIA的apex库了.本文主要从三个方面来介绍AMP: 一.什么是AMP? ...
- XMLBeanFactory?
最常用的就是 org.springframework.beans.factory.xml.XmlBeanFactory ,它根据XML文件中的定义加载beans.该容器从XML 文件读取配置元数据并用 ...
- 实践中如何优化 MySQL ?
最好是按照以下顺序优化: 1.SQL 语句及索引的优化 2.数据库表结构的优化 3.系统配置的优化 4.硬件的优化 详细可以查看 阿里 P8 架构师谈:MySQL 慢查询优化.索引优化.以及表等优化
- Spring 框架的事务管理有哪些优点?
它为不同的事务 API 如 JTA,JDBC,Hibernate,JPA 和 JDO,提供 一个不变的编程模式. 它为编程式事务管理提供了一套简单的 API 而不是一些复杂的事务 API 它支持声明式 ...
- memcached 和服务器的 local cache(比如 PHP 的 APC、 mmap 文件等)相比,有什么优缺点?
首先,local cache 有许多与上面(query cache)相同的问题.local cache 能够利 用的内存容量受到(单台)服务器空闲内存空间的限制.不过,local第 109 页 共 4 ...
- 本地连接MySQL云服务器步骤与解决方案
云服务器:aliyun MySQL 版本:mysql8 第一步首先,检查云服务器的 网络与安全 -> 安全组 是否开放了(MySQL)3306端口 第二步,登陆云服务器上的MySQL,检查需要远 ...
- 学习heartbeat-04 原理及部署
1. Heartbeat介绍 1.1 Heartbeat作用 通过它可以将资源(IP及程序服务等资源)从一台故障计算机快速转移到另一台运转正常的机器继续提供服务,在实际生产应用场景中,heartbea ...
- 4.RDD操作
目录 一. RDD创建 从本地文件系统中加载数据创建RDD 从HDFS加载数据创建RDD 通过并行集合(列表)创建RDD 二. RDD操作 转换操作 filter(func) map(func) fl ...
- 2.安装Spark与Python练习
一.安装Spark <Spark2.4.0入门:Spark的安装和使用> 博客地址:http://dblab.xmu.edu.cn/blog/1307-2/ 1.1 基础环境 1.1.1 ...