背景介绍

近期,BitSail 社区发布了 Contributor 激励计划第一期,包含众多 issue,吸引了很多热衷开源的小伙伴的加入,详情可查看https://mp.weixin.qq.com/s/GkGs-EqTV-szvzndMYrG1g

Issue 介绍

为了扩展 BitSail 的使用场景、适配用户的需求,BitSail 社区新增了十余 issue 来优化 BitSail 的功能。这次的 issue 包含了类型系统优化、connector 功能支持、测试覆盖等方面,欢迎大家前来支持贡献!

下面介绍部分新增 issue,这些 issue 在各方面对 BitSail 进行了优化。

1.使用优化:Mysql Reader 支持 schema 发现

用户在使用 Mysql reader 时,需要在任务配置中指定 schema,即要读取列的列名和类型。Mysql reader 会根据用户配置拼出一个 select 语句,用以从 mysql 拉取数据。

这种方式的好处在于可以灵活地选择 mysql 中的部分列进行读取。但是在实际场景中,用户往往需要读取 mysql 表中的全部列,这种时候 schema 配置就成为了一种负担。下图展示了一个读取包含 4 列数据 mysql 表的 schema 配置。

{
"job":{
"reader":{
// 仅展示schema配置部分
"columns":[
{
"name":"id",
"type":"bigint"
},
{
"name":"name",
"type":"varchar"
},
{
"name":"int_info",
"type":"int"
},
{
"name":"double_info",
"type":"double"
},
{
"name":"bytes_info",
"type":"binary"
}
]
}
}
}
 
 

因此,本次 BitSail 社区新增一个 issue 用于优化 Mysql reader 的 schema 配置,希望能在用户未配置 schema 信息时直接使用 mysql 表的元信息。

https://github.com/bytedance/bitsail/issues/248

类似的,社区也新增了一个 issue 用于支持在 Hive writer 中自动获取 schema。

https://github.com/bytedance/bitsail/issues/249

2.接口优化:批场景下的分片分配支持

为了支持多并发读取数据,目前主流做法是将数据源分成多个分片后分配给多个子任务并发读取。BitSail 定义了SourceSplitCoordinator接口用以支持这样的分片过程。

在批式场景中,数据源往往是静态的,reader 通过连接数据源生成所有分片后,即可制定一份分片的分发计划。

本次社区新增了一个 issue 用于构建一个支持如上批式场景的SourceSplitCoordinator

https://github.com/bytedance/bitsail/issues/247

3.文档优化:并行度计算

BitSail 支持通过任务配置设置 reader 和 writer 的并行度,但是目前没有详细的文档进行说明。因此本次新增一个 issue 希望能添加文档介绍 BitSail 的并行度设置和计算。

目前所有文档都会在BitSail主页进行展示。

https://bytedance.github.io/bitsail/zh/

致谢

BitSail 社区目前已经有多位贡献者,在此也对各位贡献者和其他朋友由衷地表示感谢。期待更多开发者、技术爱好者共同建设 BitSail 社区!

更多激励计划任务请关注 issue 链接:https://github.com/bytedance/bitsail/issues

BitSail issue 持续更新中,快来挑战,赢取千元礼品!的更多相关文章

  1. java视频教程 Java自学视频整理(持续更新中...)

    视频教程,马士兵java视频教程,java视频 1.Java基础视频 <张孝祥JAVA视频教程>完整版[RMVB](东西网) 历经5年锤炼(史上最适合初学者入门的Java基础视频)(传智播 ...

  2. PTA|团体程序设计天梯赛-练习题目题解锦集(C/C++)(持续更新中……)

    PTA|团体程序设计天梯赛-练习题目题解锦集(持续更新中) 实现语言:C/C++:      欢迎各位看官交流讨论.指导题解错误:或者分享更快的方法!! 题目链接:https://pintia.cn/ ...

  3. 痞子衡嵌入式:史上最强i.MX RT学习资源汇总(持续更新中...)

    大家好,我是痞子衡,是正经搞技术的痞子.今天痞子衡给大家介绍的是i.MX RT学习资源. 类别 资源 简介 官方汇总 i.MXRT产品主页 恩智浦官方i.MXRT产品主页,最权威的资料都在这里,参考手 ...

  4. 史上最全的spark面试题——持续更新中

    史上最全的spark面试题——持续更新中 2018年09月09日 16:34:10 为了九亿少女的期待 阅读数 13696更多 分类专栏: Spark 面试题   版权声明:本文为博主原创文章,遵循C ...

  5. 2020年腾讯实习生C++面试题&持续更新中(3)

    2020年腾讯实习生C++面试题&持续更新中(3) hello,大家好,我是好好学习,天天编程的天天. 来给大家大家分享腾讯实习生面经了. 天天希望大家看到面经后一定要做充分的准备,结合自己掌 ...

  6. 2020年腾讯实习生C++面试题&持续更新中(5)

    2020年腾讯实习生C++面试题&持续更新中(5) 大家好呀,我是好好学习天天编程的天天~ 昨天一位小伙伴反馈已经拿到了腾讯offer,很是替小伙伴的激动~ 那今天还是持续给大家分享面经,希望 ...

  7. 【前端面试】Vue面试题总结(持续更新中)

    Vue面试题总结(持续更新中) 题目参考链接 https://blog.csdn.net/weixin_45257157/article/details/106215158 由于已经有很多前辈深造VU ...

  8. git常用命令(持续更新中)

    git常用命令(持续更新中) 本地仓库操作git int                                 初始化本地仓库git add .                       ...

  9. Atom使用记录(持续更新中)

    部分内容取自:http://www.jianshu.com/p/dd97cbb3c22d,我自己也在使用,持续更新中 Atom安装插件在窗口中File---Setting---install 在里面进 ...

  10. Pig基础学习【持续更新中】

    *本文参考了Pig官方文档以及已有的一些博客,并加上了自己的一些知识性的理解.目前正在持续更新中.* Pig作为一种处理大规模数据的高级查询语言,底层是转换成MapReduce实现的,可以作为MapR ...

随机推荐

  1. django admin字段设置大全

    # 在列表页显示的字段,默认会显示所有字段,有对应的方法可以重写 list_display = ('__str__',) # 在列表页显示的字段中,可以链接到change_form页面的字段 list ...

  2. 线程的查看方式&运行原理

    观察多个线程同时运行 主要是理解 交替执行 谁先谁后,不由我们控制 查看进程线程的方法 windows 任务管理器可以查看进程和线程数,也可以用来杀死进程 tasklist 查看进程 taskkill ...

  3. 生产真实案例:震惊,几条SQL把服务器干崩了,事后还大言不惭!

    大家好,我是冰河~~ 今天跟大家分享一个发生在今天凌晨的真实案例,这篇文章也是我事后临时写出来的,处理事情的过程有点无语,又有点气愤! 事件背景 事情的背景是这样的:一个朋友今年年初新开了一家公司,自 ...

  4. React 中常用技术

    可以少去理解一些不必要的概念,而多去思考为什么会有这样的东西,它解决了什么问题,或者它的运行机制是什么? 1. React 中导出和导入 1.1 ES6 解析 ES6 的模块化的基本规则或特点: 每一 ...

  5. 手动部署Kraft模式Kafka集群

    手动部署Kraft模式kafka集群 基本信息 IP地址 Hostname Release Kafka-Version 172.29.145.157 iamdemo1 Centos7.9 kafka_ ...

  6. 手撕Vue-Router-实现router-link

    前言 在上一篇 [手撕Vue-Router-添加全局$router属性] 中,实现了将每一个 Vue 实例上挂载一个 $router 属性,这个属性就是我们在上一篇文章中创建的 VueRouter 实 ...

  7. 公司要做大数据可视化看板,除了EXCEL以外有没有好用的软件可以用

    当企业需要进行大数据可视化看板的设计和开发时,除了Excel,还有许多其他强大且适合大数据可视化的软件工具.以下是几种常用的好用软件,以及它们的特点和优势,供您参考. 一.Datainside 特点和 ...

  8. 京东面试:说说Cookie、Session和Token的区别?

    东子作为目前传统电商三巨头之一(其他还有阿里巴巴和拼多多),其面试题的难度也中规中矩,总体来说没有其他两家面试难度高,当然薪资也没有其他两家薪资高. 其中拼多多的薪资最为离谱,尤其是前几年,听说挖同行 ...

  9. CoreFlex框架发布 `0.1.1`

    CoreFlex框架发布 0.1.1 框架描述 CoreFlex是一个支持.NET 6,.NET 7,.NET 8的快速开发框架,也提供MasaFramework相关框架的集成提供更多功能模块, 集成 ...

  10. 新冠肺炎病毒(Covid-19)检测系统

    一 .背景 新冠肺炎是一种新的呼吸道疾病,它由新型冠状病毒引起,而这种病毒以前从未在人类身上发现 过.新冠肺炎如何传播? 新冠肺炎很容易通过与新冠肺炎患者的密切接触(距离约 6 英尺或两臂长范围内)在 ...