本章内容: 待整理 参考文献: Apache Spark 2.2.0新特性详细介绍 Introducing Apache Spark 2.2…
摘要:Apache Flink是一个面向分布式数据流处理和批量数据处理的开源计算平台,它能够基于同一个Flink运行时,提供支持流处理和批处理两种类型应用的功能.目前,Apache Flink 1.9.0版本已经正式发布,该版本有什么样的里程碑意义,又具有哪些重点改动和新功能呢?本文中,阿里巴巴高级技术专家伍翀就为大家带来了对于Apache Flink 1.9.0版本的介绍. 演讲嘉宾介绍: 本次分享主要分为以下三个方面: Flink 1.9.0的里程碑意义 Flink 1.9.0的重点改动和新…
导读:Apache Doris 使用 C++ 语言实现了执行引擎,C++ 开发过程中,影响开发效率的一个重要因素是指针的使用,包括非法访问.泄露.强制类型转换等.本文将会通过对 Sanitizer 和 Core Dump 分析工具的介绍来为大家分享:如何快速定位 Apache Doris 中的 C++ 问题,帮助开发者提升开发效率并掌握更高效的开发技巧. ​作者|Apache Doris Committer杨勇强 Apache Doris 是一款高性能 MPP 分析型数据库,出于性能的考虑,Ap…
文章标题 Introducing Apache Spark 2.3 Apache Spark 2.3 介绍 Now Available on Databricks Runtime 4.0 现在可以在Databrcks Runtime 4.0上使用. 作者介绍 Sameer Agarwal, Xiao Li, Reynold Xin and Jules Damji 文章正文: Today we are happy to announce the availability of Apache Spa…
这个版本是 Structured Streaming 的一个重要里程碑,因为其终于可以正式在生产环境中使用,实验标签(experimental tag)已经被移除.在流系统中支持对任意状态进行操作:Apache Kafka 0.10 的 streaming 和 batch API支持读和写操作.除了在 SparkR, MLlib 和 GraphX 里面添加新功能外,该版本更多的工作在系统的可用性(usability).稳定性(stability)以及代码的润色(polish)并解决了超过 110…
如何理解Apache License, Version 2.0(整理) 问题: 最近看到apache发布了2.0版本的License.而且微软也以此发布了部分源代码.我对OpenSource不是特熟,粗略看了下,感觉不是很明白.不知道这样的license在实际中有什么用处.(要知道,遵守的人都清一色的乖,而违反的人肯定是各有各的门道).打个比方,我下载了apache的一个jar包,在我自己的盈利性公司的产品里用上了.我没有更改任何下载下来的东西,只是用了它.之后我可以发布我自己的新产品了.那么我…
在 Apache Pulsar 2.6.0 版本发布后的 2 个月,2020 年 8 月 21 日,Apache Pulsar 2.6.1 版本正式发布! Apache Pulsar 2.6.1 修复了 2.6.0 版本中的诸多问题,改进了一些功能,新增了对 OAuth2 的支持,覆盖 Broker.Pulsar SQL.Pulsar Functions.Go Function.Java Client 和 C++ Client,进一步丰富了 Pulsar 作为云原生流数据平台的功能. 在 Pul…
元数据设计 如上图,Doris 的元数据主要存储4类数据: 用户数据信息.包括数据库.表的 Schema.分片信息等. 各类作业信息.如导入作业,Clone 作业.SchemaChange 作业等. 用户及权限信息 集群及节点信息 元数据目录 元数据目录通过 FE 的配置项 meta_dir 指定. bdb/ 目录下为 bdbje 的数据存放目录. image/ 目录下为 image 文件的存放目录. image.[logid] 是最新的 image 文件.后缀 logid 表明 image 所…
点亮 ️ Star · 照亮开源之路 GitHub:https://github.com/apache/dolphinscheduler ​ 版本发布 感谢本次的 Release Manager --@zhuangchong,是他主导了我们这个版本的发布流程,引导社区进行版本内容沟通,发版前的问题跟踪,blocking issue 处理,版本质量管理等,感谢@zhuangchong为社区的付出,也期待其他 Committer 和 PMC 能够一起参与到 Release Manager 的角色中来…
Apache Flume 1.7.0 发布了,Flume 是一个分布式.可靠和高可用的服务,用于收集.聚合以及移动大量日志数据,使用一个简单灵活的架构,就流数据模型.这是一个可靠.容错的服务. 本次更新如下: 新特性 [FLUME-2498] - Implement Taildir Source 改进 [FLUME-1899] - Make SpoolDir work with Sub-Directories [FLUME-2526] - Build flume by jdk 7 in defa…