DataPipeline CTO陈肃：构建批流一体数据融合平台的一致性语义保证

文 | 陈肃 DataPipelineCTO 交流微信 | datapipeline2018 本文完整PPT获取 | 关注公众号后,后台回复“陈肃” 首先,本文将从数据融合角度,谈一下DataPipeline对批流一体架构的看法,以及如何设计和使用一个基础框架.其次,数据的一致性是进行数据融合时最基础的问题.如果数据无法实现一致,即使同步再快,支持的功能再丰富,都没有意义. 另外,DataPipeline目前使用的基础框架为Kafka Connect.为实现一致性的语义保证,我们做了一些额外工作…

DataPipeline CTO 陈肃：我们花了3年时间，重新定义数据集成

目前,中国企业在大数据流通.交换.利用等方面仍处于起步阶段,但是企业应用数据集成市场却是庞大的.根据 Forrester 数据看来,2017 年全球数据应用集成市场纯软件规模是 320 亿美元,如果包括人工在内,将达到 3940 亿美元. 在数据应用集成领域中,既有 Oracle.SAP.微软.Informatica 等传统的 IT 大佬,更有众多的创新型企业,其中 DataPipeline 就是一家通过提供批流一体的数据融合.数据清洗.数据同步等服务,帮助企业连接内外部数据孤岛,实现数据交换与…

阿里重磅开源全球首个批流一体机器学习平台Alink，Blink功能已全部贡献至Flink

11月28日,Flink Forward Asia 2019 在北京国家会议中心召开,阿里在会上发布Flink 1.10版本功能前瞻,同时宣布基于Flink的机器学习算法平台Alink正式开源,这也是全球首个批流一体的算法平台,旨在降低算法开发门槛,帮助开发者掌握机器学习的生命全周期.在去年的Flink Forward China峰会上,阿里宣布将开源Flink的内部分支Blink,把阿里内部对Flink的优化工作全部开放给开源社区,在业内引发热烈讨论,其中有期待也有怀疑.一年后的今天,阿里是否…

DataPipeline CTO陈肃：从ETL到ELT，AI时代数据集成的问题与解决方案

引言:2018年7月25日,DataPipeline CTO陈肃在第一期公开课上作了题为<从ETL到ELT,AI时代数据集成的问题与解决方案>的分享,本文根据陈肃分享内容整理而成. 大家好!很高兴今天有机会和大家分享一些数据集成方面的看法和应用经验.先自我介绍一下.我叫陈肃,博士毕业于中国科学院大学,数据挖掘研究方向.现在北京数见科技(DataPipeline)任 CTO.之前在中国移动研究院任职算法工程师和用户行为实验室技术经理,之后作为合伙人加入过一家互联网教育公司,从事智能学习方面的研发…

最佳实践：Pulsar 为批流处理提供融合存储

非常荣幸有机会和大家分享一下 Apache Pulsar 怎样为批流处理提供融合的存储.希望今天的分享对做大数据处理的同学能有帮助和启发. 这次分享,主要分为四个部分: 介绍与其他消息系统相比, Apache Pulsar 的独特优势分析批流处理中的存储需求讲述 Apache Pulsar 如何完美匹配批流处理中的存储需求介绍怎样使用 Apache Pulsar 提供批流融合的存储 Apache Pulsar 简介 Apache Pulsar 是新近开源的一个大规模分布式消息系统,是 Ap…

DataPipeline丨新型企业数据融合平台的探索与实践

文 |刘瀚林 DataPipeline后端研发负责人交流微信 | datapipeline2018 一.关于数据融合和企业数据融合平台数据融合是把不同来源.格式.特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享. 企业数据融合平台,通常的表现形态为运行着大量数据同步和转换任务的分布式系统.其源端一般为各类偏实时的业务数据存储系统,目的端为各类数据仓库/对象存储. 二.企业数据融合平台的典型架构下图为数据融合平台的典型架构,源端是不同的数据存储系统,另一端是各种类型的数…

搭建企业级实时数据融合平台难吗？Tapdata + ES + MongoDB 就能搞定

摘要:如何打造一套企业级的实时数据融合平台?Tapdata 已经找到了最佳实践,下文将以 Tapdata 的零售行业客户为例,与您分享:基于 ES 和 MongoDB 来快速构建一套企业级的实时数据融合平台. 在大数据时代,几乎每家企业都有上一套数据平台的冲动,目前也有很多的离线解决方案,包括 Hadoop 体系的 CDH.TDH,还有一些传统的数仓.但是有两大因素让企业无从下手:一是"实时",二是"融合".一方面,随着 IT 架构的迭代升级和业务端的全渠道…

Tapdata 实时数据融合平台解决方案（五）：落地

作者介绍:TJ,唐建法,Tapdata 钛铂数据 CTO,MongoDB中文社区主席,原MongoDB大中华区首席架构师,极客时间MongoDB视频课程讲师. 通过前面几篇文章,我们从企业数据整合与分享的痛点,以及对数据中台的定义.技术需求以及技术产品的选项,都分别做了具体的阐述. 有了这么多解决方案,我们来看一下,如果是基于一个 MongoDB 的方案会是怎么样?我们刚才只是讲的数据平台在做一些选择,但是做一个完善的数据中台的话还需要很多其他模块,所以这里面是用到了另一个产品,就是Tapdat…

Tapdata 实时数据融合平台解决方案（四）：技术选型

作者介绍:TJ,唐建法,Tapdata 钛铂数据CTO,MongoDB中文社区主席,原MongoDB大中华区首席架构师,极客时间MongoDB视频课程讲师. 常见搭建数据中台的技术产品数据中台包括:统一数据平台,数据同步,数据治理,数据服务四大部分.下表列出了这四大部分中相应的技术产品,有同步汇聚工具.有数据治理.还有数据服务. 数据平台最常见的是以 Hadoop 大数据为基础的.在最近十年,有很多家公司投入很多来做这个事情,把数据已经收集到中央化的一个 datalake 里面,那这个就是个很…

Tapdata 实时数据融合平台解决方案（三）：数据中台的技术需求

作者介绍:TJ,唐建法,Tapdata 钛铂数据 CTO,MongoDB中文社区主席,原MongoDB大中华区首席架构师,极客时间MongoDB视频课程讲师. 我们讲完了这个中台的一个架构和它的逻辑模型,如果我们要来考虑实施数据中台有哪些技术模块要考量.还回到刚才那张图,首先中台必须是基于一个数据统一平台的,那数据统一的时候,其实刚才没有讲到的,还需要把数据同步和汇聚过来.所以有一部分的工作你是少不了的,如果你没有做过这种中台甚至统一平台的话,你必须有一个ETL平台来把你的来自各个来源的数据…

Tapdata 实时数据融合平台解决方案（二）：理解数据中台

作者介绍:TJ,唐建法,Tapdata 钛铂数据 CTO,MongoDB中文社区主席,原MongoDB大中华区首席架构师,极客时间MongoDB视频课程讲师. 数据中台定义: 以打通部门或数据孤岛的统一数据平台为基础,构建统一数据资产体系,并以API服务方式为全渠道业务(分析 + 应用)提供即时交付能力的企业级数据架构. - 首先,统一数据平台.数据中台也是一个数据统一的平台,它不会取代原来的系统,而是把原来组织中分散在各系统中的数据实时地汇聚到统一平台之中. - 其次,数据资产体系建立.与数仓…

Tapdata 实时数据融合平台解决方案（一）：现代企业数据架构及痛点

作者介绍:TJ,唐建法,Tapdata 钛铂数据 CTO,MongoDB中文社区主席,原MongoDB大中华区首席架构师,极客时间MongoDB视频课程讲师. "怎样可以来搭建一个数据中台?" 身处数据处理行业,经常被客户问到这样的问题. 数据中台到底是什么,是产品.技术还是一个架构--,在关于数据中台的概念铺天盖地的时候,我们来聊一聊数据中台的架构,技术上实现,以及如何在企业落地,实实在在解决问题. 一.现代企业数据架构及痛点– 数据孤岛:低效率和利用困难的根源– 应用瓶颈:传统方案…

统一批处理流处理——Flink批流一体实现原理

实现批处理的技术许许多多,从各种关系型数据库的sql处理,到大数据领域的MapReduce,Hive,Spark等等.这些都是处理有限数据流的经典方式.而Flink专注的是无限流处理,那么他是怎么做到批处理的呢? 无限流处理:输入数据没有尽头:数据处理从当前或者过去的某一个时间点开始,持续不停地进行另一种处理形式叫作有限流处理,即从某一个时间点开始处理数据,然后在另一个时间点结束.输入数据可能本身是有限的(即输入数据集并不会随着时间增长),也可能出于分析的目的被人为地设定为有限集(即只分析某…

Tapdata x 轻流，为用户打造实时接入轻流的数据高速通道

在全行业加速布局数字化的当口,如何善用工具,也是为转型升级添薪助力的关键一步. 那么当轻量的异构数据实时同步工具,遇上轻量的数字化管理工具,将会收获什么样的新体验?此番 Tapdata 与轻流的牵手,或许能给你答案. 强强联手,带来 1+1>2 的用户体验 Tapdata是全球首个基于数据即服务(DaaS)架构理念.面向 OLTP 业务或场景的企业实时数据服务平台.具备异构数据实时同步.批流一体数据融合.自助式 API 发布等功能.目前已支持近百个数据源和类型,包括市场主流的数据库.AP…

打造实时数据集成平台——DataPipeline基于Kafka Connect的应用实践

导读:传统ETL方案让企业难以承受数据集成之重,基于Kafka Connect构建的新型实时数据集成平台被寄予厚望. 在4月21日的Kafka Beijing Meetup第四场活动上,DataPipeline CTO陈肃分享了DataPipeline是如何基于Kafka Connect框架构建实时数据集成平台的应用实践.以下内容是基于现场录音整理的文字,供大家参考. 什么是数据集成?最简单的应用场景就是:一个数据源,一个数据目的地,数据目的地可以一个数据仓库,把关系型数据库的数据同步到数据仓库…

【Spark深入学习 -10】基于spark构建企业级流处理系统

----本节内容------- 1.流式处理系统背景 1.1 技术背景 1.2 Spark技术很火 2.流式处理技术介绍 2.1流式处理技术概念 2.2流式处理应用场景 2.3流式处理系统分类 3.流式处理技术关键技术 3.1流式处理系统管道构建 3.2流式处理系统关键技术 3.3用户行为分析系统介绍 4.问题答疑 5.参考资料 --------------------- 1.流式处理技术 1.1 技术背景业务驱动技术发展,脱了了业务的技术,最多就是一个研究性的东西,流式处理技术的火爆源于业内…

Flink 是如何统一批流引擎的

关注公众号:大数据技术派,回复"资料",领取1000G资料. 本文首发于我的个人博客:Flink 是如何统一批流引擎的 2015 年,Flink 的作者就写了 Apache Flink: Stream and Batch Processing in a Single Engine 这篇论文.本文以这篇论文为引导,详细讲讲 Flink 内部是如何设计并实现批流一体的架构. 前言通常我们在 Flink 中说批流一体指的是这四个方向,其中 Runtime 便是 Flink 运行时的实现.…

基于MaxCompute的媒体大数据开放平台建设

摘要:随着自媒体的发展,传统媒体面临着巨大的压力和挑战,新华智云运用大数据和人工智能技术,致力于为媒体行业赋能.通过媒体大数据开放平台,将媒体行业全网数据汇总起来,借助平台数据处理能力和算法能力,将有价值数据内容和能力开放给用户.本文主要从新华智云数芯平台,媒体行业数据特征,批流处理数据架构,以及通用的媒体大数据平台能力等几个方面介绍了如何基于MaxCompute做媒体大数据开放平台建设. 演讲嘉宾简介:李金波,新华智云首席数据官.负责阿里巴巴大数据通用计算平台MaxCompute(原ODPS)…

DataPipeline丨构建实时数据集成平台时，在技术选型上的考量点

文 | 陈肃 DataPipeline CTO 随着企业应用复杂性的上升和微服务架构的流行,数据正变得越来越以应用为中心. 服务之间仅在必要时以接口或者消息队列方式进行数据交互,从而避免了构建单一数据库集群来支撑不断增长的业务需要.以应用为中心的数据持久化架构,在带来可伸缩性好处的同时,也给数据的融合计算带来了障碍. 由于数据散落在不同的数据库.消息队列.文件系统中,计算平台如果直接访问这些数据,会遇到可访问性和数据传输延迟等问题.在一些场景下,计算平台直接访问应用系统数据库会对系统吞吐造成显…

字节跳动流式数据集成基于Flink Checkpoint两阶段提交的实践和优化

背景字节跳动开发套件数据集成团队(DTS ,Data Transmission Service)在字节跳动内基于 Flink 实现了流批一体的数据集成服务.其中一个典型场景是 Kafka/ByteMQ/RocketMQ -> HDFS/Hive .Kafka/ByteMQ/RocketMQ -> HDFS/Hive(下面均称之为 MQ dump,具体介绍可见字节跳动基于Flink的MQ-Hive实时数据集成 ) 在数仓建设第一层,对数据的准确性和实时性要求比较高. 目前字节跳动中国区 M…

基于Apache Hudi在Google云构建数据湖平台

自从计算机出现以来,我们一直在尝试寻找计算机存储一些信息的方法,存储在计算机上的信息(也称为数据)有多种形式,数据变得如此重要,以至于信息现在已成为触手可及的商品.多年来数据以多种方式存储在计算机中,包括数据库.blob存储和其他方法,为了进行有效的业务分析,必须对现代应用程序创建的数据进行处理和分…

使用C#处理基于比特流的数据

使用C#处理基于比特流的数据 0x00 起因最近需要处理一些基于比特流的数据,计算机处理数据一般都是以byte(8bit)为单位的,使用BinaryReader读取的数据也是如此,即使读取bool型也是一个byte.不过借助于C#基础类库中提供的一些方法,也实现了对基于比特的数据的读取.任务完成后觉得基于比特的数据挺有意思,自己试了下用7比特和6比特编码常用ASCII字符.最后把一点新的写成博客,一方面做个记录,另一方面希望对有类似需求的园友有所帮助. 0x01 比特流数据的读取假设我们有一…

自定义Qt构建步骤，添加数据文件(txt,json等)到构建目录

Qt的qrc资源文件是只读的,因此我们如果要用txt之类的文件存储数据,在程序运行过程中就不能对它们进行修改,也就是不能进行读操作.用"file.open(QIODevice::WriteOnly)"方式打开会失败.因此我们不能把将来要修改的数据文件添加到qrc资源文件中. 但是编译的时候,我储存数据的data.json文件没有自动添加到构建出来的目录下.我尝试修改工程的pro文件,仍旧没有用.最后通过添加自定义的构建步骤,把数据文件拷贝到构建目录.具体步骤如下: 首先要编写一个bat…

应用层级时空记忆模型（HTM）实现对实时异常流时序数据检测

应用层级时空记忆模型(HTM)实现对实时异常流时序数据检测 Real-Time Anomaly Detection for Streaming Analytics Subutai Ahmad SAHMAD@NUMENTA.COM Numenta, Inc., 791 Middlefield Road, Redwood City, CA 94063 USA Scott Purdy SPURDY@NUMENTA.COM Numenta, Inc., 791 Middlefield Road, Red…

ASP.NET Core MVC中Controller的Action如何直接使用Response.Body的Stream流输出数据

在ASP.NET Core MVC中,我们有时候需要在Controller的Action中直接输出数据到Response.Body这个Stream流中,例如如果我们要输出一个很大的文件到客户端浏览器让用户下载,那么在Controller的Action中用Response.Body这个Stream流,来逐步发送文件数据到客户端浏览器是最好的办法. 但是我今天在ASP.NET Core MVC的Controller的Action中使用Response.Body输出数据到客户端浏览器的时候遇到了个问题…

HTML5+中动态构建列表并填充数据

部分代码参考demo----<历史上的今天>. 感谢作者的分享,愿好人一生平安,虽然只有两个页面,但是通过这个示例让我学会了5+中如何动态构建列表并填充数据,非常实用. html部分: <body> <header class="mui-bar mui-bar-nav"> <a id="info" class="mui-icon mui-icon-info-filled mu…

java8中用流收集数据

用流收集数据汇总 long howManyDishes = menu.stream().collect(Collectors.counting()); int totalCalories = menu.stream().collect(summingInt(Dish::getCalories)); //求平均值 double avgCalories = menu.stream().collect(averagingInt(Dish::getCalories)); //summarizing操作…

DataPipeline数据融合重磅功能丨一对多实时分发、批量读取模式

为能更好地服务用户,DataPipeline最新版本支持: 1. 一个数据源数据同时分发(实时或定时)到多个目的地: 2. 提升Hive的使用场景: 写入Hive目的地时,支持选择任意目标表字段作为分区字段: 可将Hive作为数据源定时分发到多个目的地. 3. 定时同步关系型数据库数据时,可自定义读取策略来满足各个表的同步增量需求. 本篇将首先介绍一下一对多数据分发及批量读取模式2.0的功能,后续功能会在官微陆续发布. 一.推出「一对多数据分发」的背景在历史版本中,DataPipeline每…

联童科技基于incubator-dolphinscheduler从0到1构建大数据调度平台之路

联童科技是一家智能化母婴童产业平台,从事母婴童行业以及互联网技术多年,拥有丰富的母婴门店运营和系统开发经验,在会员经营和商品经营方面,能够围绕会员需求,深入场景,更贴近合作伙伴和消费者,提供最优服务产品,公司致力于以技术来驱动母婴童产业的发展,公司也希望借助于大数据为客户提供更多智能数据分析和决策分析,大数据是公司重点发展的一部分,公司从成立初期起就搭建了大数据团队,有了大数据团队后,大数据调度平台的构建自然是最基础也是最重要的环节. 一.为什么选择incubator-dolphinschedu…