引言:2018年7月25日,DataPipeline CTO陈肃在第一期公开课上作了题为<从ETL到ELT,AI时代数据集成的问题与解决方案>的分享,本文根据陈肃分享内容整理而成. 大家好!很高兴今天有机会和大家分享一些数据集成方面的看法和应用经验.先自我介绍一下.我叫陈肃,博士毕业于中国科学院大学,数据挖掘研究方向.现在北京数见科技(DataPipeline)任 CTO.之前在中国移动研究院任职算法工程师和用户行为实验室技术经理,之后作为合伙人加入过一家互联网教育公司,从事智能学习方面的研发…
目前,中国企业在大数据流通.交换.利用等方面仍处于起步阶段,但是企业应用数据集成市场却是庞大的.根据 Forrester 数据看来,2017 年全球数据应用集成市场纯软件规模是 320 亿美元,如果包括人工在内,将达到 3940 亿美元. 在数据应用集成领域中,既有 Oracle.SAP.微软.Informatica 等传统的 IT 大佬,更有众多的创新型企业,其中 DataPipeline 就是一家通过提供批流一体的数据融合.数据清洗.数据同步等服务,帮助企业连接内外部数据孤岛,实现数据交换与…
英特尔 至强 平台集成 AI 加速构建数据中心智慧网络 SNA 通过 AI 方法来实时感知网络状态,基于网络数据分析来实现自动化部署和风险预测,从而让企业网络能更智能.更高效地为最终用户业务提供支撑.通过引入第二代英特尔 至强 可扩展处理器以及面向英特尔 架构优化的 TensorFlow,SNA的 AI 训练能力获得了大幅提升,让企业网络在应对复杂业务场景时更加游刃有余. 概述 软件定义网络 (Software Defined Network,SDN)得益于以自动化方式对网络资源实施灵活调配的能…
文 | 陈肃 DataPipeline  CTO 随着企业应用复杂性的上升和微服务架构的流行,数据正变得越来越以应用为中心. 服务之间仅在必要时以接口或者消息队列方式进行数据交互,从而避免了构建单一数据库集群来支撑不断增长的业务需要.以应用为中心的数据持久化架构,在带来可伸缩性好处的同时,也给数据的融合计算带来了障碍. 由于数据散落在不同的数据库.消息队列.文件系统中,计算平台如果直接访问这些数据,会遇到可访问性和数据传输延迟等问题.在一些场景下,计算平台直接访问应用系统数据库会对系统吞吐造成显…
近年来,随着深度学习技术的快速发展,基于AI的超分辨技术在图像恢复和图像增强领域呈现出广阔的应用前景,受到了学术界和工业界的关注和重视.但是,在RTC视频领域中,很多AI算法并不能满足实际场景下的应用需求.本文将着眼于AI技术从研究到部署的落地问题,分享超分辨技术在RTC领域落地应用所面临的机遇与挑战. 一.超分辨技术概述 1. 超分辨技术的提出 超分辨这一概念最早是在20世纪60年代由Harris和Goodman提出的,是指从低分辨率图像,通过某种算法或模型生成高分辨图像的技术,并且尽可能地恢…
2021 年,超高清迈入 "8K" 时代.超高清视频将带来全新视听体验,但超高清生产在内容生产层面也面临着超高清存量少.生产设备更新换代慢.制作周期成倍增加的困境.在 7 月 10 日的 Imagine 阿里云视频云全景创新峰会上,达摩云资深算法专家谢宣松,发表了<AI 技术驱动超高清 "视" 界>的主题演讲,从超高清产业的生产现状与困境出发,深度剖析 AI 技术如何驱动视听升级,并分享了达摩院在超高清生产领域的实践经验,以下为演讲内容整理. 超高清产业…
在不断满足当前企业客户数据集成需求的同时,DataPipeline也基于Kafka Connect 框架做了很多非常重要的提升. 1. 系统架构层面. DataPipeline引入DataPipeline Manager的概念,主要用于优化Source和Sink的全局化生命周期管理.当任务出现异常时,可以实现对目的端和全局生命周期的管理.例如,处理源端到目的端读取速率不匹配以及暂停等状态的协同. 为了加强系统的健壮性,我们把Connector任务的参数保存在ZooKeeper中,方便任务重启后读…
导读:传统ETL方案让企业难以承受数据集成之重,基于Kafka Connect构建的新型实时数据集成平台被寄予厚望. 在4月21日的Kafka Beijing Meetup第四场活动上,DataPipeline CTO陈肃分享了DataPipeline是如何基于Kafka Connect框架构建实时数据集成平台的应用实践.以下内容是基于现场录音整理的文字,供大家参考. 什么是数据集成?最简单的应用场景就是:一个数据源,一个数据目的地,数据目的地可以一个数据仓库,把关系型数据库的数据同步到数据仓库…
AI,大数据,复杂系统 最精 40本大书单 原创 2017-10-30 Peter 混沌巡洋舰 如果这篇文的题目变成最全书单,那么这篇文会变得又臭又长,这个年代,关于人工智能和大数据的书,没有一万本也有一千本,而这里列出的40本,则是精选过的,不敢说每一本都字字珠玑,但这个书单保证没有一本水书.废话不说,赶快上车,先放思维导图,再一本本的简单说说. 书单分成8部分,其中的数字代表我对这一系列的书的推荐程度. 先说经典书的部分 终极算法:机器学习和人工智能如何重塑世界  这本书的名字,显示着作者试…
数据集成是把不同来源.格式.特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享.数据集成的方式多种多样,这里介绍的 Teiid 是其中的一种:通过抽象和联邦技术,实现分布式数据源的实时数据访问和集成,无需从记录系统中复制或移动数据. 链接是一篇关于 Teiid 的中文介绍,比较详细. 由于适配不同数据源和生成虚拟数据库(VDB)需要维护好几个配置文件,直接手动部署 Teiid 比较难受.好在 Teiid 提供了辅助工具 Teiid Designer,这是一个 Eclipse…