概述 **本人博客网站 **IT小神 www.itxiaoshen.com 定义 Apache RocketMQ官网地址 https://rocketmq.apache.org/ Latest release v4.9.2 Apache RocketMQ GitHub源码地址 https://github.com/apache/rocketmq Apache RocketMQ是一个分布式消息传递和流媒体平台.统一的消息传递引擎,轻量级的数据处理平台:具有低延迟.高性能和可靠性.万亿级容量和灵活的…
概述 **本人博客网站 **IT小神 www.itxiaoshen.com 定义 Apache Kafka官网地址 http://kafka.apache.org/ 最新版本为 3.0.0 Apache Kafka是一个开源的分布式事件流平台,使用Scala和Java混合编写,Kafka最初由Linkedin公司开发,2011年贡献给了Apache基金会并成为顶级开源项目.消息队列就是用于数据生产方和消费方解耦合的中间件.顾名思义,主体就是一个队列的形式收集消息,数据在消费端按照FIFO的原则被…
在<流数据平台构建实战指南>第一部分中,Confluent联合创始人Jay Kreps介绍了如何构建一个公司范围的实时流数据中心.InfoQ前期对此进行过报道.本文是根据第二部分整理而成.在这一部分中,Jay给出了一些构建数据流平台的具体建议. 限制集群数量 Kafka集群数量越少,系统架构就越简单,也就意味着集成点更少,新增应用程序的增量成本更低,数据流推理更简单.但出于以下几个方面的考虑,再少也不可能只有一个集群: 将活动限制在本地数据中心.Jay建议将所有的应用程序都连接到本地数据中心的…
近来,有许多关于“流处理”和“事件数据”的讨论,它们往往都与像Kafka.Storm或Samza这样的技术相关.但并不是每个人都知道如何将这种技术引入他们自己的技术栈.于是,Confluent联合创始人Jay Kreps发布了<流数据平台构建实战指南>.他结合自己过去五年中在LinkedIn构建Apache Kafka的经验,介绍了如何构建一个公司范围的实时流数据中心. 他们将该实时流数据中心称为流数据平台,其出现主要是由于需要: 在关系型OLTP数据库.Hadoop.Teradata.搜索系…
热门的消息队列中间件RabbitMQ,分布式任务处理平台Celery,大数据分布式处理的三大重量级武器:Hadoop.Spark.Storm,以及新一代的数据采集和分析引擎Elasticsearch. RabbitMQ RabbitMQ是一个支持Advanced Message Queuing Protocol(AMQP)的开源消息队列实现,由Erlang编写,因以高性能.高可用以及可伸缩性出名.它支持多种客户端,如:Java.Python.PHP..NET.Ruby.JavaScript等.它…
分布式系统和大数据处理平台是目前业界关注的热门技术. 1.RabbitMQ RabbitMQ是一个支持AMQP的开源消息队列实现,由Erlang编写,因以高性能.高可用以及可伸缩性出名.它支持多种客户端,如:Java.Python.PHP.Ruby..NET.JavaScript等. 它主要用于分布式系统中存储和转发消息,方便组之间的解耦,消息的发送无需知道消息使用者的存在,反之亦然. AMQP架构中有两个主要组件:Exchange和Queue,两者都在服务端,又称Broker,由RabbitM…
Hadoop大数据——随着计算机技术的发展,互联网的普及,信息的积累已经到了一个非常庞大的地步,信息的增长也在不断的加快.信息更是爆炸性增长,收集,检索,统计这些信息越发困难,必须使用新的技术来解决这些问题.大数据由巨型数据组成,这些数据集大小超出人类在可接受时间下的收集,使用,管理和处理能力.把数据集合并进行分析可得出许多额外的信息和数据关系性,可用来察觉商业趋势,判定研究质量,避免疾病扩散,打击犯罪或测定及时交通路况等,这样的用途正是大型数据集盛行的原因.从各种各样类型的数据中,快速获得有价…
当今许多企业都有着技术架构的DataOps程度不够.二次开发成本高.迁移成本高.集群部署混乱等情况,团队在技术选型之后发现并不适合自己的需求,但是迁移成本和难度又比较大,甚至前团队还留下了不少坑,企业自有的开发能力又比较有限,导致后面的小伙伴上手难度高体验差. 俗话说"工具选得好,下班回家早:调度用得对,半夜安心睡",面对各种难点和痛点: 如何有效地评估数据调度工具? 如何平滑的过渡到Apache DolphinScheduler? 如何稳定高效的对已有的工具升级改造? 这几个问题是改…
Pulsar云原生分布式消息和流平台 **本人博客网站 **IT小神 www.itxiaoshen.com Pulsar官方网站 Apache Pulsar是一个云原生的分布式消息和流媒体平台,最初创建于雅虎!现在是Apache软件基金会的顶级项目 官网首页列举一些关键特性和目前使用公司包括国内深度合作腾讯,目前最新版本为2.8.0,背后的开源流数据公司 StreamNative,2019年创立一家公司,作为云原生时代专注技术细分领域的佼佼者 什么是Pulsar Pulsar即可以支持queue…
近日,Apache RocketMQ 社区正式发布4.3版本.此次发布不仅包括提升性能,减少内存使用等原有特性增强,还修复了部分社区提出的若干问题,更重要的是该版本开源了社区最为关心的分布式事务消息,而且实现了对外部组件的零依赖.接下来,本文将详细探秘RocketMQ事务消息的设计原理以及实现机制. 一.需求缘起 在微服务架构中,随着服务的逐步拆分,数据库私有已经成为共识,这也导致所面临的分布式事务问题成为微服务落地过程中一个非常难以逾越的障碍,但是目前尚没有一个完整通用的解决方案. 其实不仅仅…
kafka概述 kafka是一个分布式的基于发布/订阅模式的消息队列(message queue),一般更愿意称kafka是一款开源的消息引擎系统,只不过消息队列会耳熟一些.kafka主要应用于大数据实时领域. 为什么会有消息队列,主要是为了异步处理,提高效率.我们来看一张图 使用消息队列,可以把耗时任务扔到队列里面,异步调用,从而提升效率.也就是我们所说的解耦. 然而除了解耦,还有没有其他作用呢?答案显然是有的,用一个专业点的名词解释的话,就是削峰填谷. 削峰填谷,真的是非常形象的四个字.所谓…
概要: Oracle Stream Analytics(OSA)是企业级大数据流实时分析计算平台.它可以通过使用复杂的关联模式,扩充和机器学习算法来自动处理和分析大规模实时信息.流式传输的大数据可以源自IoT传感器,Web管道,日志文件,销售点设备,ATM机,社交媒体,事务数据库,NoSQL数据库或任何其他数据源. OSA为业务用户提供了动态创建和实施即时洞察解决方案.它允许用户通过实时图表,地图,可视化视图来实时浏览实时数据,并以图形方式构建流传输管道,而无需进行任何手工编码. OSA使用与O…
自从计算机出现以来,我们一直在尝试寻找计算机存储一些信息的方法,存储在计算机上的信息(也称为数据)有多种形式,数据变得如此重要,以至于信息现在已成为触手可及的商品.多年来数据以多种方式存储在计算机中,包括数据库.blob存储和其他方法,为了进行有效的业务分析,必须对现代应用程序创建的数据进行处理和分…
Fordeal的数据平台调度系统之前是基于Azkaban进行二次开发的,但是在用户层面.技术层面都存在一些痛点问题难以被解决.比如在用户层面缺少任务可视化编辑界面.补数等必要功能,导致用户上手难体验差.在技术层面,架构过时,持续迭代难度大.基于这些情况,经过竞品对比和调研后,Fordeal数据平台新版系统决定基于Apache DolphinScheduler进行升级改造.那整个迁移过程中开发人员是如何让使用方平滑过渡到新系统,又做出了哪些努力呢? 5月 Apache Dolphinschedul…
因篇幅过长,故分为两节,上节主要说明hadoop运行环境和必须的基础软件,包括VMware虚拟机软件的说明安装.Xmanager5管理软件以及CentOS操作系统的安装和基本网络配置.具体请参看: [HADOOP]| 环境搭建:从零开始搭建hadoop大数据平台(单机/伪分布式)-上 6. Linux节点配置 设置主机名:根据规划修改主机名,执行hostnamectl set-hostname hdoop1,修改主机名并写入配置文件,使用hostname查看当前生效的主机名. 关闭防火墙:使用s…
Apache Storm从一端读取实时数据的原始流,并将其传递通过一系列小处理单元,并在另一端输出处理/有用的信息. 下图描述了Apache Storm的核心概念. 640?wx_fmt=png&wxfrom=5&wx_lazy=1 现在让我们仔细看看Apache Storm的组件 - 组件 描述 Tuple Tuple是Storm中的主要数据结构.它是有序元素的列表.默认情况下,Tuple支持所有数据类型.通常,它被建模为一组逗号分隔的值,并传递到Storm集群. Stream 流是元组…
随着公司业务发展,对大数据的获取和实时处理的要求就会越来越高,日志处理.用户行为分析.场景业务分析等等,传统的写日志方式根本满足不了业务的实时处理需求,所以本人准备开始着手改造原系统中的数据处理方式,重新搭建一个实时流处理平台,主要是基于hadoop生态,利用Kafka作为中转,SparkStreaming框架实时获取数据并清洗,将结果多维度的存储进HBase数据库. 整个平台大致的框架如下: 操作系统:Centos7 用到的框架: 1. Flume1.8.0 2. Hadoop2.9.0 3.…
作者 | 胡泽康 鄞乐炜 作者简介 胡泽康 联通(广东)产业互联网公司  大数据工程师,专注于开源大数据领域,从事大数据平台研发工作 鄞乐炜 联通(广东)产业互联网公司 大数据工程师,主要从事大数据平台的应用与引擎端开发 01 背景介绍 我们是联通医疗团队,一直践行 "服务医改,惠及民生" 的使命,全面驱动医疗健康产业数字化.智能化转型. 在调度系统选型初期,我们团队技术栈以 JVM 语言为主,由于 Airflow 的结构体系无法进行充分的改造和融合,因此在开源调度系统的选择上,我们主…
大家下午好,我是来自当贝网络科技大数据平台的基础开发工程师 王昱翔,感谢社区的邀请来参与这次分享,关于 Apache DolphinScheduler 在当贝网络科技大数据环境中的应用. 本次演讲主要包含四个部分: 平台建设的背景 大数据平台重构 大数据调度平台建设 下一步规划 王昱翔 当贝大数据平台基础开发工程师 毕业于电子科技大学,主要是做大数据平台的构建.集成及组件的运维的工作. 01 背景 在当贝网络科技使用 Apache DolphinScheduler 作为大数据调度平台之前,我们在…
点击上方 蓝字关注我们 作者 | 宋哲琦 ✎ 编 者 按 在不久前的 Apache  DolphinScheduler Meetup 2021 上,有赞大数据开发平台负责人 宋哲琦 带来了平台调度系统从 Airflow 迁移到 Apache  DolphinScheduler 的方案设计思考和生产环境实践. 这位来自浙江杭州的 90 后年轻人自 2019 年 9 月加入有赞,在这里从事数据开发平台.调度系统和数据同步组件的研发工作.刚入职时,有赞使用的还是同为 Apache 开源项目的 Airf…
来自:AI前线(微信号:ai-front),作者:林兴财,编辑:Natalie作者介绍:林兴财,毕业于厦门大学计算机科学与技术专业.有多年的嵌入式开发.系统运维经验,现就职于四三九九网络股份有限公司,担任大数据开发工程师,主要负责大数据平台的规划建设. 本文介绍了 4399 大数据团队在公司大数据平台上应用 Kylin 的实践经验,并基于应用中遇到的问题给出了对应的优化建议.背 景 在开始案例分享前,先简单介绍一下 4399 以及 4399 的大数据团队 4399 是中国最早的和领先的在线休闲小…
在优锐课学习中了解到,我们可以看到实施资源适配器以将Kafka与企业Java解决方案集成.码了很多专业的相关知识, 分享给大家参考学习. 由于世界已经变得移动化,因此应用程序现在必须实时提供数据. 不仅重要的是存储在数据库表中的最终结果,而且重要的是用户在使用应用程序时执行的所有操作. 无论可用的任何信息(例如用户点击,日志数据或传感器数据)用于增强用户体验,生成报告,为机器学习系统供稿,等等. 今天,开发人员必须专注于基于实时事件流的系统. 下图显示了基于事件流处理的体系结构示例. Apach…
序言 今年的双十一对阿里巴巴中间件消息团队来说,注定是个不平凡的日子.在这一天,稳定性小组重点攻克的低延迟存储解决方案成功地经受住了大考.整个大促期间,99.996%的延迟落在了10ms以内,极个别由于GC引发的停顿在50ms以内,对于读写比例几乎均衡的分布式消息引擎来说,这一结果无不令人兴奋.甚至可以毫不夸张地讲,即便拿到明年的Java one大会上,也必定是场非常吸睛的技术干货分享.接下来,团队同学会把相关的经验提炼总结出来,期待能在接下来全球Qcon大会上为小伙伴们带去尽可能多的干货分享.…
本文转载自:[技术帖]Apache Kylin 2.0为大数据带来交互式的BI 编者注:Kyligence的联合创始人兼CEO Luke Han在上做题为“”的演讲. 基于Hadoop的SQL一直在被持续地改进,但是一个查询等几分钟到几小时还是非常正常.在这篇博文里,将会介绍开源的分布式分析引擎Apache Kylin,尤其会重点介绍它是如何以数量级加速大数据查询,以及在2.0版里面为交互式BI所提供的新特性,包括对雪花模型的支持和流式建立数据立方. Apache Kylin是什么? Kylin…
目前市场上常见的企业级大数据平台型的产品主流的有两个,一个是Cloudera公司推出的CDH,一个是Hortonworks公司推出的一套HDP,其中HDP是以开源的Ambari作为一个管理监控工具,CDH对应的是Cloudera Manager,国内也有像星环这种公司专门做大数据平台.我们公司最初是使用CDH的环境,近日领导找到我让我基于Ambari做一个公司自己的数据平台产品.最初接到这个任务我是拒绝的,因为已经有了很完善很成熟的数据平台产品,小公司做这个东西在我看来是浪费人力物力且起步太晚.…
初识kafka https://www.cnblogs.com/wenBlog/p/9550039.html 简介 Kafka经常用于实时流数据架构,用于提供实时分析.本篇将会简单介绍kafka以及它为什么能够广泛应用. kafka的增长是爆炸性的.2017年超过三分之一的世界五百强公司在使用kafka.这其中很多公司每天通过kafka处理超过TB级别的数据.kafka被用于实时数据流.收集大数据或者做一些实时分析.kafka是也为基于内存的微服务提供数据持久化并把数据传输给复杂的事件流系统和I…
2016-07-29 14:13:23 钱曙光 阅读数 794 原文链接:https://blog.csdn.net/qiansg123/article/details/80124521 声明:本文为作者在CSDN技术公开课的分享原创整理,未经许可,禁止转载. 作者:郭炜,易观CTO,毕业于北京大学,曾任联想大数据总监.万达电商数据部总经理,曾在中金.IBM.Teradata公司担任大数据方向重要岗位.在智能硬件以及大数据分析领域具有丰富的理论和实践经验. 责编:钱曙光,关注架构和算法领域,寻求…
1. 摘要 数据是每项技术业务的支柱,作为一个健康医疗技术平台,Halodoc 更是如此,用户可以通过以下方式与 Halodoc 交互: 送药 与医生交谈 实验室测试 医院预约和药物 所有这些交互都会产生高度敏感.多样化且通常是非结构化的数据. 因此随着公司的成长,必须拥有一个强大的数据平台,平台需要满足如下需求: 确保数据的隐私和安全 在处理结构化和半/非结构化数据时可靠.可扩展.快速且高可用 促进为业务/运营团队生成报告和实时仪表板 为数据科学团队提供一个平台来运行实验.模型和存储结果 2.…
1. 摘要 在 Halodoc,我们始终致力于为最终用户简化医疗保健服务,随着公司的发展,我们不断构建和提供新功能. 我们两年前建立的可能无法支持我们今天管理的数据量,以解决我们决定改进数据平台架构的问题. 在我们之前的博客中,我们谈到了现有平台的挑战以及为什么我们需要采用 Lake House 架构来支持业务和利益相关者以轻松访问数据. 在这篇博客中,我们将讨论我们的新架构.涉及的组件和不同的策略,以拥有一个可扩展的数据平台. 2. 新架构 让我们首先看一下经过改进的新数据平台 2.0 的高级…
http://www.thebigdata.cn/JieJueFangAn/30143.html 本篇文章整理自史少锋4月23日在『1024大数据技术峰会』上的分享实录:使用Apache Kylin搭建企业级开源大数据分析平台. 正文如下 我先做一个简单介绍我叫史少锋,我曾经在IBM.eBay做过大数据.云架构的开发,现在是Kyligence的技术合伙人. Kylin是这两年在国内发展非常快的开源大数据项目.今天大会合作厂商中有超过一半的企业已经在使用或者正在试用Kylin,应主办方邀请,今天跟…