1. 前言 当前公司的大数据实时链路如下图,数据源是MySQL数据库,然后通过Binlog Query的方式消费或者直接客户端采集到Kafka,最终通过基于Spark/Flink实现的批流一体计算引擎处理,最后输出到下游对应的存储. 2. 模型特征架构的演进 2.1 第一代架构 广告业务发展初期,为了提升策略迭代效率,整理出一套通用的特征生产框架,该框架由三部分组成:特征统计.特征推送和特征获取模型训练.如下图所示: 客户端以及服务端数据先通过统一服务Sink到HDFS上 基于基HDFS数据,统…
背景 随着大数据业务的发展,基于 Hive 的数仓体系逐渐难以满足日益增长的业务需求,一方面已有很大体量的用户,但是在实时性,功能性上严重缺失:另一方面 Hudi,Iceberg 这类系统在事务性,快照管理上带来巨大提升,但是对已经存在的 Hive 用户有较大的迁移成本,并且难以满足流式计算毫秒级延迟的需求.为了满足网易内外部客户对于流批一体业务的需求,网易数帆基于 Apache Iceberg 研发了新一代流式湖仓,相较于 Hudi,Iceberg 等传统湖仓,它提供了流式更新,维表 Join…
1. 背景 OnZoom是Zoom新产品,是基于Zoom Meeting的一个独一无二的在线活动平台和市场.作为Zoom统一通信平台的延伸,OnZoom是一个综合性解决方案,为付费的Zoom用户提供创建.主持和盈利的活动,如健身课.音乐会.站立表演或即兴表演,以及Zoom会议平台上的音乐课程. 在OnZoom data platform中,source数据主要分为MySQL DB数据和Log数据. 其中Kafka数据通过Spark Streaming job实时消费,MySQL数据通过Spark…
摘要:Apache Flink是为分布式.高性能的流处理应用程序打造的开源流处理框架. 本文分享自华为云社区<[云驻共创]手把手教你玩转Flink流批一体分布式实时处理引擎>,作者: 萌兔之约. Apache Flink是为分布式.高性能的流处理应用程序打造的开源流处理框架.Flink不仅能提供同时支持高吞吐和exactly-once语义的实时计算,还能提供批量数据处理.相较于市面上的其他数据处理引擎,它采用的是基于流计算来模拟批处理. 一.Flink原理及架构 Flink简介 Apache…
官宣 | Apache Flink 1.12.0 正式发布,流批一体真正统一运行! 原创 Apache 博客 [Flink 中文社区](javascript:void(0) 翻译 | 付典 Review | 徐榜江.朱翥 Apache Flink 社区很荣幸地宣布 Flink 1.12.0 版本正式发布!近 300 位贡献者参与了 Flink 1.12.0 的开发,提交了超过 1000 多个修复或优化.这些修改极大地提高了 Flink 的可用性,并且简化(且统一)了 Flink 的整个 API…
如今,越来越多的公司开始 Docker 了,「三分之二的公司在尝试了 Docker 后最终使用了它」,也就是说 Docker 的转化率达到了 67%,同时转化时长也控制在 60 天内. 既然 Docker 这么火,Docker 监控是不是也该提上日程?或许具体问题要具体分析,但是似乎大家都在寻找新一代 Docker 监控的工具. 本次技术公开课将会给大家带来全方位的 Docker 实践,从监控之道到监控方案,让你了解到 Docker 实时性能状况,精准定位到性能薄弱的环节,从而优化应用,让监控之…
「 OneAPM 技术公开课」由应用性能管理第一品牌 OneAPM 发起,内容面向 IT 开发和运维人员.云集技术牛人.知名架构师.实践专家共同探讨技术热点. 11月28日,OneAPM 技术公开课第五期将走进深圳.来自 OneAPM.腾讯.酷狗以及平安科技的前端大牛们,围绕「前端性能大作战」的主题,将一起为小伙伴们带来前端性能优化的黄金指导准则.让我们一起来听一场「有趣」又「有料」的分享吧! 时间地点 11.28日 周六 13:30-17:30 深圳·南山区深南大道1000号腾讯大厦多功能会议…
随着互联网行业的高速发展,数据库已经是绝大多数 IT 应用的核心因素,虽然数据库种类繁多,但是多层体系结构以及 SOA 的发展,使得应用逻辑的实现前移.数据库的性能与其功能相比较,变得越来越重要了. 而对每个开发者或者 DBA 而言,都应该用更精深的方式来实现数据库性能的优化和改进.本次公开课由应用性能管理领军企业 OneAPM 主办,特别邀请了来自前新浪首席数据架构师杨海朝.云和恩墨创始人(Oracle ACE总监)盖国强.PingCAP 创始人兼 CEO(曾任豌豆荚,京东资深系统架构师)刘奇…
摘要: 什么是Apache ORC开源项目?主流的开源列存格式ORC和Parquet有何区别?MaxCompute为什么选择ORC? 如何一步步成为committer和加入PMC的?在阿里和Uber总部的工作体验有何异同?中美两种互联网公司的文化有什么差别?尽在本次直播. 2019年5月,大数据计算技术公开课又开播啦!! 第一季<技术人生专访>,将带领开发者们从Apache ORC 到 Apache Calcite探讨大数据技术,从中美日看不同公司的工作经历和体验. [直播详情] 吴刚专访 &…
Selenium自动化测试项目案例实践公开课: http://gdtesting.cn/news.php?id=55…