本文首发于我的个人博客网站 等待下一个秋-Flink 什么是CDC? CDC是(Change Data Capture 变更数据获取)的简称.核心思想是,监测并捕获数据库的变动(包括数据 或 数据表的插入INSERT.更新UPDATE.删除DELETE等),将这些变更按发生的顺序完整记录下来,写入到消息中间件中以供其他服务进行订阅及消费. 1. 环境准备 mysql Hive flink 1.13.5 on yarn 说明:如果没有安装hadoop,那么可以不用yarn,直接用flink sta
背景: 公司核心业务库现存在MongoDB中,分布在6台MongoDB节点.现面临如下问题: 1.最大的一张表有10多个G,MongoDB在查询方面尚能胜任,但是涉及到复杂计算时会比较吃力. 2.MongoDB中有三张表,分别记录了最终用户在三个不同系统(电话,游戏,桌牌等)的行为,需要按用户汇聚成一张表. 考虑到MongoDB集成Hadoop来获得计算能力,先要让hadoop能访问到MongoDB中数据,下面讨论各个方案: 一)一个不安全的方案--MongoDB-connector for h