alpakka-kafka(9)-kafka在分布式运算中的应用
kafka具备的分布式、高吞吐、高可用特性,以及所提供的各种消息消费模式可以保证在一个多节点集群环境里消息被消费的安全性:即防止每条消息遗漏处理或重复消费。特别是exactly-once消费策略:可以保证每条消息肯定只被消费一次。换句话说就是在分布式运算环境里kafka的消息消费是能保证唯一性的。
但是,保证了消息读取唯一性,消息的处理过程如果也放到分布式运算环境里仍然会面对数据完整性(data integrity)问题。例如:消息处理过程是更新银行账户中金额、消息内容是更新某个账户的指令,那么,对多条针对同一个银行账户的消息进行并行处理时肯定会引发数据完整性问题。这就是本文重点讨论的问题。
我们来看看下面的代码:
kfkSource
.async.mapAsync(parallelism=8) { msg => updateAccount(msg.value() }
.toMat(Sink.fold(0) { (accu, e) => if (e) accu + 1 else accu })(Keep.right)
.run()
在上面的例子里,从kafka队列里逐一读取的消息可能有多个被并行处理(最多有8个并行线程parallelism=8), 如果这8条消息里包含相同的账户号码,肯定会产生数据完整性问题。那么如果:
> kfkSource
.async.mapAsync(parallelism=1) { msg => updateAccount(msg.value() }
.toMat(Sink.fold(0) { (accu, e) => if (e) accu + 1 else accu })(Keep.right)
.run()
用(parallelism=1),这样每条消息用单一线程处理,牺牲一些效率,能解决问题吗?答案是:在这台服务器上貌似可以。但我们的目的是在一个多节点集群环境里进行数据处理。这也应该是我们使用kafka的初衷嘛。在分布式环境里上面的这段代码等于是在多个节点上同时运行,同样会产生像多线程并行运算所产生的问题。
显然:问题的核心是重复的消息内容,在上面的例子里是多条消息里相同的银行账号。如果相同的账号在同一个线程里进行处理就可以避免以上问题了。akka actor信箱里的指令是按序逐个执行的,所以我们如果能保证把相同内容的消息发给同一个actor就可以解决问题了。为了实现有目的的向actor发送消息,可以使用集群分片(cluster-sharding)。在akka-cluster里,每一个分片都就等于一个命名的actor。还有一个问题是如果涉及大量的唯一账号,或者商品号,比如超百万的唯一编号又该怎么办呢?刚才讲过:我们只要保证每一种消息发给同一个分片,多种消息是可以发个同一个分片的。所以,对于大量编号我们可以通过hash算法来简化编号精度,如下:
def hashItemCode(code: String): String = {
val arrCode = code.toCharArray
var occur : Array[Int] = Array.fill(8)(0)
arrCode.foreach {
case x if (x >= '0' && x <= '2') =>
occur(0) = occur(0) + 1
case x if (x >= '3' && x <= '5') =>
occur(1) = occur(1) + 1
case x if (x >= '6' && x <= '8') =>
occur(2) = occur(2) + 1
case x if (x == '9' || x == '-' || x == '_' || x == ':') =>
occur(3) = occur(3) + 1
case x if ((x >= 'a' && x <= 'g') || (x >= 'A' && x <= 'G')) =>
occur(4) = occur(4) + 1
case x if ((x >= 'h' && x <= 'n') || (x >= 'H' && x <= 'N')) =>
occur(5) = occur(5) + 1
case x if ((x >= 'o' && x <= 't') || (x >= 'O' && x <= 'T')) =>
occur(6) = occur(6) + 1
case x if ((x >= 'u' && x <= 'z') || (x >= 'U' && x <= 'Z')) =>
occur(7) = occur(7) + 1
case _ =>
occur(7) = occur(7) + 1
}
occur.mkString
}
这个hashItemCode返回一个字串,代表原编码code中各种字母发生的频率,把这个字串作为sharding的entityId。
那么从kafaka读取一条消息后按hashItemCode结果指定发送给某个分片,下面是一个实际例子:
def toStockWorker(jsonDoc: String) = {
val bizDoc = fromJson[BizDoc](jsonDoc)
val plu = bizDoc.pluCode
val entityId = DocModels.hashItemCode(plu)
log.step(s"CurStk-toStockWorker: sending CalcStock to ${entityId} with message: $jsonDoc")
val entityRef = sharding.entityRefFor(StockCalculator.EntityKey, entityId)
entityRef ! StockCalculator.CalcStock(jsonDoc)
}
下面我提供一个exactly-once源代码作为参考;
(1 to numReaders).toList.map {_ =>
RestartSource
.onFailuresWithBackoff(restartSource) { () => mergedSource }
// .viaMat(KillSwitches.single)(Keep.right)
.async.mapAsync(1) { msg => //only one message uniq checked
for { //and flow down stream
newtxn <- curStk.isUniqStkTxns(msg.value())
_ <- FastFuture.successful {
log.step(s"ExactlyOnceReaderGroup-futStkTxnExists is ${!newtxn}: ${msg.value()}")
}
} yield (newtxn,msg)
}
.async.mapAsyncUnordered(8) { rmsg => //passed down msg
for { //can be parrallelly processed
cmt <- if (rmsg._1) stkTxns.stkTxnsWithRetry(rmsg._2.value(), rmsg._2.partition(), rmsg._2.offset()).toFuture().map(_ => "Completed")
else FastFuture.successful {"stktxn exists!"}
pmsg <- FastFuture.successful {
log.step(s"ExactlyOnceReaderGroup-stkTxnsWithRetry: committed transaction-$cmt")
rmsg
}
} yield pmsg
}
.async.mapAsyncUnordered(8) { rmsg =>
for {
_ <- if(rmsg._1) FastFuture.successful {curStk.toStockWorker(rmsg._2.value())}
else FastFuture.successful(false)
pmsg <- FastFuture.successful {
log.step(s"ExactlyOnceReaderGroup-updateStk...")
rmsg
}
} yield pmsg
}
.async.mapAsyncUnordered(8) { rmsg =>
for {
_ <- if (rmsg._1) FastFuture.successful {
pcmTxns.toPcmAggWorker(rmsg._2.value())
}
else FastFuture.successful(false)
pmsg <- FastFuture.successful {
log.step(s"ExactlyOnceReaderGroup-AccumulatePcm...")
}
} yield "Completed"
}
.toMat(Sink.seq)(Keep.left)
.run()
}
alpakka-kafka(9)-kafka在分布式运算中的应用的更多相关文章
- 使用kafka消息队列解决分布式事务(可靠消息最终一致性方案-本地消息服务)
微服务框架Spring Cloud介绍 Part1: 使用事件和消息队列实现分布式事务 本文转自:http://skaka.me/blog/2016/04/21/springcloud1/ 不同于单一 ...
- Kafka — 高吞吐量的分布式发布订阅消息系统【转】
1.Kafka独特设计在什么地方?2.Kafka如何搭建及创建topic.发送消息.消费消息?3.如何书写Kafka程序?4.数据传输的事务定义有哪三种?5.Kafka判断一个节点是否活着有哪两个条件 ...
- kafka高吞吐量的分布式发布订阅的消息队列系统
一:kafka介绍kafka(官网地址:http://kafka.apache.org)是一种高吞吐量的分布式发布订阅的消息队列系统,具有高性能和高吞吐率. 1.1 术语介绍BrokerKafka集群 ...
- zookeeper,kafka,redis等分布式框架的主从同步策略
1 zookeeper选主机制 1.1 LeaderElection选举算法 选举线程由当前Server发起选举的线程担任,他主要的功能对投票结果进行统计,并选出推荐的Server.选举线程首先向所有 ...
- Spark Streaming + Kafka整合(Kafka broker版本0.8.2.1+)
这篇博客是基于Spark Streaming整合Kafka-0.8.2.1官方文档. 本文主要讲解了Spark Streaming如何从Kafka接收数据.Spark Streaming从Kafka接 ...
- Kafka(1)--kafka基础知识
Kafka 的简介: Kafka 是一款分布式消息发布和订阅系统,具有高性能.高吞吐量的特点而被广泛应用与大数据传输场景.它是由 LinkedIn 公司开发,使用 Scala 语言编写,之后成为 Ap ...
- Kafka记录-Kafka简介与单机部署测试
1.Kafka简介 kafka-分布式发布-订阅消息系统,开发语言-Scala,协议-仿AMQP,不支持事务,支持集群,支持负载均衡,支持zk动态扩容 2.Kafka的架构组件 1.话题(Topic) ...
- 【Kafka】Kafka数据可靠性深度解读
转帖:http://www.infoq.com/cn/articles/depth-interpretation-of-kafka-data-reliability Kafka起初是由LinkedIn ...
- Zookeeper在分布式架构中的应用
Zookeeper 是一个高性能.高可靠的分布式协调系统,是 Google Chubby 的一个开源实现.Zookeeper 能够为分布式应用提供一致性服务,提供的功能包括:配置维护.域名服务.分布式 ...
随机推荐
- 【剑指Offer】扑克牌顺子 解题报告(Python)
[剑指Offer]扑克牌顺子 解题报告(Python) 标签(空格分隔): 剑指Offer 题目地址:https://www.nowcoder.com/ta/coding-interviews 题目描 ...
- MySQL与Oracle 差异比较之二函数
函数 编号 类别 ORACLE MYSQL 注释 1 数字函数 round(1.23456,4) round(1.23456,4) 一样:ORACLE:select round(1.23456,4) ...
- 「算法笔记」旋转 Treap
一.引入 随机数据中,BST 一次操作的期望复杂度为 \(\mathcal{O}(\log n)\). 然而,BST 很容易退化,例如在 BST 中一次插入一个有序序列,将会得到一条链,平均每次操作的 ...
- TensorFlow.NET机器学习入门【7】采用卷积神经网络(CNN)处理Fashion-MNIST
本文将介绍如何采用卷积神经网络(CNN)来处理Fashion-MNIST数据集. 程序流程如下: 1.准备样本数据 2.构建卷积神经网络模型 3.网络学习(训练) 4.消费.测试 除了网络模型的构建, ...
- 实践剖析.NET Core如何支持Cookie和JWT混合认证、授权
前言 为防止JWT Token被窃取,我们将Token置于Cookie中,但若与第三方对接,调用我方接口进行认证.授权此时仍需将Token置于请求头,通过实践并联系理论,我们继续开始整活!首先我们实现 ...
- PHP DateTime类常用方法总结
实例化: $date = new DateTime(); $date = new DateTime('2018-01-01'); $date = new DateTime('tomorrow'); $ ...
- mysql组织结构
1.数据的组织结构 <1>层次型 <2>网状型 <3>关系型 2.mysql软件包格式 <1>.软件包管理器特有的格式:.rpm包 ...
- vue3.0+vite+ts项目搭建(报错处理)
报错一 warning package.json: No license field$ vue-tsc --noEmit && vite build 解决方案,添加这两行,只添加一个是 ...
- Layui table 学习笔记
templet:'<div>{{createrFormat(d.accounts.name)}}</div>' function createrFormat(o){ retur ...
- 帮你克服web字体选择焦虑症
1.背景 前端时间产品经理问我,移动端web默认字体有哪些,哪些字体不侵权?我当时感觉这方面的知识很匮乏,只能回答出微软雅黑和苹方简体,平常写代码时,没怎么留意过font-family设置的字体属性, ...