alpakka-kafka(9)-kafka在分布式运算中的应用

kafka具备的分布式、高吞吐、高可用特性，以及所提供的各种消息消费模式可以保证在一个多节点集群环境里消息被消费的安全性：即防止每条消息遗漏处理或重复消费。特别是exactly-once消费策略：可以保证每条消息肯定只被消费一次。换句话说就是在分布式运算环境里kafka的消息消费是能保证唯一性的。

但是，保证了消息读取唯一性，消息的处理过程如果也放到分布式运算环境里仍然会面对数据完整性（data integrity）问题。例如：消息处理过程是更新银行账户中金额、消息内容是更新某个账户的指令，那么，对多条针对同一个银行账户的消息进行并行处理时肯定会引发数据完整性问题。这就是本文重点讨论的问题。

我们来看看下面的代码：

kfkSource

        .async.mapAsync(parallelism=8) { msg => updateAccount(msg.value() }

          .toMat(Sink.fold(0) { (accu, e) => if (e) accu + 1 else accu })(Keep.right)

          .run()

在上面的例子里，从kafka队列里逐一读取的消息可能有多个被并行处理（最多有8个并行线程parallelism=8）, 如果这8条消息里包含相同的账户号码，肯定会产生数据完整性问题。那么如果：

> kfkSource

        .async.mapAsync(parallelism=1) { msg => updateAccount(msg.value() }

          .toMat(Sink.fold(0) { (accu, e) => if (e) accu + 1 else accu })(Keep.right)

          .run()

用(parallelism=1)，这样每条消息用单一线程处理，牺牲一些效率，能解决问题吗？答案是：在这台服务器上貌似可以。但我们的目的是在一个多节点集群环境里进行数据处理。这也应该是我们使用kafka的初衷嘛。在分布式环境里上面的这段代码等于是在多个节点上同时运行，同样会产生像多线程并行运算所产生的问题。
显然：问题的核心是重复的消息内容，在上面的例子里是多条消息里相同的银行账号。如果相同的账号在同一个线程里进行处理就可以避免以上问题了。akka actor信箱里的指令是按序逐个执行的，所以我们如果能保证把相同内容的消息发给同一个actor就可以解决问题了。为了实现有目的的向actor发送消息，可以使用集群分片（cluster-sharding）。在akka-cluster里，每一个分片都就等于一个命名的actor。还有一个问题是如果涉及大量的唯一账号，或者商品号，比如超百万的唯一编号又该怎么办呢？刚才讲过：我们只要保证每一种消息发给同一个分片，多种消息是可以发个同一个分片的。所以，对于大量编号我们可以通过hash算法来简化编号精度，如下：

def hashItemCode(code: String): String = {

     val arrCode = code.toCharArray

     var occur : Array[Int] = Array.fill(8)(0)

     arrCode.foreach {

       case x if (x >= '0' && x <= '2') =>

         occur(0) = occur(0) + 1

       case x if (x >= '3' && x <= '5') =>

         occur(1) = occur(1) + 1

       case x if (x >= '6' && x <= '8') =>

         occur(2) = occur(2) + 1

       case x if (x == '9' || x == '-' || x == '_' || x == ':') =>

         occur(3) = occur(3) + 1

       case x if ((x >= 'a' && x <= 'g') || (x >= 'A' && x <= 'G')) =>

         occur(4) = occur(4) + 1

       case x if ((x >= 'h' && x <= 'n') || (x >= 'H' && x <= 'N')) =>

         occur(5) = occur(5) + 1

       case x if ((x >= 'o' && x <= 't') || (x >= 'O' && x <= 'T')) =>

         occur(6) = occur(6) + 1

       case x if ((x >= 'u' && x <= 'z') || (x >= 'U' && x <= 'Z')) =>

         occur(7) = occur(7) + 1

       case _ =>

         occur(7) = occur(7) + 1

     }

     occur.mkString

  }

这个hashItemCode返回一个字串，代表原编码code中各种字母发生的频率，把这个字串作为sharding的entityId。
那么从kafaka读取一条消息后按hashItemCode结果指定发送给某个分片，下面是一个实际例子：

 def toStockWorker(jsonDoc: String) = {

    val bizDoc = fromJson[BizDoc](jsonDoc)

    val plu = bizDoc.pluCode

    val entityId = DocModels.hashItemCode(plu)

    log.step(s"CurStk-toStockWorker: sending CalcStock to ${entityId} with message: $jsonDoc")

    val entityRef = sharding.entityRefFor(StockCalculator.EntityKey, entityId)

    entityRef ! StockCalculator.CalcStock(jsonDoc)

  }

下面我提供一个exactly-once源代码作为参考；

 (1 to numReaders).toList.map {_ =>

      RestartSource

        .onFailuresWithBackoff(restartSource) { () => mergedSource }

//        .viaMat(KillSwitches.single)(Keep.right)

        .async.mapAsync(1) { msg =>    //only one message uniq checked

        for {                                      //and flow down stream

          newtxn <- curStk.isUniqStkTxns(msg.value())

          _ <- FastFuture.successful {

            log.step(s"ExactlyOnceReaderGroup-futStkTxnExists is ${!newtxn}: ${msg.value()}")

          }

        } yield (newtxn,msg)

      }

        .async.mapAsyncUnordered(8) { rmsg =>  //passed down msg

          for {       //can be parrallelly processed

            cmt <- if (rmsg._1) stkTxns.stkTxnsWithRetry(rmsg._2.value(), rmsg._2.partition(), rmsg._2.offset()).toFuture().map(_ => "Completed")

            else FastFuture.successful {"stktxn exists!"}

            pmsg <- FastFuture.successful {

              log.step(s"ExactlyOnceReaderGroup-stkTxnsWithRetry: committed transaction-$cmt")

              rmsg

            }

          } yield pmsg

        }

        .async.mapAsyncUnordered(8) { rmsg =>

        for {

          _ <- if(rmsg._1) FastFuture.successful {curStk.toStockWorker(rmsg._2.value())}

          else FastFuture.successful(false)

          pmsg <- FastFuture.successful {

            log.step(s"ExactlyOnceReaderGroup-updateStk...")

            rmsg

          }

        } yield pmsg

      }

        .async.mapAsyncUnordered(8) { rmsg =>

        for {

          _ <- if (rmsg._1) FastFuture.successful {

            pcmTxns.toPcmAggWorker(rmsg._2.value())

          }

          else FastFuture.successful(false)

          pmsg <- FastFuture.successful {

            log.step(s"ExactlyOnceReaderGroup-AccumulatePcm...")

          }

        } yield "Completed"

      }

         .toMat(Sink.seq)(Keep.left)

        .run()

    }

alpakka-kafka(9)-kafka在分布式运算中的应用的更多相关文章

使用kafka消息队列解决分布式事务(可靠消息最终一致性方案-本地消息服务)
微服务框架Spring Cloud介绍 Part1: 使用事件和消息队列实现分布式事务本文转自:http://skaka.me/blog/2016/04/21/springcloud1/ 不同于单一 ...
Kafka — 高吞吐量的分布式发布订阅消息系统【转】
1.Kafka独特设计在什么地方?2.Kafka如何搭建及创建topic.发送消息.消费消息?3.如何书写Kafka程序?4.数据传输的事务定义有哪三种?5.Kafka判断一个节点是否活着有哪两个条件 ...
kafka高吞吐量的分布式发布订阅的消息队列系统
一:kafka介绍kafka(官网地址:http://kafka.apache.org)是一种高吞吐量的分布式发布订阅的消息队列系统,具有高性能和高吞吐率. 1.1 术语介绍BrokerKafka集群 ...
zookeeper，kafka，redis等分布式框架的主从同步策略
1 zookeeper选主机制 1.1 LeaderElection选举算法选举线程由当前Server发起选举的线程担任,他主要的功能对投票结果进行统计,并选出推荐的Server.选举线程首先向所有 ...
Spark Streaming + Kafka整合(Kafka broker版本0.8.2.1+)
这篇博客是基于Spark Streaming整合Kafka-0.8.2.1官方文档. 本文主要讲解了Spark Streaming如何从Kafka接收数据.Spark Streaming从Kafka接 ...
Kafka(1)--kafka基础知识
Kafka 的简介: Kafka 是一款分布式消息发布和订阅系统,具有高性能.高吞吐量的特点而被广泛应用与大数据传输场景.它是由 LinkedIn 公司开发,使用 Scala 语言编写,之后成为 Ap ...
Kafka记录-Kafka简介与单机部署测试
1.Kafka简介 kafka-分布式发布-订阅消息系统,开发语言-Scala,协议-仿AMQP,不支持事务,支持集群,支持负载均衡,支持zk动态扩容 2.Kafka的架构组件 1.话题(Topic) ...
【Kafka】Kafka数据可靠性深度解读
转帖:http://www.infoq.com/cn/articles/depth-interpretation-of-kafka-data-reliability Kafka起初是由LinkedIn ...
Zookeeper在分布式架构中的应用
Zookeeper 是一个高性能.高可靠的分布式协调系统,是 Google Chubby 的一个开源实现.Zookeeper 能够为分布式应用提供一致性服务,提供的功能包括:配置维护.域名服务.分布式 ...

随机推荐

MacOS使用Docker创建MySQL主从数据库
一.拉取MySQL镜像通过终端获取最新的MySQL镜像 docker pull mysql/mysql-server 二.创建MySQL数据库容器配置文件对应目录我们在当前用户下创建一组目录,用来 ...
IM2605说明书| InmicroIM2605|IM2605芯片
IM2605描述 IM2605集成了一个同步4开关Buck-Boost变换器,在输入电压小于或大于输出电压时保持输出电压调节.当输入电压足够大于输出电压时,它作为Buck变换器工作,并随着输入电压接近 ...
Storm对DRPC权限控制Version1.0.1
对Storm的DRPC进行权限控制, 并且设计相应的测试验证. 1.集群安装请参考Storm集群安装Version1.0.1 2.使用DRPC功能请参考Storm集群使用DRPC功能Version ...
BUG—Nuget包版本不一致导致程序行为与预期不符
注:本文收录于<Bug集锦>,请点击此处查看全文目录 BUG起因先介绍一下背景: 数周前的一个极其平常的下午,完成了本次迭代的开发工作,发布到QA提测,然后开始摸鱼.没几分钟,测试就来找 ...
js 图片跟随鼠标移动效果案例
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
Chrome升级到91版本以上后Cookies SameSite问题，IdentityServer4登录不上问题？
还原下问题: 跨站Cookie安全级别限制,如过是https不用担心这个问题,但是IP访问,本地测试等就会出现登录不上针对这个问题,记得早在之前80版本的chrome就会存在的问题,可能大家会用:c ...
Centos下查看cpu核数
1.概念物理CPU:实际Server中插槽上的CPU个数.物理cpu数量:可以数不重复的 physical id 有几个. 2.逻辑CPULinux用户对 /proc/cpuinfo 这个文件肯定不陌 ...
初识python：格式化输出
使用input函数输入用户值,再使用三种方法格式化输出. #!/user/bin env python # author:Simple-Sir # 20180831 # 格式化输出: name = i ...
JMeter_jmeter-plugins插件的安装使用
一.安装JMter Plugins 1.官网下载 JMeter Plugins 的jar包 2. 将下载的jar包复制到 %JMETER_HOME%\lib\ext 目录下 3. 启动 JMeter ...
mybatis学习笔记（三)
使用mapper接口来实现数据操作创建UserMapper接口,添加方法,方法名要与UserMappper.xml中id所一致并且接口名要与编写sql语句的xmL文件名同名.namespace 中的 ...

alpakka-kafka(9)-kafka在分布式运算中的应用

alpakka-kafka(9)-kafka在分布式运算中的应用的更多相关文章

随机推荐

热门专题