如何利用.NETCore向Azure EventHubs准实时批量发送数据？

最近在做一个基于Azure云的物联网分析项目：

.netcore采集程序向Azure事件中心(EventHubs)发送数据，通过Azure EventHubs Capture转储到Azure BlogStorage，供数据科学团队分析。

为什么使用Azure事件中心？

Azure事件中心是一种Azure上完全托管的实时数据摄取服务，每秒可流式传输来自website、app、device任何源的数百万个事件。提供的统一流式处理平台和时间保留缓冲区，将事件生成者和事件使用者分开。

事件生成者：可使用https、AQMP协议发布事件
分区：事件中心通过分区使用者模式提供消息流式处理功能，提高可用性和并行化
事件接收者：所有事件中心使用者通过AMQP 1.0会话进行连接，读取数据

例如，如果事件中心具有四个分区，并且其中一个分区要在负载均衡操作中从一台服务器移动到另一台服务器，则仍可以通过其他三个分区进行发送和接收。此外，具有更多分区可以让更多并发读取器处理数据，从而提高聚合吞吐量。了解分布式系统中分区和排序的意义是解决方案设计的重要方面。为了帮助说明排序与可用性之间的权衡，请参阅 CAP 定理

最直观的方式：请在portal.azure.cn门户站点---->创建事件中心命名空间---> 创建事件中心

.NetCore 准实时批量发送数据到事件中心

.NET库 (Azure.Messaging.EventHubs)

我们使用Asp.NetCore以Azure App Service形式部署，依赖Azure App Service的自动缩放能录应对物联网的潮汐大流量。

通常推荐批量发送到事件中心，能有效增加web服务的吞吐量和响应能力。

目前新版SDk： Azure.Messaging.EventHubs仅支持分批发送。

nuget上引入Azure.Messaging.EventHubs库
EventHubProducerClient客户端负责分批发送数据到事件中心，根据发送时指定的选项，事件数据可能会自动路由到可用分区或发送到特定请求的分区。

在以下情况下，建议允许自动路由分区：

1）事件的发送必须高度可用

2）事件数据应在所有可用分区之间平均分配。

自动路由分区的规则:

1）使用循环法将事件平均分配到所有可用分区中

2）如果某个分区不可用，事件中心将自动检测到该分区并将消息转发到另一个可用分区。

我们要注意，根据选定的命令空间定价层，每批次发给事件中心的最大消息大小也不一样：

分段批量发送策略

这里我们就需要思考： web程序收集数据是以个数为单位；但是我们分批发送时要根据分批的字节大小来切分。

我的方案是：因引入TPL Dataflow 管道:

web程序收到数据，立刻丢入TransformBlock<string, EventData>
转换到EventData之后，使用BatchBlock<EventData>按照个数打包
利用ActionBlock<EventData[]>在包内累积指定字节大小批量发送

最后我们设置一个定时器(5min)，强制在BatchBlock的前置队列未满时打包，并发送。

核心的TPL Dataflow代码如下：

public class MsgBatchSender

    {

        private readonly EventHubProducerClient Client;

        private readonly TransformBlock<string, EventData> _transformBlock;

        private readonly BatchBlock<EventData> _packer;

        private readonly ActionBlock<EventData[]> _batchSender;

        private readonly DataflowOption _dataflowOption;

        private readonly Timer _trigger;

        private readonly ILogger _logger;

        public MsgBatchSender(EventHubProducerClient client, IOptions<DataflowOption> option,ILoggerFactory loggerFactory)

        {

            Client = client;

            _dataflowOption = option.Value;

            var dfLinkoption = new DataflowLinkOptions { PropagateCompletion = true };

            _transformBlock = new TransformBlock<string, EventData>(

                text => new EventData(Encoding.UTF8.GetBytes(text)),

                   new ExecutionDataflowBlockOptions

                   {

                       MaxDegreeOfParallelism = _dataflowOption.MaxDegreeOfParallelism

                   });

            _packer = new BatchBlock<EventData>(_dataflowOption.BatchSize);

            _batchSender = new ActionBlock<EventData[]>(msgs=> BatchSendAsync(msgs));

            _packer.LinkTo(_batchSender, dfLinkoption);

            _transformBlock.LinkTo(_packer, dfLinkoption, x => x != null);

            _trigger = new Timer(_ => _packer.TriggerBatch(), null, TimeSpan.Zero, TimeSpan.FromSeconds(_dataflowOption.TriggerInterval));

            _logger = loggerFactory.CreateLogger<DataTrackerMiddleware>();

        }

        private async Task BatchSendAsync(EventData[] msgs)

        {

            try

            {

                if (msgs != null)

                {

                    var i = 0;

                    while (i < msgs.Length)

                    {

                        var batch = await Client.CreateBatchAsync();

                        while (i < msgs.Length)

                        {

                            if (batch.TryAdd(msgs[i++]) == false)

                            {

                                break;

                            }

                        }

                        if(batch!= null && batch.Count>0)

                        {

                            await Client.SendAsync(batch);

                            batch.Dispose();

                        }

                    }

                }

            }

             catch (Exception ex)

            {

                // ignore and log any exception

                _logger.LogError(ex, "SendEventsAsync: {error}", ex.Message);

            }

        }

        public  async Task<bool> PostMsgsync(string txt)

        {

            return await _transformBlock.SendAsync(txt);

        }

        public async Task CompleteAsync()

        {

            _transformBlock.Complete();

            await _transformBlock.Completion;

            await _batchSender.Completion;

            await _batchSender.Completion;

        }

    }

总结

Azure事件中心的基础用法
.NET Core准实时分批向Azure事件中心发送数据，其中用到的TPL Dataflow是以actor模型：提供了粗粒度的数据流和流水线任务，提高了高并发程序的健壮性。

如何利用.NETCore向Azure EventHubs准实时批量发送数据？的更多相关文章

html 实时监控发送数据
我们都知道ajax可以做异步提交,可以从一个文件里得到返回的数据,如此便能够实时的得到数据,实时刷新页面,如下代码 setInterval(function(){ $.ajax({ url:'demo ...
利用状态机(FSM)进行简单的uart串口发送数据
module uart_tx(clk,rst_n,key,txd); input clk; input rst_n; input key; output reg txd; :] state; :] b ...
利用AXI-DMA批量发送数据到DMA
1.1 主函数 int main(void) { XGpio_Initialize(&Gpio, AXI_GPIO_DEV_ID); XGpio_SetDataDirection(&G ...
Lyft 基于 Flink 的大规模准实时数据分析平台（附FFA大会视频）
摘要:如何基于 Flink 搭建大规模准实时数据分析平台?在 Flink Forward Asia 2019 上,来自 Lyft 公司实时数据平台的徐赢博士和计算数据平台的高立博士分享了 Lyft 基 ...
利用Flume将MySQL表数据准实时抽取到HDFS
转自:http://blog.csdn.net/wzy0623/article/details/73650053 一.为什么要用到Flume 在以前搭建HAWQ数据仓库实验环境时,我使用Sqoop抽取 ...
基于 Hudi 和 Kylin 构建准实时高性能数据仓库
在近期的 Apache Kylin × Apache Hudi Meetup直播上,Apache Kylin PMC Chair 史少锋和 Kyligence 解决方案工程师刘永恒就 Hudi + K ...
基于OGG的Oracle与Hadoop集群准实时同步介绍
版权声明:本文由王亮原创文章,转载请注明出处: 文章原文链接:https://www.qcloud.com/community/article/220 来源:腾云阁 https://www.qclou ...
原荐使用Spring Boot Actuator、Jolokia和Grafana实现准实时监控
原荐使用Spring Boot Actuator.Jolokia和[可视化]Grafana实现准实时监控. 监控系统: 日志- 基础处理 - 表格 - 可视化一体化解决方案. ...
大数据学习——点击流日志每天都10T，在业务应用服务器上，需要准实时上传至（Hadoop HDFS）上
点击流日志每天都10T,在业务应用服务器上,需要准实时上传至(Hadoop HDFS)上 1需求说明点击流日志每天都10T,在业务应用服务器上,需要准实时上传至(Hadoop HDFS)上 2需求分 ...

随机推荐

java实现求二十一位水仙花数（21位水仙花数）
一个N位的十进制正整数,如果它的每个位上的数字的N次方的和等于这个数本身,则称其为花朵数. 例如: 当N=3时,153就满足条件,因为 1^3 + 5^3 + 3^3 = 153,这样的数字也被称为水 ...
java实现第四届蓝桥杯核桃的数量
核桃的数量题目描述小张是软件项目经理,他带领3个开发组.工期紧,今天都在加班呢.为鼓舞士气,小张打算给每个组发一袋核桃(据传言能补脑).他的要求是: 各组的核桃数量必须相同各组内必须能平分核桃( ...
vue使用 video.js动态切换视频源视频源不刷新问题
网上的垃圾代码太多,最后翻了video.js的官方文档,就这么简单,浪费了我这么久,注:我这里使用的vue //html <video id="my-player" con ...
使用Json框架解析遇到Java关键字时的解决方案
当Json数据中的key为Java关键字时,在定义实体类的时候不能对该字段进行声明,所以需要对字段进行特殊处理使用Gson解析在与Java关键字冲突的字段加上@SerializedName注解 @ ...
HttpUtil工具类，发送Get/Post请求，支持Http和Https协议
HttpUtil工具类,发送Get/Post请求,支持Http和Https协议使用用Httpclient封装的HttpUtil工具类,发送Get/Post请求 1. maven引入httpclien ...
Python大神编程常用4大工具,你用过几个?
摘要:Python是一种跨平台的编程语言,能够在所有主要的操作系统上,运行你编写的任何Python程序.今天介绍几款常见的工具:Python自带的解释器.文本编辑器(Geany.Sublime Tex ...
Paper templates for Word(Word论文模板)
经常看论文的朋友可能会发现,像一些大的会议的论文格式都是相同的,他们的格式一般都十分固定,这些论文是用什么软件做出来的呢?一开始我想当然的认为是用LaTeX,因为LaTeX提供了一些文类,我自然而然的 ...
yii2.0AR两表联查
首先,建两个关联表. 表一 -- Table structure for article -- ---------------------------- DROP TABLE IF EXISTS `a ...
cb07a_c++_迭代器和迭代器的范围
cb07a_c++_迭代器和迭代器的范围c++primer第4版https://www.cnblogs.com/txwtech/p/12309989.html--每一种容器都有自己的迭代器--所有的迭 ...
SpringCloud教程第2篇：Ribbon(F版本)
一.ribbon简介 Spring cloud有两种服务调用方式,一种是ribbon+restTemplate,另一种是feign.在这一篇文章首先讲解下基于ribbon+rest. ribbon是一 ...