原创不易,求分享、求一键三连

之前说过IM系统的一些优化,但是在网络上传输数据对于数据的流化和反流化也是处理异常情况的重点环节,不处理好可能会出现一些消息发送成功,但是解析失败的情况,本文就带大家来一起了解消息流化中经常遇到的问题以及如何规避。

什么是流化

我们用到的“流化”这个词和我们常用的“序列化”类似,序列化指将一个对象的实例转换成二进制串或文本串的格式,以方便本地保存或者异地传输。

信息流化的目的也是为了形成二进制串的格式方便网络传输,可以说“流化”就是“序列化”,两者没有本质的区别。

在网络通信之前,先流化需要发送的消息成二进制,进行网络传输,另外节点收到二进制数据之后,进行反流化解析出消息内容来进行通讯。

黏包问题

在进行TCP socket通讯时经常会使用自定义字节流,原因是因为TCP通讯如同水流一样,没有明确的拆分规则,TCP粘包、拆包属于网络底层问题,在数据链路层、网络层、传输层都可能出现。出现粘包常见的几点:

  1. 要发送的数据大于TCP发送缓冲区剩余空间大小,将会发生拆包。
  2. 待发送数据大于MSS(最大报文长度),TCP在传输前将进行拆包
  3. 发送的数据小于TCP发送缓冲区的大小,TCP将多次写入缓冲区的数据一次发送出去,将会发生粘包
  4. 接收数据端的应用层没有及时读取接受缓冲区中的数据,将会发生粘包。

以上的数据包发送的不确定性,为了数据能够正常解析,在业务层面需要将源源不断的数据流进行拆分或者合并通常用的方法:

  1. 发送数据是先定义本给数据包的长度的包头,然后发送对应内容,通常自定义字节流包格式
  2. 发送端将每个数据包封装为固定长度(不够的可以通过补0填充)
  3. 可以在数据包之间设置边界,如添加特殊符号,将不同的数据包拆分开

除了上面说到的问题,数据传输中也存在很多不同系统语言和平台的差异的问题,因为在各种基本的数据类型中,将平台上的基础类型转化为二进制流,然后将流转化成接收的机器上的数据类型,如果机器不一样就会存在字节排序的差异、数据字节大小、数据表示和数据对准的方式等问题,经常会遇到的问题:

  1. 流数据在64位操作系统与32位操作系统之间的兼容
  2. 流数据中字符串的编解码方式不同的影响
  3. 流数据在不同编程语言之间 java 和c 之间的兼容问题;我们分别来看这些常见的问题如何处理才能解决

Little Endian与Big Endian

Little Endian 和Big Endian是表示计算机字节顺序的两种格式,所谓的字节顺序指的是长度跨度多个字节的数据的存放形式。Little Endian是把低字节存放在内存的低位,而Big Endian将低字节存放在内存的高位。

为什么会有Little Endian 和Big Endian?要是都统一成一个就好了。

在计算机系统中,我们是以字节为单位的,每个地址单元都对应着1个字节,1个字节为8bit。但是在除了8bit的char之外,还有16bit的short型,32bit的long型等。

另外对于位数大于8位的处理器,例如16位或者32位的处理器,由于寄存器宽度大于1个字节,那么必然存在一个如果将多个字节排列的问题,因此就导致了Little Endian和Big Endian两种存储模式。

我们网络传输上,TCP/IP协议规定了必须使用网络字节顺序(Big Endian模式),而大多数的PC机上采用了Little Endian模式。所以我们就会注意字节序列兼容的问题 对跨机器通讯有什么影响呢,最小内存单元8位 一个字节。

例如:对4字节的整形数据1247752720 ,其16进制表示0x4a5f3210,低位是0x10, 最高位0x4a,假设存放这个整形的内存单元0x10000100, 终止地址0x10000103,那么32位的Little Endian系统中,该整形内存存储如下:

但是32位的Big Endian体系中,却存放如下:

所以,流数据在不同的平台之间传输时,一定要考虑Little Endian和Big Endian的问题,不然传输的数据字节序列就会解析错误。

32位与64位机器

操作系统兼容是流数据传输中平台无关的另一个重要问题。我们知道在32位和64位机器上,同一类型的变量的字节长度可能是不一样的。比如long 型的变量,在32位机器上是4字节,但在64位机器上却是8个字节。

因此,如果一个64位机器上的long型变量流化后,传输到32位机器上时,采用long型来接收和解释,必然失败,并且可能导致整个流数据的解析失败。

对该类问题的解决方式,一般采用这样的方法:无论是32位机器还是64位机器上,我们都统一规定long型的变量只代表4字节的整形数,无论发送、传输、接收都严格按照这个标准;在语言之间也存在long型差异,c语言中long是4字节,java的long型是8字节。这也需要采用同样的方式来解决。

UTF8 与UTF16的转换

这个问题来源于不同的编程语言,其对字符串的编码的规则不同。

C/C++ 语言,一般采用UTF-8编码,比如中文采用UTF-8一般1~3个字节表示一个字符;如java语言,其内部编码一般时UTF-16;统一以2个字节表示一个字符;在Win平台下的VC++ 采用的wchar来存在一个字符,其实就是UTF-16; 上面已经说过如果出现多个字节的数据,就会有Little Endian 和Big Endian的问题。

解决这种问题最好的方式统一编码 要么统一使用UTF-8 要么统一使用UTF-16 另外还有种方式来解决编码的问题也比较常用,使用BASE64 编解码;

Base64算法可以解决中文编码?

Base64是一种二进制到文本的编码方式。它是一种将byte数组编码为字符串的方法,而且编码出的字符串只包含ASCII基础字符串。基于Base64编码的文本只包含了64个ASCII码字符:

  • A-Z 26个
  • a-z 26个
  • 0-9 10个
    • 1个
  • / 1个 正好64 个字符

使用ASCII码1个码一个字节就能表示,就不存在多个字节情况,所以经过编码的中文字符串,都是一个单字节的序列,不存在多个字节表示一个码,所以传输的过程中就不需要考虑Little Endian 和Big Endian的转化问题。

总结

无论多复杂的消息类型最终要做消息流化都会落到基本的数据类型:数值型、整型、浮点型、双浮点型数据与长整形数、字符串型;做好基础类型占用字节统一和大小端处理,解析消息就会更流畅。

好了,今天的分享就到这。如果本文对你有帮助的话,欢迎点赞&评论&在看&分享,这对我非常重要,感谢。

想要更多交流可以加我微信:

IM系统-消息流化一些常见问题的更多相关文章

  1. 大数据平台消息流系统Kafka

    Kafka前世今生 随着大数据时代的到来,数据中蕴含的价值日益得到展现,仿佛一座待人挖掘的金矿,引来无数的掘金者.但随着数据量越来越大,如何实时准确地收集并分析如此大的数据成为摆在所有从业人员面前的难 ...

  2. [蓝牙] 6、基于nRF51822的蓝牙心率计工程消息流Log分析(详细)

    开机初始化Log Log编号 函数名   所在文件名 000001: main ..\main.c 000002: timers_init ..\main.c 000003: gpiote_init ...

  3. vlc命令行: 转码 流化 推流

    vlc命令行: 转码 流化 推流 写在命令行之前的话: VLC不仅仅可以通过界面进行播放,转码,流化,也可以通过命令行进行播放,转码和流化.还可以利用里面的SDK进行二次开发. vlc命令行使用方法: ...

  4. .net core 消息流处理流程

    前言 2020年即将进入尾声,分享一下在现公司业务处理流程,一起讨论在分布式场景下,如何通过消息流的方式处理各种复杂的业务场景,这里涉及到一些常用组件,后面结合场景与代码来具体说明 场景说明 这里就拿 ...

  5. 分布式消息流平台:不要只想着Kafka,还有Pulsar

    摘要:Pulsar作为一个云原生的分布式消息流平台,越来越频繁地出现在人们的视野中,大有替代Kafka江湖地位的趋势. 本文分享自华为云社区<MRS Pulsar:下一代分布式消息流平台全新发布 ...

  6. Android中ListView嵌套GridView的简单消息流UI(解决宽高问题)

    最近搞一个项目,需要用到类似于新浪微博的消息流,即每一项有文字.有九宫格图片,因此这就涉及到ListView或者ScrollView嵌套GridView的问题.其中GridView的高度问题在网上都很 ...

  7. Python—day18 dandom、shutil、shelve、系统标准流、logging

    一.dandom模块 (0, 1) 小数:random.random() [1, 10] 整数:random.randint(1, 10) [1, 10) 整数:random.randrange(1, ...

  8. BTARN 接收消息流以3A7为例

     1.RNIFReceive.aspx 页接收来自发起方的传入消息. (如果发起方是BizTalk则类似于:http://localhost/BTARNApp/RNIFSend.aspx?TPUrl ...

  9. MQTT协议笔记之消息流

    前言 前面的笔记已把所有消息类型都过了一遍,这里从消息流的角度尝试解读一下. 网络故障 在任何网络环境下,都会出现一方连接失败,比如离开公司大门那一刻没有了WIFI信号.但持续连接的另一端-服务器可能 ...

随机推荐

  1. 深入了解tomcat中servlet的创建方式实现

    Tomcat如何创建Servlet? A.先到缓存中寻找有没有这个对象(Servlet是单实例的,只会创建一次) 如果没有: 1.通过反射去创建相应的对象(执行构造方法) 2.tomcat会把对象存放 ...

  2. S3C2410——LED灯实验

    一.S3C2410输入/输出的原理 Linux主要有字符设备.块设备和网络设备3类驱动程序,我们一般编写的驱动都是字符设备驱动程序. 二.程序部分 编写程序控制3个LED灯,代码分为2个部分:控制LE ...

  3. MyCat 使用中问题记录

    MyCat问题记录: Unknown charsetIndex:255 异常消息: jvm 1 | 2022-04-27 14:09:13,337 [WARN ][$_NIOREACTOR-13-RW ...

  4. 国产化设备鲲鹏CentOS7上源码安装Python3.7

    具体编译过成与正常的Python源代码在x86平台上的过程无异,此篇随笔仅当用作复制黏贴的备忘录.不得不说在一个老旧系统上安装一个老旧的Python版本,从头编译一个Python还是一个较为稳健的选择 ...

  5. GoF的23种设计模式的功能

    GoF的23种设计模式的功能 前面说明了 GoF 的 23 种设计模式的分类,现在对各个模式的功能进行介绍. 单例(Singleton)模式:某个类只能生成一个实例,该类提供了一个全局访问点供外部获取 ...

  6. 菜鸟学git的基本命令及常见错误

    Git init //在当前项目工程下履行这个号令相当于把当前项目git化,变身!\ git config --global user.name "xxx" # 配置用户名 git ...

  7. 基于Kubernetes v1.24.0的集群搭建(三)

    1 使用kubeadm部署Kubernetes 如无特殊说明,以下操作可以在所有节点上进行. 1.1 首先我们需要配置一下阿里源 cat <<EOF > /etc/yum.repos ...

  8. 想写个小说,关于C#的,名字就叫《原Csharp》吧 (第一回 买书未成炁自生 惶惶回屋遇老翁)

    以前也有写过一些小说,但是总是写写停停的,因为忙于项目和其他事情,总是耽搁很久(真的是很久)才会继续动两笔,所以我想先在这里以随笔的方式写个关于C#异世界的小故事吧,更新随缘,也稍微能让自己轻松些. ...

  9. 3D大场景展示功能你了解多少?见详解!

    裸眼3D技术的出现打破了真实与虚拟的界限,人们不仅希望能够体验奇妙的虚拟场景,也希望足不出户在短短几分钟内就能看到遍布各地的场景,希望能实时对接关键数据. 裸眼3D技术的出现打破了真实与虚拟的界限,人 ...

  10. JAVA设计模式总结—建造者模式

    建造者模式 模式动机与定义 ​ 首先建造者模式的动机是为了创建复杂对象,简化传统的创建方法,提高创建的效率和可读性. ​ 像图中的这个例子,用户的需求是驾驶一辆汽车,但是对于用户来说是不需要了解汽车装 ...