背景

今天在维护一个旧项目的时候，看到一个方法把string 转换为 byte[] 用的是写入内存流的，然后ToArray()，因为平常都是用System.Text.Encoding.UTF8.GetBytes(string) ,刚好这里遇到一个安全的问题，就想把它重构了。

由于这个是已经找不到原来开发的人员，所以也无从问当时为什么要这么做，我想就算找到应该他也不知道当时为什么要这么做。

由于这个是线上跑了很久的项目，所以需要做一下测试，万一真里面真的是有历史原因呢！于是就有了这篇文章。

重构过程

需要一个比较byte数组的函数(确保重构前后一致)，没找到有系统自带，所以写了一个
重构方法（使用Encoding）
单元测试
基准测试（或许之前是为了性能考虑，因为这个方法调用次数也不少）

字节数组比较方法：`BytesEquals`

比较字节数组是否完全相等，方法比较简单，就不做介绍

public static bool BytesEquals(byte[] array1, byte[] array2)

{

    if (array1 == null && array2 == null) return true;

    if (Array.ReferenceEquals(array1, array2)) return true;

    if (array1?.Length != array2?.Length) return false;

    for (int i = 0; i < array1.Length; i++)

    {

        if (array1[i] != array2[i]) return false;

    }

    return true;

}

重构方法

原始方法（使用StreamWriter）

public static byte[] StringToBytes(string value)

{

    if (value == null) throw new ArgumentNullException(nameof(value));

    using (var ms = new System.IO.MemoryStream())

    using (var streamWriter = new System.IO.StreamWriter(ms, System.Text.Encoding.UTF8))

    {

        streamWriter.Write(value);

        streamWriter.Flush();

        return ms.ToArray();

    }

}

重构（使用Encoidng）

public static byte[] StringToBytes(string value)

{

    if (value == null) throw new ArgumentNullException(nameof(value));

    return System.Text.Encoding.UTF8.GetBytes(value);

}

单元测试

BytesEquals 单元测试

新建单元测试项目

dotnet new xunit -n 'Demo.StreamWriter.UnitTests'

编写单元测试

[Fact]

public void BytesEqualsTest_Equals_ReturnTrue()

{

    ...

}

[Fact]

public void BytesEqualsTest_NotEquals_ReturnFalse()

{

    ...

}

[Fact]

public void StringToBytes_Equals_ReturnTrue()

{

    ...

}

执行单元测试

dotnet test

StringToBytes_Equals_ReturnTrue 未能通过单元测试

这个未能通过，重构后的生成的字节数组与原始不一致

排查过程

调试StringToBytes_Equals_ReturnTrue , 发现bytesWithStream 比 bytesWithEncoding 在数组头多了三个字节（很多人都能猜到这个是UTF8的BOM）

+ bytesWithStream[0] = 239

+ bytesWithStream[1] = 187

+ bytesWithStream[2] = 191

bytesWithStream[3] = 72

bytesWithStream[4] = 101

bytesWithEncoding[0] = 72

bytesWithEncoding[0] = 101

不了解BOM，可以看看这篇文章Byte order mark

从文章可以明确多出来字节就是UTF8-BOM，问题来了，为什么StreamWriter会多出来BOM，而Encoding.UTF8 没有，都是用同一个编码

查看源码

StreamWriter

public StreamWriter(Stream stream)

    : this(stream, UTF8NoBOM, 1024, leaveOpen: false)

{

}

public StreamWriter(Stream stream, Encoding encoding)

    : this(stream, encoding, 1024, leaveOpen: false)

{

}

private static Encoding UTF8NoBOM => EncodingCache.UTF8NoBOM;

internal static readonly Encoding UTF8NoBOM = new UTF8Encoding(encoderShouldEmitUTF8Identifier: false, throwOnInvalidBytes: true);

可以看到StreamWriter, 默认是使用UTF8NoBOM , 但是在这里指定了System.Text.Encoding.UTF8，根据encoderShouldEmitUTF8Identifier这个参数决定是否写入BOM，最终是在Flush写入

private void Flush(bool flushStream, bool flushEncoder)

{

    ...

    if (!_haveWrittenPreamble)

    {

        _haveWrittenPreamble = true;

        ReadOnlySpan<byte> preamble = _encoding.Preamble;

        if (preamble.Length > 0)

        {

            _stream.Write(preamble);

        }

    }

    int bytes = _encoder.GetBytes(_charBuffer, 0, _charPos, _byteBuffer, 0, flushEncoder);

    _charPos = 0;

    if (bytes > 0)

    {

        _stream.Write(_byteBuffer, 0, bytes);

    }

    ...

}

Flush最终也是使用_encoder.GetBytes获取字节数组写入流中，而System.Text.Encoding.UTF8.GetBytes()最终也是使用这个方法。

System.Text.Encoding.UTF8.GetBytes

public virtual byte[] GetBytes(string s)

{

    if (s == null)

    {

        throw new ArgumentNullException("s", SR.ArgumentNull_String);

    }

    int byteCount = GetByteCount(s);

    byte[] array = new byte[byteCount];

    int bytes = GetBytes(s, 0, s.Length, array, 0);

    return array;

}

如果要达到和原来一样的效果，只需要在最终返回结果加上UTF8.Preamble，修改如下

public static byte[] StringToBytes(string value)

{

    if (value == null) throw new ArgumentNullException(nameof(value));

-   return System.Text.Encoding.UTF8.GetBytes(value);

+   var bytes = System.Text.Encoding.UTF8.GetBytes(value);

+   var result = new byte[bytes.Length + 3];

+   Array.Copy(Encoding.UTF8.GetPreamble(), result, 3);

+   Array.Copy(bytes, 0, result, 3, bytes.Length);

+   return result;

}

但是对于这样修改感觉是没必要，因为这个最终是传给一个对外接口，所以只能对那个接口做测试，最终结果也是不需要这个BOM

基准测试

排除了StreamWriter没有做特殊处理，可以用System.Text.Encoding.UTF8.GetBytes()重构。还有就是效率问题，虽然直观上看到使用StreamWriter 最终都是使用Encoder.GetBytes 方法，而且还多了两次资源对申请和释放。但是还是用基准测试才能直观看出其中差别。

基准测试使用BenchmarkDotNet，BenchmarkDotNet这里之前有介绍过

创建BenchmarksTests目录并创建基准项目

mkdir BenchmarksTests && cd BenchmarksTests &&  dotnet new benchmark -b StreamVsEncoding

添加引用

dotnet add reference ../../src/Demo.StreamWriter.csproj

注意：Demo.StreamWriter需要Release编译

编写基准测试

[SimpleJob(launchCount: 10)]

[MemoryDiagnoser]

public class StreamVsEncoding

{

    [Params("Hello Wilson!", "使用【BenchmarkDotNet】基准测试，Encoding vs Stream")]

    public string _stringValue;

    [Benchmark] public void Encoding() => StringToBytesWithEncoding.StringToBytes(_stringValue);

    [Benchmark] public void Stream() => StringToBytesWithStream.StringToBytes(_stringValue);

}

编译 && 运行基准测试

dotnet build && sudo dotnet benchmark bin/Release/netstandard2.0/BenchmarksTests.dll --filter 'StreamVsEncoding'

注意：macos 需要sudo权限

查看结果

Method	_stringValue	Mean	Error	StdDev	Median	Gen 0	Gen 1	Gen 2	Allocated
Encoding	Hello Wilson!	107.4 ns	0.61 ns	2.32 ns	106.9 ns	0.0355	-	-	112 B
Stream	Hello Wilson!	565.1 ns	4.12 ns	18.40 ns	562.3 ns	1.8196	-	-	5728 B
Encoding	使用【Be(...)tream [42]	166.3 ns	1.00 ns	3.64 ns	165.4 ns	0.0660	-	-	208 B
Stream	使用【Be(...)tream [42]	584.6 ns	3.65 ns	13.22 ns	580.8 ns	1.8349	-	-	5776 B

执行时间相差了4～5倍，内存使用率相差 20 ～ 50倍，差距还比较大。

总结

StreamWriter 默认是没有BOM，若指定System.Text.Encoding.UTF8，会在Flush字节数组开头添加BOM
字符串转换字节数组使用System.Text.Encoding.UTF8.GetBytes 要高效
System.Text.Encoding.UTF8.GetBytes 是不会自己添加BOM，提供Encoding.UTF8.GetPreamble()获取BOM
UTF8 已经不推荐推荐在前面加BOM

转发请标明出处：https://www.cnblogs.com/WilsonPan/p/13524885.html

示例代码

【Net】StreamWriter.Write 的一点注意事项的更多相关文章

php基础的一点注意事项
1.要弄懂"~"运算符的计算方法,首先必须明白二进制数在内存中的存放形式,二进制数在内存中是以补码的形式存放的另外正数和负数的补码不一样,正数的补码,反码都是其本身,即: 正数9 ...
Zend Studio下调试PHP的一点注意事项
Zend Studio默认php文件的存放路径是你配置的服务器的路径,比如你配置的服务器是localhost,那么,你在zend下建立的文件均是相对于localhost而言的,比如你新建一个php工程 ...
利用IDE编写C语言程序的一点注意事项
前言:我是喜欢编程的一只菜鸟,在自学过程中,对遇到的一些问题和困惑,有时虽有一点体会感悟,但时间一长就会淡忘,很不利于知识的积累.因此,想通过博客园这个平台,一来记录自己的学习体会,二来便于向众多高手 ...
sleep()和wait()的区别及wait方法的一点注意事项
一.查看API sleep是Thread类的方法,导致此线程暂停执行指定时间,给其他线程执行机会,但是依然保持着监控状态,过了指定时间会自动恢复,调用sleep方法不会释放锁对象. 当调用sleep方 ...
针对elementUI 中InfiniteScroll按需引入的一点注意事项
大家为了节省空间,常常进行按需引入来节省空间,这里我给大家来介绍一下element中按需引入无限滚动指令注意的事项. 针对前面element 按需引入的一些配置这里就不再详细介绍了. 那么这里讲的是在 ...
ofstream 使用的一点主意事项
有如下代码段: ofstream ofs; while(...) { ofs.close(); ofs.open(...) ofs << "内容"; ... } ofs ...
Vue.js和jQuery混合使用的一点注意事项
首先,Vue 的官方是不建议直接操作 DOM 的,其优势在于视图和数据的双向绑定,而且所有DOM操作都可以用Vue实现,反而使用jQuery来操作DOM的话,会造成不必要的麻烦,DOM未渲染完成之前事 ...
getElementById和$()获取值一点注意事项
<script type="text/javascript"> window.onload = function () { var obj = document.get ...
MySQL 源代码scr.rpm安装的一点注意事项
rpm安装包通常为二进制包(Binary)以及源代码包(Source)两种形式. 在使用源代码方式安装MySQL的时候,官方站点上下载的源代码包通常为scr.rpm格式,而不是直接的tar包.对此,须 ...

随机推荐

在Ubuntu 18.04中安装Wine QQ、微信、TIM
近日重新安装了Ubuntu 18.04,因此要重新安装一下Wine QQ.微信之类的,完整安装Wine系列软件一直是一个老大难的问题,网上搜集到的博客也比较零散,因此这里特此写篇博客记录一下 0. 这 ...
第十二章类加载器&反射
12.1.类加载器 12.1.1.类加载当程序要使用某个类时,如果该类还未被加载到内存中,则系统会通过类的加载.类的连接.类的初始化这三个步骤来对类进行初始化.如果不出现意外情况,JVM将会连续完成 ...
Web压测工具之Webbench和http_load
Webbench简介是知名的网站压力测试工具,能测试处在相同硬件上,不同服务的性能以及不同硬件上同一个服务的运行状况. webbench的标准测试可以向我们展示服务器的两项内容:每秒钟相应请求数和每 ...
自制廉价的LED+LCD型投影仪
文档标识符:PROJECTOR_T-D-P6 作者:DLHC 最后修改日期:2020.7.30 本文链接:https://www.cnblogs.com/DLHC-TECH/p/PROJECTOR_T ...
预定义的 $_GET 变量用于收集来自 method="get" 的表单中的值
PHP $_GET 变量在 PHP 中,预定义的 $_GET 变量用于收集来自 method="get" 的表单中的值. $_GET 变量预定义的 $_GET 变量用于收集来自 ...
Python编程基础（一）编程语言是什么？编译型语言和解释型语言的区别|Python是什么？
编程语言是什么? 其实,程序指的就是一系列指令,用来告诉计算机做什么,而编写程序的关键在于,我们需要用计算机可以理解的语言来提供这些指令. 虽然借助 Siri(Apple).Google Now(An ...
JavaWeb项目的部署以及远程调试
Linux环境下软件的安装 Linux环境下的程序的安装.更新.卸载和查看. rpm 命令:相当于windows程序的添加/卸载程序,进程程序的安装,查看,卸载. 本地程序安装:rpm -ivh 程序 ...
VS c# 操作 Microsoft Project mpp 文件并遍历边关系
网上找到资料提供了遍历.mpp文件中任务的功能: http://blog.csdn.net/gxf36/article/details/5253792 ======================== ...
一文打尽Java抽象类和接口的相关问题
相关文章: <面向对象再探究>:介绍了面向对象的基本概念 <详解Java的对象创建>:介绍了对象的创建.构造器的使用 <一文打尽Java继承的相关问题>:介绍了继承 ...
034_go语言中的工作池
代码演示 package main import "fmt" import "time" func worker(id int, jobs <-chan ...

【Net】StreamWriter.Write 的一点注意事项

背景