【Net】StreamWriter.Write 的一点注意事项
背景
今天在维护一个旧项目的时候,看到一个方法把string 转换为 byte[] 用的是写入内存流的,然后ToArray(),因为平常都是用System.Text.Encoding.UTF8.GetBytes(string) ,刚好这里遇到一个安全的问题,就想把它重构了。
由于这个是已经找不到原来开发的人员,所以也无从问当时为什么要这么做,我想就算找到应该他也不知道当时为什么要这么做。
由于这个是线上跑了很久的项目,所以需要做一下测试,万一真里面真的是有历史原因呢!于是就有了这篇文章。
重构过程
- 需要一个比较
byte数组的函数(确保重构前后一致),没找到有系统自带,所以写了一个 - 重构方法(使用Encoding)
- 单元测试
- 基准测试(或许之前是为了性能考虑,因为这个方法调用次数也不少)
字节数组比较方法:BytesEquals
比较字节数组是否完全相等,方法比较简单,就不做介绍
public static bool BytesEquals(byte[] array1, byte[] array2)
{
if (array1 == null && array2 == null) return true;
if (Array.ReferenceEquals(array1, array2)) return true;
if (array1?.Length != array2?.Length) return false;
for (int i = 0; i < array1.Length; i++)
{
if (array1[i] != array2[i]) return false;
}
return true;
}
重构方法
原始方法(使用StreamWriter)
public static byte[] StringToBytes(string value)
{
if (value == null) throw new ArgumentNullException(nameof(value));
using (var ms = new System.IO.MemoryStream())
using (var streamWriter = new System.IO.StreamWriter(ms, System.Text.Encoding.UTF8))
{
streamWriter.Write(value);
streamWriter.Flush();
return ms.ToArray();
}
}
重构(使用Encoidng)
public static byte[] StringToBytes(string value)
{
if (value == null) throw new ArgumentNullException(nameof(value));
return System.Text.Encoding.UTF8.GetBytes(value);
}
单元测试
- BytesEquals 单元测试
- 新建单元测试项目
dotnet new xunit -n 'Demo.StreamWriter.UnitTests'
- 编写单元测试
[Fact]
public void BytesEqualsTest_Equals_ReturnTrue()
{
...
}
[Fact]
public void BytesEqualsTest_NotEquals_ReturnFalse()
{
...
}
[Fact]
public void StringToBytes_Equals_ReturnTrue()
{
...
}
- 执行单元测试
dotnet test
StringToBytes_Equals_ReturnTrue未能通过单元测试
这个未能通过,重构后的生成的字节数组与原始不一致
排查过程
- 调试
StringToBytes_Equals_ReturnTrue, 发现bytesWithStream比bytesWithEncoding在数组头多了三个字节(很多人都能猜到这个是UTF8的BOM)
+ bytesWithStream[0] = 239
+ bytesWithStream[1] = 187
+ bytesWithStream[2] = 191
bytesWithStream[3] = 72
bytesWithStream[4] = 101
bytesWithEncoding[0] = 72
bytesWithEncoding[0] = 101
不了解BOM,可以看看这篇文章Byte order mark
从文章可以明确多出来字节就是UTF8-BOM,问题来了,为什么StreamWriter会多出来BOM,而Encoding.UTF8 没有,都是用同一个编码
查看源码
StreamWriter
public StreamWriter(Stream stream)
: this(stream, UTF8NoBOM, 1024, leaveOpen: false)
{
}
public StreamWriter(Stream stream, Encoding encoding)
: this(stream, encoding, 1024, leaveOpen: false)
{
}
private static Encoding UTF8NoBOM => EncodingCache.UTF8NoBOM;
internal static readonly Encoding UTF8NoBOM = new UTF8Encoding(encoderShouldEmitUTF8Identifier: false, throwOnInvalidBytes: true);
可以看到StreamWriter, 默认是使用UTF8NoBOM , 但是在这里指定了System.Text.Encoding.UTF8,根据encoderShouldEmitUTF8Identifier这个参数决定是否写入BOM,最终是在Flush写入
private void Flush(bool flushStream, bool flushEncoder)
{
...
if (!_haveWrittenPreamble)
{
_haveWrittenPreamble = true;
ReadOnlySpan<byte> preamble = _encoding.Preamble;
if (preamble.Length > 0)
{
_stream.Write(preamble);
}
}
int bytes = _encoder.GetBytes(_charBuffer, 0, _charPos, _byteBuffer, 0, flushEncoder);
_charPos = 0;
if (bytes > 0)
{
_stream.Write(_byteBuffer, 0, bytes);
}
...
}
Flush最终也是使用_encoder.GetBytes获取字节数组写入流中,而System.Text.Encoding.UTF8.GetBytes()最终也是使用这个方法。
System.Text.Encoding.UTF8.GetBytes
public virtual byte[] GetBytes(string s)
{
if (s == null)
{
throw new ArgumentNullException("s", SR.ArgumentNull_String);
}
int byteCount = GetByteCount(s);
byte[] array = new byte[byteCount];
int bytes = GetBytes(s, 0, s.Length, array, 0);
return array;
}
如果要达到和原来一样的效果,只需要在最终返回结果加上UTF8.Preamble, 修改如下
public static byte[] StringToBytes(string value)
{
if (value == null) throw new ArgumentNullException(nameof(value));
- return System.Text.Encoding.UTF8.GetBytes(value);
+ var bytes = System.Text.Encoding.UTF8.GetBytes(value);
+ var result = new byte[bytes.Length + 3];
+ Array.Copy(Encoding.UTF8.GetPreamble(), result, 3);
+ Array.Copy(bytes, 0, result, 3, bytes.Length);
+ return result;
}
但是对于这样修改感觉是没必要,因为这个最终是传给一个对外接口,所以只能对那个接口做测试,最终结果也是不需要这个BOM
基准测试
排除了StreamWriter没有做特殊处理,可以用System.Text.Encoding.UTF8.GetBytes()重构。还有就是效率问题,虽然直观上看到使用StreamWriter 最终都是使用Encoder.GetBytes 方法,而且还多了两次资源对申请和释放。但是还是用基准测试才能直观看出其中差别。
基准测试使用BenchmarkDotNet,BenchmarkDotNet这里之前有介绍过
- 创建
BenchmarksTests目录并创建基准项目
mkdir BenchmarksTests && cd BenchmarksTests && dotnet new benchmark -b StreamVsEncoding
- 添加引用
dotnet add reference ../../src/Demo.StreamWriter.csproj
注意:Demo.StreamWriter需要Release编译
- 编写基准测试
[SimpleJob(launchCount: 10)]
[MemoryDiagnoser]
public class StreamVsEncoding
{
[Params("Hello Wilson!", "使用【BenchmarkDotNet】基准测试,Encoding vs Stream")]
public string _stringValue;
[Benchmark] public void Encoding() => StringToBytesWithEncoding.StringToBytes(_stringValue);
[Benchmark] public void Stream() => StringToBytesWithStream.StringToBytes(_stringValue);
}
- 编译 && 运行基准测试
dotnet build && sudo dotnet benchmark bin/Release/netstandard2.0/BenchmarksTests.dll --filter 'StreamVsEncoding'
注意:macos 需要sudo权限
- 查看结果
| Method | _stringValue | Mean | Error | StdDev | Median | Gen 0 | Gen 1 | Gen 2 | Allocated |
|---|---|---|---|---|---|---|---|---|---|
| Encoding | Hello Wilson! | 107.4 ns | 0.61 ns | 2.32 ns | 106.9 ns | 0.0355 | - | - | 112 B |
| Stream | Hello Wilson! | 565.1 ns | 4.12 ns | 18.40 ns | 562.3 ns | 1.8196 | - | - | 5728 B |
| Encoding | 使用【Be(...)tream [42] | 166.3 ns | 1.00 ns | 3.64 ns | 165.4 ns | 0.0660 | - | - | 208 B |
| Stream | 使用【Be(...)tream [42] | 584.6 ns | 3.65 ns | 13.22 ns | 580.8 ns | 1.8349 | - | - | 5776 B |
执行时间相差了4~5倍, 内存使用率相差 20 ~ 50倍,差距还比较大。
总结
StreamWriter默认是没有BOM,若指定System.Text.Encoding.UTF8,会在Flush字节数组开头添加BOM- 字符串转换字节数组使用
System.Text.Encoding.UTF8.GetBytes要高效 System.Text.Encoding.UTF8.GetBytes是不会自己添加BOM,提供Encoding.UTF8.GetPreamble()获取BOM- UTF8 已经不推荐推荐在前面加BOM
转发请标明出处:https://www.cnblogs.com/WilsonPan/p/13524885.html
示例代码
【Net】StreamWriter.Write 的一点注意事项的更多相关文章
- php基础的一点注意事项
1.要弄懂"~"运算符的计算方法,首先必须明白二进制数在内存中的存放形式,二进制数在内存中是以补码的形式存放的 另外正数和负数的补码不一样,正数的补码,反码都是其本身,即: 正数9 ...
- Zend Studio下调试PHP的一点注意事项
Zend Studio默认php文件的存放路径是你配置的服务器的路径,比如你配置的服务器是localhost,那么,你在zend下建立的文件均是相对于localhost而言的,比如你新建一个php工程 ...
- 利用IDE编写C语言程序的一点注意事项
前言:我是喜欢编程的一只菜鸟,在自学过程中,对遇到的一些问题和困惑,有时虽有一点体会感悟,但时间一长就会淡忘,很不利于知识的积累.因此,想通过博客园这个平台,一来记录自己的学习体会,二来便于向众多高手 ...
- sleep()和wait()的区别及wait方法的一点注意事项
一.查看API sleep是Thread类的方法,导致此线程暂停执行指定时间,给其他线程执行机会,但是依然保持着监控状态,过了指定时间会自动恢复,调用sleep方法不会释放锁对象. 当调用sleep方 ...
- 针对elementUI 中InfiniteScroll按需引入的一点注意事项
大家为了节省空间,常常进行按需引入来节省空间,这里我给大家来介绍一下element中按需引入无限滚动指令注意的事项. 针对前面element 按需引入的一些配置这里就不再详细介绍了. 那么这里讲的是在 ...
- ofstream 使用的一点主意事项
有如下代码段: ofstream ofs; while(...) { ofs.close(); ofs.open(...) ofs << "内容"; ... } ofs ...
- Vue.js和jQuery混合使用的一点注意事项
首先,Vue 的官方是不建议直接操作 DOM 的,其优势在于视图和数据的双向绑定,而且所有DOM操作都可以用Vue实现,反而使用jQuery来操作DOM的话,会造成不必要的麻烦,DOM未渲染完成之前事 ...
- getElementById和$()获取值一点注意事项
<script type="text/javascript"> window.onload = function () { var obj = document.get ...
- MySQL 源代码scr.rpm安装的一点注意事项
rpm安装包通常为二进制包(Binary)以及源代码包(Source)两种形式. 在使用源代码方式安装MySQL的时候,官方站点上下载的源代码包通常为scr.rpm格式,而不是直接的tar包.对此,须 ...
随机推荐
- EF批量插入太慢?那是你的姿势不对
大概所有的程序员应该都接触过批量插入的场景,我也相信任何的程序员都能写出可正常运行的批量插入的代码.但怎样实现一个高效.快速插入的批量插入功能呢? 由于每个人的工作履历,工作年限的不同,在实现这样的一 ...
- XML--概念、约束、解析
概念 XML:可扩展标记语言 HTML:超文本标记语言 两者的区别: 1.语法结构类似,单语法要求不同 HTML不区分大小写,XML严格区分大小写 在HTML中,有时不严格,如果上下文清楚地显示出段落 ...
- 深入探究JVM之垃圾回收算法实现细节
@ 目录 前言 垃圾回收算法实现细节 根节点枚举 安全点 安全区域 记忆集和卡表 写屏障 并发的可达性分析 低延迟GC Shenandoah ZGC 总结 前言 本篇紧接上文,主要讲解垃圾回收算法的实 ...
- 《Python编程初学者指南》高清PDF版|百度网盘免费下载|Python基础
<Python编程初学者指南>|百度网盘免费下载| 提取码:03b1 内容简介 Python是一种解释型.面向对象.动态数据类型的高级程序设计语言.Python可以用于很多的领域,从科学计 ...
- MySQL索引介绍和实战
索引是什么 MySQL官方对索引的定义为:索引(Index)是帮助MySQL高效获取数据的数据结构. 可以得到索引的本质:索引是数据结构,索引的目的是提高查询效率,可以类比英语新华字典,根据目录定位词 ...
- Day15_redis安装及配置
学于黑马和传智播客联合做的教学项目 感谢 黑马官网 传智播客官网 微信搜索"艺术行者",关注并回复关键词"乐优商城"获取视频和教程资料! b站在线视频 redi ...
- Java锁_读写锁
独占锁:是指锁一次只能被一个线程持有,ReentrantLock和Synchronized都是独占锁. 共享锁:是指锁可以被多个线程持有. 对于ReentrantReadWriteLock,其读锁是共 ...
- 二维线段树->树套树
现在上真正的二维线段树 毕竟 刚刚那个是卡常 过题我们现在做一个更高级的做法二维线段树. 大体上维护一颗x轴线段树 然后在每个节点的下方再吊一颗维护y轴的线段树那么此时我们整个平面就被我们玩好了. 这 ...
- RNN神经网络模型原理
1. 前言 循环神经网络(recurrent neural network)源自于1982年由Saratha Sathasivam 提出的霍普菲尔德网络. 传统的机器学习算法非常依赖于人工提取的特征, ...
- SpringMVC入门和常用注解
SpringMVC的基本概念 关于 三层架构和 和 MVC 三层架构 我们的开发架构一般都是基于两种形式,一种是 C/S 架构,也就是客户端/服务器,另一种是 B/S 架构,也就 是浏览器服务器.在 ...