.NET Core中的CSV解析库
感谢
本篇首先特别感谢从此启程兄的《.NetCore外国一些高质量博客分享》, 发现很多国外的.NET Core技术博客资源, 我会不定期从中选择一些有意思的文章翻译总结一下。
.NET Core中的CSV解析库
本篇博客来源于.NET Core Totorials的《CSV Parsing In .NET Core》。
背景介绍
对于初级程序员来说, 使用string.Split(',')来解析CSV文件基本就是唯一可行的方法, 但是之后他们会发现除了使用逗号分隔值之外,CSV中还有其他需要处理的东西,所以作者就介绍了CSV解析的一些痛点并推荐了2个比较好用CSV解析库。
CSV解析一些痛点
- 一个CSV文件有可能有表头,也可能没有表头。如果表头存在的话,解析CSV时,列的顺序就不太重要了,因为你可以根据表头知道所需的数据在第几列。如果表头不存在的话,解析CSV时,就需要依赖列的顺序。所以CSV的解析,应该即支持表头,也支持按列的顺序。
- CSV文件中某一列的值可能是带双引号的字符串,字符串中可能包含换行符、逗号,双引号。
- 例1:1,2,"a,b"
- 例2: 1,2,"a[换行符]b"
- 例3: 1,2,"this is ""Good""." (注:双引号字符串中的出现的连续双引号表示转义,这里真正的文本是this is "Good".)
- CSV文件中每一行的数据的数据列数量“应该”一样,但不是必须一样,所以解析CSV需要处理这些不一致的情况
- 在.NET中,当反序列化一个CSV文件的时候,还需要
- 支持反序列化成集合
- 支持枚举
- 支持自定义映射
- 支持映射嵌套对象
.NET Core中的一些优秀CSV解析库
这里作者推荐了2个CSV解析库,一个是CSVHelper, 一个是Tiny CSV Parser。
测试例子
为了测试这些CSV解析库,我们首先创建一个.NET Core的控制台程序
然后我们添加一个Automobile类,其代码如下
public class Automobile
{
public string Make { get; set; }
public string Model { get; set; }
public AutomobileType Type { get; set; }
public int Year { get; set; }
public decimal Price { get; set; }
public AutomobileComment Comment { get; set; }
public override string ToString()
{
StringBuilder builder = new StringBuilder();
builder.AppendLine();
builder.AppendLine($"Make: {Make}");
builder.AppendLine($"Model: {Model}");
builder.AppendLine($"Type: {Type.ToString()}");
builder.AppendLine($"Year: {Year}");
builder.AppendLine($"Price: {Price}");
builder.AppendLine($"Comment: {Comment?.Comment}");
return builder.ToString();
}
}
public class AutomobileComment
{
public string Comment { get; set; }
}
public enum AutomobileType
{
None,
Car,
Truck,
Motorbike
}
最后我们创建一个csv文件sample.txt作为测试文件,我们希望将当前csv文件中的数据,反序列化到一个Automobile
类的对象实例中。
其内容如下
Make,Model,Type,Year,Price,Comment
"Toyota",Corolla,Car,1990,2000.99,"Comment with a,
line break and "" quotes"
这个文件中第一行是一个表头,第二行是一个数据行,数据行中包含了
- 字符串内容换行
- 字符串中有逗号
- 字符串中有双引号
CSVHelper
CSVHelper是一个CSV文件的读写库。它支持读写自定义类对象。官网地址https://joshclose.github.io/CsvHelper/
安装
我们可以使用Package Manager Console来安装CSVHelper。
命令如下:
PM> Install-Package CsvHelper
解析CSV
使用CSVHelper解析CSV文件代码很简单, 还需要2步
- 使用
CsvReader
类的对象实例读取CSV文件 - 使用
GetRecords
方法来反序列化
using (TextReader reader = new StreamReader("sample.txt"))
{
var csvReader = new CsvReader(reader);
var records = csvReader.GetRecords<Automobile>();
foreach (var r in records)
{
Console.WriteLine(r.ToString());
}
}
最终结果
从结果上看,上面提到的CSV解析痛点,CSVHelper都实现了,特别是针对Comment字段中的逗号、换行、双引号,CSVHelper都处理的很成功。
Tiny CSV Parser
下一个介绍的CSV解析器是Ting CSV Parser, 官网http://bytefish.github.io/TinyCsvParser/index.html, 它是使用配置的方式映射CSV字段, 使用方式上有点类似于AutoMapper
安装
我们可以使用Package Manager Console来安装Tiny CSV Parser。
命令如下:
PM> Install-Package TinyCsvParser
解析CSV
使用Tiny CSV Parser解析CSV文件,首先我们需要创建一个映射类。映射类需要继承自CsvMapping
映射类代码
public class CsvAutomobileMapping : CsvMapping<Automobile>
{
public CsvAutomobileMapping() : base()
{
MapProperty(0, x => x.Make);
MapProperty(1, x => x.Model);
MapProperty(2, x => x.Type, new EnumConverter<AutomobileType>());
MapProperty(3, x => x.Year);
MapProperty(4, x => x.Price);
MapProperty(5, x => x.Comment, new AutomobileCommentTypeConverter());
}
}
public class AutomobileCommentTypeConverter : ITypeConverter<AutomobileComment>
{
public Type TargetType => typeof(AutomobileComment);
public bool TryConvert(string value, out AutomobileComment result)
{
result = new AutomobileComment
{
Comment = value
};
return true;
}
}
其中有几个要点,
- MapProperty是根据列的索引来映射属性的。
- 当映射枚举时,需要使用EnumConverter来映射。
- 当映射子对象的时候,需要创建子对象对应的Converter, 例如
AutomobileCommentTypeConverter
。
然后我们修改Program.cs, 使用CsvParser
来解析sample.txt
CsvParserOptions csvParserOptions = new CsvParserOptions(true, ',');
var csvParser = new CsvParser<Automobile>(csvParserOptions, new CsvAutomobileMapping());
var records = csvParser.ReadFromFile("sample.txt", Encoding.UTF8);
foreach (var r in records)
{
if (r.IsValid)
{
Console.WriteLine(r.Result.ToString());
}
}
最终结果
从结果上看,Tiny CSV Parser实现了大部分CSV解析的痛点,唯一不支持的是字符串换行,这一点需要注意。
效率比较
文章的最后,作者使用Benchmark对CSVHelper和Tiny CSV Parser进行了效率比较。
测试代码如下:
[MemoryDiagnoser]
public class CsvBenchmarking
{
[Benchmark(Baseline =true)]
public IEnumerable<Automobile> CSVHelper()
{
TextReader reader = new StreamReader("import.txt");
var csvReader = new CsvReader(reader);
var records = csvReader.GetRecords<Automobile>();
return records.ToList();
}
[Benchmark]
public IEnumerable<Automobile> TinyCsvParser()
{
CsvParserOptions csvParserOptions = new CsvParserOptions(true, ',');
var csvParser = new CsvParser<Automobile>(csvParserOptions, new CsvAutomobileMapping());
var records = csvParser.ReadFromFile("import.txt", Encoding.UTF8);
return records.Select(x => x.Result).ToList();
}
}
当测试100000行数据的时候
当测试1000000行数据的时候
从测试结果上看
Tiny Csv Parser的效率比CSVHelper高很多,内存占用也少很多。
最终结论
- 当不需要支持字符串换行的时候,请使用Tiny Csv Parser
- 当需要支持字符串换行的时候,请使用CSVHelper
.NET Core中的CSV解析库的更多相关文章
- C 封装一个csv 解析库
引言 最经关于基础C开发框架基本都搭建好了. 在研究githup,准备传上去. 可惜的是两会连githup 都登陆不进去. 三观很正的我也觉得, 这样不好. 双向标准, 共x党不是一个代表穷苦大众的党 ...
- python 中的json解析库
当一个json 数据很大的时候.load起来是很耗时的.python中常见的json解析库有cjson,simplesjson,json, 初步比较了一下, 对于loads来讲 simplejson ...
- .NET Core中的性能测试工具BenchmarkDotnet
背景介绍 之前一篇博客中,我们讲解.NET Core中的CSV解析库,在文章的最后,作者使用了性能基准测试工具BenchmarkDotNet测试了2个不同CSV解析库的性能,本篇我们来详细介绍一下Be ...
- ASP.NET Core中的数据保护
在这篇文章中,我将介绍ASP.NET Core 数据保护系统:它是什么,为什么我们需要它,以及它如何工作. 为什么我们需要数据保护系统? 数据保护系统是ASP.NET Core使用的一组加密api.加 ...
- .NET Core中的认证管理解析
.NET Core中的认证管理解析 0x00 问题来源 在新建.NET Core的Web项目时选择“使用个人用户账户”就可以创建一个带有用户和权限管理的项目,已经准备好了用户注册.登录等很多页面,也可 ...
- Papa Parse – 超强大的多线程 CSV 文本解析库
Papa Parse 是一个与众不同的,在网页上运行的第一个多线程的 CSV 解析器.它可以解析千兆字节大小文件而不会导致浏览器崩溃.它能够正确地处理格式不正确或边缘的情况下的 CSV 文本.它可以分 ...
- CSV.js – 用于 CSV 解析和编码的 JS 工具库
逗号分隔值(CSV )文件用于以以纯文本的形式存储表格化数据(数字和文本). CSV 文件包含任意数量的记录,通过某种换行符分隔,每条记录由字段,其他一些字符或字符串分隔,最常用的是文字逗号或制表符. ...
- 在.NET Core中使用Irony实现自己的查询语言语法解析器
在之前<在ASP.NET Core中使用Apworks快速开发数据服务>一文的评论部分,.NET大神张善友为我提了个建议,可以使用Compile As a Service的Roslyn为语 ...
- C# 嵌入dll 动软代码生成器基础使用 系统缓存全解析 .NET开发中的事务处理大比拼 C#之数据类型学习 【基于EF Core的Code First模式的DotNetCore快速开发框架】完成对DB First代码生成的支持 基于EF Core的Code First模式的DotNetCore快速开发框架 【懒人有道】在asp.net core中实现程序集注入
C# 嵌入dll 在很多时候我们在生成C#exe文件时,如果在工程里调用了dll文件时,那么如果不加以处理的话在生成的exe文件运行时需要连同这个dll一起转移,相比于一个单独干净的exe,这种形 ...
随机推荐
- 2019北航oo课程第二单元作业总结..#_#..
学习了之前在写代码是从来没有见过的多线程之后,便迎来了此次电梯作业.说实话,这次作业做得十分的辛苦,虽然在前三次作业中领悟到了java面向对象的精髓,但是再加上了多线程之后,又开始理不清思路,对自己的 ...
- 从Facebook数据泄露事件看大数据时代的个人信息安全问题
进入21世纪后,互联网开始大规模普及,线上业务和线上服务也开始逐渐走入人们的生活.尤其在智能手机和移动互联网诞生以后,人们对网络的依赖更是与日俱增.然而,伴随而来的则是涉及个人隐私的信息安全问题.个人 ...
- CentOS7终端的分辨率和字体修改
本文转贴自https://blog.csdn.net/u010566813/article/details/40502819 一.修改分辨率 修改/boot/grub2/grub.cfg 添加如上,具 ...
- JTAG各类接口针脚定义及含义
注:转自 揽月阁 JTAG有10pin的.14pin的和20pin的,尽管引脚数和引脚的排列顺序不同,但是其中有一些引脚是一样的,各个引脚的定义如下. 一.引脚定义 Test Clock Input ...
- 理解JavaScript【转】
第一题 if (!("a" in window)) { var a = 1; } alert(a); 第二题 var a = 1, b = function a(x ...
- Tomcat7在centos7.3上正常运行,在centos7.2就不行了
我在jdk1.7的环境下,把一个tomcat7从一台centos7.3的服务器迁移到7.2,理论上讲 迁移完成之后只要端口没有被占用,环境变量配置完成,Tomcat是可以正常启动的(空的Tomcat ...
- 转 the best for wcf client
原文:http://stackoverflow.com/questions/573872/what-is-the-best-workaround-for-the-wcf-client-using-bl ...
- linux学习:用户管理
一.管理用户(user) 主要工具命令 useradd 注:添加用户 adduser 注:添加用户 passwd 注:为用户设置密码 usermod 注:修改用户命令,可以通 ...
- layui layer弹框中表格的显示
场景描述:点击iframe里面的一个按钮,需要在父级弹出一个弹框表格. 问题描述:这个弹框的分页不能正常显示,如果把layer.open前面的parent去掉,就可以正常显示. 代码展示: paren ...
- Centos7 Nginx开机启动
1.简易安装nginx: ./configure --sbin-path=/usr/local/nginx/nginx --conf-path=/usr/local/nginx/nginx.conf ...