1. CSV文件格式是什么

CSV有时也称为字符分隔值,因为分隔字符也可以不是逗号),其文件以纯文本形式存储表格数据(数字和文本)。纯文本意味着该文件是一个字符序列,不含必须像二进制数字那样被解读的数据。CSV文件由任意数目的记录组成,记录间以某种换行符分隔;每条记录由字段组成,字段间的分隔符是其它字符或字符串,最常见的是逗号或制表符。通常,所有记录都有完全相同的字段序列。

Elixir有好几个CSV处理的库(cessocsvcsvlixirex_csv), beatrichartz/cvs写得特别好,用了stream, test coverage(100%),而且有benchmark.

mix new csv_play
cd csv_play
emacs mix.exs
defp deps do
[{:csv, "~> 1.2.0"},
{:faker, "~>0.5.1"}
]
end

2. Faker测试数据

faker用来假造一些测试数据,接下来我们搞一个脚本生成csv数据

mix deps.get
mkdir scripts
emacs scripts/generate_csv_data.exs
Faker.start
count = 10_000
headers = ~w(name company city) data = 1..count
|> Enum.map(fn(_) ->
[Faker.Name.first_name <> Faker.Name.last_name, Faker.Company.name, Faker.Address.city]
end) file = File.open!("sample_data.csv", [:write]) [headers | data]
|> CSV.encode
|> Enum.each(&IO.write(file, &1)) :ok = File.close(file)
mix run scripts/generate_csv_data.exs

3.CSV decode示例

我们来测试一下csv的header读得是否正确

mkdir test/data/
mv sample_data.csv test/data/
emacs test/csv_play_test.exs
defmodule CsvPlayTest do
use ExUnit.Case
@data_path "test/data/sample_data.csv" test "reading CSV as a list" do
list =
@data_path
|> File.stream!
|> CSV.decode
|> Enum.to_list
assert hd(list) == ["name", "company", "city"]
end
end

通常我们的cvs数据量都是非常大的,所以我们使用stream一块一块的来处理成map。

test "reading CSV as a map" do
list = @data_path
|> File.stream!
|> CSV.decode(headers: true)
|> Enum.to_list sorted_keys = list
|> hd
|> Map.keys
|> Enum.sort assert sorted_keys == Enum.sort(["name", "company", "city"])
end

当然你CSV decode时还可以指定分割符是什么(默认就是上面这种形式的逗号)

CSV.decode(separator: ?\t)

Resources

1.beatrichartz/csv

2. igas/faker


How I felt when I understood Elixir error messages for the first time

[Elixir006]CSV(Comma-separated values)处理的更多相关文章

  1. python开发_csv(Comma Separated Values)_逗号分隔值_常用导入导出格式_完整版_博主推荐

    ## 最近出了一趟差,是从20号去的,今天回来...# 就把最近学习的python内容给大家分享一下...#''' 在python中,CSV(Comma Separated Values),从字面上面 ...

  2. Eclipse中出现无法找到Maven包Active Maven Profiles (comma separated)

    Eclipse中出现无法找到Maven包 2014年02月25日 16:51:30 阅读数:13057     症状:出现org.maven.ide.eclipse.MAVEN2_CLASSPATH_ ...

  3. Python操作csv文件

    1.什么是csv文件 The so-called CSV (Comma Separated Values) format is the most common import and export fo ...

  4. 支持各种特殊字符的 CSV 解析类 (.net 实现)(C#读写CSV文件)

    CSV是一种十分简洁的数据结构,在DOTNET平台实际使用中发现微软官方并没有提供默认的方法,而网上好多例子发现实现并不严谨甚至一些含有明显错误,所以后面自己实现了一个读写工具类,这里发出来希望方便后 ...

  5. Python 读取csv的某行

    站长用Python写了一个可以提取csv任一列的代码,欢迎使用.Github链接 csv是Comma-Separated Values的缩写,是用文本文件形式储存的表格数据,比如如下的表格: 就可以存 ...

  6. python处理csv文档

    在工作中遇到了使用python解析csv文件的问题,包括读写操作,下面参考官网文档,进行一下总结: 首先CSV (Comma Separated Values) ,也就是逗号分开的数值,可以用Note ...

  7. django 动态生成CSV文件

    CSV (Comma Separated Values),以纯文本形式存储数字和文本数据的存储方式.纯文本意味着该文件是一个字符序列,不含必须像二进制数字那样的数据.CSV文件由任意数目的记录组成,记 ...

  8. CSV 文件

    CSV 文件 CSV(Comma Separated Values 逗号分隔值) 是一种文件格式(如.txt..doc等),也可理解 .csv 文件就是一种特殊格式的纯文本文件.即是一组字符序列,字符 ...

  9. Python csv模块的使用

    1.csv简介 CSV (Comma Separated Values),即逗号分隔值(也称字符分隔值,因为分隔符可以不是逗号),是一种常用的文本 格式,用以存储表格数据,包括数字或者字符.很多程序在 ...

随机推荐

  1. probably another instance of uWSGI is running on the same address (127.0.0.1:9090). bind(): Address already in use

    probably another instance of uWSGI is running on the same address (127.0.0.1:9090). bind(): Address ...

  2. Input设置只读属性

    input设置为只读一般用于查看详情: 格式为: (1)单纯的input框 <div class="form-group"> <label for="c ...

  3. c# 之Web.config

    Web.config文件是一个XML文本文件,它用来储存 ASP.NET Web 应用程序的配置信息(如最常用的设置ASP.NET Web 应用程序的身份验证方式), 它可以出现在应用程序的每一个目录 ...

  4. LUA 表排序

    t = { [] = , [] = , [] = } for k, v in pairs(t) do--注意这个输出顺序是没有规律的!!! print(k, v) end local keys = { ...

  5. 图片上传jQuery插件(兼容IE8)

      图片上传jQuery插件(兼容IE8) 代码来源 :https://github.com/zilan93/uploadImg   html <!DOCTYPE html> <ht ...

  6. Ubuntu下用devstack单节点部署Openstack

    一.实验环境 本实验是在Vmware Workstation下创建的单台Ubuntu服务器版系统中,利用devstack部署的Openstack Pike版. 宿主机:win10 1803  8G内存 ...

  7. testng参数化(提供测试数据)

    testng提供测试数据的两个注释:@DataProvide和@Parameter   一.通过testng.xml中设置参数 (实际上testng.xml只是一个名字,可以起任何一个名字,只要是.x ...

  8. nasm 与 masm语法区别

    看到一篇文章,是介绍nasm语法的:http://blog.csdn.net/hitop0609/article/details/4329454 masm是微软专门为windows下汇编而写的,而na ...

  9. Git学习笔记——从一台电脑上传文件到Github上

    目标:从一台电脑上传文件到Github上 前提: 1.这里假定已在Github上创建了仓库,建立了仓库 2.已在这台电脑上安装了Git客户端 实验环境: 1.Windows 10 64位,已安装了Gi ...

  10. maven项目 实现 spring mybatis 两个框架整合

    1.maven项目 src main java java源文件 resources 配置文件 beans.xml spring配置文件 <?xml version="1.0" ...