前言

golang读取文件的方式主要有4种:

  1. 使用File自带的Read方法
  2. 使用bufio库的Read方法
  3. 使用io/ioutil库的ReadAll()
  4. 使用io/ioutil库的ReadFile()

关于前3种方式的速度比较,我最早是在 GoLang几种读文件方式的比较 看过,但在该blog的评论区有人(study_c)提出了质疑,并提供了测试代码。根据该代码的测试,结果应该是

bufio > ioutil.ReadAll > File自带Read

在我反复跑study_c测试代码过程中发现几个问题或者说是影响因素:

  • Read()每次读取的块的大小对结果也是有影响的
  • 连续测试同一个文件,会从系统缓存或是SSD缓存加载文件,后面的测试结果会被加速

所以本文的性能测试就是基于study_c的代码的基础上做了修改,尝试测试不同块大小对结果的影响,并增加对ioutil.ReadFile()的测试,还有随机生成文件以应对缓存影响公平性。

性能测试

测试环境

CPU: i5-6300HQ
MEM: 12GB
DSK: SANDISK Extreme PRO SSD 480GB
OS : WIN 10 64bit

测试代码1【randfiles.go】,生成1-500MB包含随机字符串的文件

package main

import (
"math/rand"
"fmt"
"flag"
"strconv"
"io/ioutil"
) const letterBytes = "abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ"
// https://stackoverflow.com/questions/22892120/how-to-generate-a-random-string-of-a-fixed-length-in-golang
func RandStringBytes(n int) []byte {
b := make([]byte, n)
for i := range b {
b[i] = letterBytes[rand.Intn(len(letterBytes))]
}
return b
}
func RandFile(path string,filesizeMB int) {
b:=RandStringBytes(filesizeMB * 1024) //生成1-500KB大小的随机字符串
bb := make([]byte, filesizeMB * 1024 * 1024)
for i:=0;i<1024;i++ { //复制1024遍
copy(bb[len(b)*i:len(b)*(i+1)],b)
}
//fmt.Printf("%s",b)
ioutil.WriteFile(path,bb,0666)
}
func main() {
flag.Parse()
filesizeMB,err :=strconv.Atoi(flag.Arg(0)) //1-500MB大小的文件
if err != nil{panic(err)}
if filesizeMB > 500 {panic("too large file,>500MB")}
RandFile("./random1.txt",filesizeMB)
RandFile("./random2.txt",filesizeMB)
RandFile("./random3.txt",filesizeMB)
RandFile("./random4.txt",filesizeMB)
fmt.Printf("Created 4 files, each file size is %d MB.",filesizeMB)
}

测试代码2【speed.go】,性能测试

package main

import(
"fmt"
"os"
"flag"
"io"
"io/ioutil"
"bufio"
"time"
"strconv"
) func read1(path string,blocksize int){
fi,err := os.Open(path)
if err != nil{
panic(err)
}
defer fi.Close()
block := make([]byte,blocksize)
for{
n,err := fi.Read(block)
if err != nil && err != io.EOF{panic(err)}
if 0 ==n {break}
}
} func read2(path string,blocksize int){
fi,err := os.Open(path)
if err != nil{panic(err)}
defer fi.Close()
r := bufio.NewReader(fi)
block := make([]byte,blocksize)
for{
n,err := r.Read(block)
if err != nil && err != io.EOF{panic(err)}
if 0 ==n {break}
}
} func read3(path string){
fi,err := os.Open(path)
if err != nil{panic(err)}
defer fi.Close()
_,err = ioutil.ReadAll(fi)
} func read4(path string){
_,err := ioutil.ReadFile(path)
if err != nil{panic(err)}
} func main(){
flag.Parse()
file1 := "./random1.txt"
file2 := "./random2.txt"
file3 := "./random3.txt"
file4 := "./random4.txt"
blocksize,_ :=strconv.Atoi(flag.Arg(0))
var start,end time.Time
start = time.Now()
read1(file1,blocksize)
end = time.Now()
fmt.Printf("file/Read() cost time %v\n",end.Sub(start))
start = time.Now()
read2(file2,blocksize)
end = time.Now()
fmt.Printf("bufio/Read() cost time %v\n",end.Sub(start))
start = time.Now()
read3(file3)
end = time.Now()
fmt.Printf("ioutil.ReadAll() cost time %v\n",end.Sub(start))
start = time.Now()
read4(file4)
end = time.Now()
fmt.Printf("ioutil.ReadFile() cost time %v\n",end.Sub(start))
}

测试结果:

测试1:块大小为4KB,这是个常见的大小,出人意料ioutil.ReadAll()最慢
测试2:块大小为1KB,这是前言提到的测试结果所用的块大小,与其测试结果一致
测试3:块大小为32KB,在大块的情况下,调用Read()次数更少,bufio已经没有优势,但前两者却远快于ioutil包的两个函数
测试4:块大小为16字节,在小块的情况下,没有缓存的文件普通Read成绩惨不忍睹

影响因素

在查阅golang标准库的源代码后,之所以有不同的结果是与每个方法的实现相关的,最大的因素就是内部buffer的大小,这个直接决定了读取的快慢:

  1. f.Read()底层实现是系统调用syscall.Read(),没有深究
  2. bufio.NewReader(f)实际调用NewReaderSize(f, defaultBufSize),而defaultBufSize=4096,可以直接用bufio.NewReaderSize(f,32768)来预分配更大的缓存,缓存的实质是make([]byte, size)
  3. ioutil.ReadAll(f)实际调用readAll(r, bytes.MinRead),而bytes.MinRead=512,缓存的实质是bytes.NewBuffer(make([]byte, 0, 512),虽然bytes.Buffer会根据情况自动增大,但每次重新分配都会影响性能
  4. ioutil.ReadFile(path)是调用readAll(f, n+bytes.MinRead),这个n取决于文件大小,文件小于10^9字节(0.93GB),n=文件大小,就是NewBuffer一个略大于文件大小的缓存,非常慷慨;大于则n=0,好惨,也就是说大于1G的文件就跟ioutil.ReadAll(f)一个样子了。
  5. 但全量缓存的ReadFile为什么不如大块读取的前两者呢?我猜测是NewBuffer包装的字节数组性能当然不如裸奔的字符数组。。

结论

  • 当每次读取块的大小小于4KB,建议使用bufio.NewReader(f), 大于4KB用bufio.NewReaderSize(f,缓存大小)
  • 要读Reader, 图方便用ioutil.ReadAll()
  • 一次性读取文件,使用ioutil.ReadFile()
  • 不同业务场景,选用不同的读取方式

golang bufio、ioutil读文件的速度比较(性能测试)和影响因素分析的更多相关文章

  1. GoLang几种读文件方式的比较

    GoLang提供了很多读文件的方式,一般来说常用的有三种.使用Read加上buffer,使用bufio库和ioutil 库. 那他们的效率如何呢?用一个简单的程序来评测一下: package main ...

  2. GO语言的进阶之路-Golang字符串处理以及文件操作

    GO语言的进阶之路-Golang字符串处理以及文件操作 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 我们都知道Golang是一门强类型的语言,相比Python在处理一些并发问题也 ...

  3. golang学习笔记 ----读写文件

    使用io/ioutil进行读写文件 ioutil包 其中提到了两个方法: func ReadFile func ReadFile(filename string) ([]byte, error) Re ...

  4. golang bufio解析

    golang bufio 当进行频繁地对少量数据读写时会占用IO,造成性能问题.golang的bufio库使用缓存来一次性进行大块数据的读写,以此降低IO系统调用,提升性能. 在Transport中可 ...

  5. Python之路 day2 按行读文件

    #1. 最基本的读文件方法: # File: readline-example-1.py file = open("sample.txt") while 1: line = fil ...

  6. java的读文件操作

    java读取文件内容,可以作如下理解: 首先获得一个文件句柄,File file = new File():file即为文件句柄.两人之间联通电话网络了,就可以开始打电话了. 通过这条线路读取甲方的信 ...

  7. PHP使用feof()函数读文件的方法

    这篇文章主要介绍了PHP使用feof()函数读文件的方法,以实例形式对比了正确与错误的用法,阐明了feof()函数的使用技巧,需要的朋友可以参考下 本文实例讲述了PHP使用feof()函数读文件的方法 ...

  8. Java基础之读文件——使用输入流读取二进制文件(StreamInputFromFile)

    控制台程序,读取Java基础之读文件部分(StreamOutputToFile)写入的50个fibonacci数字. import java.nio.file.*; import java.nio.* ...

  9. c++中ifstream读文件的问题(关于eof())

    今天帮别人找BUG,是一段关于c++读写文件的问题,使用的是ifstream与outstream类,关于ofstream与ifstream的用法,此处不再獒述,见代码: #include<ios ...

随机推荐

  1. DXL之通过程序修改Domino的设计

    Domino R6中,可以将设计元素导出并产生一个DXL(Domino XML)文档,导出以后,我们可以通过程序代码将DXL文档进行修改,再将修改后的代码导入到Domino数据库.这种方式可以修改设计 ...

  2. Jqeury Mobile实战之切屏效果以及屏幕滚动到底端加载更多和点击切换更多

    http://blog.csdn.net/q718330882/article/details/46120691 //页面滚动到底部加载更多事件 $( window ).scroll(function ...

  3. Easyui + asp.net MVC 系列教程 第19-23 节 完成注销 登录限制过滤 添加用户

    前面视频 文章地址 Easyui + asp.net MVC 系列教程 第09-17 节 完成登录 高清录制  Easyui + asp.net mvc + sqlite 开发教程(录屏)适合入门  ...

  4. Swift中的Any 与 AnyObject、AnyClass的区别?

    在 Swift 中能够表示 “任意” 这个概念的除了Any .AnyObject以外,还有一个AnyClass. Any.AnyObject.AnyClass有什么区别: AnyObject是一个成员 ...

  5. ajax请求格式

    ajax请求格式........... var rowsData = $('#receiptPrintList').datagrid('getSelections'); $.ajax({ type: ...

  6. 使用jupyterthemes插件定制jupyter notebook界面

    jupyter notebook界面是可以定制的,定制位置在:C:\anaconda\Lib\site-packages\notebook\static\custom. 启动jupyter noteb ...

  7. php安装 出现Sorry, I cannot run apxs. ***错误解决方法

    # tar zvxf php-5.1.2.tar.gz# cd php-5.1.2# ./configure --prefix=/usr/local/php --with-mysql=/usr/loc ...

  8. 超酷的 Vim 搜索技巧

    尽管目前我们已经涉及 Vim 的多种特性,但此编辑器的特性集如此庞大,不管我们学习多少,似乎仍然远远不足.承接我们的 Vim 教程系列,本文我们将讨论 Vim 提供的多种搜索技术. 不过在此之前,请注 ...

  9. 做一个合格的Team Leader -- 领导和管理基本概念 三种激励手段:恐吓、贪念、承诺

    做一个合格的Team Leader -- 基本概念 1.领导和管理   人们乐于被领导:他们不喜欢被管理,不喜欢像牛一样被驱赶或指挥.   管理者强迫人们服从他们的命令,而领导者则会带领他们一起工作. ...

  10. 【MySQL】MySQL的索引

    索引是存放在模式中的一个数据库对象,虽然索引总是从属于数据表,但它也和数据表一样属于数据库对象.创建索引的唯一作用就是加速对表的查询,索引通过使用快速路径访问方法来快速定位数据,从而减少了磁盘的I/O ...