Golang的channel使用以及并发同步技巧

在学习《The Go Programming Language》第八章并发单元的时候还是遭遇了不少问题，和值得总结思考和记录的地方。

做一个类似于unix du命令的工具。但是阉割了一些功能，这里应该只实现-c(统计total大小) 和-h(以human比较容易辨识的显示出来)的功能。

首先我们需要构造一个能够返回FileInfo信息数组的函数，我们把它取名为dirEntries:

func dirEntries(dir string) []os.FileInfo {

    entries, err := ioutil.ReadDir(dir)

    if err != nil {

        fmt.Fprintf(os.Stderr, "du: %v\n", err)

        return nil

    }

    return entries

}

传入一个路径字符串，然后使用ioutil.ReadDir解析这个路径下面的所有文件以及文件夹生成一个FileInfo的profile。

Fileinfo interface下面包含了：

type FileInfo interface {

    Name() string       // base name of the file

    Size() int64        // length in bytes for regular files; system-dependent for others

    Mode() FileMode     // file mode bits

    ModTime() time.Time // modification time

    IsDir() bool        // abbreviation for Mode().IsDir()

    Sys() interface{}   // underlying data source (can return nil)

}

多种方法，可以直接调用，其作用就是后面注释写的一样。

有了能够获取文件夹下面文件和文件夹的函数之后，我们需要一个调用方用来walk指定的目录：

// 入参是一个文件目录，一个INT64的只接收的单向channel

func walkDir(dir string, fileSizes chan<- int64) {

    for _, entry := range dirEntries(dir) {

        if entry.IsDir() {

            subdir := filepath.Join(dir, entry.Name())

            walkDir(subdir, fileSizes)

        } else {

            fileSizes <- entry.Size()

        }

    }

}

这里我们定义一个目录，然后需求传入一个单向接收channel用于在多goroutine中计算总共的文件大小。

使用range方法来遍历我们上面写的dirEntries的返回文件或文件夹，如果是文件夹则继续迭代。

如果不是则将文件大小存入放入fileSizes channel中。

搞定上面两个函数，我们来写主函数部分：

func main() {

    root := ""

    flag.StringVar(&root, "-p", ".", "input dir.")

    flag.Parse()

    fileSizes := make(chan int64)

    // 起一个goroutine去walk目录

    go func() {

        walkDir(root, fileSizes)

        // Walk完毕之后要关闭该channel下面使用range读取数据的时候才会有尽头

        close(fileSizes)

    }()

    var nfiles, nbytes int64

    for size := range fileSizes {

        nfiles++

        nbytes += size

    }

    fmt.Printf("%d files  %.1f GB\n", nfiles, float64(nbytes)/1e9)

}

这里注意一点，因为起goroutine的walk函数，和下面同时在range遍历是在同步进行，如果下面range速度太快读到管道里面没有值了会阻塞住等待有数据继续进来之后读取，而不是会跳出。只有当close(fileSizes)这句执行到，显示关闭掉channel之后，才会跳出range循环并且这时已经读取完了所有的数据。这里有点像，close channel的时候给range发送了一个停止信号一样，感觉这个利用起来会比较有用？后续可能会再研究一下。

让我们继续来优化我们的程序，添加一个-v参数，打印出扫描文件的进度，当我们要扫描整个盘的时候，可能会花费大量的时间，我们需要知道进度如何了。

其实这个需求只需要很小的改动，让我们来重新改写一下main函数，用select多路复用来完成这个事情。

func main() {

    root := ""

    verbose := false

    tick := make(<-chan time.Time)

    var nfiles, nbytes int64

    flag.StringVar(&root, "p", ".", "input dir.")

    flag.BoolVar(&verbose, "v", false, "add verbose if you want")

    flag.Parse()

    if verbose {

        tick = time.Tick(500 * time.Millisecond)

    }

    fileSizes := make(chan int64)

    // 起一个goroutine去walk目录

    go func() {

        walkDir(root, fileSizes)

        // Walk完毕之后要关闭该channel下面使用range读取数据的时候才会有尽头

        close(fileSizes)

    }()

loop:

    for {

        select {

        case size, ok := <-fileSizes:

            if !ok {

                break loop

            }

            nfiles++

            nbytes += size

        case <-tick:

            fmt.Printf("%d files  %.1f GB\n", nfiles, float64(nbytes)/1e9)

        }

    }

    fmt.Printf("%d files  %.1f GB\n", nfiles, float64(nbytes)/1e9)

}

上面其实都差不多，这里我直接从loop那里开始说吧，遇到这个loop的时候我其实还蛮疑惑的，因为我在go语言保留关键字里面并没有看到他的身影，但是这里他的确是个关键字，和里面的break连用里面break后面跟上的loop 可以直接跳出到最外层loop包裹的循环，而不是break默认的只跳出一层循环。明白了这个道理之后，这个就不难理解了，当我们还在遍历文件的时候，select 会持续读取文件大小赋值给size，并且返回true给ok。如果我们开启了verbose，每隔500毫秒tick会收到来自time.Tick的消息。我们都知道select会在都准备好的情况下随机pick一个执行，所以这里也或快或慢的被打印进度(前提是同时收到信号，但是实际上这个发生速度可能在nm级别，凭感受很难感觉到谁先)。当最后都执行完毕后filesSizes channel会被上面的携程函数close()，当close之后，在读取完剩余数据后，fileSizes会返回给ok nil。就可以跳出循环。

看到这里可能会觉得有点绕，所以要尽可能的多理解一下，当然我们可以让这个du程序更快。可以注意到我们并没有在walkdir里面开启goroutines进行并发处理。下面我将尝试开启goroutine处理它们，并且用channel给他们加个锁控制一下goroutine的数量，在此之前我们先来看看现在完成了的代码：

package main

import (

    "fmt"

    "io/ioutil"

    "os"

    "path/filepath"

    "flag"

    "time"

)

// 入参是一个文件目录，一个INT64的只接收的单向channel

func walkDir(dir string, fileSizes chan<- int64) {

    for _, entry := range dirEntries(dir) {

        if entry.IsDir() {

            subdir := filepath.Join(dir, entry.Name())

            walkDir(subdir, fileSizes)

        } else {

            fileSizes <- entry.Size()

        }

    }

}

func dirEntries(dir string) []os.FileInfo {

    entries, err := ioutil.ReadDir(dir)

    if err != nil {

        fmt.Fprintf(os.Stderr, "du: %v\n", err)

        return nil

    }

    return entries

}

func main() {

    t1 := time.Now()

    root := ""

    verbose := false

    tick := make(<-chan time.Time)

    var nfiles, nbytes int64

    flag.StringVar(&root, "p", ".", "input dir.")

    flag.BoolVar(&verbose, "v", false, "add verbose if you want")

    flag.Parse()

    if verbose {

        tick = time.Tick(500 * time.Millisecond)

    }

    fileSizes := make(chan int64)

    // 起一个goroutine去walk目录

    go func() {

        walkDir(root, fileSizes)

        // Walk完毕之后要关闭该channel下面使用range读取数据的时候才会有尽头

        close(fileSizes)

    }()

loop:

    for {

        select {

        case size, ok := <-fileSizes:

            if !ok {

                break loop

            }

            nfiles++

            nbytes += size

        case <-tick:

            fmt.Printf("%d files  %.1f GB\n", nfiles, float64(nbytes)/1e9)

        }

    }

    fmt.Printf("%d files  %.1f GB\n", nfiles, float64(nbytes)/1e9)

    fmt.Println(time.Since(t1))

}

观察上面代码可以看出我们并不能直接在这个代码的基础上直接给walkDir加上goroutine，这样会导致channel直接被关闭，然后啥也没跑就结束了。

我们需要让主goroutine等待其他goroutine都完成之后再结束，所以主goroutine需要在这里阻塞住，等到得到可以结束的信号之后再结束。

我们可以使用sync.WaitGroup 来对仍旧活跃的walkDir调用进行计数。等到数量为0的时候就算我们可以结束了。

sync.WaitGroup提供了三个方法：

　　Add：添加或减少goroutine的数量。

　　Done：相当于Add(-1)。

　　Wait：阻塞住等待WaitGroup数量变成0.

明白这个道理之后我们改写了一下代码，让它使用sync.WaitGroup来支持同步，最后当所有goroutine都结束之后，关闭channel完成任务。

package main

import (

    "fmt"

    "io/ioutil"

    "os"

    "path/filepath"

    "flag"

    "time"

    "sync"

)

// 入参是一个文件目录，一个INT64的只接收的单向channel

func walkDir(dir string, fileSizes chan<- int64, n *sync.WaitGroup) {

    defer n.Done()

    for _, entry := range dirEntries(dir) {

        if entry.IsDir() {

            n.Add(1)

            subdir := filepath.Join(dir, entry.Name())

            go walkDir(subdir, fileSizes, n)

        } else {

            fileSizes <- entry.Size()

        }

    }

}

func dirEntries(dir string) []os.FileInfo {

    entries, err := ioutil.ReadDir(dir)

    if err != nil {

        fmt.Fprintf(os.Stderr, "du: %v\n", err)

        return nil

    }

    return entries

}

func main() {

    t1 := time.Now()

    root := ""

    verbose := false

    tick := make(<-chan time.Time)

    fileSizes := make(chan int64)

    var n sync.WaitGroup

    var nfiles, nbytes int64

    flag.StringVar(&root, "p", ".", "input dir.")

    flag.BoolVar(&verbose, "v", false, "add verbose if you want")

    flag.Parse()

    if verbose {

        tick = time.Tick(500 * time.Millisecond)

    }

    n.Add(1)

    go walkDir(root, fileSizes, &n)

    go func() {

        n.Wait()

        close(fileSizes)

    }()

loop:

    for {

        select {

        case size, ok := <-fileSizes:

            if !ok {

                break loop

            }

            nfiles++

            nbytes += size

        case <-tick:

            fmt.Printf("%d files  %.1f GB\n", nfiles, float64(nbytes)/1e9)

        }

    }

    fmt.Printf("%d files  %.1f GB\n", nfiles, float64(nbytes)/1e9)

    fmt.Println(time.Since(t1))

}

随便跑跑。。感觉快得飞起，然而跑不了几秒就会报错，这个程序最大的问题就是我们完全没有办法之后它会自己打开多少个goroutine，感觉会爆炸。所以我们要限制这种夸张的写法，使用channel来做一个并发协程池，把同时开启的goroutine的数量控制一下。

最后上一下完整代码，注意defer关键字，只接收函数，所以我会在释放锁的时候使用匿名函数：

package main

import (

    "fmt"

    "io/ioutil"

    "os"

    "path/filepath"

    "flag"

    "time"

    "sync"

)

var token = make(chan int, 100)

// 入参是一个文件目录，一个INT64的只接收的单向channel

func walkDir(dir string, fileSizes chan<- int64, n *sync.WaitGroup) {

    defer n.Done()

    for _, entry := range dirEntries(dir) {

        if entry.IsDir() {

            n.Add(1)

            subdir := filepath.Join(dir, entry.Name())

            go walkDir(subdir, fileSizes, n)

        } else {

            fileSizes <- entry.Size()

        }

    }

}

func dirEntries(dir string) []os.FileInfo {

    token <- 1

    defer func() {<-token}()

    entries, err := ioutil.ReadDir(dir)

    if err != nil {

        fmt.Fprintf(os.Stderr, "du: %v\n", err)

        return nil

    }

    return entries

}

func main() {

    var nfiles, nbytes int64

    var n sync.WaitGroup

    root := ""

    verbose := false

    t1 := time.Now()

    fileSizes := make(chan int64)

    tick := make(<-chan time.Time)

    flag.StringVar(&root, "p", ".", "input dir.")

    flag.BoolVar(&verbose, "v", false, "add verbose if you want")

    flag.Parse()

    if verbose {

        tick = time.Tick(500 * time.Millisecond)

    }

    n.Add(1)

    go walkDir(root, fileSizes, &n)

    go func() {

        n.Wait()

        close(fileSizes)

    }()

loop:

    for {

        select {

        case size, ok := <-fileSizes:

            if !ok {

                break loop

            }

            nfiles++

            nbytes += size

        case <-tick:

            fmt.Printf("%d files  %.1f GB\n", nfiles, float64(nbytes)/1e9)

        }

    }

    fmt.Printf("%d files  %.1f GB\n", nfiles, float64(nbytes)/1e9)

    fmt.Println(time.Since(t1))

}

Reference:

https://github.com/gopl-zh/gopl-zh.github.com The Go Programming Language

Golang的channel使用以及并发同步技巧的更多相关文章

深入学习golang(2)—channel
Channel 1. 概述 “网络,并发”是Go语言的两大feature.Go语言号称“互联网的C语言”,与使用传统的C语言相比,写一个Server所使用的代码更少,也更简单.写一个Server除了网 ...
golang的Channel
golang的Channel Channel 是 golang 一个非常重要的概念,如果你是刚开始使用 golang 的开发者,你可能还没有真正接触这一概念,本篇我们将分析 golang 的Chann ...
【java 多线程】多线程并发同步问题及解决方法
一.线程并发同步概念线程同步其核心就在于一个“同”.所谓“同”就是协同.协助.配合,“同步”就是协同步调昨,也就是按照预定的先后顺序进行运行,即“你先,我等, 你做完,我再做”. 线程同步,就是当线 ...
.net core WebApi ManualResetEvent实现并发同步
ManualResetEvent,即手动重置事件,通过信号量来判别当前线程是否应该阻塞或继续执行.使用方式与ManualResetEventSlim差不多,ManualResetEventSlim只是 ...
.net core WebApi Interlocked配合ManualResetEventSlim实现并发同步
由于项目有某种需求,在WebApi中,有大量的请求需要操作相同的数据,因此需要用到并发同步机制去操作共享的数据. 本次配合使用Interlocked和ManualResetEventSlim来实现并发 ...
.net core WebApi Mutex实现并发同步
Mutex,中文译为互斥体,在.net中也是作为一种线程或进程之间的互斥体存在.即在同一时刻,一个共享资源只允许被某一个线程或进程访问,其他线程或进程需要等待(直至获取互斥锁为止). Mutex的使用 ...
.net core WebApi Monitor实现并发同步
在.net中,还可以使用Monitor实现线程并发同步.Monitor类是纯托管且完全可移植,并且可能会在操作系统资源需求方面更加高效. Monitor的锁对象尽可能使用引用对象,如果是字符串或值对象 ...
MySQL系列：innodb源代码分析之线程并发同步机制
innodb是一个多线程并发的存储引擎,内部的读写都是用多线程来实现的,所以innodb内部实现了一个比較高效的并发同步机制. innodb并没有直接使用系统提供的锁(latch)同步结构,而是对其进 ...
c#实现golang 的channel
使用.NET的 BlockingCollection<T>来包装一个ConcurrentQueue<T>来实现golang的channel. 代码如下: public clas ...

随机推荐

[matlab] 8.蚁群算法解决TSP问题
城市坐标数据下载密码:07d5 求遍历这52座城市后最后回到最初城市的最短距离 %% 第9章蚁群算法及MATLAB实现——TSP问题 % 程序9-1 %% 数据准备 % 清空环境变量 clear ...
计划任务执行bat
@echo offtaskkill /f /t /im ControlKJmen.exetaskkill /f /t /im KJMen.exetaskkill /f /t /im DisplayLo ...
masm的调试命令（debug）
-u命令:查看汇编代码: -t命令:执行下一条语句 -g + 的内存:跳转到该内存所对应的语句(再用t命令执行该条命令) -r命令:查看寄存器的内容(后可直接接寄存器的名称,就只查看该寄存器的内容) ...
day 07 字符编码
一:字符编码 1.字符编码什么是字符编码:将人能识别的字符转换为计算机能识别的01二进制的过程就是字符编码,转换的规则就是字符编码表常用的编码表:ASCII.GBK.Unicode.UTF-8 了 ...
SQLAlchemy中的自引用
SQLALCHEMY采用adjacency list pattern来表示类的自引用. 例如,对于类Node自引用: class Node(Base): __tablename__='node' id ...
undo丢失恢复异常恢复，运维DBA反映Oracle数据库无法启动报错ORA-01157 ORA-01110，分析原因为Oracle数据库坏块导致
本文转自惜纷飞大师. 模拟基表事务未提交数据库crash,undo丢失恢复异常恢复,运维DBA反映Oracle数据库无法启动报错ORA-01157 ORA-01110,分析原因为Oracle数据库 ...
Generative Adversarial Nets[CAAE]
本文来自<Age Progression/Regression by Conditional Adversarial Autoencoder>,时间线为2017年2月. 该文很有意思,是如 ...
LDAP2-创建OU创建用户
创建OU创建用户 1.创建OU 选择Organisational unit 组织单元输入OU名称提交信息结果创建成功 2.创建员工选择ou选择新建子条目选择默认模板选择inetorgper ...
使用docker Registry快速搭建私有镜像仓库
当我们执行docker pull xxx的时候,docker默认是从registry.docker.com这个地址上去查找我们所需要的镜像文件,然后执行下载操作.这类的镜像仓库就是docker默认的公 ...
01 前言/基础设施 - DevOps之路
01 前言/基础设施 - DevOps之路文章Github地址,欢迎start:https://github.com/li-keli/DevOps-WiKi 简介基础架构采用DevOps设计思想, ...

Golang的channel使用以及并发同步技巧

Golang的channel使用以及并发同步技巧的更多相关文章

随机推荐

热门专题