什么是重试

如果服务出现了错误,主要是网络,服务器出现了短暂异常的时候,该怎么办?

我们都会人工或者自动的重新连接服务试试,看服务是否恢复可用了。

这种重新进行连接服务的一种方式就是重试。如果是在微服务里,应该属于微服务治理的范畴。

重试是处理网络服务出现暂时不可用的一种方法。

怎么进行重试

第一:你要能知道网络出现了错误。

怎么才能知道网络出现了错误呢?

一种是你主动探测网络是否可用,比如说健康检查;一种是根据定义的错误码来进行重试。比如http的一些错误码。

第二:根据上面的探测或者错误码决定是否重试。

因为不是所有的错误都要进行重试,我们要根据具体情况来做决定是否重试。

第三:重试的策略

就是怎么进行重试。

在gRPC的这份设计中,主要有2中重试策略:

  1. Retry Policy,出错时立即重试

  2. Hedging Policy,定时发送并发的多个请求,根据请求的响应情况决定是否发送下一个同样的请求,还是返回(好像该策略目前未实现)

  3. 在Retry和Heading基础上的限流

客户端的重试策略和限流策略都是用一个配置文件配置 - service config,这个配置文件用proto定义了一些字段和格式,文件在 grpc/service_config/service_config.proto 中,它最终会解析为一个json格式,proto->json 规则文档

一些Service Config文档例子:doc/service_config

例子

参考官方的例子把我们前面的hello word程序用retry策略改写下。

客户端

主要是要在 Dial() 建立连接的这个函数里加一个参数 grpc.WithDefaultServiceConfig() ,这个就是配置重试策略的参数。

conn, err := grpc.Dial(Address, grpc.WithInsecure(),grpc.WithDefaultServiceConfig(retryPolicy))

里面的参数 retryPolicy 是一个json的字符串,这个就是service config:

retryPolicy = `{
"methodConfig":[{
"name":[{"service": "grpc-tutorial.05retry.hello.hello"}],
"waitForReady": true,
"retryPolicy": {
"MaxAttempts": 4,
"InitialBakckoff": ".01s",
"MaxBackoff": ".01s",
"BackoffMultiplier": 1.0,
"RetryableStatusCodes": ["UNAVAILABLE"]
}
}]}`
  • MaxAttempts:

    最多请求次数。这里设置为4,一次原始请求,三次重试请求。

MaxAttempts必须是大于1的整数,对于大于5的值会被视为5。

  • InitialBakckoff, BackoffMultiplier, MaxBackoff

    这3个参数要结合看, 意思是在进行下一次重试请求前,会计算需要等待的时间,计算公式为:

    • 第一次重试间隔是 random(0, InitialBakckoff)
    • 第 n 次的重试间隔为 random(0, min( InitialBakckoff*BackoffMultiplier*(n-1) , MaxBackoff ))

InitialBakckoff 和 MaxBackoff 必须指定,并且必须具有大于0。

BackoffMultiplier 必须指定,并且大于零。

  • RetryableStatusCodes

    会根据这个 RetryableStatusCodes 来判断是否进行重试。这里设置为 UNAVAILABLE,会根据这个状态来进行重试。

retryableStatusCodes 必须制定为状态码的数据,不能为空,并且没有状态码必须是有效的 gPRC 状态码,可以是整数形式,并且不区分大小写 ([14], [“UNAVAILABLE”], [“unavailable”)

服务端

在服务端我要制造重试的情况出来,主要是 failRequest() 这个函数,改写一下程序:

type failServer struct {
pb.UnimplementedHelloServer
mu sync.Mutex reqNum uint
reqMax uint
} func (f *failServer) failRequest() error {
f.mu.Lock()
defer f.mu.Unlock()
f.reqNum++
if (f.reqMax > 0) && (f.reqNum % f.reqMax == 0) {
return nil
}
return status.Errorf(codes.Unavailable, "failRequest: failing it")
}

然后在main函数初始化一下这个failServer struct:

failService := &failServer{
reqNum: 0,
reqMax: 4,
}

完整的例子在:这里github

运行看看:

先运行服务端:go run server/main.go

在运行客户端:GRPC_GO_RETRY=on go run client/main.go

注意:

运行客户端一定要在环境变量里加上 GRPC_GO_RETRY=on

可是报错了:

sayhello err: rpc error: code = Unavailable desc = failRequest: failing it

exit status 1

而且服务端也只打印了一条信息:

request failed num: 1

Golang gRPC学习(05): retry重试的更多相关文章

  1. Golang gRPC学习(04): Deadlines超时限制

    为什么要使用Deadlines 当我们使用gRPC时,gRPC库关系的是连接,序列化,反序列化和超时执行.Deadlines 允许gRPC客户端设置自己等待多长时间来完成rpc操作,直到出现这个错误 ...

  2. golang——gRPC学习

    1.获取gRPC 环境变量GOPATH的src目录下执行: git clone https://github.com/grpc/grpc-go.git google.golang.org/grpc g ...

  3. Golang gRPC学习(03): grpc官方示例程序route_guide简析

    代码主要来源于grpc的官方examples代码: route_guide https://github.com/grpc/grpc-go/tree/master/examples/route_gui ...

  4. gRPC学习之三:初试GO版gRPC开发

    欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...

  5. gRPC学习

    概述 gRPC 一开始由 google 开发,是一款语言中立.平台中立.开源的远程过程调用(RPC)系统. 在 gRPC 里客户端应用可以像调用本地对象一样直接调用另一台不同的机器上服务端应用的方法, ...

  6. gRPC学习之一:在CentOS7部署和设置GO

    欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...

  7. gRPC学习之二:GO的gRPC开发环境准备

    欢迎访问我的GitHub 这里分类和汇总了欣宸的全部原创(含配套源码):https://github.com/zq2599/blog_demos gRPC学习系列文章链接 在CentOS7部署和设置G ...

  8. gRPC学习之四:实战四类服务方法

    欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...

  9. gRPC学习之五:gRPC-Gateway实战

    欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...

  10. Golang 语法学习笔记

    Golang 语法学习笔记 包.变量和函数. 包 每个 Go 程序都是由包组成的. 程序运行的入口是包 main. 包名与导入路径的最后一个目录一致."math/rand" 包由 ...

随机推荐

  1. [转帖]事务上的等待事件 —— enq: TM - contention

    执行DML期间,为防止对与DML相关的对象进行修改,执行DML的进程必须对该表获得TM锁.若在获得TM锁的过程中发生争用,则等待enq: HW - contention 事件. SQL> sel ...

  2. [转帖]Clickhouse单机及集群部署详解

    https://www.cnblogs.com/ya-qiang/p/13540016.html 一.ClickHouse简介 ClickHouse是近年来备受关注的开源列式数据库,主要用于数据分析( ...

  3. 【转帖】MySQL InnoDB存储原理深入剖析与技术分析

    一.MySQL记录存储: MySQL InnoDB的数据由B+树来组织,数据记录存储在B+树数据页(page)中,每个数据页16kb,数据页 包括页头.虚记录.记录堆.自由空间链表.未分配空间.slo ...

  4. [转帖]Linux中split大文件分割和cat合并文件详解

    https://www.yingsoo.com/news/servers/70195.html 当需要将较大的数据上传到服务器,或从服务器下载较大的日志文件时,往往会因为网络或其它原因而导致传输中断而 ...

  5. 【图】苹果Safari 6.0停止支持Windows PC (转载)

    [图]果Safari 6.0停止支持Windows PC (转载) http://bbs.tianya.cn/post-414-41510-1.shtml 2012年之后 苹果就不在开发 window ...

  6. 大数据面试题集锦-Hadoop面试题(五)-优化

    你准备好面试了吗?这里有一些面试中可能会问到的问题以及相对应的答案.如果你需要更多的面试经验和面试题,关注一下"张飞的猪大数据分享"吧,公众号会不定时的分享相关的知识和资料. 1. ...

  7. 复原docker中容器的启动命令

    复原 docker 容器的启动命令 前言 查看 docker 容器的启动命令 参考 复原 docker 容器的启动命令 前言 不规范的操作,在启动 docker 容器,没有留命令脚本,或者没有使用 d ...

  8. Elasticsearch Relevance Engine---为AI变革提供高级搜索能力[ES向量搜索、常用配置参数、聚合功能等详解]

    Elasticsearch Relevance Engine---为AI变革提供高级搜索能力[ES向量搜索.常用配置参数.聚合功能等详解] 今天要介绍的 Elasticsearch Relevance ...

  9. 4.0 Python 变量与作用域

    在python中,变量的作用域决定了变量在哪些位置可以被访问.一个程序中的变量并不是所有的地方都可以访问的,其访问权限决定于变量的赋值位置.python中有两种最基本的变量作用域:局部作用域和全局作用 ...

  10. DataSet类型转换实体

    查询DataSet类型无法对每条数据进行循环转换,利用泛型对象使用反射机制将对象相关属性进行自动赋值. 基础调用 DataSet ds = DbHelper.Query(SQL); if (ds.Ta ...