什么是重试

如果服务出现了错误,主要是网络,服务器出现了短暂异常的时候,该怎么办?

我们都会人工或者自动的重新连接服务试试,看服务是否恢复可用了。

这种重新进行连接服务的一种方式就是重试。如果是在微服务里,应该属于微服务治理的范畴。

重试是处理网络服务出现暂时不可用的一种方法。

怎么进行重试

第一:你要能知道网络出现了错误。

怎么才能知道网络出现了错误呢?

一种是你主动探测网络是否可用,比如说健康检查;一种是根据定义的错误码来进行重试。比如http的一些错误码。

第二:根据上面的探测或者错误码决定是否重试。

因为不是所有的错误都要进行重试,我们要根据具体情况来做决定是否重试。

第三:重试的策略

就是怎么进行重试。

在gRPC的这份设计中,主要有2中重试策略:

  1. Retry Policy,出错时立即重试

  2. Hedging Policy,定时发送并发的多个请求,根据请求的响应情况决定是否发送下一个同样的请求,还是返回(好像该策略目前未实现)

  3. 在Retry和Heading基础上的限流

客户端的重试策略和限流策略都是用一个配置文件配置 - service config,这个配置文件用proto定义了一些字段和格式,文件在 grpc/service_config/service_config.proto 中,它最终会解析为一个json格式,proto->json 规则文档

一些Service Config文档例子:doc/service_config

例子

参考官方的例子把我们前面的hello word程序用retry策略改写下。

客户端

主要是要在 Dial() 建立连接的这个函数里加一个参数 grpc.WithDefaultServiceConfig() ,这个就是配置重试策略的参数。

conn, err := grpc.Dial(Address, grpc.WithInsecure(),grpc.WithDefaultServiceConfig(retryPolicy))

里面的参数 retryPolicy 是一个json的字符串,这个就是service config:

retryPolicy = `{
"methodConfig":[{
"name":[{"service": "grpc-tutorial.05retry.hello.hello"}],
"waitForReady": true,
"retryPolicy": {
"MaxAttempts": 4,
"InitialBakckoff": ".01s",
"MaxBackoff": ".01s",
"BackoffMultiplier": 1.0,
"RetryableStatusCodes": ["UNAVAILABLE"]
}
}]}`
  • MaxAttempts:

    最多请求次数。这里设置为4,一次原始请求,三次重试请求。

MaxAttempts必须是大于1的整数,对于大于5的值会被视为5。

  • InitialBakckoff, BackoffMultiplier, MaxBackoff

    这3个参数要结合看, 意思是在进行下一次重试请求前,会计算需要等待的时间,计算公式为:

    • 第一次重试间隔是 random(0, InitialBakckoff)
    • 第 n 次的重试间隔为 random(0, min( InitialBakckoff*BackoffMultiplier*(n-1) , MaxBackoff ))

InitialBakckoff 和 MaxBackoff 必须指定,并且必须具有大于0。

BackoffMultiplier 必须指定,并且大于零。

  • RetryableStatusCodes

    会根据这个 RetryableStatusCodes 来判断是否进行重试。这里设置为 UNAVAILABLE,会根据这个状态来进行重试。

retryableStatusCodes 必须制定为状态码的数据,不能为空,并且没有状态码必须是有效的 gPRC 状态码,可以是整数形式,并且不区分大小写 ([14], [“UNAVAILABLE”], [“unavailable”)

服务端

在服务端我要制造重试的情况出来,主要是 failRequest() 这个函数,改写一下程序:

type failServer struct {
pb.UnimplementedHelloServer
mu sync.Mutex reqNum uint
reqMax uint
} func (f *failServer) failRequest() error {
f.mu.Lock()
defer f.mu.Unlock()
f.reqNum++
if (f.reqMax > 0) && (f.reqNum % f.reqMax == 0) {
return nil
}
return status.Errorf(codes.Unavailable, "failRequest: failing it")
}

然后在main函数初始化一下这个failServer struct:

failService := &failServer{
reqNum: 0,
reqMax: 4,
}

完整的例子在:这里github

运行看看:

先运行服务端:go run server/main.go

在运行客户端:GRPC_GO_RETRY=on go run client/main.go

注意:

运行客户端一定要在环境变量里加上 GRPC_GO_RETRY=on

可是报错了:

sayhello err: rpc error: code = Unavailable desc = failRequest: failing it

exit status 1

而且服务端也只打印了一条信息:

request failed num: 1

Golang gRPC学习(05): retry重试的更多相关文章

  1. Golang gRPC学习(04): Deadlines超时限制

    为什么要使用Deadlines 当我们使用gRPC时,gRPC库关系的是连接,序列化,反序列化和超时执行.Deadlines 允许gRPC客户端设置自己等待多长时间来完成rpc操作,直到出现这个错误 ...

  2. golang——gRPC学习

    1.获取gRPC 环境变量GOPATH的src目录下执行: git clone https://github.com/grpc/grpc-go.git google.golang.org/grpc g ...

  3. Golang gRPC学习(03): grpc官方示例程序route_guide简析

    代码主要来源于grpc的官方examples代码: route_guide https://github.com/grpc/grpc-go/tree/master/examples/route_gui ...

  4. gRPC学习之三:初试GO版gRPC开发

    欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...

  5. gRPC学习

    概述 gRPC 一开始由 google 开发,是一款语言中立.平台中立.开源的远程过程调用(RPC)系统. 在 gRPC 里客户端应用可以像调用本地对象一样直接调用另一台不同的机器上服务端应用的方法, ...

  6. gRPC学习之一:在CentOS7部署和设置GO

    欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...

  7. gRPC学习之二:GO的gRPC开发环境准备

    欢迎访问我的GitHub 这里分类和汇总了欣宸的全部原创(含配套源码):https://github.com/zq2599/blog_demos gRPC学习系列文章链接 在CentOS7部署和设置G ...

  8. gRPC学习之四:实战四类服务方法

    欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...

  9. gRPC学习之五:gRPC-Gateway实战

    欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...

  10. Golang 语法学习笔记

    Golang 语法学习笔记 包.变量和函数. 包 每个 Go 程序都是由包组成的. 程序运行的入口是包 main. 包名与导入路径的最后一个目录一致."math/rand" 包由 ...

随机推荐

  1. [转帖]Shell编程之正则表达式与文本处理器(grep、sort、uniq、tr、cut)

    目录 正则表达式概念 正则表达式的作用 元字符 grep命令在文本中查找指定的字符串 sort命令排序 uniq命令快捷去重 tr命令替换.压缩和删除 cut命令快速裁剪命令 expr substr ...

  2. [转帖]nginx配置默认首页(index.html index.htm)全流程(包含遇到问题的解决)

    https://www.cnblogs.com/tujietg/p/10753041.html#:~:text=%E8%A7%A3%E5%86%B3%E6%96%B9%E6%A1%88%EF%BC%9 ...

  3. Chrome浏览器不同版本兼容性的验证方法

    Chrome浏览器不同版本兼容性的验证方法 背景 上周客户现场有出现使用国产信创设备上面的奇安信浏览器出现兼容性的问题. 开发认为是测试不全面导致. 认为测试应该必须测试过特定浏览器才可以进行说明. ...

  4. [转帖]Java 内存管理

    https://www.cnblogs.com/xiaojiesir/p/15590092.html   Java 内存模型简称 JMM,全名 Java Memory Model .Java 内存模型 ...

  5. Docker 23.0.0 简单学习与使用

    前言 Docker 从2013年火起来到现在才第十个年头. 现在已经被Google的K8S打的没有任何还手之力. 随着K8S放弃支持docker,仅支持containerd的方式. 直接导致docke ...

  6. 公司内部Oracle RAC测试环境的简单使用说明.

    1. 公司内部要测试Oracle RAC系统的创建与测试工作. 因为Oracle RAC 主要需要 多个网段以及共享存储, 直接使用ESXi搭建比较复杂 所以我这边使用vagrant的方式搭建Orac ...

  7. MYSQL使用mydumper备份恢复操作简介

    MYSQL使用mydumper备份恢复操作简介 1. 环境准备 第一步是进行下载安装包的操作. 在github以及官网上面有相关的安装介质. 官网为: http://www.mydumper.org/ ...

  8. Rendezvous hashing算法介绍

    Rendezvous hashing Rendezvous hashing用于解决分布式系统中的分布式哈希问题,该问题包括三部分: Keys:数据或负载的唯一标识 Values:消耗资源的数据或负载 ...

  9. linux机制

    cpu Cache 工作原理:文中对Cache的一致性提出了两种策略:基于监听的和基于目录的.前者是所有Cache均监听各个Cache的写操作,当一个Cache中的数据被写了,其处理方式有:写更新协议 ...

  10. uni-app 顶部配置搜索框和左右图标

    顶部的图标只支持本地图片哈,所以你要将阿里巴巴上的图标下载到本地, 然后只要XXX.ttf这个文件就行了 然后放在static这个文件中 在pages.json中fontSrc进行引入. text:使 ...