基于 cookie 的 node 中间层灰度流程的一些思考
此文已由作者申国骏授权网易云社区发布。
欢迎访问网易云社区,了解更多网易技术产品运营经验。
前言
关于灰度发布的意义此处就不进行介绍了,可以先读下这两篇文章
灰度方案说白了就是,分配一定比例或者筛选有特殊身份的用户,让这部分用户提前试用产品的最新版本,以便尽早发现问题也可将问题的影响最小化。不同公司都有自己独特的灰度流程,此处仅仅讨论灰度方案中的其中一个小环节,用户分配。
灰度流程

粗粒度灰度流程图(存在细节问题)
粗粒度的流程看上去似乎没有多大问题,但如果往细里考究,就会看到,漏洞百出
首次访问的时候无 cookie 必然走 online 集群,但如果命中灰度,接下来的异步请求将被分流到 beta 集群,资源错乱
beta 集群下 cookie 过期后(浏览器自动清理),接下来的异步请求将会从新被灰度分配,如果未命中灰度,接下来的异步请求将被分流到 online 集群,资源错乱
失效时间如果设置较短,则达不到灰度的目的
接下来,优化是必然的
几个大的问题
1、同步资源和异步资源的问题
描述:
同一个会话下,由于时机不同,导致同步资源和异步资源流入不同集群,此处假设 online 集群和 beta 集群资源不一致
场景:
1、同步 online 异步 beta:同步资源在无 cookie 条件下流入 online 集群,同步命中灰度设置了 cookie,之后的异步请求将会流入 beta 集群
2、同步 beta 异步 online:同步资源在有 cookie 条件下流入 beta 集群,随后 cookie 失效,之后的异步请求将会流入 online 集群
方案 a) node 中台灰度命中后重新代理回 ngnix 进行分流。 (1-,-2){1:有效,1-:部分有效,-1:无效,下同}
方案 b) beta 集群资源兼容 online 集群。 (1,-2)
方案 c) beta 集群独立域名(302),使用域名区分 online & beta。 (-1,2)
综合方案 b,c 可解决场景 1,2
2、灰度 cookie 过期或重置问题
描述:
会话期间更新 disconf 配置,或 cookie 自然过期会出现以下场景,导致资源请求错乱问题
场景:
3a、同步请求前设置灰度配置(online -> beta,同步资源同步)
3b、同步请求前关闭灰度配置(beta -> online,同步资源同步)
4a、同步(online)请求后异步请求前重置灰度配置(beta)
4b、同步(beta)请求后异步请求前重置灰度配置(online)
5a、下一个同步请求前重置灰度配置(online -> beta,同步资源不同步)
5b、下一个同步请求前重置灰度配置(beta -> online,同步资源不同步)
方案 a) 同上。(3a,3b,-4a,-4b,-5a,-5b)
方案 b) 同上。(3a,-3b,4a,-4b,5a,-5b)
方案 c) 同上。(-3a,3b,4a,4b,-5a,5b)
综合 b,c 可解决场景 3,4,5
3、灰度 cookie 的有效期时长问题
描述:
假设上方问题都已经解决,那么 cookie 的 maxAge 该设置成多少才比较合理?
有效期较短,如 10s
问题:假设用户访问一个页面的时间大于10s,那么,此用户的异步请求将会在 online 和 beta 集群来回切换,虽然解决了资源错乱的问题,用户无感知,但 beta 集群受到的压力将会成倍增大。
同时,从目标用户分配的比例上来看,1天内机会所有的用户都会引流到 beta 集群,这样灰度将失去意义,且带来较大风险
有效时间较长,如 1 天或更高
问题:过期时间设置较长,其优点恰恰是有效规避了有效期较短的致命缺点,beta 集群的流入用户比例和服务器压力都比较低。
但是,另外一个方面,如果 beta 集群出错宕机,或者我们主动将 beta 集群下线。就会导致灰度用户在 1 天内的反馈就是 404,且无解,只能等 cookie 过期或者用户主动换浏览器。导致的结果就是,客服电话被打爆,然后甩一句【垃圾网站!】,这是完全不能接受的。
适中的有效期,如 10分钟到 1 小时
一般来讲,如果不是生产工具类的网站,用户一次的访问周期不会超过 1 小时,及时用户没有关闭网页的习惯,1 个小时候再次操作也不会对网站造成多大影响。
虽然说,宕机导致的 404 同样无解,但损失可以降到最小
总结

灰度细化流程图
综合来看,方案 b,c 基本可以解决我们的上述问题。
beta 集群资源兼容 online 集群,静态资源长发布到 CDN,所以只需对异步资源进行同步即可。
集群独立域名(302),使用域名区分 online & beta,做域隔离,即使 cookie 失效也可以保证用户的当前会话操作维持在 beta 集群。
另外针对 a 方案,针对不同的业务场景,还有有一定的作用,比如避免出现跨域请求等。
问题是相对的,方案是灵活的。不同类型的系统会用不同的问题,我们能做的就只有针对问题思考解决方案。
如果你有更好的解决方案,还请不吝赐教!拜谢!
更多网易技术、产品、运营经验分享请点击。
相关文章:
【推荐】 代码在线编译器(下)- 用户代码安全检测
【推荐】 在Android中使用FlatBuffers(中篇)
【推荐】 亲近用户—回归本质
基于 cookie 的 node 中间层灰度流程的一些思考的更多相关文章
- Asp.Net Core 2.0 项目实战(10) 基于cookie登录授权认证并实现前台会员、后台管理员同时登录
1.登录的实现 登录功能实现起来有哪些常用的方式,大家首先想到的肯定是cookie或session或cookie+session,当然还有其他模式,今天主要探讨一下在Asp.net core 2.0下 ...
- node中间层转发请求
前台页面: $.get("/api/hello?name=leyi",function(rps){ console.info(rps); }); node中间层(比如匹配api开头 ...
- node中间层实现文件上传
一般情况下,前端的文件上传一般都是通过form表单的(<input type="file" />)来完成文件的上传,如果使用node中间层完成跨域,文件的上传就需要在n ...
- 基于 Jenkins+Docker+Git 的CI流程初探
在如今的互联网时代,随着软件开发复杂度的不断提高,软件开发和发布管理也越来越重要.目前已经形成一套标准的流程,最重要的组成部分就是持续集成(Continuous Integration,CI)及持续部 ...
- iKcamp|基于Koa2搭建Node.js实战(含视频)☞ 代码分层
视频地址:https://www.cctalk.com/v/15114923889408 文章 在前面几节中,我们已经实现了项目中的几个常见操作:启动服务器.路由中间件.Get 和 Post 形式的请 ...
- 基于PassThru的NDIS中间层驱动程序扩展
基于PassThru的NDIS中间层驱动程序扩展 独孤求真 概要:开发一个NDIS驱动是一项相对复杂的工作,这一方面是由于核心驱动本身 ...
- node中间层
node中间层 一.总结 1.node中间层作用:前端也是mvc,NodeJS之后,前端可以更加专注于视图层,而让更多的数据逻辑放在Node层处理 2.node中间层作用:当发现所有请求量太多应付不过 ...
- 基于cookie的用户登录状态管理
cookie是什么 先来花5分钟看完这篇文章:https://developer.mozilla.org/zh-CN/docs/Web/HTTP/Cookies 看完上文,相信大家对cookie已经有 ...
- Node中间层浅认知
Node中间层允许前端来做网站路由.页面渲染.SEO优化,对以往从来不接触这些内容的前端选手来说,正是锻炼我们网站架构的好机会.另外,这也是一次深入了解Node的好机会,准备好迎接即将到来的前端工程化 ...
随机推荐
- 七 Kafka Streams VS Consumer API
1 kafka Streams: 概念: 处理和分析储存在Kafka中的数据,并把处理结果写回Kafka或发送到外部系统的最终输出点,它建立在一些很重要的概念上,比如事件时间和消息时间的准确区分, ...
- 点击jQuery Mobile的按钮改变颜色
jquery-mobile-移动 我有这样的代码来改变点击一个按钮的颜色: $('.fav').live('click', function(e) { $(this).buttonMarkup({ t ...
- C++中的explicit关键字 - 抑制隐式转换(转)
在C++程序中很少有人去使用 explicit 关键字,不可否认,在平时的实践中确实很少能用的上.再说C++的功能强大,往往一个问题可以利用好几种C++特性去解决.但稍微留心一下就会发现现有的MFC库 ...
- 【289】◀▶ Python I/O & 读写文本文件
参考:Python 文件 I/O 参考:Python OS 文件/目录方法 目录: 01 open 函数 用于打开一个文件,创建一个 file 对象,相关的方法才可以调用它进行读写. 02 F ...
- swift之xib关联UIView
有点坑爹,设置file owner 不行,搞了一早上,来说下怎么关联吧 自定义UIView要重写 required init(coder aDecoder: NSCoder) { super.init ...
- django 定时脚本
python 第三方定时执行 from datetime import datetime import time import os from apscheduler.schedulers.backg ...
- 在tomcat6.5+上配置虚拟主机
一 准备(必须配置,否则不能解析域名到ip) 我们将配置两台虚拟主机,假设域名分别为 www.test1.com www.test2.com 为了测试方便,请在客户机的: Win2K://WINNT/ ...
- 使用python创建生成动态链接库dll
如今,随着深度学习的发展,python已经成为了深度学习研究中第一语言.绝大部分的深度学习工具包都有python的版本,很多重要算法都有python版本的实现.为了将这些算法应用到具体工程中,这些工具 ...
- 微信小程序怎么获取用户输入
能够获取用户输入的组件,需要使用组件的属性bindchange将用户的输入内容同步到 AppService. <input id="myInput" bindchange=& ...
- PrimeNG01 angular集成PrimeNG
1 开发环境 本博文基于angular5 2 步骤 2.1 创建angular5项目 详情参见百度 2.2 下载PrimeNG依赖 npm install primeng --save npm ins ...