在上一篇监控问题排查的文章中,笔者分析了 KubeSphere 3.1.0 集成 KubeEdge 中的边缘监控原理和问题排查思路,在介绍 EdgeWatcher 组件时提到了“边缘节点的内网 IP 需要集群内唯一”这样的限制条件。本文就来深入分析一下这个问题,并尝试给各位边缘开发者提供一些解决的建议和思路。

正常场景

在边缘节点加入云端集群时,需要指定 “Node Name” 和 “Internal IP”,顾名思义,就是边缘节点的节点名称和内网 IP 地址。这里的内网 IP 地址就是本文的主题,该地址需要在集群内唯一。

KubeSphere 在 EdgeWatcher 中提供了用户指定的内网 IP是否被占用的验证功能。验证失败(IP 已被占用)的情况下,则不会为该边缘节点提供加入集群的命令行输出。下面两张图展示了验证成功和失败的场景。

验证成功:

验证失败:

可以说,KubeSphere 在这一点上已经做的非常用心了,给用户提供了 UI 的 “Validate” 按钮和后台 API,不管是直接使用还是基于 KubeSphere 的二次开发都会非常便捷。

非法场景

在上一节中展示了内网 IP 被占用的结果就是不能加入集群,因为该 IP 已经被注册在了 EdgeWatcher 中,不能再被其他边缘节点使用。

那么如果一个 IP 还没有被注册到 EdgeWatcher 中,也就是边缘节点没有被真正接入集群时,还是可以跳过这一步验证,将相同内网 IP 的两个边缘节点加入同一个集群中,制造这个非法的使用场景。

这个非法场景带来的问题就是:相同 IP 的“较早加入集群”的边缘节点在 logs exec 和 metrics 的功能上都会失效。即下图的运维功能都是没有数据的。

之前,笔者也在 KubeSphere 的开发者社区提过这个问题,同时也和负责边缘模块的社区开发者有过交流,确认了在 KubeSphere 的产品设计上,内网 IP 需要管理员或者用户自行按需进行规划,保证不重复。

潜在问题

私有部署的场景下,做到 IP 的统一规划是比较容易的。那么如果基于 KubeSphere 的边缘解决方案在公有云场景中会怎么样呢?

公有云用户不受规划限制,同时并发量比较大,出现“相同 IP 加入集群”这个问题的概率会非常大。最终会导致部分用户的 logs exec 和 metrics 功能失效,大量问题工单随之而来,用户黏度下降。所以公有云场景下,这个问题是必须要解决的,下面我们就详细分析一下问题的根本原因和解决思路。

根本原因

解决问题前,要把问题产生的根本原因摸清楚,这样才能有的放矢地去解决和处理问题。

在上一篇文章中,其实也简要介绍了 metrics 数据获取在 KubeEdge 边缘场景下的实现原理:kube-apiserver 上的 iptables 转发给云端的 Cloudcore,Cloudcore 通过和 Edgecore 之间的 WebSocket 通道向边缘端进行消息和数据传递。

logs 和 exec 功能的实现原理与 metrics 是一样的。下面这张图简要的描述了这几项功能在 KubeEdge 下的工作流程。

结合上面这张图的 cloudcore (KubeEdge 云端组件)的红色部分,来解释一下为什么内网 IP 需要集群内唯一。

边缘节点(edgecore,即 KubeEdge 边缘组件)在连接到云端集群时,和云端之间会建立一个 websocket 通道。云端为了后续通过该 websocket 通道和边缘节点通信,需要将这个通道作为 session 保存在云端。表现在数据结构上就是一个“内网 IP”为 key,session (websocket 通道)为 value 的 map。

看到这里,各位开发者应该就很容易理解了,如果内网 IP 相同,则会覆盖较早加入集群的边缘节点的 session 记录。这时云端去查找“被覆盖了 session 的边缘节点”上 POD 的监控和运维数据,肯定是找不到的。

问题的根本原因找到了,解决的思路也就比较明确了,下一小节笔者简单阐述下这个问题的解决思路。

下图是在 KubeEdge 的边缘场景下,logs 功能的时序图,感兴趣的开发者可以进一步了解。

解决思路

上一节梳理清楚了根本原因,解决思路也就比较清晰明了。本着非侵入式的改造原则,尽量少改动 KubeSphere 和 KubeEdge,对上层业务逻辑进行增强和扩展是笔者心目中的最佳选择。

既然根本原因是 IP 冲突导致 session 被覆盖,那就很自然的想到提供集群内不重复 IP 的分配服务,也就是常说的 IPAM。在云端的业务逻辑层引入 IPAM 服务,为用户边缘节点提供集群内唯一的 IP 分配能力。

同时还需要关注一点的是,IPAM 服务分配出来的唯一 IP 属于内部实现,不能当作 “Internal IP” 展示给用户。用户看到的边缘节点内网 IP 地址仍然是用户自行规划和填写的 IP,只不过改造后的内网 IP 不再作为 session 的 key,也不再需要进行冲突查验,只在页面上展示方便用户搜索,提高产品的易用性。

下面就是该思路下的节点加入流程图,供各位开发者参考。

根据上面的流程图,笔者也大概罗列一下上述解决方案,需要修改的点:

  1. 新建集群内 IPAM 服务,提供分配,回收 IP 等功能,注意并发处理。
  2. 新建业务层节点服务,提供节点名称,展示用 IP,唯一 IP 等持久化能力。
  3. 修改 keadm 和 edgecore,支持 node IP 可选
  4. 修改 cloudcore,在节点注册时通过节点名称查询唯一 IP,作为 Internal IP 注册节点。
  5. 在业务层北向接口隐藏唯一 IP(K8s 上的 internal IP),替换成用户输入的展示 IP。

后记

通过对现象和原理的分析,我们提出了在公有云环境下基于 KubeSphere 的边缘节点 IP 冲突问题的解决方案。限于笔者的技术能力,有可能还存在着更为简单有效的解决办法,欢迎各位开发者提出宝贵意见,让我们一起把基于 KubeSphere 的边缘解决方案做大做强。

本文由博客一文多发平台 OpenWrite 发布!

KubeSphere 边缘节点 IP 冲突的分析和解决思路分享的更多相关文章

  1. Maven依赖版本冲突的分析及解决小结

    1:前言 做软件开发这几年遇到了许多的问题,也总结了一些问题的解决之道,之后慢慢的再遇到的都是一些重复性的问题了,当然,还有一些自己没有完全弄明白的问题.如果做的事情是重复的,遇到重复性问题的概率也就 ...

  2. Maven 3-Maven依赖版本冲突的分析及解决小结 (阿里,美团,京东面试)

    举例A依赖于B及C,而B又依赖于X.Y,而C依赖于X.M,则A除引B及C的依赖包下,还会引入X,Y,M的依赖包(一般情况下了,Maven可通过<scope>等若干种方式控制传递依赖).这里 ...

  3. Maven 3-Maven依赖版本冲突的分析及解决小结

    我自己遇到了一个问题: 我需要使用一个api,这个api已经引入包:slf4j-log4j12 所以,在自己的pom中,如果引入了这个包,需要exclude掉: 因为在pom.xml中查询是找不到的, ...

  4. Linux load average负载量分析与解决思路

    一.load average top命令中load average显示的是最近1分钟.5分钟和15分钟的系统平均负载.系统平均负载表示 系统平均负载被定义为在特定时间间隔内运行队列中(在CPU上运行或 ...

  5. Ajax跨越问题原因分析与解决思路

    1.什么是AJAX跨域问题 简单来说,就是前端调用后端服务接口时 如果服务接口不是同一个域,就会产生跨域问题 2.AJAX跨域场景 前后端分离.服务化的开发模式 前后端开发独立,前端需要大量调用后端接 ...

  6. 边缘节点 如何判断CDN的预热任务是否执行完成刷新 路由追踪 近期最少使用算法

    阿里云内容分发网络(Content Delivery Network,简称CDN)是建立并覆盖在承载网之上,由分布在不同区域的边缘节点服务器群组成的分布式网络.阿里云CDN分担源站压力,避免网络拥塞, ...

  7. 从 lite-apiserver 看 SuperEdge 边缘节点自治

    引言 在 SuperEdge 0.2.0版本中,lite-apiserver 进行了重大的架构升级和功能增强.本文将从 lite-apiserver 实现及其与其它 SuperEdge 组件协同的角度 ...

  8. 局域网内IP冲突怎么办

      对于在Internet和Intranet网络上,使用TCP/IP协议时每台主机必须具有独立的IP地址,有了IP地址的主机才能与网络上的其它主机进行通讯.但IP地址冲突会造成网络客户不能正常工作,只 ...

  9. CDN边缘节点容器调度实践(下)

    5月27日,OSC 源创会在上海成功举办.又拍云系统开发高级工程师黄励博在大会分享了<CDN 边缘节点容器调度的实践>.主要介绍又拍云自主开发的边缘节点容器调度方案,从 0 到 1 ,实现 ...

  10. CDN之多边缘节点负载均衡--学习笔记

    一.剧情 剧情是这样的,本次的多边缘节点负载均衡实验,1个LVS四层负载均衡集群和1个Nginx为反向代理的七层负载均衡集群,由Bind dns解析作为 主负载均衡服务器,调度两个集群,中间层有一台W ...

随机推荐

  1. 2018年视频,路径规划:层次化路径规划系统——hierarchical pathfinding system —— Hierarchical Dynamic Pathfinding for Large Voxel Worlds (续)

    前文: 2018年视频,路径规划:层次化路径规划系统--hierarchical pathfinding system -- Hierarchical Dynamic Pathfinding for ...

  2. 国产芯片 —— 2023年龙芯最新的 3A6000 确实已经追上 2020年发布的 10代 i3酷睿 四核处理器

    看新闻: https://news.cnblogs.com/n/752564/ 首先,龙芯3A6000已经有了i3酷睿10代的水平,这是十分可喜可贺的,可以说这个CPU的性能已经是国产CPU的天花板了 ...

  3. 查看并添加python中库的搜索路径

    根据前文  pip install --user 使用方法和注意事项--python中安装module库到用户packages路径中 我们知道python中除了自身的全局module lib路径以外还 ...

  4. 词云图大师(WordCloudMaster)上线Web端!

    我们非常激动地宣布,词云图大师(WordCloudMaster)现已正式上线Web端!这一全新版本为用户带来了更多的便捷和功能,让创建和分享词云变得更加轻松.无论是企业.教育机构还是个人用户,都可以通 ...

  5. 【技术积累】如何处理Feign的超时问题

    在使用Feign进行微服务之间的通信时,由于网络延迟等原因,可能会出现请求超时的情况.为了解决这个问题,我们可以对Feign进行配置,设置超时时间. 配置Feign的超时时间 在使用Feign时,我们 ...

  6. br4gOnB4ll靶机笔记

    br4gOnB4ll靶机笔记 这是一台vulnhub上的免费靶机,比较简单. 1.主机发现 主机发现 -sn 只做ping扫描,不做端口扫描 nmap -sn 192.168.84.1/24 Star ...

  7. zabbix 应用框架分析

    本文通过源码分析,探究zabbix web应用的整体架构,所有分析基于zabbix 3.0.10进行. 总体而言,zabbix web应用使用PHP开发,大量应用OOP方法,主要采用mvc架构,同时包 ...

  8. windows权限维持汇总

    Windows 权限维持 一.文件层面 1)attrib 使用 Attrib +s +a +h +r 命令 s:设置系统属性(System) a:设置存档属性(Archive) h:设置隐藏属性(Hi ...

  9. elastersearch7.6.1搭建及基本操作详解

    搭建 修改系统参数 vim /etc/security/limits.conf * soft nofile 655350 * hard nofile 655350 * soft nofile 6553 ...

  10. docker系列教程:docker图形化工具安装及docker系列教程总结

    通过前面的学习,我们已经掌握了docker-compose容器编排及实战了.高级篇也算快完了.有没有相关,我们前面学习的时候,都是通过命令行来操作docker的,难道docker就没有图形化工具吗?答 ...