k8s容器互联-flannel host-gw原理篇

容器系列文章

容器系列视频

简析host-gw

前面分析了flannel vxlan模式进行容器跨主机通信的原理,但是vxlan模式需要对数据包进行额外的封包解包处理,带来的开销较大。

所以flannel提供了另外一种纯3层转发的通信模式,叫做host-gw,顾明思议,这种模式是将主机作为网关在用了。

先来看下网关在ip通信中的作用,例如,一个tcp包有源ip和目的ip,如果目的ip匹配不到路由信息,那么就会将包转发到网关,在一个发往目的ip的过程中,可能会经过多个网关。

网关的本质是作为ip通信的中转站,网络包在传输过程中,目的ip是不会变的,一直在变化的是mac地址,每到达一台主机,那么目的mac地址就会发生变化,变成下一个网关的mac地址,数据包需要到达的下一台主机被称作”下一跳“(next hop)。

了解了网关的作用,再来看看flannel host-gw模式在k8s节点上做了哪些改动。

集群基本信息

这里我同样是启动了一个3节点的集群,cni插件就是用flannel,模式是host-gw模式。

net-conf.json: |
{
"Network": "10.10.0.0/16",
"Backend": {
"Type": "host-gw"
}
}

集群节点信息

parallels@master:~/k8s$ kubectl get nodes -o wide
NAME STATUS ROLES AGE VERSION INTERNAL-IP EXTERNAL-IP OS-IMAGE KERNEL-VERSION CONTAINER-RUNTIME
master Ready control-plane,master 13d v1.23.3 192.168.2.17 <none> Ubuntu 22.04 LTS 5.15.0-58-generic docker://20.10.12
worker1 Ready <none> 13d v1.23.3 192.168.2.16 <none> Ubuntu 22.04 LTS 5.15.0-60-generic docker://20.10.12
worker2 Ready <none> 13d v1.23.3 192.168.2.15 <none> Ubuntu 22.04 LTS 5.15.0-60-generic docker://20.10.12

然后用busybox镜像启动了4个pod

parallels@master:~/k8s$ kubectl  get pods -o wide
NAME READY STATUS RESTARTS AGE IP NODE NOMINATED NODE READINESS GATES
busybox-8647b8666c-jpnb6 1/1 Running 0 21m 10.10.1.6 worker1 <none> <none>
busybox-8647b8666c-pg7ps 1/1 Running 0 21m 10.10.2.4 worker2 <none> <none>
busybox-8647b8666c-sgf8v 1/1 Running 0 21m 10.10.1.5 worker1 <none> <none>
busybox-8647b8666c-zlxmm 1/1 Running 0 21m 10.10.2.3 worker2 <none> <none>

我们的目的就是看看worker1节点上的ip为10.10.1.6 的pod 是如何ping通 worker2节点上的ip为 10.10.2.4 的pod的。

分析集群内部网络流动方向

为了接下来的分析更加形象化,这里我先贴上一张集群内部的网络拓扑图。后续的分析都可以随时回顾下这张图。

先从10.10.1.6的pod看起,进入10.10.1.6的pod查看路由信息。

worker1节点上的ip为10.10.1.6的pod路由信息

parallels@master:~/k8s$ kubectl exec -it busybox-8647b8666c-jpnb6 /bin/sh
kubectl exec [POD] [COMMAND] is DEPRECATED and will be removed in a future version. Use kubectl exec [POD] -- [COMMAND] instead.
/ #
/ # ip route
default via 10.10.1.1 dev eth0
10.10.0.0/16 via 10.10.1.1 dev eth0
10.10.1.0/24 dev eth0 scope link src 10.10.1.6

默认网关是10.10.1.1 ,这个ip地址其实就是worker1节点上cni0网桥的ip地址

可以查到worker1节点上cni0的ip地址

parallels@worker1:~$ ifconfig
cni0: flags=4163<UP,BROADCAST,RUNNING,MULTICAST> mtu 1500
inet 10.10.1.1 netmask 255.255.255.0 broadcast 10.10.1.255

所以在ip为10.10.1.6的pod内部去ping上worker2节点的pod ip 10.10.2.4 会匹配上第二条路由信息,然后由eth0网卡出去,网关地址是10.10.1.1,所以网络包就从pod内部传送到了worker1的cni0网桥上。

cni0网桥会将mac地址为其自身mac地址的数据包转发到主机的3层网络中,而具体要怎么路由,则是需要看worker1主机上的路由规则。

parallels@worker1:~$ ip route
default via 192.168.2.1 dev enp0s5 proto dhcp src 192.168.2.16 metric 100
10.10.0.0/24 via 192.168.2.17 dev enp0s5
10.10.1.0/24 dev cni0 proto kernel scope link src 10.10.1.1
10.10.2.0/24 via 192.168.2.15 dev enp0s5
172.17.0.0/16 dev docker0 proto kernel scope link src 172.17.0.1 linkdown
192.168.2.0/24 dev enp0s5 proto kernel scope link src 192.168.2.16 metric 100
192.168.2.1 dev enp0s5 proto dhcp scope link src 192.168.2.16 metric 100

这些节点上路由的配置是由flannel 在每个节点上启动的flanneld进程去进行的配置的,配置信息来源是k8s集群内部的etcd集群

我们发送的数据包目的ip是10.10.2.4 ,它会匹配上worker1主机的第二条路由信息,第二条路由信息是在说访问10.10.0.0/24 网段的数据包都将由enp0s5网卡发出,并且网关地址也就是下一跳的ip地址是192.168.2.17,而192.168.2.17 就是worker2的ip地址。

为了看的更加清晰,我们再来回顾下开局的图。

这样数据包就到达到worker2节点了,到了worker2节点后,数据包的如何流动是看worker2节点上的路由规则,所以我们再来看下节点2上面的路由规则。记住数据包的目的ip是10.10.2.4。

parallels@worker2:~$ ip route
default via 192.168.2.1 dev enp0s5 proto dhcp src 192.168.2.15 metric 100
10.10.0.0/24 via 192.168.2.17 dev enp0s5
10.10.1.0/24 via 192.168.2.16 dev enp0s5
10.10.2.0/24 dev cni0 proto kernel scope link src 10.10.2.1
172.17.0.0/16 dev docker0 proto kernel scope link src 172.17.0.1 linkdown
192.168.2.0/24 dev enp0s5 proto kernel scope link src 192.168.2.15 metric 100
192.168.2.1 dev enp0s5 proto dhcp scope link src 192.168.2.15 metric 100

匹配上了第4条路由规则,发往 10.10.2.0/24 的网段的数据包是要被cni0网桥处理的,所以数据包来到了worker2节点上的cni0网桥上,cni0是如何找到要发送的目的ip的veth端口的呢?

pod内部的eth0 网卡其实就是个veth设备,veth设备一端连接在pod的网路命名空间中,一端连接在网桥上,从veth的一端发出去的网络包一定能够被另一端接收。

网桥收到主机发来的数据包后,首先看自身有没有数据包的目的ip的端口记录,如果有,那么就从该端口发送数据包,因为连接的veth设备,所以从端口发送出去后,一定能到达pod的内部,veth设备就像是网线一样。

如果没有记录,那么网桥会向通过arp协议广播帧,得到回应后便能知道端口与ip的映射关系。从而将数据包发往正确的端口。

这样一个数据包就完全的从一台主机通过路由规则到达到了另外一台主机,而主机ip实际上是被当成网关,作为原ip地址的下一跳地址了。

host-gw的优缺点

相比于vxlan模式,因为少了封包解包的操作,会提升数据传输的性能。但由于这是一个纯3层转发的方案,要想主机作为的网关的前提,必须是集群中的两台主机是一个二层连通的环境中。

k8s容器互联-flannel host-gw原理篇的更多相关文章

  1. 用阿里云ecs部署kubernetes/K8S的坑(VIP、slb、flannel、gw模式)

    1 阿里云ecs不支持keepalived vip 1.1 场景描述 本来计划用keepalived配合nginx做VIP漂移,用以反代多台master的apiserver的6443端口,结果部署了v ...

  2. k8s网络之Flannel网络

    k8s网络主题系列: 一.k8s网络之设计与实现 二.k8s网络之Flannel网络 三.k8s网络之Calico网络 简介 Flannel是CoreOS团队针对Kubernetes设计的一个网络规划 ...

  3. Tomcat 原理篇

    TOMCAT 原理篇一.Tomcat 组成(Tomcat 由以下组件组成) 1.server a) Server是一个Catalina Servlet容器: b) Server 可以包含一个或多个se ...

  4. docker 实践五:端口映射和容器互联

    本篇是关于 docker 容器的端口映射和容器之间的互联内容. 注:环境为 CentOS7,docker 19.03. docker 的容器除了能连接网络外,在许多时候,我们需要让多个容器来协同完成任 ...

  5. 【如何快速的开发一个完整的iOS直播app】(原理篇)

    原文转自:袁峥Seemygo    感谢分享.自我学习 目录 [如何快速的开发一个完整的iOS直播app](原理篇) [如何快速的开发一个完整的iOS直播app](播放篇) [如何快速的开发一个完整的 ...

  6. iOS:app直播---原理篇

    [如何快速的开发一个完整的iOS直播app](原理篇) 转载自简书@袁峥Seemygo:http://www.jianshu.com/p/7b2f1df74420   一.个人见解(直播难与易) 直播 ...

  7. 如何快速的开发一个完整的iOS直播app(原理篇)

    目录 [如何快速的开发一个完整的iOS直播app](原理篇) [如何快速的开发一个完整的iOS直播app](播放篇) [如何快速的开发一个完整的iOS直播app](采集篇) 前言 大半年没写博客了,但 ...

  8. Docker - 容器互联

    容器互联 通过docker run命令的--link参数可以让容器之间通过连接(linking)系统进行交互. 参数格式:--link name:alias ,name是要链接的容器名称, alias ...

  9. 8天入门docker系列 —— 第五天 使用aspnetcore小案例熟悉容器互联和docker-compose一键部署

    这一篇继续完善webnotebook,如果你读过上一篇的内容,你应该知道怎么去挂载webnotebook日志和容器的远程访问,但是这些还远不够,webnotebook 总要和一些数据库打交道吧,比如说 ...

  10. Docker基础-端口映射与容器互联

    1.端口映射实现访问容器 1.从外部访问容器应用 在启动容器的时候,如果不指定对应的参数,在容器外部是无法通过网络来访问容器内部的网络应用和服务的. 当容器中运行一些网络应用,要让外部访问这些应用时, ...

随机推荐

  1. bean依赖注入三种方式

    bean依赖注入的三种方式如下: 1.构造方法注入 2.set方法注入 3.P命名空间注入 此处演示的项目结构如下: 方法一: 构造方法注入 UserDaoImpl.java public class ...

  2. 代码随想录算法训练营第二天| 977.有序数组的平方 ,209.长度最小的子数组 ,59.螺旋矩阵II

    977.有序数组的平方 :https://leetcode.cn/problems/squares-of-a-sorted-array/ 心得:周末再写... public class Solutio ...

  3. 如何解决7z: command not found问题

    7z是一种常见的压缩文件格式,如果你想要压缩或解压缩7z文件,你需要在你的系统上安装p7zip和p7zip-full.但是,有时候你会发现当你尝试运行7z或7za命令时,它会显示"bash: ...

  4. percona mongo热备

    https://www.percona.com/doc/percona-server-for-mongodb/LATEST/hot-backup.html#hot-backup Hot Backup ...

  5. 许可协议 :GPL、BSD、MIT、Mozilla、Apache和LGPL

    原文摘自:https://blog.csdn.net/testcs_dn/article/details/38496107 首先借用有心人士的一张相当直观清晰的图来划分各种协议:开源许可证GPL.BS ...

  6. js 将多层json对象 转化为一层json

    const parse = data => { const uid = `uid_${Date.now()}`; const process = (input, prefix = '', jso ...

  7. 在Eclipse 中导入maven项目, progress对话框中出现importing maven project的进度条卡住

    一.在Eclipse配置Maven 方法1:在Eclipse上下载,太慢了,不用 方法2:在电脑本地下载,然后Eclipse载入 二.方法2详细步骤 1.官网下载:http://maven.apach ...

  8. curl curl请求

    $params=[ "a"=>"test", "b"=>"测试" ]; $header=[ "Co ...

  9. win10启动和安装nacos服务

    https://blog.csdn.net/tbmingzhao/article/details/113276845

  10. [Leetcode 235/236]LCA二叉树最近公共祖先Lowest Common Ancestor of a Binary Tree

    题目 给定二叉树和两个点,求两点的LCA最近公共祖先 Given a binary tree, find the lowest common ancestor (LCA) of two given n ...