四层负载均衡常见架构
大部分的国外企业和公有云都是采用的非FNAT的方式,比较少用DR,大部分都是DNAT和SNAT的方案。
网络入口的位置做DNAT的大好处是客户端可以拿到CIP(Client IP),而做DNAT的过程同时就是一个负载均衡的过程。因为DNAT的目的就是为了选择一个RS,当然可以只配置一个RS,这样做就是相当于一个外网IP的入口处的绑定。但是更多的情况是用在企业的负载均衡的核心入口的位置,DNAT收敛外网IP,并且选择一个内部RS的内网IP。
但是这个架构就带来另外一个问题,就是出去的时候,由于目标地址已经被改变了,所以就需要再做SNAT。在哪里做SNAT这个事情是一个非常严肃的问题。因为DNAT集群是只管进入的流量的,而SNAT是只管出去的流量的,一个很容易想到的方案是DNAT和SNAT采用单独的分开的集群。这样两个集群同时管理两份流表。并且CIP发起的连接,由于DNAT选择了RS,在回复的时候如何把RS的RIP转变为DNAT入口的VIP就是一个需要解决的问题。
如果交给单独的集群解决,就需要和DNAT集群同步VIP和RS的映射关系。这个同步并不难,所以这也是一种不错的方案。事实上,这种方案被大量的采用。刚说的是CIP主动发起连接的情况,但是如果是RIP主动发起连接的情况,首先执行的就是SNAT,但是从DNAT进来的时候就不知道该选择哪个RIP。因为SNAT之后,对客户端发送数据使用的是VIP,而客户端回复的也是VIP,在DNAT集群那里就看不到VIP和RS的对应关系,就不知道该如何的选择。
微软AZURE的方案使用DNAT集群作为入口,但是流量出去的时候是在本机做SNAT,并没有使用单独的SNAT集群。虽然可以很方便的解决CIP主动发起连接的情况,但是对于RIP主动发起连接的情况,仍然会面临同样的返回如何选择RS的问题。但是,微软做了同步,也就是在本地做SNAT决策的时候,会选择一个VIP和一个端口,这个VIP:VPORT,RIP,RPORT和CIP:CPORT的对应信息会被同步到DNAT的入口集群,以此完成一个DNAT集群对于SNAT出扣感知的操作。显然这个操作是非常的损耗性能的,但是考虑到SNAT的数据量不会太大,大部分的主机都是用作服务器从外部接受连接,所以同步的方案也是可以接受的。
事实上,单独的SNAT集群也许要同步同样的信息。
这样的方案还有一个大的问题是,DNAT和SNAT双方被割裂。安全上比较难做。需要两边配合的事情比较难做,但是实际上,这种需求也不大,所以很多企业就是直接用的DNAT集群。
比DNAT集群在管理上方便的是Tunnel集群,从入口到RIP的数据包是打Tunnel的,相当于在入口处创建了一个Overlay的网络。Overlay网络的意思是在物理网络上组建一个虚拟的网络,虚拟网络依托于物理网络,但是又有自己的路由能力。Tunnel作为网络的入口的特点是非常简单,在RS的主机上可以拿到完整的CIP和VIP的信息,所以RS服务器的流量出去的时候,也是直接填写了CIP,使用自己的VIP信息,不需要经过SNAT节点,因为Tunnel操作需要在RS的主机上配置一个管道,管道里面就是一模一样的CIP发送而来的数据包,所以Tunnel方案是不需要做SNAT的。Tunnel的缺点也很明显,需要在每个主机上配置一个Tunnel设备,这在很多服务器环境是比较难推动的。而且,Tunnel由于添加了IP头部,所以MTU必定要对应的减小,也就是CIP发送来的数据就不能采用大的MTU。相当于总体浪费了大于10%的吞吐能力。
Tunnel模型如果主动对外发起连接,就是完全不经过入口的,即使是回复也不能经过入口,因为它面临的问题与DNAT一样。入口负载均衡设备不知道该如何选择RS。Tunnel模式在配置上的特殊性在于每个RS需要配置一个拥有VIP的网卡设备和一个拥有内网IP的Tunnel设备。而这个拥有VIP得网卡设备在不同的RS机器上竟然可以是一样的。因为这个网卡是Tunnel解了包装之后得到的目的IP,这个目的IP就必须在本地有对应的网卡设备。
对于国内阿里和腾讯使用的FNAT的模式,负载均衡没有太好的办法。因为FNAT的模式要求每个节点是可路由的,也就是从哪里出去,从哪里回来。这个要求就使得每个节点的位置不一样,也就是不是ECMP下的完全对等的节点,而是有IP地址的普通网络设备。但是也正是因为如此,所以FNAT的模式不需要讲默认路由指向它,所以FNAT和其他的网关设备可以同时存在。
相关文章