绿色记忆:内核缺陷触发的NodePort服务63秒延迟问题

内核缺陷触发的NodePort服务63秒延迟问题

现象

我们有一个新创建的TKE 1.3.0集群，使用基于Galaxy + Flannel（VXLAN模式）的容器网络，集群由三个二层互通的Master节点 10.0.0.11、 10.0.0.12、 10.0.0.13组成。在访问宿主机端口为 30153的NodePort类型的Service时，出现了很有趣的现象：

在节点 10.0.0.11、 10.0.0.13节点上 curl http://localhost:30153，有50%几率卡住
在节点 10.0.0.12上 curl http://localhost:30153，100%几率卡住
从集群内部，访问非本节点的30153端口，畅通
从集群外部，访问任意节点的30153端口，畅通

三个节点本身并无差异，卡住几率不同，可能和服务的端点（Endpoint，即Pod）的分布情况有关。

NodePort服务的定义如下：

apiVersion: v1

kind: Service

metadata:

name: kube-dns-nodeport

namespace: kube-system

spec:

externalTrafficPolicy: Cluster

ports:

- name: metrics

nodePort: 30153

port: 9153

protocol: TCP

targetPort: 9153

selector:

k8s-app: kube-dns

sessionAffinity: None

type: NodePort

该服务的端点有两个：

kubectl -n kube-system get pod -l k8s-app=kube-dns -o wide

NAME READY STATUS RESTARTS AGE IP NODE NOMINATED NODE READINESS GATES

coredns-bbc9b5888-r72zd 1/1 Running 0 140m 172.29.0.2 10.0.0.11 <none> <none>

coredns-bbc9b5888-v6wx6 1/1 Running 0 10m 172.29.2.3 10.0.0.13 <none> <none>

可以看到，端点在10.0.0.11、10.0.0.13上分别有一个。假设容器网络存在问题，只能访问本机的Pod，则能解释前面的卡住现象 —— 10.0.0.12上没有端点，因此一直卡住。10.0.0.11、10.0.0.13分别占有50%端点，因此50%几率卡住。

但是，我们在任意节点直接访问Pod，发现都是畅通的：

curl http://172.29.0.2:9153

404 page not found

curl http://172.29.2.3:9153

404 page not found

这说明故障和容器网络没有直接关系。

分析

内层封包

我们在10.0.0.11向localhost:30153发起请求，并且抓取卡住时的封包：

# 经过iptables时，DNAT为POD_IP:9153，SNAT为宿主机eth0地址

curl http://127.0.0.1:30153

tcpdump -ttttt -nn -vvv -i any 'tcp port 9153'

# 请求端

# SYN 0

00:00:00.000000 IP (tos 0x0, ttl 64, id 42199, offset 0, flags [DF], proto TCP (6), length 60)

172.29.0.0.40233 > 172.29.2.3.9153: Flags [S], cksum 0x5a6c (incorrect -> 0xd480), seq 1769165320, win 43690, options [mss 65495,sackOK,TS val 19658463 ecr 0,nop,wscale 9], length 0

# SYN 1

00:00:01.000549 IP (tos 0x0, ttl 64, id 42200, offset 0, flags [DF], proto TCP (6), length 60)

172.29.0.0.40233 > 172.29.2.3.9153: Flags [S], cksum 0x5a6c (incorrect -> 0xd097), seq 1769165320, win 43690, options [mss 65495,sackOK,TS val 19659464 ecr 0,nop,wscale 9], length 0

# SYN 2

00:00:03.005510 IP (tos 0x0, ttl 64, id 42201, offset 0, flags [DF], proto TCP (6), length 60)

172.29.0.0.40233 > 172.29.2.3.9153: Flags [S], cksum 0x5a6c (incorrect -> 0xc8c2), seq 1769165320, win 43690, options [mss 65495,sackOK,TS val 19661469 ecr 0,nop,wscale 9], length 0

# SYN 3

00:00:07.008579 IP (tos 0x0, ttl 64, id 42202, offset 0, flags [DF], proto TCP (6), length 60)

172.29.0.0.40233 > 172.29.2.3.9153: Flags [S], cksum 0x5a6c (incorrect -> 0xb91f), seq 1769165320, win 43690, options [mss 65495,sackOK,TS val 19665472 ecr 0,nop,wscale 9], length 0

# SYN 4

00:00:15.024516 IP (tos 0x0, ttl 64, id 42203, offset 0, flags [DF], proto TCP (6), length 60)

172.29.0.0.40233 > 172.29.2.3.9153: Flags [S], cksum 0x5a6c (incorrect -> 0x99cf), seq 1769165320, win 43690, options [mss 65495,sackOK,TS val 19673488 ecr 0,nop,wscale 9], length 0

# SYN 5

00:00:31.072562 IP (tos 0x0, ttl 64, id 42204, offset 0, flags [DF], proto TCP (6), length 60)

172.29.0.0.40233 > 172.29.2.3.9153: Flags [S], cksum 0x5a6c (incorrect -> 0x5b1f), seq 1769165320, win 43690, options [mss 65495,sackOK,TS val 19689536 ecr 0,nop,wscale 9], length 0

# SYN 6 63秒

00:01:03.136526 IP (tos 0x0, ttl 64, id 42205, offset 0, flags [DF], proto TCP (6), length 60)

172.29.0.0.40233 > 172.29.2.3.9153: Flags [S], cksum 0x5a6c (incorrect -> 0xddde), seq 1769165320, win 43690, options [mss 65495,sackOK,TS val 19721600 ecr 0,nop,wscale 9], length 0

# SYN+ACK 通讯建立

00:01:03.137188 IP (tos 0x0, ttl 63, id 0, offset 0, flags [DF], proto TCP (6), length 60)

172.29.2.3.9153 > 172.29.0.0.40233: Flags [S.], cksum 0xbdbe (correct), seq 4208932479, ack 1769165321, win 27960, options [mss 1410,sackOK,TS val 19735883 ecr 19721600,nop,wscale 9], length 0

# 服务端

# 这个报文在63秒后才收到

# SYN 6

00:00:00.000000 IP (tos 0x0, ttl 64, id 42205, offset 0, flags [DF], proto TCP (6), length 60)

172.29.0.0.40233 > 172.29.2.3.9153: Flags [S], cksum 0xddde (correct), seq 1769165320, win 43690, options [mss 65495,sackOK,TS val 19721600 ecr 0,nop,wscale 9], length 0

00:00:00.000025 IP (tos 0x0, ttl 63, id 42205, offset 0, flags [DF], proto TCP (6), length 60)

172.29.0.0.40233 > 172.29.2.3.9153: Flags [S], cksum 0xddde (correct), seq 1769165320, win 43690, options [mss 65495,sackOK,TS val 19721600 ecr 0,nop,wscale 9], length 0

00:00:00.000065 IP (tos 0x0, ttl 64, id 0, offset 0, flags [DF], proto TCP (6), length 60)

172.29.2.3.9153 > 172.29.0.0.40233: Flags [S.], cksum 0x5a6c (incorrect -> 0xbdbe), seq 4208932479, ack 1769165321, win 27960, options [mss 1410,sackOK,TS val 19735883 ecr 19721600,nop,wscale 9], length 0

可以注意到：

当Service负载均衡到本机的Pod时畅通，负载均衡到其它节点的Pod时卡住。这就是50%卡住的原因
并非彻底卡死，在63秒后，SYN成功

iptables规则

从上面的抓包结果分析，我们初步判断故障和iptables没有关系。iptables导致的问题可能是无限卡死直到超时（静默的丢弃了报文）、ICMP错误、TCP RST等，通常不会出现过了一段时间自动恢复的情况。

然后，这个故障很特别，它的确是由iptables规则所触发的。我们是后来查找资料才发现的这一事实，这里先列出相关的规则。其中PREROUTING阶段的规则如下：

# iptables -L -n -v -t nat

Chain PREROUTING (policy ACCEPT 1 packets, 60 bytes)

pkts bytes target prot opt in out source destination

# 所有封包都要这经过这个链

# kubernetes service portals

46185 2817K KUBE-SERVICES all -- * * 0.0.0.0/0 0.0.0.0/0

Chain KUBE-SERVICES (2 references)

pkts bytes target prot opt in out source destination

# 这些会匹配ClusterIP，和本场景无关

# kube-system/kube-dns:metrics cluster IP

# 0 0 KUBE-SVC-JD5MR3NA4I4DYORP tcp -- * * 0.0.0.0/0 172.29.255.10 tcp dpt:9153

#kube-system/kube-dns-nodeport:metrics cluster IP

# 0 0 KUBE-SVC-CZA6AQQ7F4S64XIF tcp -- * * 0.0.0.0/0 172.29.255.56 tcp dpt:9153

# default/kubernetes:https cluster IP

# 0 0 KUBE-SVC-NPX46M4PTMTKRN6Y tcp -- * * 0.0.0.0/0 172.29.255.1 tcp dpt:443

# kube-system/kube-dns:dns cluster IP

# 0 0 KUBE-SVC-TCOU7JCQXEZGVUNU udp -- * * 0.0.0.0/0 172.29.255.10 udp dpt:53

#kube-system/kube-dns:dns-tcp cluster IP

# 0 0 KUBE-SVC-ERIFXISQEP7F7OF4 tcp -- * * 0.0.0.0/0 172.29.255.10 tcp dpt:53

# 不是访问ClusterIP的、目的地址是本机绑定地址的封包，都要经过这个链

# kubernetes service nodeports; NOTE: this must be the last rule in this chain

678 40680 KUBE-NODEPORTS all -- * * 0.0.0.0/0 0.0.0.0/0 ADDRTYPE match dst-type LOCAL

Chain KUBE-NODEPORTS (1 references)

pkts bytes target prot opt in out source destination

# 匹配本场景（目标端口30153），会给封包打标记，因此不会终止规则链遍历

# kube-system/kube-dns-nodeport:metrics

0 0 KUBE-MARK-MASQ tcp -- * * 0.0.0.0/0 0.0.0.0/0 tcp dpt:30153

# 匹配本场景（目标端口30153），跳转到NodePort的目标服务的专属规则链

# kube-system/kube-dns-nodeport:metrics

0 0 KUBE-SVC-CZAXXX tcp -- * * 0.0.0.0/0 0.0.0.0/0 tcp dpt:30153

Chain KUBE-MARK-MASQ (8 references)

pkts bytes target prot opt in out source destination

# 封包会被打上 0x4000标记

0 0 MARK all -- * * 0.0.0.0/0 0.0.0.0/0 MARK or 0x4000

# 这个是NodePort的目标服务的专属规则链，随机转发给某个服务端点

Chain KUBE-SVC-CZAXXX (2 references)

pkts bytes target prot opt in out source destination

# kube-system/kube-dns-nodeport:metrics

0 0 KUBE-SEP-DZXXXX all -- * * 0.0.0.0/0 0.0.0.0/0 statistic mode random probability 0.50000000000

# kube-system/kube-dns-nodeport:metrics

0 0 KUBE-SEP-COSXXX all -- * * 0.0.0.0/0 0.0.0.0/0

# 这是NodePort服务的某个端点的专属规则链

Chain KUBE-SEP-DZXXXX (1 references)

pkts bytes target prot opt in out source destination

# kube-system/kube-dns-nodeport:metrics

0 0 KUBE-MARK-MASQ all -- * * 172.29.2.3 0.0.0.0/0

# 匹配本场景，进行DNAT，将目的地址从本机地址转为服务端点地址，如果端点不在本机，报文会从flannel.1接口发出

# kube-system/kube-dns-nodeport:metrics

0 0 DNAT tcp -- * * 0.0.0.0/0 0.0.0.0/0 tcp to:172.29.2.3:9153

我们可以看到，如果服务端点不在本机，发往localhost:30153的封包，会被先打上0x4000标记，然后DNAT到服务端点的IP:PORT（例如172.29.2.3:9153），这会保证封包从flannel.1发出。

POSTROUTING阶段的规则如下：

Chain POSTROUTING (policy ACCEPT 2 packets, 120 bytes)

pkts bytes target prot opt in out source destination

# kubernetes postrouting rules

83159 5015K KUBE-POSTROUTING all -- * * 0.0.0.0/0 0.0.0.0/0

Chain KUBE-POSTROUTING (1 references)

pkts bytes target prot opt in out source destination

# kubernetes service traffic requiring SNAT

0 0 MASQUERADE all -- * * 0.0.0.0/0 0.0.0.0/0 mark match 0x4000/0x4000 random-fully

可以看到，这里做了SNAT，任何具有0x4000标记的封包，都被SNAT，确保使用flannel.1的地址作为源IP。

63秒现象

经过反复测试，发现卡住时，总是会消耗63秒左右，然后接收到响应。

63秒这个数字，和TCP默认的SYN重试机制有关。SYN如果没有收到ACK，发送端会自动重发SYN，每次重试的延迟时间指数增长，依次为1, 2, 4, 8, 16, 32，这会引发合计63秒的总延迟。

令人费解的是，为什么63秒之后，不是超时，而是连接成功？

外层封包

从上文抓取的TCP封包看，服务端的Pod网卡没有收到前面6次SYN，这些封包应该在链路的某个位置被丢弃了。

在VXLAN模式下，上面抓的TCP封包，会封装在UDP报文中，并通过节点物理网卡的8472端口发出。我们从外层报文的角度分析一下

# tcpdump -ttttt -n -v -i eth0 'udp port 8472'

# 畅通时，没有输出，因为访问本机的Pod时不走VXLAN

# 卡住时，请求端封包

00:00:00.000000 IP (tos 0x0, ttl 64, id 43516, offset 0, flags [none], proto UDP (17), length 110)

10.0.0.11.60142 > 10.0.0.13.8472: [bad udp cksum 0xffff -> 0x4b80!] OTV, flags [I] (0x08), overlay 0, instance 1

IP (tos 0x0, ttl 64, id 42199, offset 0, flags [DF], proto TCP (6), length 60)

172.29.0.0.40233 > 172.29.2.3.9153: Flags [S], cksum 0xd480 (correct), seq 1769165320, win 43690, options [mss 65495,sackOK,TS val 19658463 ecr 0,nop,wscale 9], length 0

00:00:01.000542 IP (tos 0x0, ttl 64, id 44011, offset 0, flags [none], proto UDP (17), length 110)

10.0.0.11.60142 > 10.0.0.13.8472: [bad udp cksum 0xffff -> 0x4b80!] OTV, flags [I] (0x08), overlay 0, instance 1

IP (tos 0x0, ttl 64, id 42200, offset 0, flags [DF], proto TCP (6), length 60)

172.29.0.0.40233 > 172.29.2.3.9153: Flags [S], cksum 0xd097 (correct), seq 1769165320, win 43690, options [mss 65495,sackOK,TS val 19659464 ecr 0,nop,wscale 9], length 0

00:00:03.005505 IP (tos 0x0, ttl 64, id 45443, offset 0, flags [none], proto UDP (17), length 110)

10.0.0.11.60142 > 10.0.0.13.8472: [bad udp cksum 0xffff -> 0x4b80!] OTV, flags [I] (0x08), overlay 0, instance 1

IP (tos 0x0, ttl 64, id 42201, offset 0, flags [DF], proto TCP (6), length 60)

172.29.0.0.40233 > 172.29.2.3.9153: Flags [S], cksum 0xc8c2 (correct), seq 1769165320, win 43690, options [mss 65495,sackOK,TS val 19661469 ecr 0,nop,wscale 9], length 0

00:00:07.008579 IP (tos 0x0, ttl 64, id 46574, offset 0, flags [none], proto UDP (17), length 110)

10.0.0.11.60142 > 10.0.0.13.8472: [bad udp cksum 0xffff -> 0x4b80!] OTV, flags [I] (0x08), overlay 0, instance 1

IP (tos 0x0, ttl 64, id 42202, offset 0, flags [DF], proto TCP (6), length 60)

172.29.0.0.40233 > 172.29.2.3.9153: Flags [S], cksum 0xb91f (correct), seq 1769165320, win 43690, options [mss 65495,sackOK,TS val 19665472 ecr 0,nop,wscale 9], length 0

00:00:15.024518 IP (tos 0x0, ttl 64, id 50068, offset 0, flags [none], proto UDP (17), length 110)

10.0.0.11.60142 > 10.0.0.13.8472: [bad udp cksum 0xffff -> 0x4b80!] OTV, flags [I] (0x08), overlay 0, instance 1

IP (tos 0x0, ttl 64, id 42203, offset 0, flags [DF], proto TCP (6), length 60)

172.29.0.0.40233 > 172.29.2.3.9153: Flags [S], cksum 0x99cf (correct), seq 1769165320, win 43690, options [mss 65495,sackOK,TS val 19673488 ecr 0,nop,wscale 9], length 0

00:00:31.072564 IP (tos 0x0, ttl 64, id 65085, offset 0, flags [none], proto UDP (17), length 110)

10.0.0.11.60142 > 10.0.0.13.8472: [bad udp cksum 0xffff -> 0x4b80!] OTV, flags [I] (0x08), overlay 0, instance 1

IP (tos 0x0, ttl 64, id 42204, offset 0, flags [DF], proto TCP (6), length 60)

172.29.0.0.40233 > 172.29.2.3.9153: Flags [S], cksum 0x5b1f (correct), seq 1769165320, win 43690, options [mss 65495,sackOK,TS val 19689536 ecr 0,nop,wscale 9], length 0

00:01:03.136538 IP (tos 0x0, ttl 64, id 19809, offset 0, flags [none], proto UDP (17), length 110)

10.0.0.11.50024 > 10.0.0.13.8472: [no cksum] OTV, flags [I] (0x08), overlay 0, instance 1

IP (tos 0x0, ttl 64, id 42205, offset 0, flags [DF], proto TCP (6), length 60)

172.29.0.0.40233 > 172.29.2.3.9153: Flags [S], cksum 0xddde (correct), seq 1769165320, win 43690, options [mss 65495,sackOK,TS val 19721600 ecr 0,nop,wscale 9], length 0

00:01:03.137105 IP (tos 0x0, ttl 64, id 63229, offset 0, flags [none], proto UDP (17), length 110)

10.0.0.13.50017 > 10.0.0.11.8472: [no cksum] OTV, flags [I] (0x08), overlay 0, instance 1

IP (tos 0x0, ttl 63, id 0, offset 0, flags [DF], proto TCP (6), length 60)

172.29.2.3.9153 > 172.29.0.0.40233: Flags [S.], cksum 0xbdbe (correct), seq 4208932479, ack 1769165321, win 27960, options [mss 1410,sackOK,TS val 19735883 ecr 19721600,nop,wscale 9], length 0

# 卡住时，服务端封包

# SYN 0

00:00:00.000000 IP (tos 0x0, ttl 64, id 43516, offset 0, flags [none], proto UDP (17), length 110)

10.0.0.11.60142 > 10.0.0.13.8472: [bad udp cksum 0xffff -> 0x4b80!] OTV, flags [I] (0x08), overlay 0, instance 1

IP (tos 0x0, ttl 64, id 42199, offset 0, flags [DF], proto TCP (6), length 60)

172.29.0.0.40233 > 172.29.2.3.9153: Flags [S], cksum 0xd480 (correct), seq 1769165320, win 43690, options [mss 65495,sackOK,TS val 19658463 ecr 0,nop,wscale 9], length 0

# SYN 1

00:00:01.000543 IP (tos 0x0, ttl 64, id 44011, offset 0, flags [none], proto UDP (17), length 110)

10.0.0.11.60142 > 10.0.0.13.8472: [bad udp cksum 0xffff -> 0x4b80!] OTV, flags [I] (0x08), overlay 0, instance 1

IP (tos 0x0, ttl 64, id 42200, offset 0, flags [DF], proto TCP (6), length 60)

172.29.0.0.40233 > 172.29.2.3.9153: Flags [S], cksum 0xd097 (correct), seq 1769165320, win 43690, options [mss 65495,sackOK,TS val 19659464 ecr 0,nop,wscale 9], length 0

# SYN 2

00:00:03.005514 IP (tos 0x0, ttl 64, id 45443, offset 0, flags [none], proto UDP (17), length 110)

10.0.0.11.60142 > 10.0.0.13.8472: [bad udp cksum 0xffff -> 0x4b80!] OTV, flags [I] (0x08), overlay 0, instance 1

IP (tos 0x0, ttl 64, id 42201, offset 0, flags [DF], proto TCP (6), length 60)

172.29.0.0.40233 > 172.29.2.3.9153: Flags [S], cksum 0xc8c2 (correct), seq 1769165320, win 43690, options [mss 65495,sackOK,TS val 19661469 ecr 0,nop,wscale 9], length 0

# SYN 3

00:00:07.008577 IP (tos 0x0, ttl 64, id 46574, offset 0, flags [none], proto UDP (17), length 110)

10.0.0.11.60142 > 10.0.0.13.8472: [bad udp cksum 0xffff -> 0x4b80!] OTV, flags [I] (0x08), overlay 0, instance 1

IP (tos 0x0, ttl 64, id 42202, offset 0, flags [DF], proto TCP (6), length 60)

172.29.0.0.40233 > 172.29.2.3.9153: Flags [S], cksum 0xb91f (correct), seq 1769165320, win 43690, options [mss 65495,sackOK,TS val 19665472 ecr 0,nop,wscale 9], length 0

# SYN 4

00:00:15.024575 IP (tos 0x0, ttl 64, id 50068, offset 0, flags [none], proto UDP (17), length 110)

10.0.0.11.60142 > 10.0.0.13.8472: [bad udp cksum 0xffff -> 0x4b80!] OTV, flags [I] (0x08), overlay 0, instance 1

IP (tos 0x0, ttl 64, id 42203, offset 0, flags [DF], proto TCP (6), length 60)

172.29.0.0.40233 > 172.29.2.3.9153: Flags [S], cksum 0x99cf (correct), seq 1769165320, win 43690, options [mss 65495,sackOK,TS val 19673488 ecr 0,nop,wscale 9], length 0

# SYN 5

00:00:31.072593 IP (tos 0x0, ttl 64, id 65085, offset 0, flags [none], proto UDP (17), length 110)

10.0.0.11.60142 > 10.0.0.13.8472: [bad udp cksum 0xffff -> 0x4b80!] OTV, flags [I] (0x08), overlay 0, instance 1

IP (tos 0x0, ttl 64, id 42204, offset 0, flags [DF], proto TCP (6), length 60)

172.29.0.0.40233 > 172.29.2.3.9153: Flags [S], cksum 0x5b1f (correct), seq 1769165320, win 43690, options [mss 65495,sackOK,TS val 19689536 ecr 0,nop,wscale 9], length 0

# SYN 6 63秒，可以看到这次没有UDP封包没有chksum了，服务端也收到SYN了

00:01:03.136659 IP (tos 0x0, ttl 64, id 19809, offset 0, flags [none], proto UDP (17), length 110)

10.0.0.11.50024 > 10.0.0.13.8472: [no cksum] OTV, flags [I] (0x08), overlay 0, instance 1

IP (tos 0x0, ttl 64, id 42205, offset 0, flags [DF], proto TCP (6), length 60)

172.29.0.0.40233 > 172.29.2.3.9153: Flags [S], cksum 0xddde (correct), seq 1769165320, win 43690, options [mss 65495,sackOK,TS val 19721600 ecr 0,nop,wscale 9], length 0

00:01:03.136830 IP (tos 0x0, ttl 64, id 63229, offset 0, flags [none], proto UDP (17), length 110)

10.0.0.13.50017 > 10.0.0.11.8472: [no cksum] OTV, flags [I] (0x08), overlay 0, instance 1

IP (tos 0x0, ttl 63, id 0, offset 0, flags [DF], proto TCP (6), length 60)

172.29.2.3.9153 > 172.29.0.0.40233: Flags [S.], cksum 0xbdbe (correct), seq 4208932479, ack 1769165321, win 27960, options [mss 1410,sackOK,TS val 19735883 ecr 19721600,nop,wscale 9], length 0

可以看到，请求端/服务端的UDP报文相互呼应，至少可以说，请求端的全部报文都送到了服务端。

但是，前面5次重试的UDP报文都被标注了bad udp cksum，最后一次UDP报文没有chksum，连接成功建立。有理由怀疑，故障和chksum有关系。

通过查阅VXLAN的RFC，在VXLAN Frame Format一章中，关于UDP封包的Checksum，具有如下说明：

UDP Checksum应该以零传递。接收端接收到零Checksum的UDP包后，它必须接受，用于解包（decapsulation）。但是，如果发送端的确提供了非零Checksum，那么它必须是正确的、基于整个封包进行计算的 —— 包括IP头、UDP头、VXLAN头，以及最里层的MAC帧。接收端可以对非零Checksum进行校验，或者不去校验。但是，如果进行了校验，且校验结果不正确，则必须丢弃UDP封包

RFC说的很明确，如果Checksum是错误的，并且进行了校验，则封包会被丢弃。带入我们的场景中，可以推测，服务端内核丢弃了那些bad udp cksum的封包，因而服务端的Pod网卡一直没有收到SYN。

那么，Checksum为什么会错了呢？根源应该在内核。

内核缺陷

现代操作系统都支持某些形式的Network Offloading，将某些工作委托给网卡完成，从而减轻CPU的负担。从内核代码的演变情况来看，这种Offloading的种类越来越丰富。

Checksum就可以Offload给网卡来完成，这样，IP、TCP和UDP的Checksum，会在报文即将从网络接口发送出去的时候进行计算。Offloading需要内核的TCP/IP栈、设备驱动、硬件正确的配合才能完成。

通过查阅资料，我们了解到，内核中存在一个和VXLAN处理有关的缺陷，该缺陷会导致Checksum Offloading不能正确完成。这个缺陷仅仅在很边缘的场景下才会表现出来。

在VXLAN的UDP头被NAT过（见下文的二次SNAT问题）的前提下，如果：

VXLAN设备禁用（这是RFC的建议）了UDP Checksum
VXLAN设备启用了Tx Checksum Offloading

就会导致生成错误的UDP Checksum。

二次SNAT

前面提到内核缺陷必须在VXLAN的UDP封包被NAT时，才会触发。那么，在源、目标地址都是宿主机网段的情况下，为什么还对UDP封包进行NAT呢？

在上文的iptables分析中我们看到，访问localhost:30153的封包，会被：

DNAT到服务端Pod的地址，这保证封包能够通过flannel.1发出
打上0x4000标记，这个标记会在随后的POSTROUTING阶段，用于进行SNAT。使用flannel.1的地址作为源地址

被DNAT+SNAT后的内层TCP报文，进入flannel.1接口，进而在内核的VXLAN驱动中处理，封装为UDP报文。需要注意，iptables打标记，我们期望是针对内层报文的。然而，内层封包被VXLAN处理后包裹了外层UDP，重新进入网络栈，内核自动将0x4000标记关联到外层UDP报文上，这导致了额外的一次SNAT：

iptables -t nat -I KUBE-POSTROUTING 1 -j LOG --log-prefix "0x4000-marked: " -m mark --mark 0x4000/0x4000

dmesg -wH

# 第一次NAT，针对内层报文，我们期望将127.0.0.1 SNAT为 flannel.1的地址

[ +3.851027] 0x4000-marked: IN= OUT=flannel.1 SRC=127.0.0.1 DST=172.29.2.3 LEN=60 TOS=0x00 PREC=0x00 TTL=64 ID=44704 DF PROTO=TCP SPT=43326 DPT=9153 WINDOW=43690 RES=0x00 SYN URGP=0 MARK=0x4000

# 第二次NAT，针对外层报文，我们并没有期望这次SNAT，因为源地址本来就是eth0的地址了

[ +0.000019] 0x4000-marked: IN= OUT=eth0 SRC=10.0.0.12 DST=10.0.0.11 LEN=110 TOS=0x00 PREC=0x00 TTL=64 ID=9697 PROTO=UDP SPT=60211 DPT=8472 LEN=90 MARK=0x4000

在Kubernetes 1.16.0之前的版本，Kube Proxy做SNAT（ -j MASQUERADE）时，没有使用 --random-fully参数。这意味着第二次SNAT不会有任何效果，因为内核会在Masquerading时尝试保持源端口不变，与此同时，源端口已经是期望的地址了。

但是，使用了--random-fully参数后，情况变得不同。该参数会强制的进行随机的源端口映射。这就触发了上文提到的内核缺陷。

random-fully

这是SNAT目标的一个参数，它会使用伪随机数生成器，自动产生一个端口，来替换NAT前的端口。根据文档，它需要内核3.14+才能支持。

然而，我们用的是CentOS 7，内核版本是 3.10.0-1127.13.1.el7.x86_64，照理说应该不支持这个特性。

在宿主机上，用iptables-save导出规则，也是看不到--random-fully的。但是，从Kube Proxy容器里面导出规则，却能看见：

# iptables-save | egrep '\-A\sKUBE-POSTROUTING'

-A KUBE-POSTROUTING -m mark --mark 0x4000/0x4000 -j MASQUERADE

# kubectl -n kube-system exec kube-proxy-7qtzm -- iptables-save | egrep '\-A\sKUBE-POSTROUTING'

-A KUBE-POSTROUTING -m mark --mark 0x4000/0x4000 -j MASQUERADE --random-fully

原因可能是两个iptables的版本不同。有一点可以明确，--random-fully在我们的环境下的确产生了影响，因为禁用该参数后，问题就消失了。

解决

临时方案

关闭Offloading

既然故障的根源是内核中，和Offloading有关的缺陷，因此，禁用Offloading是最直接的手段：

1	ethtool --offload flannel.1 rx off tx off

这个命令执行的时机很重要，如果主机重启，Flannel创建网卡后，才能执行该命令，否则会提示找不到设备。

防止二次SNAT

有两种方式防止对VXLAN的UDP封包进行SNAT。第一种是禁用--random-fully参数。这种做法印证了上文关于此参数的猜测。

1	iptables -t nat -R KUBE-POSTROUTING 1 -m mark --mark 0x4000/0x4000 -j MASQUERADE

第二种，将发往8472端口的UDP封包，做一个重置标记的操作。Kubernetes社区就是这种做法。

1	iptables -A OUTPUT -p udp -m udp --dport 8472 -j MARK --set-mark 0x0

永久方案

升级K8S版本

查看Kubernetes v1.18.5的Changelog，可以发现PR 92035修复了这个故障。这个PR会在不需要0x4000标记时，将其清除。

在Kubelet初始化期间，会在NAT表创建KUBE-MARK-MASQ、KUBE-MARK-DROP、KUBE-POSTROUTING等链，并添加一些规则。该PR对这部分的逻辑进行了修改：

func (kl *Kubelet) syncNetworkUtil() {

// ...

if _, err := kl.iptClient.EnsureRule(utiliptables.Append, utiliptables.TableNAT,

// 这里将原先有缺陷的--set-xmark 0x4000/0x4000 改为 --xor-mark

KubeMarkMasqChain, "-j", "MARK", "--or-mark", masqueradeMark); err != nil {

klog.Errorf("Failed to ensure marking rule for %v: %v", KubeMarkMasqChain, err)

return

}

// ...

// 这里是关键的修改，在KUBE-POSTROUTING中添加以下规则：

// 如果封包没有0x4000标记位，则不做处理

// iptables -t NAT -A KUBE-POSTROUTING -m mark ! --mark=0x4000/0x4000 -j RETRUN

if _, err := kl.iptClient.EnsureRule(utiliptables.Append, utiliptables.TableNAT, KubePostroutingChain,

"-m", "mark", "!", "--mark", fmt.Sprintf("%s/%s", masqueradeMark, masqueradeMark),

"-j", "RETURN"); err != nil {

klog.Errorf("Failed to ensure filtering rule for %v: %v", KubePostroutingChain, err)

return

}

// 否则，清除0x4000标记位，防止封包重新遍历网络栈时，被再次SNAT

// 注意，在这里可以明确知道0x4000被设置，因此可以安全的用XOR将该位取消掉，不需要关心其它位

// iptables -t NAT -A KUBE-POSTROUTING -j MARK --xor-mark=0x4000

if _, err := kl.iptClient.EnsureRule(utiliptables.Append, utiliptables.TableNAT, KubePostroutingChain,

"-j", "MARK", "--xor-mark", masqueradeMark); err != nil {

klog.Errorf("Failed to ensure unmarking rule for %v: %v", KubePostroutingChain, err)

return

}

// ...

}

此外，该PR还对Kube Proxy的iptables/ipvs相关模块进行了类似修改，这里就不张贴代码了。

升级内核

已知内核版本5.6.13, 5.4.41, 4.19.123, 4.14.181修复了上文提到的内核缺陷，但是CentOS 7何时修复未知，可能需要自行Patch。

深入

Checksum

所谓Checksum是一个固定长度的字段，网络协议使用该字段来纠正某些传输错误。

Checksum通常是基于某些报文字段来计算摘要信息，算法决定了Checksum的可靠性和计算成本。IP协议仅仅使用报文头，而大部分L4协议，同时使用报文头、报文体。

在IPv4（IPV6没有IP Checksum）中，IP Checksum是16bit字段，信息来自IP头所有字段。在任一跳发现Checksum错误，都会导致静默的丢弃，而不产生ICMP报文 —— L4协议需要考虑这种静默丢弃的可能并进行相应处理，例如TCP在ACK没有及时收到时会进行重传。

IP数据报在经过每一跳时，都需要更新Checksum，至少TTL的变化需要重新计算Checksum。除了TTL，IP头还可能因为以下原因变化：

NAT导致的地址变化
IP选项处理
IP分片

计算IP Checksum时，报文被分隔为16bit的小段，将这些小段相加并取反（ones-complemented），就得到最后的Checksum。在Linux中，可能分隔为32bit甚至64bit的小段，以提升计算速度，但是取反操作前需要一个额外的折叠（csum_fold）操作。

由于IP Checksum仅仅牵涉到报文头，成本很低，Linux总是在CPU中进行计算，不会Offload给硬件。

L4协议的Checksum牵涉完整报文，包括L4报文头、L4报文体、以及所谓的伪头（pseudoheader）。伪头其实就是IP头中的源地址、目的地址、以及之后的32bit。

IP层在NAT等场景下，需要对IP头进行变更，这会导致L4协议计算的Checksum失效。如果没有更新失效的Checksum，则在IP报文传输的每一跳都不会发现错误，因为中间路由仅仅会校验IP Checksum。结果就是，只有目的地内核才能在L4发现这一情况。我们可以了解到Checksum算法具有可逆性，因此NAT这样导致很少字段变化的情况下，更新Checksum不需要从头计算。

Offloading

前面提到过，L4的Checksum计算涉及完整报文，成本较高。因此Linux支持将L4的Checksum委托给硬件完成，这就是Checksum Offloading。

设备能否支持Checksum Offloading，是通过 net_device->features标记传递给内核的：

NETIF_F_HW_CSUM 驱动能够为任何协议组合、协议层计算IP Checksum
NETIF_F_IP_CSUM 驱动支持L4（仅限于TCP/UDP over IPv4）的Checksum计算
NETIF_F_IPV6_CSUM 驱动支持L4（仅限于TCP/UDP over IPv6）的Checksum计算
NETIF_F_NO_CSUM 表示设备明确知道不需要计算Checksum，通常用于loopback设备
NETIF_F_RXCSUM 驱动进行接收封包的Checksum Offloading，仅仅用于禁用设备的RX Checksum

skb->ip_summed字段存放了Checksum的状态，其含义在接收封包、发送封包期间有所不同。

在接收封包期间：

CHECKSUM_NONE 提示设备没有对封包进行Checksum校验，可能由于缺少相关特性
CHECKSUM_UNNECESSARY 提示内核不再需要对Checksum进行校验
CHECKSUM_COMPLETE 提示设备已经提供了完整的L4 Checksum，L4代码只需要加上伪头即可进行校验

在发送封包期间：

CHECKSUM_NONE 提示内核已经完全处理好Checksum了，设备不需要做任何事情
CHECKSUM_UNNECESSARY 意义和CHECKSUM_NONE相同
CHECKSUM_PARTIAL 提示内核已经完成伪头部分的Checksum，驱动必须计算从 skb->csum_start到封包结尾部分的Checksum，并且将其存放在 skb->csum_start + skb->csum_offset这个位置
CHECKSUM_COMPLETE 不使用

可以看到，在发送封包时，如果skb->ip_summed的值为CHECKSUM_PARTIAL，则意味着内核要求驱动Checksum Offloading。

内核缺陷

基于上面的认识，我们可以看一下本文牵涉到的内核缺陷到底是什么了：

// linux-3.10.y

static bool

udp_manip_pkt(struct sk_buff *skb, // 当前操控的套接字缓冲

const struct nf_nat_l3proto *l3proto, // 持有NAT操作相关的若干函数指针

unsigned int iphdroff, unsigned int hdroff, // IP头、L4头的偏移量

const struct nf_conntrack_tuple *tuple, // 连接跟踪相关的信息，新旧IP端口

enum nf_nat_manip_type maniptype) // 是SNAT还是DNAT

{

struct udphdr *hdr;

__be16 *portptr, newport;

if (!skb_make_writable(skb, hdroff + sizeof(*hdr)))

return false;

// 获得UDP头

hdr = (struct udphdr *)(skb->data + hdroff);

if (maniptype == NF_NAT_MANIP_SRC) {

// NAT后的源端口

newport = tuple->src.u.udp.port;

// NAT前的源端口

portptr = &hdr->source;

} else {

/* Get rid of dst port */

newport = tuple->dst.u.udp.port;

portptr = &hdr->dest;

}

// 如果Checksum不为零，或者开启了Offloading，则更新Checksum

if (hdr->check || skb->ip_summed == CHECKSUM_PARTIAL) {

// 这里调用的是 nf_nat_ipv4_csum_update

l3proto->csum_update(skb, iphdroff, &hdr->check,

tuple, maniptype);

inet_proto_csum_replace2(&hdr->check, skb, *portptr, newport,

0);

if (!hdr->check)

hdr->check = CSUM_MANGLED_0;

}

*portptr = newport;

return true;

}

static void nf_nat_ipv4_csum_update(struct sk_buff *skb,

unsigned int iphdroff, __sum16 *check,

const struct nf_conntrack_tuple *t,

enum nf_nat_manip_type maniptype)

{

struct iphdr *iph = (struct iphdr *)(skb->data + iphdroff);

__be32 oldip, newip;

if (maniptype == NF_NAT_MANIP_SRC) {

oldip = iph->saddr;

newip = t->src.u3.ip;

} else {

oldip = iph->daddr;

newip = t->dst.u3.ip;

}

// 这里传入了无效的Checksum

inet_proto_csum_replace4(check, skb, oldip, newip, 1);

}

void inet_proto_csum_replace4(__sum16 *sum, struct sk_buff *skb,

__be32 from, __be32 to, int pseudohdr)

{

__be32 diff[] = { ~from, to };

if (skb->ip_summed != CHECKSUM_PARTIAL) {

*sum = csum_fold(csum_partial(diff, sizeof(diff),

~csum_unfold(*sum)));

if (skb->ip_summed == CHECKSUM_COMPLETE && pseudohdr)

skb->csum = ~csum_partial(diff, sizeof(diff),

~skb->csum);

} else if (pseudohdr)

// 走这个分支，可以看到，更新Checksum依赖于先前的Checksum是正确值

*sum = ~csum_fold(csum_partial(diff, sizeof(diff), csum_unfold(*sum)));

}

当VXLAN端点的UDP被NAT的情况下，上述代码会执行。如果 VXLAN设备禁用了UDP Checksum，它会将udphdr->check置零。如果同时VXLAN设备还启用了Tx Checksum Offloading，skb->ip_summed的值就会是CHECKSUM_PARTIAL。这就是我们环境下的配置。

UDP Checksum被禁用情况下，udphdr->check是个零值，显然没有包含旧的伪头的Checksum信息，因为通过伪头计算的Checksum，至少协议类型部分（UDP 0x11）是非零。

因此，判断是否需要更新Checksum，应当只VXLAN接口是否禁用了UDP Checksum，禁用了就不应该更新。

参考

← Galaxy学习笔记

2020年10月拈花湾 →

3 Comments On This Topic

回复

yanick

2020/08/20

这个错误的确是盲人摸象了，要深入协议侧才能明白错误原因。感觉脑壳疼
回复

林哲緯

2020/11/23

hi, 感謝分享，分析得非常徹底

想請問一下為什麼前五次都是 bad udp checksum 然而第六次卻突然 no checksum?
第六次有做什麼變更嗎？我查了VxLAN RFC 跟 linux networking 相關資料並沒有看到第六次就不計算 checksum

回复

Alex

2020/11/24

哈哈，我也纠结于此。估计和内核中VXLAN的实现细节有关，没有去深入探寻。

内核缺陷触发的NodePort服务63秒延迟问题

内核缺陷触发的NodePort服务63秒延迟问题

Leave a Reply Cancel reply

ABOUT ME

ABOUT GMEM

GMEM HISTORY

MIRROR INFO

Meta

Recent Posts

TOPLINKS

Recent Comments