Menu

  • Home
  • Work
    • Cloud
      • Virtualization
      • IaaS
      • PaaS
    • Java
    • Go
    • C
    • C++
    • JavaScript
    • PHP
    • Python
    • Architecture
    • Others
      • Assembly
      • Ruby
      • Perl
      • Lua
      • Rust
      • XML
      • Network
      • IoT
      • GIS
      • Algorithm
      • AI
      • Math
      • RE
      • Graphic
    • OS
      • Linux
      • Windows
      • Mac OS X
    • BigData
    • Database
      • MySQL
      • Oracle
    • Mobile
      • Android
      • IOS
    • Web
      • HTML
      • CSS
  • Life
    • Cooking
    • Travel
    • Gardening
  • Gallery
  • Video
  • Music
  • Essay
  • Home
  • Work
    • Cloud
      • Virtualization
      • IaaS
      • PaaS
    • Java
    • Go
    • C
    • C++
    • JavaScript
    • PHP
    • Python
    • Architecture
    • Others
      • Assembly
      • Ruby
      • Perl
      • Lua
      • Rust
      • XML
      • Network
      • IoT
      • GIS
      • Algorithm
      • AI
      • Math
      • RE
      • Graphic
    • OS
      • Linux
      • Windows
      • Mac OS X
    • BigData
    • Database
      • MySQL
      • Oracle
    • Mobile
      • Android
      • IOS
    • Web
      • HTML
      • CSS
  • Life
    • Cooking
    • Travel
    • Gardening
  • Gallery
  • Video
  • Music
  • Essay

Kubernetes上和DNS相关的问题

28
Sep
2018

Kubernetes上和DNS相关的问题

By Alex
/ in PaaS
/ tags DNS, K8S
0 Comments
Conntrack竞争导致的DNS超时

这是一篇译文,原文地址:Racy conntrack and DNS lookup timeouts

最近出现了很多关于K8S中DNS查找超时的BUG报告,某些情况下Pod发起的DNS查找耗时高达5s甚至更久。在这篇文章中我将解释DNS查找延迟的根本原因,讨论缓和此延迟的途径,以及如何修改内核解决此问题。

背景

在K8S中,Pod访问DNS的最常用途径是通过Service,要解释DNS延迟,首先需要知道Service如何工作,以及底层的DNAT机制。

服务如何工作

在默认的Iptables模式下,kube-proxy为每个Service,在宿主机网络命名空间的NAT表中,创建一些iptables规则。

假设kube-dns服务有两个实例,则相应的规则可能是:

Shell
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
-A PREROUTING -m comment --comment "kubernetes service portals" -j KUBE-SERVICES
 
# 如果目的地址是DNS服务的ClusterIP,则跳转
-A KUBE-SERVICES -d 10.96.0.10/32 -p udp -m comment --comment "kube-system/kube-dns:dns cluster IP"
  -m udp --dport 53 -j KUBE-SVC-TCOU7JCQXEZGVUNU
 
# 负载均衡
-A KUBE-SVC-TCOU7JCQXEZGVUNU -m comment --comment "kube-system/kube-dns:dns" -m statistic
  --mode random --probability 0.50000000000 -j KUBE-SEP-LLLB6FGXBLX6PZF7
-A KUBE-SVC-TCOU7JCQXEZGVUNU -m comment --comment "kube-system/kube-dns:dns" -j KUBE-SEP-LRVEW52VMYCOUSMZ
 
# DNAT到实际Pod
-A KUBE-SEP-LLLB6FGXBLX6PZF7 -p udp -m comment --comment "kube-system/kube-dns:dns" -m udp
  -j DNAT --to-destination 10.32.0.6:53
 
-A KUBE-SEP-LRVEW52VMYCOUSMZ -p udp -m comment --comment "kube-system/kube-dns:dns" -m udp
  -j DNAT --to-destination 10.32.0.7:53

在我们的例子中,每个Pod都在/etc/resolv.conf中包含了DNS服务器条目 nameserver 10.96.0.10,因此,Pod发起的DNS查找会发送给10.96.0.10这个ClusterIP。

从上面的规则中可以看到,经过简单的负载均衡后,请求被DNAT到DNS Pod的IP地址:10.32.0.6 或者 10.32.0.7

内核中的DNAT

通过上面的分析可以看到,iptables模式下的服务依赖于内核的DNAT。

DNAT的主要职责是:同时修改出站封包的目的地址、回复封包的源地址,并确保对所有后续封包执行同样的修改。要保证后一点,需要非常依赖内核中的conntrack模块,此模块负责跟踪系统的网络连接。

在最简单的情况下,每个连接在conntrack中呈现为两个元组:

  1. 一个针对原始请求:IP_CT_DIR_ORIGINAL
  2. 一个针对应答:IP_CT_DIR_REPLY

对于UDP来说,每个元组由SIP+SPT+DIP+DPT这4个元素组成。应答元组IP_CT_DIR_REPLY的src字段中,存放请求目的真实地址。

例如,如果具有IP地址10.40.0.17的Pod,向kube-dns服务的ClusterIP发送请求,并且被DNAT到10.32.0.6的话,则元组如下:

  1. IP_CT_DIR_ORIGINAL:src=10.40.0.17 sport=53378       dst=10.96.0.10 dport=53
  2. IP_CT_DIR_REPLY:src=10.32.0.6 sport=53        dst=10.40.0.17dport=53378

有了这两个元组后,内核就能够修改任何相关的封包的目的地址、源地址,而不需要再次遍历DNAT规则。同时,内核也知道如何修改应答,将其转发给最初的请求者。

当一个conntrack条目创建后,它最初处于未确认(unconfirmed)状态。随后,如果内核发现,不存在已确认的、具有相同的ORIGINAL元组或者REPLY元组的conntrack条目,则确认这个新条目。

下面是一个简化的conntrack创建、执行DNAT的流程:

Shell
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
+---------------------------+      如果不存在,则为封包创建一个conntrack
|                           |      IP_CT_DIR_REPLY是IP_CT_DIR_ORIGINAL元组的反转
|    1. nf_conntrack_in     |      
|                           |      REPLY元组的源地址尚未改变
+------------+--------------+
             |
             v
+---------------------------+
|                           |
|     2. ipt_do_table       |      找到一个匹配的DNAT规则
|                           |
+------------+--------------+
             |
             v
+---------------------------+
|                           |      修改REPLY元组的源地址部分,同时保证此元组不被现有
|    3. get_unique_tuple    |      conntrack占用
|                           |      
+------------+--------------+
             |
             v
+---------------------------+
|                           |     根据REPLY元组来修改封包的目的地址
|     4. nf_nat_packet      |      
|                           |
+------------+--------------+
             |
             v
+----------------------------+
|                            |    如果没有已确认的、具有相同ORIGINAL/REPLY元组的conntrack条目
|  5. __nf_conntrack_confirm |    则确认之
|                            |    
+----------------------------+    否则增加insert_failed计数,并丢弃封包
问题

当两个UDP包通过相同套接字(绑定到相同的源地址/端口)、 在相同时间,通过不同线程发送,就会出现问题。

UDP是无连接的协议,connect系统调用之后,不会发送任何封包,因此也就不会创建conntrack条目。

仅当第一个UDP包发送时,条目才创建。因此可能出现以下3种竞态条件:

  1. 在nf_conntrack_in阶段,两个封包都没有条目,因此它们都创建conntrack,使用相同元组
  2. 在1的基础上:封包1的conntrack条目在封包2调用get_unique_tuple 之前确认。封包2得到一个不同的REPLY元组,通常改变了源端口
  3. 在1的基础上:两个封包在ipt_do_table选择了不同的目的地(DNS的Pod地址)

后果是一样的,其中一个封包在 __nf_conntrack_confirm被丢弃。

这就是发生在DNS查询场景中的问题。glibc、musl libc都会并行的执行A、AAAA查询。其中一个封包可能因为竞态条件而被内核丢弃,客户端会在超时(通常5s)之后重新发送请求。

这并不是K8S特有的问题,任何Linux应用程序,只要使用多线程发送UDP,都可能遭遇此问题。

甚至,即使没有DNAT规则,第二种情况也会发生。只要加载了nf_nat内核模块,就会调用get_unique_tuple。

执行命令 conntrack -S,如果计数器insert_failed增加,提示遭遇了此问题。

缓和

主要手段是避免UDP并发:

  1. 禁用并行DNS查找
  2. 禁用IPv6,从而禁止AAAA查找
  3. 使用TCP协议
  4. 将Pod使用的DNS地址设置为Endpoint的真实地址

某些手段由于musl libc的限制无法使用,此libc在Alpine Linux中被广泛应用。

IPVS模式不能解决此问题,因为conntrack仍然处于启用状态。使用rr作为负载均衡策略时,在低DNS负载的情况下也容易复现。

禁用并行查找

在/etc/resolv.conf中增加single-request-reopen选项:

Shell
1
options rotate timeout:1 attempts:3 single-request-reopen

DNS解析器使用相同的套接字(源地址+源端口一样)执行A和AAAA查询。某些硬件/DNS服务器会错误的仅发回一个应答,这导致客户端等待第二个应答直到超时。启用此选项后,并向查找被禁用,并且会在发送第二个请求时重新打开端口。

CentOS 5等系统,都是使用独立源端口发起AAAA和A查询的,CentOS 6则使用同一端口,导致并行查找问题。

使用TCP

基于一些本地DNS前置缓存的方案,通过TCP访问CoreDNS。例如NodeLocal DNSCache。

避免conntrack

如果内核版本足够高,可以使用Cilium kube-proxy这样的方案,不使用iptables。

另一个方向是,Pod直接访问DNS endpoint。这样的endpoint可以是本地前置缓存。

现状

直到2020年4月,这3个竞态条件仍然没有完美解决方案:https://github.com/kubernetes/kubernetes/issues/56903#issuecomment-613589347。

有人建议使用Daemonset运行DNS服务,且跳过conntrack。他的方案是在HostNetwork中运行Dnsmasq的Daemonset,作为CoreDNS的前端。据测试哪怕把CoreDNS打爆OOM也不会出现timeout问题。

Cilium kube-proxy

Cilium的Kube Proxy替代品,由于不使用netfilter/iptables,因此不会面临conntrack问题,也可以尝试。注意内核版本要求:v4.19.57, v5.1.16, v5.2.0或者更新版本

NodeLocal DNSCache

这个特性在1.18的Kubernetes处于Stable状态:https://kubernetes.io/docs/tasks/administer-cluster/nodelocaldns/。可以认为是Daemonset方案的官方版本。

简介

通过在每个节点上运行DNS缓存来改善DNS性能问题,避免了DNAT和conntrack(Pod往本地的DNS查询,在iptables中通过NOTRACK跳过conntrack)。本地DNS缓存通过查询kube dns来应对缓存丢失。

动机
  1. 在当前架构下,高DNS请求负载的Pod可能需要将查询发往不同的DNS节点。引入缓存降低了DNS的负载
  2. 跳过iptables DNAT和conntrack,可以减少竞态条件,以及避免UDP DNS条目充斥conntrack表
  3. 从本地缓存代理到kube-dns服务的连接,可以升级为TCP。TCP conntrack条目会在连接关闭时移除。而DNS条目需要等待超时,默认nf_conntrack_udp_timeout=30
  4. 将DNS查询从UDP升级为TCP,可以减少尾延迟(tail latency),它这会导致最多30s的超时(3次重试 x 10s超时)。同时本地缓存仍然沿用UDP,应用程序不需要改变
其它
conntrack表爆满

如果并发度极高,依赖于conntrack还会面临表被撑爆的问题:

Shell
1
2
3
4
5
# 表的容量
sysctl net.netfilter.nf_conntrack_max
 
# 已经占用的量
sysctl net.netfilter.nf_conntrack_count
search domain问题
性能问题

如果DnsPolicy 是 ClusterFirst,则/etc/resolv.conf内容如下:

Shell
1
2
3
4
nameserver 10.96.0.10
search default.svc.cluster.local svc.cluster.local cluster.local
# 搜索后缀列表,对于针对少于ndots(默认1)个.号的名字的DNS查询,会自动尝试添加这些后缀进行查询
options ndots:5

这样,当default命名空间中,有个工作负载查询外部域名gmem.cc,需要发起多次DNS查询才能完成:

  1. gmem.cc.default.svc.cluster.local.
  2. gmem.cc.svc.cluster.local.
  3. gmem.cc.cluster.local.
  4. gmem.cc.

这也增加了DNS服务器的压力。解析外部域名时,如果代码可以控制,使用全限定名称(点号结尾)可以避免反复查询的成本

不起作用

在使用CoreDNS的forward插件的情况下,如果上游DNS服务器行为异常,会导致搜索后缀无效。

在Linux下,DNS查询失败后,客户端可能会附加搜索列表后缀,继续查询,这个行为是由C运行时库提供的。这里说可能,是因为DNS服务器返回某些响应的情况下,客户端就不会遍历后缀列表,从而导致DNS解析失败。具体哪些响应会导致不遍历,没有详细的研究,但是REFUESED肯定会导致,SERVFAIL则不会。

← Ubuntu的时钟同步
Envoy学习笔记 →

Leave a Reply Cancel reply

Your email address will not be published. Required fields are marked *

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code class="" title="" data-url=""> <del datetime=""> <em> <i> <q cite=""> <strike> <strong> <pre class="" title="" data-url=""> <span class="" title="" data-url="">

Related Posts

  • 通过ExternalDNS集成外部DNS服务
  • Flexvolume学习笔记
  • Kata Containers学习笔记
  • Kustomize学习笔记
  • Cilium学习笔记

Recent Posts

  • Investigating and Solving the Issue of Failed Certificate Request with ZeroSSL and Cert-Manager
  • A Comprehensive Study of Kotlin for Java Developers
  • 背诵营笔记
  • 利用LangChain和语言模型交互
  • 享学营笔记
ABOUT ME

汪震 | Alex Wong

江苏淮安人,现居北京。目前供职于腾讯云,专注容器方向。

GitHub:gmemcc

Git:git.gmem.cc

Email:gmemjunk@gmem.cc@me.com

ABOUT GMEM

绿色记忆是我的个人网站,域名gmem.cc中G是Green的简写,MEM是Memory的简写,CC则是我的小天使彩彩名字的简写。

我在这里记录自己的工作与生活,同时和大家分享一些编程方面的知识。

GMEM HISTORY
v2.00:微风
v1.03:单车旅行
v1.02:夏日版
v1.01:未完成
v0.10:彩虹天堂
v0.01:阳光海岸
MIRROR INFO
Meta
  • Log in
  • Entries RSS
  • Comments RSS
  • WordPress.org
Recent Posts
  • Investigating and Solving the Issue of Failed Certificate Request with ZeroSSL and Cert-Manager
    In this blog post, I will walk ...
  • A Comprehensive Study of Kotlin for Java Developers
    Introduction Purpose of the Study Understanding the Mo ...
  • 背诵营笔记
    Day 1 Find Your Greatness 原文 Greatness. It’s just ...
  • 利用LangChain和语言模型交互
    LangChain是什么 从名字上可以看出来,LangChain可以用来构建自然语言处理能力的链条。它是一个库 ...
  • 享学营笔记
    Unit 1 At home Lesson 1 In the ...
  • K8S集群跨云迁移
    要将K8S集群从一个云服务商迁移到另外一个,需要解决以下问题: 各种K8S资源的迁移 工作负载所挂载的数 ...
  • Terraform快速参考
    简介 Terraform用于实现基础设施即代码(infrastructure as code)—— 通过代码( ...
  • 草缸2021
    经过四个多月的努力,我的小小荷兰景到达极致了状态。

  • 编写Kubernetes风格的APIServer
    背景 前段时间接到一个需求做一个工具,工具将在K8S中运行。需求很适合用控制器模式实现,很自然的就基于kube ...
  • 记录一次KeyDB缓慢的定位过程
    环境说明 运行环境 这个问题出现在一套搭建在虚拟机上的Kubernetes 1.18集群上。集群有三个节点: ...
  • eBPF学习笔记
    简介 BPF,即Berkeley Packet Filter,是一个古老的网络封包过滤机制。它允许从用户空间注 ...
  • IPVS模式下ClusterIP泄露宿主机端口的问题
    问题 在一个启用了IPVS模式kube-proxy的K8S集群中,运行着一个Docker Registry服务 ...
  • 念爷爷
      今天是爷爷的头七,十二月七日、阴历十月廿三中午,老人家与世长辞。   九月初,回家看望刚动完手术的爸爸,发

  • 6 杨梅坑

  • liuhuashan
    深圳人才公园的网红景点 —— 流花山

  • 1 2020年10月拈花湾

  • 内核缺陷触发的NodePort服务63秒延迟问题
    现象 我们有一个新创建的TKE 1.3.0集群,使用基于Galaxy + Flannel(VXLAN模式)的容 ...
  • Galaxy学习笔记
    简介 Galaxy是TKEStack的一个网络组件,支持为TKE集群提供Overlay/Underlay容器网 ...
TOPLINKS
  • Zitahli's blue 91 people like this
  • 梦中的婚礼 64 people like this
  • 汪静好 61 people like this
  • 那年我一岁 36 people like this
  • 为了爱 28 people like this
  • 小绿彩 26 people like this
  • 彩虹姐姐的笑脸 24 people like this
  • 杨梅坑 6 people like this
  • 亚龙湾之旅 1 people like this
  • 汪昌博 people like this
  • 2013年11月香山 10 people like this
  • 2013年7月秦皇岛 6 people like this
  • 2013年6月蓟县盘山 5 people like this
  • 2013年2月梅花山 2 people like this
  • 2013年淮阴自贡迎春灯会 3 people like this
  • 2012年镇江金山游 1 people like this
  • 2012年徽杭古道 9 people like this
  • 2011年清明节后扬州行 1 people like this
  • 2008年十一云龙公园 5 people like this
  • 2008年之秋忆 7 people like this
  • 老照片 13 people like this
  • 火一样的六月 16 people like this
  • 发黄的相片 3 people like this
  • Cesium学习笔记 90 people like this
  • IntelliJ IDEA知识集锦 59 people like this
  • 基于Kurento搭建WebRTC服务器 38 people like this
  • Bazel学习笔记 37 people like this
  • PhoneGap学习笔记 32 people like this
  • NaCl学习笔记 32 people like this
  • 使用Oracle Java Mission Control监控JVM运行状态 29 people like this
  • Ceph学习笔记 27 people like this
  • 基于Calico的CNI 27 people like this
Tag Cloud
ActiveMQ AspectJ CDT Ceph Chrome CNI Command Cordova Coroutine CXF Cygwin DNS Docker eBPF Eclipse ExtJS F7 FAQ Groovy Hibernate HTTP IntelliJ IO编程 IPVS JacksonJSON JMS JSON JVM K8S kernel LB libvirt Linux知识 Linux编程 LOG Maven MinGW Mock Monitoring Multimedia MVC MySQL netfs Netty Nginx NIO Node.js NoSQL Oracle PDT PHP Redis RPC Scheduler ServiceMesh SNMP Spring SSL svn Tomcat TSDB Ubuntu WebGL WebRTC WebService WebSocket wxWidgets XDebug XML XPath XRM ZooKeeper 亚龙湾 单元测试 学习笔记 实时处理 并发编程 彩姐 性能剖析 性能调优 文本处理 新特性 架构模式 系统编程 网络编程 视频监控 设计模式 远程调试 配置文件 齐塔莉
Recent Comments
  • qg on Istio中的透明代理问题
  • heao on 基于本地gRPC的Go插件系统
  • 黄豆豆 on Ginkgo学习笔记
  • cloud on OpenStack学习笔记
  • 5dragoncon on Cilium学习笔记
  • Archeb on 重温iptables
  • C/C++编程:WebSocketpp(Linux + Clion + boostAsio) – 源码巴士 on 基于C/C++的WebSocket库
  • jerbin on eBPF学习笔记
  • point on Istio中的透明代理问题
  • G on Istio中的透明代理问题
  • 绿色记忆:Go语言单元测试和仿冒 on Ginkgo学习笔记
  • point on Istio中的透明代理问题
  • 【Maven】maven插件开发实战 – IT汇 on Maven插件开发
  • chenlx on eBPF学习笔记
  • Alex on eBPF学习笔记
  • CFC4N on eBPF学习笔记
  • 李运田 on 念爷爷
  • yongman on 记录一次KeyDB缓慢的定位过程
  • Alex on Istio中的透明代理问题
  • will on Istio中的透明代理问题
  • will on Istio中的透明代理问题
  • haolipeng on 基于本地gRPC的Go插件系统
  • 吴杰 on 基于C/C++的WebSocket库
©2005-2025 Gmem.cc | Powered by WordPress | 京ICP备18007345号-2