从一次线上问题说起，详解 TCP 半连接队列、全连接队列

本文转载自微信公众号「云巅论剑」，作者黄刚。转载本文请联系云巅论剑公众号。

前言

某次大促值班 ing，对系统稳定性有着充分信心、心态稳如老狗的笔者突然收到上游反馈有万分几的概率请求我们 endpoint 会出现 Connection timeout 。此时系统侧的 apiserver 集群水位在 40%，离极限水位还有着很大的距离，当时通过紧急扩容 apiserver 集群后错误率降为了 0。事后进行了详细的问题排查，定位分析到问题根因出现在系统连接队列被打满导致，之前笔者对 TCP 半连接队列、全连接队列不太了解，只依稀记得《TCP/IP 详解》中好像有好像提到过这两个名词。

目前网上相关资料都比较零散，并且有些是过时或错误的结论，笔者在调查问题时踩了很多坑。痛定思痛，笔者查阅了大量资料并做了众多实验进行验证，梳理了这篇 TCP 半连接队列、全连接详解，当你细心阅读完这篇文章后相信你可以对 TCP 半连接队列、全连接队列有更充分的认识。

本篇文章将结合理论知识、内核代码、操作实验为你呈现如下内容：

半连接队列、全连接队列介绍
常用命令介绍
全连接队列实战 —— 最大长度控制、全连接队列溢出实验、实验结果分析...
半连接队列实战 —— 最大长度控制、半连接队列溢出实验、实验结果分析...
...

半连接队列、全连接队列

从一次线上问题说起，详解 TCP 半连接队列、全连接队列

在 TCP 三次握手的过程中，Linux 内核会维护两个队列，分别是：

半连接队列 (SYN Queue)
全连接队列 (Accept Queue)

正常的 TCP 三次握手过程：

1、Client 端向 Server 端发送 SYN 发起握手，Client 端进入 SYN_SENT 状态

2、Server 端收到 Client 端的 SYN 请求后，Server 端进入 SYN_RECV 状态，此时内核会将连接存储到半连接队列(SYN Queue)，并向 Client 端回复 SYN+ACK

3、Client 端收到 Server 端的 SYN+ACK 后，Client 端回复 ACK 并进入 ESTABLISHED 状态

4、Server 端收到 Client 端的 ACK 后，内核将连接从半连接队列(SYN Queue)中取出，添加到全连接队列(Accept Queue)，Server 端进入 ESTABLISHED 状态

5、Server 端应用进程调用 accept 函数时，将连接从全连接队列(Accept Queue)中取出

半连接队列和全连接队列都有长度大小限制，超过限制时内核会将连接 Drop 丢弃或者返回 RST 包。

实战 —— 全连接队列

全连接队列最大长度控制

TCP 全连接队列的最大长度由 min(somaxconn, backlog) 控制，其中：

somaxconn 是 Linux 内核参数，由 /proc/sys/net/core/somaxconn 指定
backlog 是 TCP 协议中 listen 函数的参数之一，即 int listen(int sockfd, int backlog) 函数中的 backlog 大小。在 Golang 中，listen 的 backlog 参数使用的是 /proc/sys/net/core/somaxconn 文件中的值。

实战 —— 半连接队列

半连接队列最大长度控制

翻阅了很多博文，查找关于半连接队列最大长度控制的相关内容，大多含糊其辞或不准确，经过不懈努力，最终找到了比较确切的内容(相关博文链接在附录中)。

很多博文中说半连接队列最大长度由 /proc/sys/net/ipv4/tcp_max_syn_backlog 参数指定，实际上只有在 linux 内核版本小于 2.6.20 时，半连接队列才等于 backlog 的大小。

这块的源码比较复杂，这里给一下大体的计算方式，详细的内容可以参考附录中的相关博文。半连接队列长度的计算过程：

backlog=min(somaxconn,backlog)
nr_table_entries=backlog
nr_table_entries=min(backlog,sysctl_max_syn_backlog)
nr_table_entries=max(nr_table_entries,8)
//roundup_pow_of_two:将参数向上取整到最小的2^n，注意这里存在一个+1
nr_table_entries=roundup_pow_of_two(nr_table_entries+1)
max_qlen_log=max(3,log2(nr_table_entries))
max_queue_length=2^max_qlen_log

可以看到，半连接队列的长度由三个参数指定：

调用 listen 时，传入的 backlog
/proc/sys/net/core/somaxconn 默认值为 128
/proc/sys/net/ipv4/tcp_max_syn_backlog 默认值为 1024

我们假设 listen 传入的 backlog = 128 (Golang 中调用 listen 时传递的 backlog 参数使用的是 /proc/sys/net/core/somaxconn)，其他配置采用默认值，来计算下半连接队列的最大长度

backlog=min(somaxconn,backlog)=min(128,128)=128
nr_table_entries=backlog=128
nr_table_entries=min(backlog,sysctl_max_syn_backlog)=min(128,1024)=128
nr_table_entries=max(nr_table_entries,8)=max(128,8)=128
nr_table_entries=roundup_pow_of_two(nr_table_entries+1)=256
max_qlen_log=max(3,log2(nr_table_entries))=max(3,8)=8
max_queue_length=2^max_qlen_log=2^8=256

可以得到半队列大小是 256。

判断是否 Drop SYN 请求

当 Client 端向 Server 端发送 SYN 报文后，Server 端会将该 socket 连接存储到半连接队列(SYN Queue)，如果 Server 端判断半连接队列满了则会将连接 Drop 丢弃。

那么 Server 端是如何判断半连接队列是否满的呢?除了上面一小节提到的半连接队列最大长度控制外，还和 /proc/sys/net/ipv4/tcp_syncookies 参数有关。(tcp_syncookies 的作用是为了防止 SYN Flood 攻击的，下文会给出相关链接介绍)

流程图

判断是否 Drop SYN 请求的流程图：

从一次线上问题说起，详解 TCP 半连接队列、全连接队列

上图是整理了多份资料后，整理出来的判断是否 Drop SYN 请求的流程图。

注意：第一个判断条件「当前半连接队列是否已超过半连接队列最大长度」在不同内核版本中的判断不一样，Linux4.19.91 内核判断的是当前半连接队列长度是否 >= 全连接队列最大长度。

实验一：syncookies=0，somaxconn=1024，tcp_max_syn_backlog=128

理论上：

计算出的半连接队列最大长度为 256
当半连接队列长度增长至 96 后，后续 SYN 请求就会触发 Drop

将相关参数的配置更新

$sudosysctl-p
net.core.somaxconn=1024
net.ipv4.tcp_max_syn_backlog=128
net.ipv4.tcp_syncookies=0

启动服务端 Server 监听 8888 端口(代码参考全连接队列实验物料)

客户端 Client 发起 SYN Flood 攻击：

$sudohping3-S33.9.192.157-p8888--flood
HPING33.9.192.157(eth033.9.192.157):Sset,40headers+0databytes
hpinginfloodmode,noreplieswillbeshown

查看服务端 Server 8888端口处于 SYN_RECV 状态的 socket 最大个数：

[zechen.hg@function-compute033009192157.na63/home/zechen.hg]
$sudonetstat-nat|grep:8888|grepSYN_RECV|wc-l
96
[zechen.hg@function-compute033009192157.na63/home/zechen.hg]
$sudonetstat-nat|grep:8888|grepSYN_RECV|wc-l
96

实验结果符合预期，当半连接队列长度增长至 96 后，后续 SYN 请求就会触发 Drop。

实验二：syncookies = 0，somaxconn=128，tcp_max_syn_backlog=512

理论上：

计算出的半连接队列最大长度为 256，由于笔者实验机器上的内核版本是 4.19.91，所以当半连接队列长度 >= 全连接队列最大长度时，内核就认为半连接队列溢出了
所以当半连接队列长度增长至 128 后，后续 SYN 请求就会触发 DROP

将相关参数的配置更新

$sudosysctl-p
net.core.somaxconn=128
net.ipv4.tcp_max_syn_backlog=512
net.ipv4.tcp_syncookies=0

启动服务端 Server 监听 8888 端口(代码参考全连接队列实验物料)

客户端 Client 发起 SYN Flood 攻击：

$sudohping3-S33.9.192.157-p8888--flood
HPING33.9.192.157(eth033.9.192.157):Sset,40headers+0databytes
hpinginfloodmode,noreplieswillbeshown

查看服务端 Server 8888端口处于 SYN_RECV 状态的 socket 最大个数：

[zechen.hg@function-compute033009192157.na63/home/zechen.hg]
$sudonetstat-nat|grep:8888|grepSYN_RECV|wc-l
128
[zechen.hg@function-compute033009192157.na63/home/zechen.hg]
$sudonetstat-nat|grep:8888|grepSYN_RECV|wc-l
128

实验结果符合预期，当半连接队列长度增长至 128 后，后续 SYN 请求就会触发 Drop

实验三：syncookies = 1，somaxconn=128，tcp_max_syn_backlog=512

理论上：

当全连接队列未满，syncookies = 1，理论上 SYN 请求永远不会被 Drop

将相关参数的配置更新

$sudosysctl-p
net.core.somaxconn=128
net.ipv4.tcp_max_syn_backlog=512
net.ipv4.tcp_syncookies=1

启动服务端 Server 监听 8888 端口(代码参考全连接队列实验物料)

客户端 Client 发起 SYN Flood 攻击：

$sudohping3-S33.9.192.157-p8888--flood
HPING33.9.192.157(eth033.9.192.157):Sset,40headers+0databytes
hpinginfloodmode,noreplieswillbeshown

查看服务端 Server 8888端口处于 SYN_RECV 状态的 socket 最大个数：

[zechen.hg@function-compute033009192157.na63/home/zechen.hg]
$sudonetstat-nat|grep:8888|grepSYN_RECV|wc-l
128
[zechen.hg@function-compute033009192157.na63/home/zechen.hg]
$sudonetstat-nat|grep:8888|grepSYN_RECV|wc-l
128

实验发现即使syncookies=1，当半连接队列长度 > 全连接队列最大长度时，就会触发 DROP SYN 请求!!!(TODO：有时间阅读下相关内核源码，再分析下)

继续做实验，将 somaxconn 更新为 5

$sudosysctl-p
net.core.somaxconn=5
net.ipv4.tcp_max_syn_backlog=512
net.ipv4.tcp_syncookies=1

发起 SYN Flood 攻击后，查看服务端 Server 8888端口处于 SYN_RECV 状态的 socket 最大个数：

[zechen.hg@function-compute033009192157.na63/home/zechen.hg]
$sudonetstat-nat|grep:8888|grepSYN_RECV|wc-l
5
[zechen.hg@function-compute033009192157.na63/home/zechen.hg]
$sudonetstat-nat|grep:8888|grepSYN_RECV|wc-l
5

确实即使 syncookies=1，当半连接队列长度 > 全连接最大长度时，就会触发 DROP SYN 请求。

实验四：syncookies = 1，somaxconn=256，tcp_max_syn_backlog=128

理论上：

当半连接队列大小到 256 后，后触发 DROP SYN 请求

将相关参数的配置更新

$sudosysctl-p
net.core.somaxconn=256
net.ipv4.tcp_max_syn_backlog=128
net.ipv4.tcp_syncookies=1

启动服务端 Server 监听 8888 端口(代码参考全连接队列实验物料)。

客户端 Client 发起 SYN Flood 攻击:

$sudohping3-S33.9.192.157-p8888--flood
HPING33.9.192.157(eth033.9.192.157):Sset,40headers+0databytes
hpinginfloodmode,noreplieswillbeshown

查看服务端 Server 8888端口处于 SYN_RECV 状态的 socket 最大个数：

[zechen.hg@function-compute033009192157.na63/home/zechen.hg]
$sudonetstat-nat|grep:8888|grepSYN_RECV|wc-l
256
[zechen.hg@function-compute033009192157.na63/home/zechen.hg]
$sudonetstat-nat|grep:8888|grepSYN_RECV|wc-l
256

实验结果符合预期，当半连接队列长度增长至 256 后，后续 SYN 请求就会触发 Drop。

回顾线上问题

再回顾值班时遇到的 Connection timeout 问题，当时相关系统参数配置为：

net.core.somaxconn = 128
net.ipv4.tcp_max_syn_backlog = 512
net.ipv4.tcp_syncookies = 1
net.ipv4.tcp_abort_on_overflow = 0

所以出现 Connection timeout 有两种可能情况：

1、半连接队列未满，全连接队列满，Client 端向 Server 端发起 SYN 被 DROP (参考全连接队列实验结果情况三分析、半连接队列溢出实验情况三)

2、全连接队列未满，半连接队列大小超过全链接队列最大长度(参考半连接队列溢出实验情况三、半连接队列溢出实验情况四)

问题的最快修复方式是将 net.core.somaxconn 调大，以及 net.ipv4.tcp_abort_on_overflow 设置为 1，net.ipv4.tcp_abort_on_overflow 设置为 1 是为了让 client fail fast。

总结

半连接队列溢出、全连接队列溢出这类问题很容易被忽略，同时这类问题又很致命。当半连接队列、全连接队列溢出时 Server 端，从监控上来看系统 cpu 水位、内存水位、网络连接数等一切正常，然而却会持续影响 Client 端业务请求。对于高负载上游使用短连接的情况，出现这类问题的可能性更大。

本文详细梳理了 TCP 半连接队列、全连接队列的理论知识，同时结合 Linux 相关内核代码以及详细的动手实验，讲解了 TCP 半连接队列、全连接队列的相关原理、溢出判断、问题分析等内容，希望大家在阅读后可以对 TCP 半连接队列、全连接队列有更充分的认识。

PS：可以去线上检查下服务器的相关参数哟~

附录

这里罗列下相关参考博文资料：

Linux 源码

https://github.com/torvalds/linux

Linux 诡异的半连接队列长度

https://www.cnblogs.com/zengkefu/p/5606696.html

TCP 半连接队列和全连接队列满了会发生什么

https://www.cnblogs.com/xiaolincoding/p/12995358.html

一次 HTTP connect-timeout 排查

https://www.jianshu.com/p/3b9c4216b822

Connection Reset 排查

https://cjting.me/2019/08/28/tcp-queue/

深入浅出 TCP 中的 SYN-Cookies

https://segmentfault.com/a/1190000019292140

原文链接：https://mp.weixin.qq.com/s/YpSlU1yaowTs-pF6R43hMw

从一次线上问题说起，详解 TCP 半连接队列、全连接队列

前言

半连接队列、全连接队列

相关指标查看

ss 命令

对于 LISTEN 状态的 socket

对于非 LISTEN 状态的 socket

实战 —— 全连接队列

全连接队列最大长度控制

实战 —— 半连接队列

半连接队列最大长度控制

判断是否 Drop SYN 请求

实验一：syncookies=0，somaxconn=1024，tcp_max_syn_backlog=128

实验二：syncookies = 0，somaxconn=128，tcp_max_syn_backlog=512

实验三：syncookies = 1，somaxconn=128，tcp_max_syn_backlog=512

实验四：syncookies = 1，somaxconn=256，tcp_max_syn_backlog=128

回顾线上问题

总结

延伸 · 阅读

UDP简单服务端客户端代码示例

物联网通信协议大汇总

HTTPS - 揭秘 TLS 1.2 协议完整握手过程

网络协议之：基于UDP的高速数据传输协议UDT

从0学ARM-uboot中的网络协议栈

IPFS能否成为新一代互联网协议？

HTTP缓存协议实战

HTTP/2对比HTTP/1.1，新特性是什么？是如何解决队头阻塞与压缩头