linux内核协议栈TCP time_wait原理、优化、副作用


1. time_wait状态产生条件

只有在正常四次挥手关闭连接的情况下,在主动关闭连接的一方会出现一段时间的time_wait。如果启用了快速回收功能,回收时间和网络延迟状况有关,正常情况下小于1s,如果没有开启time_wait快速回收功能,则time_wait回收时间默认60s。

三次挥手过程(FIN+ACK, FIN+ACK,ACK)的情况,例如杀掉一段进程,第一个发送FIN+ACK的一端也会产生time_wait。

 

2.  Time_wait状态相关参数说明

TCP中有和time_wait状态相关的参数有以下四个:

tcp_tw_recycle

表示开启TCP连接中time_wait的快速回收功能,默认为0,表示关闭;生效前提是必须启用本端和对端tcp_timestamps配置。

tcp_timestamps

时间戳选项,只有在该选项置1的时候tcp_tw_recycle才会生效。

tcp_max_tw_buckets

表示系统同时保持time_wait的最大数量,如果超过这个量,time_wait将打印警告信息。超限的时候后面产生的time_wait直接不处理,释放资源。注意:是新的连接直接释放资源,老的连接还是处于time_wait状态。

Tcp_tw_reuse

客户端大量time_wait状态存在时,端口被占用,当有新的连接,如果没有可用端口,则会连接失败。启用该功能后,可以复用time_wait状态的连接。客户端tcp_tw_reuse生效前提是启用本端和对端tcp_timestamp。

 

Tcp_tw_reuse端口重用功能一般只针对客户端,因为服务端一般都是监听固定端口,端口数是固定的,端口不会用完。而客户端每次连接端口一般都是由协议栈自动分配。

 

3. Time_wait快速回收

3.1 快速回收功能失效前提

Time_wait快速回收功能生效前提:启用tcp_tw_recycle,并启动本端和对端tcp_timestamps配置。启用timestamps功能时,报文中会携带时间戳选项信息,抓包如下:

3.2 启用time_wait快速回收功能副作用

      如果启用了tcp_tw_recycle和tcp_timestamps,如果接收报文四层选项字段带有时间戳信息,则会对时间戳进行检查,对不满足条件的包会直接丢弃,可能会造成客户端连接建立不成功。例如网络路由信息反复变化,移动cmwap网络发来的包的时间戳乱跳,同一局域网通过路由器做NAT访问服务器(因为做NAT后,源IP就变为路由器的IP了,如果局域网内各个电脑系统时间不一致,则会出现)等情况有可能会出现部分连接异常。原因是tcp_tw_recycle/tcp_timestamps以及对端tcp_timestamps都开启的条件下,60s内同一源ip主机的socket connect请求中的timestamp必须是递增的。不同主机经过路由器做NAT后,报文的源IP地址就变为路由器的IP地址了。

3.3内核协议栈相关主要源码

Time_wait状态生成及快速回收相关代码:

开启timestamps引起的丢包相关源码如下:

 

4. 客户端端口重用

4.1 客户端大量time_wait,端口重用前提

启用tcp_tw_reuse,并启动本端和对端tcp_timestamps配置。

4.2 内核协议栈相关主要源码

 

5. 大量timewait对客户端、服务端影响

5.1 客户端大量time_wait影响

  1. 大量time_wait会造成连接资源不释放,内存无法回收。
  2. 由于客户端端口一般采用协议栈随机分配的方式,协议栈会给每个客户端连接分配一个未使用的端口,因此如果客户端同一IP对应的time_wait数量超过ip_local_port_range设置的最大值(也就是65000),端口将被用完,连接会无法建立。

5.2 服务端大量time_wait影响

由于服务端只占用监听端口,因此不存在端口用完的现象。服务端大量time_wait唯一影响是:资源不释放,内存无法回收。

 

6. 测试验证

      本次测试结果采用sysbench.short来压测cobar来验证,客户端物理设备和服务端物理设备的ip_local_port_range(1024~65000)和tcp_max_tw_buckets(81920)参数都是默认值,测试结果如下:

  1. 当cobar服务端time_wait数达到81920的时候,任然可以继续接收客户端连接,能够正常提供连接服务。
  2. 当客户端测试工具sysbench.short服务器上的time_wait数达到60000多的时候,客户端连接失败,无法连接,因为端口用完。打印:Cannot assign requested address; Cobar服务器time_wait超限时打印:

Cobar服务器time_wait超限的情况下,客户端sysbench压测结果基本不受影响,如下:

从上面测试可以看出,服务端time_wait不会影响客户端建链,只是占用内存。如果是客户端出现大量time_wait状态,此时端口用完,则无法建立连接。以上测试结论符合理论、代码分析。

 

7. 三种解决time_wait方法总结

 

Time_wait快速回收

端口重用

限制Tcp_max_tw_buckets

配置方法

在需要进行time_wait快速回收的一端进行一下配置:

tcp_tw_recycle:1

本端tcp_timestamps:1

对端tcp_timestamps:1

在需要进行time_wait快速回收的一端进行一下配置:

tcp_tw_reuse1

本端tcp_timestamps:1

对端tcp_timestamps:1

配置Tcp_max_tw_buckets

的值在60000以下。例如配置为30000

副作用

在某些情况下可能引起用户建连接失败(例如需要直接返回给用户信息的服务器)

比较暴力,不符合TCP协议规范

在某些情况下可能引起用户建连接失败(例如需要直接返回给用户信息的服务器

部署复杂,需要同时改服务端,而服务端比较多。

服务器时间戳会带出IDC,经过中间各种网络设备,尤其是运营商的无线设备等,如果某个设备对时戳有校验,则会产生丢包问题。

比较暴力,不符合TCP协议规范

应急的处理,立竿见影。

建议这种。

 

本文发表于2019年05月19日 15:00
(c)注:本文转载自https://my.oschina.net/u/4087916/blog/3051356,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如有侵权行为,请联系我们,我们会及时删除.

阅读 47 讨论 0 喜欢 0

日韩化妆品代购 正品保证 假一赔十

刀架在脖子上让发的,走过路过看一下8....

讨论

周娱

君子和而不同
按照自己的方式,去度过人生

7008 2392471
抢先体验

扫码体验
趣味小程序
文字表情生成器

加入组织

扫码添加周娱微信
备注“加入组织”
邀请进开发群

闪念胶囊

这个世界上,别人只会看你现在的样子而不是以后的样子。你以后的样子只有自己才相信。如果没有执行力,一切都是虚妄。

对普通人来说,人和人相处其实最重要的是感觉。感觉不好,你说什么都没用,怎么解释都没用,越说越错,反正最后不好的锅都往你身上扣。所谓“说你行你就行,不行也行。说你不行,你就不行,行也不行”就是这个意思。狼要吃人根本不需要理由,你也同样叫不醒装睡的人。遇到这种情况,早点闪人才是上策。不过大部分人的问题是没有闪人的心态,能力,和资源。

考985不牛逼,考上才牛逼。创业不牛逼,创业成功才牛逼。这个社会上很多人把目标当成牛逼的资本,牛逼哄哄的,死活不听劝,然后做的一塌糊涂,给别人添麻烦,让别人帮他料理后事,对此只能呵呵。

当你尝到用生气解决问题的甜头后,你就懒得再用其他方式了。你却忽略了,生气是鸩毒啊,剂量用够了,你的关系也玩完了。

年轻的时候你只搞事业不谈恋爱,等你事业有成了,钱相对自由了,你可能已经没有荷尔蒙了。

如果你经常雇佣比你矮小的人,将来我们就会变成矮人国,变成一家侏儒公司。相反,如果你每次都雇用比你高大的人,日后我们必能成为一家巨人公司。

如果一个人有充裕的时间去完成一项工作,那么他就会放慢节奏或者增加其他不必要的工作,直到花光所有的时间。

天空不是人类休息的地方,人类应该去亲近海洋。

一个人的正直程度,取决于他肯为原则付出的牺牲。

Copyright © 2016 - 2018 Cion.
All Rights Reserved.
备案:鲁ICP备16007319号.