极速飞艇官方网站 - 官网欢迎您!

如何判断和排查网络环路及解决办法

 

网络环路发生时,会出现网络及应用访问缓慢,网络丢包,甚至无法正常提供服务。通常大型的网络中定位和发现网络环路是比较困难的,本案例介绍了通过网络分析技术如何排查网络环路,同时介绍了网络环路原理。

1.1   问题描述

某公司网络全部为内部网络,不与internet连接,出口防火墙连接集团内网,下联核心交换机,核心交换机下连“下属单位”防火墙。如下图所示:

  

图 1‑1

前一段时间上午8-10点左右网络及应用访问缓慢,内网用户ping DMZ区服务器时会产生大量丢包,甚至无法正常提供服务,而且会不定时的网络访问慢,严重的影响了正常的工作。经过一段时间的排查,并没有发现网络及应用产生故障的原因。

这时通过网络中部署的对之前发生的问题进行长时间的回溯分析,定位到故障发生的时段,来重现故障当时的情景,以便帮助我们找到产生问题的根本原因,解决问题。

图 1‑2

图 1‑3

上两图为发生异常的3小时的流量趋势与概要视图,对网络总流量及进出流量做出统计,峰值达到了682.35Mbps,带宽利用率达到70%左右,瞬时的利用率甚至更高。当前测试网络已经达到非常高的网络利用率,这就可能会造成大量的数据包丢失。

1.2   分析过程

1.2.1 详细分析:

经过针对网络应用分析,发现这3小时的数据中,未知的UDP应用流量占用了总流量的99%以上(如下图)。

图 1‑4

通过进行未知UDP应用的深入挖掘分析,可以发现大量UDP 2425 端口的单方向通讯。(参见下图)

图 1‑5

所以基本我们可以确定网络中产生大数据量传输导致网络慢的原因就是内网中这些使用UDP 2425 端口进行通讯的数据占用了网络的大量带宽,导致网络中产生很多丢包,造成访问应用系统慢。

经过查阅资料和UDP会话分析发现,飞秋软件使用的UDP2425端口,飞秋(FeiQ)是一款局域网聊天传送文件的绿色软件,它参考了飞鸽传书(IPMSG)和QQ, 完全兼容飞鸽传书(IPMSG)协议。

再查找占用带宽较大的IP,基本所有大流量传输的IP地址均为“该公司下属单位”网段的IP地址。

1.2.2 网络环路分析

下载数据包进行精细分析,我们可以对其中的两台主机传输的数据包进行解码分析,发现数据中存在大量IP端口相同并且具有相同的IP标识位的数据包,这就证明了这个主机之间传输的数据包为同一个数据包。(如下图)

图 1‑6

再来定位到数据包中的TTL字段,发现数据包的TTL值呈现逐步递减的趋势,每个数据包TTL值减2(如下图)。这就说明了这个数据包在传输的过程中经过了2个三层设备的处理后又回到了核心交换机与防火墙上联的接口,被再次捕获。

图 1‑7

经过确认,在防火墙上发现一条为192.168.0.0/16指向核心交换机的路由。这就造成了“下属公司”网段中发往192.168.0.0/16网段的数据包,由于在核心交换机没有精确匹配的路由,所以通过核心交换机的默认路由指向防火墙,而经过防火墙后被防火墙的192.168.0.0/16路由指回核心交换机,这样就形成了网络环路。

1.3   分析结论

通过对内网的整体流量分析,发现大量未知UDP2425流量,占用总带宽的99%,导致其他网络访问缓慢。经过“下载分析”发现由于网络环路导致。

其中“下属公司”的网段到总部的一些网段之间路由配置存在问题,产生网络环路,造成了核心交换和防火墙之间传输大量数据,阻塞链路带宽,造成网络传输效率降低,产生网络问题。

1.4   紧急处理办法及优化建议

通过联系“下属公司”网络管理员,禁止了“下属公司”的防火墙到核心交换机的UDP2425的流量,之后网络流量恢复正常。故障现象基本消失,网络恢复正常。

针对本次流量异常情况,我们建议修改防火墙上的路由配置,精细路由条目,进行整理规划,或禁止UDP2425的流量。

类似的网络环路可以通过“黑洞路由”的方式避免,在上级路由器使用汇总路由,而下级路由器配置缺省路由,同时汇总的网段中有部分子网未使用的情况下,最好在下级设备中额外配置一条静态路由,将汇总的大网段指向空接口。例如:上级设备(防火墙)配置192.168.0.0/16指向下级核心交换机,下级核心交换机则配置192.168.0.0/16指向“null 0”接口(针对cisco路由器)。由于路由转发遵循精确匹配原则,这样配置不会影响下级路由器已配置的子网访问,只是将目标地址为未配置的子网主机的数据包丢弃,避免环路发生。

1.5   价值

通过网络分析技术能够通过IP TTL及IP ID的变化,快速发现并确定网络环路的大小,帮助用户精细配置路由条目,避免不必要的流量占用大量带宽。