技术摘要:
本公开提供了一种拓扑结构中死锁故障的定位方法和装置。其中,拓扑结构由m个网络设备构成,定位方法包括:响应于m个网络设备中n个网络设备发送的网络异常信息,确定n个网络设备为异常网络设备;获取n个异常网络设备各自的运行信息;以及根据运行信息,确定n个异常网络 全部
背景技术:
随着金融机构IT架构转型的不断推进,及大数据、AI、分布式技术架构的不断推广 应用,对金融机构数据中心内部网络提出了高带宽延迟传输的更高挑战。高带宽、低延时、 低CPU资源使用率的高性能RDMA(Remote Direct Memory Access,远程直接数据存取)协议 越来越多地被金融机构选择。 在实现本公开构思的过程中,发明人发现相关技术中至少存在以下问题:RDMA网 络会带来新的网络风险-deadlock(死锁)。在RDMA发生死锁故障时会导致网络停流,业务不 可用,从而会导致无法观察网络传输的时延数据,CPU的利用率异常等问题。相关技术中,网 络异常监控无法辨别网络异常是否为RDMA死锁,往往需要熟悉RDMA技术的运维人员对死锁 故障进行识别判断。这无疑会提高网络异常监控的成本,且需要对运维人员提出高要求。
技术实现要素:
有鉴于此,本公开提供了一种能够自动识别死锁故障的拓扑结构中死锁故障的定 位方法和装置,以自动定位得到存在死锁故障的网络设备。 本公开的一个方面提供了一种拓扑结构中死锁故障的定位方法,其中拓扑结构由 m个网络设备构成,该处理方法包括:响应于m个网络设备中n个网络设备发送的网络异常信 息,确定n个网络设备为异常网络设备;获取n个异常网络设备各自的运行信息;以及根据运 行信息,确定n个异常网络设备中存在死锁故障的网络设备。其中,其中,m、n均为大于等于3 的整数,且m大于等于n。 根据本公开的实施例,上述运行信息包括日志信息和端口流量信息;上述根据运 行信息,确定n个异常网络设备中存在死锁故障的网络设备包括:确定n个异常网络设备各 自的运行信息中目标指标的取值;确定目标指标的取值大于预定值的异常网络设备为备选 网络设备;以及确定端口流量信息表征端口流量为零的备选网络设备为存在死锁故障的网 络设备。 根据本公开的实施例,目标指标包括用于表征基于优先权的流量控制积压程度的 指标;目标指标的取值与基于优先级的流量控制积压程度的严重程度正相关。 根据本公开的实施例,上述拓扑结构中死锁故障的定位方法还包括:采用网络遥 测技术获取流经m个网络设备的数据包,得到p个数据包;确定p个数据包中跳数异常的数据 包,得到q个目标数据包;以及根据q个目标数据包的传输路径及存在死锁故障的网络设备, 确定拓扑结构中构成死锁的至少一个环路在拓扑结构中的位置。其中,至少一个环路中的 每个环路包括存在死锁故障的网络设备中的至少三个设备,p、q均为正整数,且p大于等于 q。 4 CN 111600759 A 说 明 书 2/11 页 根据本公开的实施例,上述根据q个目标数据包的传输路径及存在死锁故障的网 络设备,确定拓扑结构中构成死锁的至少一个环路在拓扑结构中的位置包括:采用预定分 析器确定q个目标数据包各自传输的有向路径;根据q个目标数据包各自传输的有向路径及 拓扑结构,构建数据包有向图;根据数据包有向图,确定拓扑结构中构成死锁的至少一个环 路;以及根据每个环路包括的存在死锁故障的网络设备在拓扑结构中的位置,确定每个环 路在拓扑结构中的位置。 根据本公开的实施例,上述拓扑结构中死锁故障的定位方法还包括:针对n个异常 网络设备中除存在死锁故障的网络设备外的其他网络设备,采用第一预定处理方式处理其 他网络设备所存在的异常;以及针对存在死锁故障的网络设备,采用第二预定处理方式处 理死锁故障。 本公开的另一方面提供了一种拓扑结构中死锁故障的定位装置,拓扑结构由m个 网络设备构成,该定位装置包括:异常设备确定模块,用于响应于m个网络设备中n个网络设 备发送的网络异常信息,确定n个网络设备为异常网络设备;运行信息获取模块,用于获取n 个异常网络设备各自的运行信息;以及死锁设备确定模块,用于根据运行信息,确定n个异 常网络设备中存在死锁故障的网络设备。其中,其中,m、n均为大于等于3的整数,且m大于等 于n。 根据本公开的实施例,运行信息包括日志信息和端口流量信息;上述死锁设备确 定模块包括:取值确定子模块,用于确定n个异常网络设备各自的运行信息中目标指标的取 值;备选设备确定子模块,用于确定目标指标的取值大于预定值的异常网络设备为备选网 络设备;以及故障设备确定子模块,用于确定端口流量信息表征端口流量为零的备选网络 设备为存在死锁故障的网络设备。 本公开的另一方面提供了一种电子设备,包括:一个或多个处理器;以及存储装 置,用于存储一个或多个程序,其中,当一个或多个程序被一个或多个处理器执行时,使得 一个或多个处理器执行上述的拓扑结构中死锁故障的定位方法。 本公开的另一方面提供了一种计算机可读存储介质,存储有计算机可执行指令, 所述指令在被处理器执行时用于执行如上所述的拓扑结构中死锁故障的定位方法。 本公开的另一方面提供了一种计算机程序,所述计算机程序包括计算机可执行指 令,所述指令在被执行时用于实现如上所述的拓扑结构中死锁故障的定位方法。 根据本公开的实施例,至少可以部分地解决相关技术中无法识别死锁故障,从而 导致网络异常监控需要人为干预、监控成本高的技术问题。本公开实施例通过获取并分析 存在异常的网络设备的运行信息,可以定位得到存在死锁故障的网络设备,可以有效辨别 死锁故障,从而无需要求熟悉RDMA技术的运维人员对异常进行人工识别判断,在一定程度 上降低网络异常监控的成本。 附图说明 通过以下参照附图对本公开实施例的描述,本公开的上述内容以及其他目的、特 征和优点将更为清楚,在附图中: 图1示意性示出了本公开实施例的拓扑结构中死锁故障的定位方法和装置的应用 场景; 5 CN 111600759 A 说 明 书 3/11 页 图2示意性示出了本公开实施例的拓扑结构中死锁故障的定位方法的流程图; 图3示意性示出了本公开实施例的根据运行信息确定n个异常网络设备中存在死 锁故障的网络设备的流程图; 图4示意性示出了本公开另一实施例的拓扑结构中死锁故障的定位方法的流程 图; 图5示意性示出了本公开确定拓扑结构中构成死锁的至少一个环路在拓扑结构中 的位置的流程图; 图6示意性示出了本公开适于执行拓扑结构中死锁故障的定位方法的系统架构的 示意图; 图7示意性示出了本公开实施例的拓扑结构中死锁故障的定位装置的结构框图; 图8示意性示出了本公开实施例的死锁设备确定模块的结构框图;以及 图9示意性示出了本公开实施例的适于执行拓扑结构中死锁故障的定位方法的电 子设备的结构框图。