logo好方法网

故障管理方法、装置、设备及计算机可读存储介质


技术摘要:
本申请提供一种故障管理方法、装置、设备及计算机可读存储介质。该方法包括:BMC监测是否有错误信号,其中,错误信号是CPU在判断服务器发生故障时触发的;若监测到错误信号,则基于错误信号,获取服务器的故障信息,其中,故障信息包括CPU故障、内存故障、PCIE故障、PC  全部
背景技术:
随着大数据以及云计算的发展,计算机和服务器的需求在不断增加,对服务器可 靠性和稳定性的要求也逐步增高。 在长期运行的过程中,服务器可能会出现各种各样的故障,因此需要对故障进行 管理,以维持服务器的稳定。相关技术中,服务器发生故障时,一般会在主机端产生系统管 理中断(System  Management  Interrupt,简称SMI)。 然而,中断的优先级高于其他指令和应用,所以在故障发生时会对主机应用造成 延迟,影响服务器的正常使用,服务器运行效率较低。
技术实现要素:
本申请提供一种故障管理方法、装置、设备及计算机可读存储介质,从而解决现有 服务器发生故障,导致主机应用延迟,服务器运行效率较低的技术问题。 第一方面,本申请实施例提供一种故障管理方法,该方法的执行主体可以为基板 管理控制器(System  Management  Mode,BMC),该方法可以包括:监测是否有错误信号,其 中,错误信号是中央处理器(Central  Processing  Unit,CPU)在判断服务器发生故障时触 发的;若监测到错误信号,则基于错误信号,获取服务器的故障信息,其中,故障信息包括 CPU故障、内存故障、高速串行计算机扩展总线(Peripheral  Component  Interconnect  Express,PEIC)故障、集成南桥(Platform  Controller  Hub,PCH)故障和信道(Ultra  Path  Interconnect,UPI)故障中至少一种;根据故障信息,确定服务器的故障解决方案。 本申请实施例在服务器发生故障时,BMC根据CPU触发的错误信号获取服务器的故 障信息,其中,不产生SMI中断,且上述错误信号的优先级不会高于其他指令和应用,从而, 避免了服务器发生故障时主机产生的SMI中断对服务器造成的延迟,提高了服务器的运行 效率。 可选的,上述基于错误信号,获取服务器的故障信息,包括: 基于错误信号,采用预设数据结构获取服务器的故障信息。这里,预设数据结构可 以根据实际情况确定,例如,最小数据结构,从而,节省了服务器的存储空间,进一步地提高 了服务器的运行效率。 可选的,上述预设数据结构通过以下方式确定: 当故障信息包括CPU故障时,预设数据结构包括是否存在故障、故障来源和故障位 置。 当故障信息包括内存故障时,预设数据结构包括故障内存位置、故障类型和内存 故障细化。 4 CN 111581058 A 说 明 书 2/9 页 当故障信息包括PEIC故障时,预设数据结构包括故障位置、故障类型和故障来源。 当故障信息包括PCH故障时,预设数据结构包括故障模块、故障类型和故障来源。 当故障信息为UPI故障时,预设数据结构包括故障链路位置、故障类型和故障来 源。 本申请实施例根据不同的故障信息自定义数据结构,满足多种应用需要。 可选的,上述根据故障信息,确定服务器的故障解决方案,包括: 获取预存的服务器故障信息与服务器故障解决方案的对应关系;根据对应关系, 确定故障信息对应的服务器的故障解决方案。 这里,本申请实施例预存故障信息与解决方案的对应关系,进而,基于该关系,确 定故障信息对应的解决方案,进一步地提高了服务器解决故障的效率。 第二方面,本申请提供一种故障管理方法,该方法的执行主体可以为CPU,该方法 可以包括:判断服务器是否发生故障;若服务器发生故障,则触发错误信号,错误信号用于 指示BMC在监测到错误信号时,基于错误信号,获取服务器的故障信息,并根据故障信息,确 定服务器的故障解决方案,其中,故障信息包括CPU故障、内存故障、PCIE故障、PCH故障和 UPI故障中至少一种。 本申请实施例在判断服务器发生故障之后触发错误信号,使得BMC基于该错误信 号获得故障信息,其中,不产生SMI中断,且上述错误信号的优先级不会高于其他指令和应 用,从而,避免了在服务器发生故障时内部产生的SMI中断对主机应用造成的延迟,保证了 服务器发生故障时仍可正常使用,提高了服务器的运行效率。 可选的,上述判断服务器是否发生故障,包括: 判断服务器的CPU、内存、PCIE、PCH和UPI是否出现故障;若CPU、内存、PCIE、PCH和 UPI中任意一项出现故障,则判断服务器发生故障。 这里,以上故障会产生SMI中断,因此CPU判断是否出现上述故障,进而,在出现上 述任一故障时,触发错误信号使BMC基于此错误信号获取故障信息,避免了SMI中断造成的 主机延迟,提高了服务器的运行效率。 第三方面,本申请提供一种故障管理方法,包括: CPU判断服务器是否发生故障,并在判断服务器发生故障时,触发错误信号;BMC监 测是否有错误信号;若监测到错误信号,则基于错误信号,获取服务器的故障信息,其中,故 障信息包括CPU故障、内存故障、PCIE故障、PCH故障和UPI故障中至少一种;根据故障信息, 获取服务器的故障解决方案。 本申请实施例在服务器发生故障时BMC根据CPU触发的错误信号获取服务器的故 障信息,根据此故障信息确定故障解决方案,其中,上述错误信号的优先级不会高于其他指 令和应用,从而,避免了服务器发生故障时主机产生的SMI中断对服务器造成的延迟,保证 了服务器发生故障时仍可正常使用,提高了服务器的运行效率。 第四方面,本申请提供一种故障管理装置,包括:监测模块,用于监测是否有错误 信号,其中,错误信号是CPU在判断服务器发生故障时触发的;第一获取模块,若监测到错误 信号,则基于错误信号,获取服务器的故障信息,其中,故障信息包括CPU故障、内存故障、 PCIE故障、PCH故障和UPI故障中至少一种;第二获取模块,用于根据故障信息,获取服务器 的故障解决方案。 5 CN 111581058 A 说 明 书 3/9 页 可选的,第一获取模块具体用于:若监测到错误信号,则基于错误信号,采用预设 数据结构获取服务器的故障信息。 可选的,预设数据结构通过以下方式确定:当故障信息包括CPU故障时,预设数据 结构包括是否存在故障、故障来源和故障位置;当故障信息包括内存故障时,预设数据结构 包括故障内存位置、故障类型和内存故障细化;当故障信息包括PEIC故障时,预设数据结构 包括故障位置、故障类型和故障来源;当故障信息包括PCH故障时,预设数据结构包括故障 模块、故障类型和故障来源;当故障信息包括UPI故障时,预设数据结构包括故障链路位置、 故障类型和故障来源。 可选的,第二获取模块具体用于:获取预存的服务器故障信息与服务器故障解决 方案的对应关系;根据对应关系,确定故障信息对应的服务器的故障解决方案。 第五方面,本申请提供一种故障管理装置,包括:判断模块,用于判断服务器是否 发生故障;处理模块,若服务器发生故障,则触发错误信号,错误信号用于指示BMC在监测到 所述错误信号时,基于错误信号,获取服务器的故障信息,并根据故障信息,确定服务器的 故障解决方案,其中,故障信息包括CPU故障、内存故障、PCIE故障、PCH故障和UPI故障中至 少一种。 可选的,判断模块具体用于:判断服务器的CPU、内存、PCIE、PCH和UPI是否出现故 障;若CPU、内存、PCIE、PCH和UPI中任意一项出现故障,则判断服务器发生故障。 第六方面,本申请实施例提供一种存储有计算机指令的非瞬时计算机可读存储介 质,计算机指令用于使计算机执行如第一方面或第一方面的可选方式的任一项的应用于故 障管理方法。 第七方面,本申请实施例提供一种存储有计算机指令的非瞬时计算机可读存储介 质,计算机指令用于使计算机执行如第二方面或第二方面的可选方式的任一项的应用于故 障管理方法。 第八方面,本申请实施例提供一种计算机程序产品,该产品包括:计算机指令,该 计算机指令用于使计算机执行如第一方面或第一方面的可选方式的任一项的应用于故障 管理方法。 第九方面,本申请实施例提供一种计算机程序产品,该产品包括:计算机指令,该 计算机指令用于使计算机执行如第二方面或第二方面的可选方式的任一项的应用于故障 管理方法。 本申请实施例提供一种故障管理方法、装置、设备及计算机可读存储介质,该方法 通过CPU判断服务器是否发生故障,并在判断服务器发生故障时,触发错误信号;BMC监测是 否有错误信号;若监测到错误信号,则基于错误信号,获取服务器的故障信息,其中,不产生 SMI中断,且上述错误信号的优先级不会高于其他指令和应用,从而,避免了服务器发生故 障时主机产生的SMI中断对服务器造成的延迟,保证了服务器发生故障时仍可正常使用,提 高了服务器的运行效率。 附图说明 此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施 例,并与说明书一起用于解释本公开的原理。 6 CN 111581058 A 说 明 书 4/9 页 图1为本申请实施例提供的一种故障管理的系统框架图; 图2为本申请实施例提供的一种故障管理方法的流程图; 图3为本申请实施例提供的另一种故障管理方法的流程图; 图4为本申请实施例提供的再一种故障管理方法的流程图; 图5为本申请实施例提供的一种CPU故障判断示意图; 图6为本申请实施例提供的又一种故障管理方法的流程图; 图7为本申请实施例提供的一种故障管理装置的结构示意图; 图8为本申请实施例提供的另一种故障管理装置的结构示意图; 图9为本申请实施例提供的一种故障管理设备的结构示意图。 通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图 和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为 本领域技术人员说明本公开的概念。
下载此资料需消耗2积分,
分享到:
收藏