logo好方法网

一种集群网络的监控方法和装置


技术摘要:
本发明提供一种集群网络的监控方法和装置,方法包括监测集群网络中与本地节点连通的节点数目;若所述节点数目为1,生成所述本地节点的断网异常信息;若所述节点数目大于1,且所述当前节点数目小于或等于P/2,生成所述集群网络的分区异常信息;若所述节点数目大于P/2,  全部
背景技术:
集群是指在多台计算机之上运行、之间通过某种通信方式相互通信从而将集群内 所有存储空间资源整合、虚拟化并对外提供文件访问服务的文件系统。集群环境部署一般 是大规模的,每个集群环境的节点个数从一台到上百台机器不等,集群中各节点的通信主 要靠网络连接,因此节点之间的网络状况就尤为重要,及时发现集群中出现的网络异常并 告知用户对集群的安全保障至关重要。 现有技术中,可以由每个节点周期性向其他节点发起网络请求,以确认当前节点 与其他节点的网络是否正常,以得到当前节点和其他节点的运行状态。 但是,现有技术中,仅仅能够获知节点在当前检测周期内是否正常运行,但是并不 知道节点每个时刻的运行状态。例如,节点在第一时刻发生断网,此时正好处于不检测周期 内,因此,无法对该节点的运行状态进行检测,该节点在第二时刻断网恢复,这样,在进行下 一周期检测时,会检测到该节点的运行状态为正常,对于用户而言,并不知道该节点发生过 断网。 因此,现有技术中对集群中各节点的检测结果可靠性较差。
技术实现要素:
有鉴于此,本发明的目的在于提出一种集群网络的监控方法和装置,以解决现有 技术中对集群中各节点的检测结果可靠性较差的问题。 基于上述目的,本发明提供了一种集群网络的监控方法,包括: 监测集群网络中与本地节点连通的节点数目; 若所述节点数目为1,生成所述本地节点的断网异常信息; 若所述节点数目大于1,且所述当前节点数目小于或等于P/2,生成所述集群网络 的分区异常信息; 若所述节点数目大于P/2,且所述当前节点数目小于P,生成所述集群网络的全网 异常信息; 其中,所述P为集群网络中总节点数目。 进一步地,上述所述的集群网络节点的监控方法中,生成所述本地节点的断网异 常信息,包括: 检测本地节点是否存在网络分区文件; 若本地节点存在网络分区文件,将当前检测时间作为所述网络分区文件的结束时 间,对所述网络分区文件更新,得到更新网络分区文件,并生成网络分区内断网异常信息; 若本地节点不存在网络分区文件,生成无网络分区断网异常信息。 进一步地,上述所述的集群网络节点的监控方法,还包括: 4 CN 111737079 A 说 明 书 2/9 页 判断是否存在本地报警文件; 若存在,将所述网络分区内断网异常信息或无网络分区断网异常信息写入所述本 地报警文件中; 若不存在,初始化所述本地报警文件,并记录所述网络分区内断网异常信息或无 网络分区断网异常信息。 进一步地,上述所述的集群网络节点的监控方法中,所述分区异常信息包括分区 记录信息; 所述生成所述集群网络的分区异常信息,包括: 判断本地节点是否为记录分区信息的节点; 若本地节点为记录分区信息的节点,检测是否存在所述网络分区文件; 若不存在所述网络分区文件,创建所述网络分区文件,生成所述当前连通节点对 应的分区记录信息写入所述网络分区文件; 若存在所述网络分区文件,判断所述当前连通节点与所述网络分区文件的已分区 节点是否一致;若所述当前连通节点与所述已分区节点一致,对所述网络分区文件的时间 进行更新;若所述当前连通节点与所述已分区节点不一致,生成所述当前连通节点对应的 分区记录信息写入所述网络分区文件。 进一步地,上述所述的集群网络节点的监控方法中,所述对所述网络分区文件的 时间进行更新之前,还包括: 计算所述当前检测时间与所述网络分区文件的记录时间的差值; 判断所述差值是否大于预设阈值; 若所述差值大于预设阈值,将所述分区记录信息写入所述网络分区文件; 对应地,所述对所述网络分区文件的时间进行更新,包括: 若所述差值小于或等于预设阈值,利用所述当前检测时间对所述网络分区文件的 记录时间进行更新。 进一步地,上述所述的集群网络节点的监控方法中,所述分区异常信息还包括分 区内网络恢复信息; 所述生成所述集群网络的分区异常信息,包括: 判断所述本地节点是否存在所述本地报警文件; 若存在所述本地报警文件,将所述当前检测时间作为所述本地节点的恢复时间写 入所述本地报警文件,以生成分区内网络恢复信息。 进一步地,上述所述的集群网络节点的监控方法中,所述生成所述集群网络的全 网异常信息,包括: 生成所述集群网络中所述本地节点异常恢复信息;和/或 生成所述集群网络中与本地节点未连通的节点的异常信息; 其中,生成所述集群网络中所述本地节点异常恢复信息,包括: 若检测到所述本地节点存在所述网络分区文件,检测所述网络分区文件中最后一 条分区记录信息是否存在分区恢复时间,若存在所述分区恢复时间,生成分区内网络恢复 信息;若不存在所述分区恢复时间,将所述当前检测时间作为所述网络分区文件的恢复时 间写入所述网络分区文件,以生成所述分区内网络恢复信息; 5 CN 111737079 A 说 明 书 3/9 页 若检测到所述本地节点存在所述本地报警文件,检测所述本地报警文件是否存在 所述本地节点的断网恢复时间,若存在所述本地节点的断网恢复时间,生成所述本地节点 的断网恢复信息;若不存在所述本地节点的断网恢复时间,将所述当前检测时间作为所述 本地节点的恢复时间写入所述本地报警文件,以生成所述本地节点的断网恢复信息; 若检测到所述本地节点不存在节点运行标识文件,生成本地节点的重启恢复信 息。 进一步地,上述所述的集群网络节点的监控方法,还包括: 若检测到所述本地节点存在所述网络分区文件,将所述网络分区文件中的记录信 息报出; 若检测到所述本地节点存在所述本地报警文件,将所述本地报警文件的记录信息 报出; 若检测到所述本地节点不存在节点运行标识文件,将所述本地节点的重启时间报 出。 进一步地,上述所述的集群网络节点的监控方法中,所述监测集群网络中与本地 节点连通的节点数目,包括: 利用本地节点向所述监测集群网络中其他节点发送Ping命令,得到Ping结果; 根据所述ping结果,确定与所述本地节点连通的节点数目。 本发明还提供一种集群网络的监控装置,包括: 监测模块,用于监测集群网络中与本地节点连通的节点数目; 生成模块,用于若所述节点数目为1,生成所述本地节点的断网异常信息;若所述 节点数目大于1,且所述当前节点数目小于或等于P/2,生成所述集群网络的分区异常信息; 若所述节点数目大于P/2,且所述当前节点数目小于P,生成所述集群网络的全网异常信息; 其中,所述P为集群网络中总节点数目。 从上面所述可以看出,本发明提供的集群网络节点的监控方法和装置,通过监测 集群网络中与本地节点连通的节点数目,在节点数目为1时,生成本地节点的断网异常信 息;在节点数目大于1,且当前节点数目小于或等于P/2时,生成集群网络的分区异常信息, 在节点数目大于P/2,且当前节点数目小于P时,生成集群网络的全网异常信息,实现了每个 节点任意时刻的异常信息的分析和记录,同时,能够在集群出现脑裂的情况下,对每个节点 的运行信息进行检测。采用本发明的技术方案,能够提高检测结果可靠性。 附图说明 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以 根据这些附图获得其他的附图。 图1为本发明的集群网络的监控方法实施例的流程图; 图2为本发明集群网络的监控装置实施例的结构示意图; 图3为本发明的集群网络的监控设备实施例的结构示意图。 6 CN 111737079 A 说 明 书 4/9 页
分享到:
收藏