logo好方法网

一种大数据集群的运行维护方法及装置

技术摘要:
本发明公开一种大数据集群的运行维护方法及装置,包括:对大数据集群组件进行预处理,采用机器学习算法构建策略模型并生成运行维护策略,判断个组件被测进程是否存在错误,并提取错误类型进行修复;本发明可以自动执行检测、修复工作,提高大数据平台的运行维护效率,  全部
背景技术:
大数据,或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软 件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的 资讯。大数据处理依赖众多服务,如HDFS(分布式文件系统)、YARN(资源管理系统)、Spark (分布式内存计算框架)、HBASE(分布式面向列的数据库)、HIVE(基于hadoop的数据仓库工 具)等等。由于网络震荡、电压不稳、资源抢占、误操作等原因都可能造成某些组件挂掉,需 要维护人员定期巡检平台运行情况,发现异常进行排查处理,需要对大量的平台组件进行 测试、运行维护,工作繁杂,浪费人力,较为麻烦。
技术实现要素:
本发明的目的在于提出一种大数据集群的运行维护方法及装置,以解决现有技术 中所存在的一个或多个技术问题,至少提供一种有益的选择或创造条件。 为解决上述技术问题所采用的技术方案:一种大数据集群的运行维护方法,所述 方法包括以下步骤: S100、采集大数据集群中各组件的进程信息,将采集的各组件的进程信息进行预 处理操作; S200、采用机器学习算法构建策略模型;依据所述策略模型,根据预处理后的进程 信息,生成运行维护策略; S300、获取各组件的被测进程的进程运行信息,根据所述进程运行信息扫描所述 被测进程是否存在程序错误; S400、如果扫描所述被测进程存在程序错误,扫描程序错误触发点的错误日志,提 取所述程序错误的错误类型; S500、根据所述错误类型查询对应的运行维护策略,并生成修复指令;根据所述修 复指令及策略修复所述程序错误。 作为以上技术方案的进一步改进,步骤S100的预处理操作包括:对各组件的进程 信息进行过滤,去除不符合要求的数据;对过滤后的进程信息进行数据抽取,以获得进程信 息的有用特性;将数据抽取后获得的有用特征进行数据转换,以获得适合于策略模型训练 的数据类型。 作为以上技术方案的进一步改进,步骤S200具体为:基于神经网络算法构建策略 模型,数据传递给神经网络预测模型,由神经网络预测模型模块进行在线构建策略模型;预 处理后的进程信息数据输入策略模型生成运行维护策略。 作为以上技术方案的进一步改进,步骤S300中,根据所述进程运行信息扫描所述 被测进程是否存在程序错误,包括: 3 CN 111581001 A 说 明 书 2/4 页 根据所述进程运行信息扫描各组件的被测进程是否存在异常;如果扫描所述被测 进程存在异常,则扫描异常服务日志,判断是否存在程序错误;如果扫描所述被测进程不存 在异常,则判断所述被测进程是否扫描完成,如果扫描完成,则退出扫描;如果扫描未完成, 则返回所述根据所述进程运行信息扫描所述被测进程是否存在程序错误的步骤,扫描下一 被测进程。 作为以上技术方案的进一步改进,步骤S400还包括:如果扫描所述被测进程不存 在程序错误,则判断所述被测进程是否扫描完成,如果扫描完成,则退出扫描。 一种大数据集群的运行维护装置,包括:预处理模块、建模模块、策略生成模块、获 取模块、扫描模块、错误类型提取模块和修复模块。 采集模块,用于采集大数据集群中各组件的进程信息。 预处理模块,用于将采集的各组件的进程信息进行预处理操作。 建模模块,用于采用机器学习算法构建策略模型。 策略生成模块,用于依据所述策略模型,根据预处理后的进程信息,生成运行维护 策略。 获取模块,用于获取各组件的被测进程的进程运行信息。 扫描模块,用于根据所述进程运行信息扫描所述被测进程是否存在程序错误。 错误类型提取模块,用于扫描程序错误触发点的错误日志,提取所述程序错误的 错误类型。 修复模块,用于根据所述错误类型查询对应的运行维护策略,并生成修复指令;根 据所述修复指令及策略修复所述程序错误。 本发明的有益效果:本发明可以自动执行检测、修复工作,提高大数据平台的运行 维护效率,减少运维人员的工作量,节省人力,较为便捷。 本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变 得明显,或通过本发明的实践了解到。 附图说明 本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得 明显和容易理解,其中: 图1是本发明提供的一种大数据集群的运行维护方法及装置的流程图。
分享到:
收藏