logo好方法网

任务运行日志的处理方法、装置、设备及存储介质


技术摘要:
本公开提出了一种任务运行日志的处理方法、装置、设备及存储介质,该方法包括:获取并保存预置的报错原因关键词和对应的报错规则;当任务运行失败时,根据所保存的报错规则去匹配任务运行日志;将匹配成功的报错规则所对应的报错原因关键词展示到前端。
背景技术:
目前,在人工智能领域,普遍无法做到运行错误自动探测和运行状态透明化。现有 技术中,当任务运行失败时,用户需要对日志进行关键词搜索和定位,然后人工发现问题, 该种方法主要依赖于人工手动发现问题,极大浪费时间和工作量,导致效率低下;同时,在 任务运行失败时,其仅能在任务运行结束后由人工手动去进行分析,无法做到事中实时展 示,也无法提供运行失败原因的自动探测,对于金融、政府等要求可信可靠的行业用户,是 无法被实际应用的。
技术实现要素:
本公开实施例的一个目的是提供一种任务运行日志的处理的新的技术方案。 根据本公开的第一方面,提供了一种任务运行日志的处理方法,其包括: 获取并保存预置的报错原因关键词和对应的报错规则; 当任务运行失败时,根据所保存的报错规则去匹配任务运行日志; 将匹配成功的报错规则所对应的报错原因关键词展示到前端。 可选地,所述报错原因关键词和对应的报错规则包括如下中的至少一种: 内存不足,对应单个关键字报错; license超限,对应同时满足多个关键字且不在同一行报错; 算法参数配置错误,对应同时满足多个关键字且不在同一行报错; 脚本语法错误,对应同时满足多个关键字且不在同一行报错; 集群时区不同步,对应同时满足多个关键字且不在同一行报错; 权限不足,对应单个关键字报错。 可选地,所述方法还包括:根据所述任务中的执行步骤的先后顺序,对所述任务的 运行日志进行分类收集,从而得到多个子日志文件; 所述根据所保存的报错规则去匹配任务运行日志包括:根据所述多个子日志文件 的产生顺序的倒序去进行匹配。 可选地,所述多个子日志文件包括:引擎日志、非业务日志和业务日志。 可选地,所述引擎日志用于记录调度执行引擎时的系统相关信息;所述非业务日 志用于记录任务运行时的系统相关信息;所述业务日志用于记录任务运行时的算法相关信 息。 可选地,所述引擎日志在所述任务运行之前的第一阶段生成,所述非业务日志在 所述任务运行的第二阶段生成,所述业务日志在所述任务运行的第三阶段生成,所述第二 3 CN 111611127 A 说 明 书 2/15 页 阶段、所述第三阶段依时间顺序先后执行。 可选地,所述多个子日志文件包括引擎日志和非业务日志, 所述根据所述多个子日志文件的产生顺序的倒序去进行匹配,包括: 从最后一条所述非业务日志开始从后向前依次匹配。 可选地,所述多个子日志文件包括引擎日志、非业务日志和业务日志,所述根据所 述多个子日志文件的产生顺序的倒序去进行匹配,包括: 从最后一条所述业务日志开始从后向前依次匹配。 可选地,当任务运行失败时,由执行引擎向调度器报错,由调度器执行所述匹配和 展示到前端的步骤。 可选地,所述方法还包括: 获取预置的与所展示的报错原因关键词对应的修复程序,运行所述修复程序。 可选地,所述方法还包括: 在运行所述修复程序之前提示用户是否执行一键修复,当用户确认时再执行所述 修复程序。 可选地,所述方法还包括: 将运行所述修复程序的过程也写入所述任务的运行日志中。 可选地,通过Websocket协议与前端建立通讯连接。 可选地,所述方法还包括: 根据所述任务的类型,获取预置与所述任务的类型对应的运行状态捕捉规则模 型; 当所述任务运行时,由所述运行状态捕捉规则模型获取该任务的运行状态信息, 并发送到前端进行展示。 可选地,所述运行日志包括业务日志,所述任务为GBDT算法训练任务, 所述由所述运行状态捕捉规则模型获取该任务的运行状态信息,并发送到前端进 行展示,包括: 利用所述运行状态捕捉规则模型定位所述业务日志中的树建立信息,以获取所述 树建立信息中的树建立开始时间、树建立结束时间、GBDT算法效果、所述任务的资源消耗、 所述任务对应的加工数据条数; 将所述树建立信息进行绘图并实时发送到前端进行展示。 可选地,所述运行日志包括业务日志,所述任务为特征抽取任务, 所述由所述运行状态捕捉规则模型获取该任务的运行状态信息,并发送到前端进 行展示,包括: 利用所述运行状态捕捉规则模型定位所述业务日志中的每一行数据、每一种特征 方法的处理信息,以获取所述处理信息中的处理开始时间、处理结束时间、特征方法是否生 效、所述任务的任务所耗资源、特征方法生效比例; 将所述处理信息进行绘图并实时发送到前端进行展示。 可选地,所述运行日志包括业务日志,所述方法还包括: 在任务运行时,将实时接收的业务日志推送到前端,以使所述前端解析所述业务 日志并进行实时展示。 4 CN 111611127 A 说 明 书 3/15 页 可选地,所述运行日志包括业务日志, 所述方法还包括: 接收调度引擎推送的任务运行时生成的业务日志,所述业务日志用于记录所述执 行引擎执行对应算子来运行所述任务时的算法相关信息; 解析所述业务日志并实时展示给用户,以使所述用户根据展示的所述任务的运行 状态确定是否继续执行所述任务。 可选地,所述运行日志包括业务日志, 所述方法还包括: 实时查看所述任务运行时生成的业务日志; 根据所述业务日志判断所述任务的运行状态是否满足预设的任务结束运行条件; 在所述任务的运行状态满足所述预设的任务结束运行条件的情况下,结束所述任 务的运行。 根据本公开的第二方面,还提供一种任务运行日志的处理装置,其包括: 获取模块,用于获取并保存预置的报错原因关键词和对应的报错规则; 匹配模块,用于当任务运行失败时,根据所保存的报错规则去匹配任务运行日志; 展示模块,用于将匹配成功的报错规则所对应的报错原因关键词展示到前端。 可选地,所述报错原因关键词和对应的报错规则包括如下中的至少一种: 内存不足,对应单个关键字报错; license超限,对应同时满足多个关键字且不在同一行报错; 算法参数配置错误,对应同时满足多个关键字且不在同一行报错; 脚本语法错误,对应同时满足多个关键字且不在同一行报错; 集群时区不同步,对应同时满足多个关键字且不在同一行报错; 权限不足,对应单个关键字报错。 可选地,所述装置还包括分类模块, 所述分类模块,用于根据所述任务中的执行步骤的先后顺序,对所述任务的运行 日志进行分类收集,从而得到多个子日志文件; 所述匹配模块,用于根据所述多个子日志文件的产生顺序的倒序去进行匹配。 可选地,所述装置还包括分类模块, 所述分类模块,用于根据所述任务中的执行步骤的先后顺序,对所述任务的运行 日志进行分类收集,从而得到多个子日志文件; 所述匹配模块,用于根据所述多个子日志文件的产生顺序的倒序去进行匹配。 可选地,所述多个子日志文件包括:引擎日志、非业务日志和业务日志。 可选地,所述引擎日志用于记录调度执行引擎时的系统相关信息; 所述非业务日志用于记录任务运行时的系统相关信息;以及, 所述业务日志用于记录任务运行时的算法相关信息。 可选地,所述引擎日志在所述任务运行之前的第一阶段生成,所述非业务日志在 所述任务运行的第二阶段生成,所述业务日志在所述任务运行的第三阶段生成,所述第二 阶段、所述第三阶段依时间顺序先后执行。 可选地,所述多个子日志文件包括引擎日志和非业务日志, 5 CN 111611127 A 说 明 书 4/15 页 所述业务日志用于记录任务运行时的算法相关信息。 所述匹配模块,还用于从最后一条所述非业务日志开始从后向前依次匹配。 可选地,所述多个子日志文件包括引擎日志、非业务日志和业务日志, 所述匹配模块,还用于从最后一条所述业务日志开始从后向前依次匹配。 可选地,所述匹配模块,还用于当任务运行失败时,由执行引擎向调度器报错,由 调度器执行所述匹配和展示到前端的步骤。 可选地,所述装置还包括运行模块, 所述运行模块,用于获取预置的与所展示的报错原因关键词对应的修复程序,运 行所述修复程序。 可选地,所述运行模块,还用于在运行所述修复程序之前提示用户是否执行一键 修复,当用户确认时再执行所述修复程序。 可选地,所述运行模块,还用于将运行所述修复程序的过程也写入所述任务的运 行日志中。 可选地,通过Websocket协议与前端建立通讯连接。 可选地,所述装置还包括发送模块, 所述获取模块,还用于根据所述任务的类型,获取预置与所述任务的类型对应的 运行状态捕捉规则模型; 所述发送模块,用于当所述任务运行时,由所述运行状态捕捉规则模型获取该任 务的运行状态信息,并发送到前端进行展示。 可选地,所述运行日志包括业务日志,所述任务为GBDT算法训练任务, 所述获取模块,还用于利用所述运行状态捕捉规则模型定位所述业务日志中的树 建立信息,以获取所述树建立信息中的树建立开始时间、树建立结束时间、GBDT算法效果、 所述任务的资源消耗、所述任务对应的加工数据条数; 所述发送模块,还用于将所述树建立信息进行绘图并实时发送到前端进行展示。 可选地,所述运行日志包括业务日志,所述任务为特征抽取任务, 所述获取模块,还用于利用所述运行状态捕捉规则模型定位所述业务日志中的每 一行数据、每一种特征方法的处理信息,以获取所述处理信息中的处理开始时间、处理结束 时间、特征方法是否生效、所述任务的任务所耗资源、特征方法生效比例; 所述发送模块,还用于将所述处理信息进行绘图并实时发送到前端进行展示。 可选地,所述运行日志包括业务日志, 所述发送模块,还用于在任务运行时,将实时接收的业务日志推送到前端,以使所 述前端解析所述业务日志并进行实时展示。 可选地,所述运行日志包括业务日志,所述装置还包括解析模块。 所述接收模块,用于接收调度引擎推送的任务运行时生成的业务日志,所述业务 日志用于记录所述执行引擎执行对应算子来运行所述任务时的算法相关信息; 所述解析模块,解析所述业务日志并实时展示给用户,以使所述用户根据展示的 所述任务的运行状态确定是否继续执行所述任务。 可选地,所述装置还包括判断模块, 所述判断模块,用于实时查看所述任务运行时生成的业务日志; 6 CN 111611127 A 说 明 书 5/15 页 根据所述业务日志判断所述任务的运行状态是否满足预设的任务结束运行条件; 在所述任务的运行状态满足所述预设的任务结束运行条件的情况下,结束所述任 务的运行。 根据本公开的第三方面,还提供一种包括至少一个计算装置和至少一个存储装置 的设备,其中,所述至少一个存储装置用于存储指令,所述指令用于控制所述至少一个计算 装置执行根据以上第一方面所述的方法。 根据本公开的第四方面,还提供一种计算机可读存储介质,其中,其上存储有计算 机程序,所述计算机程序在被处理器执行时实现如以上第一方面所述的方法。 根据本公开实施例的方法,其能够将总结的报错原因关键词和与报错原因关键词 对应的报错规则预先保存,并在任务运行失败时,根据所保存的报错规则去匹配任务运行 日志,进而将匹配的报错规则所对应的报错原因关键词展示到前端。由于预先存储有报错 规则和报错原因关键词的对应关系,因此,本公开实施例方法在任务运行失败时,能够直接 根据总结出来的报错规则去匹配运行日志,以将匹配成功的报错规则所对应的报错原因关 键词展示给用户,避免了人工手动发现问题,提高探测运行失败原因的效率,并且,实现了 运行失败原因的自动探索和运行失败原因的可视化展示。 附图说明 通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其 优点将会变得清楚。 图1是显示可用于实现本公开实施例的电子设备的硬件配置的原理框图; 图2示出了本公开实施例的任务运行日志的处理方法的流程示意图; 图3示出了本公开另一实施例的任务运行日志的处理方法的流程示意图; 图4示出了本公开实施例的任务运行日志的处理装置的原理框图。
下载此资料需消耗2积分,
分享到:
收藏