logo好方法网

一种基于深度学习的分布式异常日志自动识别方法


技术摘要:
本发明公开了一种基于深度学习的分布式异常日志自动识别方法,包括以下步骤:1)获取日志文件数据并进行预处理;2)基于预处理的日志,使用word2vec模型训练得到日志中每个词的词向量;3)使用得到的词向量将日志文本中的句子转变成句向量;4)将句向量输入到长短期记忆神  全部
背景技术:
现代软件日益复杂,规模日益庞大,导致软件维护成本攀升。分布式及异构软件系 统的广泛使用,使得人工的监控软件运行状态和发现运行故障变得极为困难。日志是软件 运行时不可或缺的输出形式。为了尽早发现分布式系统的故障所在,减少潜在的宕机风险, 大量的分布式系统通过实时的日志输出保存运行时软件状态,为维护人员提供数据基础。 在现代分布式系统中,维护人员可以基于系统输出的日志,人工检查软件运行时 状态,发现和分析故障所在。然而,大量的分布式系统保持全天候运行,每天输出海量的日 志数据。这使得人工分析全部日志变得非常困难。 为了通过日志发现软件运行中出现的故障及潜在风险,维护人员基于正常日志集 合,人工定义正确日志所对应的日志特征。对于新的日志,可以通过将该日志与日志特征匹 配的方式,识别日志是否为程序正常执行时输出的日志,即日志是否存在异常行为。若不符 合,则表明软件存在运行故障或潜在风险,可以据此进一步人工分析。然而,维护人员人工 定义正确的日志特征是极为耗时和容易出错的,主要的原因是(1)日志本身复杂,人工定义 日志特征经常出现定义不完全的情况;(2)现代软件的持续集成开发,使得软件版本经常变 更,日志特征的定义需要频繁更改。基于上面两点原因,人工定义日志特征进而识别异常日 志的方法在实践中会消耗大量的人力和时间成本。
技术实现要素:
本发明要解决的技术问题在于针对现有技术中的缺陷,提供一种基于深度学习的 分布式异常日志自动识别方法,该方法能够降低人工识别异常日志所造成的失误风险。 本发明解决其技术问题所采用的技术方案是:一种基于深度学习的分布式异常日 志自动识别方法,包括以下步骤: 1)获取正常和异常日志集合并进行预处理;截取每条日志的时间戳,将日志文件 中的日志消息使用日志中的时间戳字符串进行排序,之后过滤掉每条日志中时间戳字符 串; 2)基于预处理的日志,使用word2vec模型训练得到日志中每个词的词向量; 3)使用得到的词向量将日志文本中的句子转变成句向量; 4)将句向量输入到长短期记忆神经网络模型训练得到二分类模型; 5)新的日志文件进行预处理,提取词向量,并将日志文件中的句子转化成句向量, 将句向量输入到经过训练的长短期记忆神经网络模型(LSTM,LongShort-Term  Memory)中, 判断输入的日志是否为异常日志;所述新的日志文件为日志消息的发生时间在训练日志文 件后的文件; 3 CN 111611218 A 说 明 书 2/4 页 按上述方案,所述步骤2)中使用word2vec模型训练得到日志中每个词的词向量, word2vec模型训练方式使用skip-gram或CBOW词模型的计算方式,并且采用负采样模型进 行训练,得到词向量。 按上述方案,所述步骤4)中长短期记忆神经网络模型训练过程如下: 4.1)每个神经单元输入向量X是一个句向量,将句向量按照时间先后顺序依次输 入到长短期记忆神经网络模型; 4.2)每个神经单元输入向量经遗忘门、输入门、输出门处理之后将知识信息存储 到知识库C中,并且将当前神经单元处理之后的知识输出到ht 1中,同时,将上一个神经单元 输出的ht 1的知识输入到下一个神经单元中; 其中,遗忘门的激活函数是sigmoid函数,将当前向量遗忘之后的数据作为权重与 知识库的向量内积,实现旧知识的部分遗忘; 输入门是将输入句向量和前一个神经单元的输出向量取合集,具体如下:首先,将 当前向量的sigmoid函数与向量内积获得记忆权重,第二,当前向量的tanh取值获得知识; 第三,将记忆权重与知识的向量内积获得最新的且经过部分遗忘处理的知识;最后,将新的 知识合并到知识库; 输出门是知识库的向量取tanh值并与输入门的权重内积获得当前神经单元输出; 4.3)获得每一个神经单元的ht 1向量,将所有的ht 1向量输入到平均值池层; 4 .4)将平均值池的向量输入回归分类层,使用回归分类方法将平均值向量二分 类,得到一个长短期记忆神经网络的二分类模型。 本发明产生的有益效果是: 本发明建立了基于深度神经网络的异常日志自动识别的分类模型,基于长短期记 忆神经网络模型,自动生成异常日志分类模型,将原来的人工识别异常日志转换为自动识 别异常日志,降低了人工识别异常日志所造成的失误风险,并减少了人工识别日志的人工 和时间成本。 附图说明 下面将结合附图及实施例对本发明作进一步说明,附图中: 图1是本发明实施例的方法流程图; 图2是本发明实施例的skip-gram模型示意图; 图3是本发明实施例的CBOW模型示意图; 图4是本发明实施例的LSTM神经单元模型结构示意图; 图5是本发明实施例的LSTM的分类示意图。
分享到:
收藏