logo好方法网

恶意URL的检测方法、装置、计算机设备和存储介质


技术摘要:
本申请涉及一种恶意URL的检测方法、装置、计算机设备和存储介质,其中,该恶意URL的检测方法包括获取待检测URL;提取待检测URL的多个特征的特征值;根据多个特征的特征值,从URL样本库中按照特征相似度由大到小的顺序选择至少一个URL样本;统计至少一个URL样本中各URL  全部
背景技术:
目前主流的恶意URL检测有两种方式。一种是基于情报库的碰撞检测方法,另一种 是基于攻击关键特征词的规则判定。 对于基于情报库的碰撞检测方法,其主要过程为:将已提取出来待检测的URL与已 知的威胁情报库进行碰撞比对,判定该URL是恶意还是正常。此检测方法的优点是检测精 准,不会有误报情况发生。缺点是现有的威胁情报库数量有限且不可能实时更新,一旦出现 新的不在情报库里的恶意URL,就会造成漏报。 同时,上述两种检测方法均为基于已知情报或特征值的静态匹配检测,对于样本 库和特征库之外的恶意URL不能识别。 目前针对相关技术中对于样本库和特征库之外的恶意URL不能识别,尚未提出有 效的解决方案。
技术实现要素:
本申请实施例提供了一种恶意URL的检测方法、装置、计算机设备和存储介质,以 至少解决相关技术中对于样本库和特征库之外的恶意URL不能识别的问题。 第一方面,本申请实施例提供了一种恶意URL的检测方法,包括: 获取待检测URL; 提取所述待检测URL的多个特征的特征值; 根据所述多个特征的特征值,从URL样本库中按照特征相似度由大到小的顺序选 择至少一个URL样本,其中,所述URL样本库包括多种URL类型的URL样本,所述多种URL类型 包括正常URL的类型和恶意URL的类型; 统计所述至少一个URL样本中各URL类型的URL样本数,并将具有最多URL样本数的 URL类型作为所述待检测URL的URL类型。 在其中一些实施例中,所述特征相似度是以欧式距离确定的;根据所述多个特征 的特征值,从URL样本库中按照特征相似度匹配至少一个URL样本包括: 在以所述多个特征为维度的多维向量空间中,计算所述待检测URL与所述URL样本 库中的URL样本的欧式距离; 将与所述待检测URL的欧式距离小于预设距离的URL样本作为所述至少一个URL样 本。 在其中一些实施例中,所述特征相似度是以欧式距离确定的;根据所述多个特征 的特征值,从URL样本库中按照特征相似度匹配至少一个URL样本包括: 在以所述多个特征为维度的多维向量空间中,计算所述待检测URL与所述URL样本 4 CN 111556042 A 说 明 书 2/11 页 库中的URL样本的欧式距离; 按照欧式距离从小到大的顺序从所述URL样本库中选取预设数量的URL样本作为 所述至少一个URL样本。 在其中一些实施例中,在具有最多URL样本数的URL类型包括至少两种URL类型的 情况下,将具有最多URL样本数的URL类型作为所述待检测URL的URL类型包括: 在以所述多个特征为维度的多维向量空间中,分别计算所述至少两种URL类型的 URL样本与所述待检测URL的平均欧式距离,得到至少两个平均欧式距离; 将所述至少两个平均欧式距离中最小的平均欧氏距离对应的URL类型作为所述待 检测URL的URL类型。 在其中一些实施例中,将与所述待检测URL的欧式距离小于预设距离的URL样本作 为所述至少一个URL样本包括: 在具有最多URL样本数的URL类型包括至少两种URL类型的情况下,增加所述预设 距离; 将所述待检测URL的欧式距离小于增加后的预设距离的URL样本作为所述至少一 个URL样本。 在其中一些实施例中,按照欧式距离从小到大的顺序从所述URL样本库中选取预 设数量的URL样本作为所述至少一个URL样本包括: 在具有最多URL样本数的URL类型包括至少两种URL类型的情况下,增加所述预设 数量; 按照欧式距离从小到大的顺序从所述URL样本库中选取增加后的预设数量的URL 样本作为所述至少一个URL样本。 在其中一些实施例中,根据所述多个特征的特征值,从URL样本库中按照特征相似 度匹配至少一个URL样本包括: 将所述待检测URL分别与恶意URL情报库和恶意URL关键词库进行碰撞比对; 在与所述恶意URL情报库或所述恶意URL关键词库碰撞比对成功的情况下,确定所 述待检测URL为恶意URL,并确定所述待检测URL的恶意URL的类型为碰撞比对到的恶意URL 的类型; 在与所述恶意URL情报库和所述恶意URL关键词库碰撞比对均失败的情况下,根据 所述多个特征的特征值,从URL样本库中按照特征相似度匹配至少一个URL样本。 第二方面,本申请实施例提供了一种恶意URL的检测装置,包括: 获取模块,用于获取待检测URL; 提取模块,用于提取所述待检测URL的多个特征的特征值; 匹配模块,用于根据所述多个特征的特征值,从URL样本库中按照特征相似度由大 到小的顺序选择至少一个URL样本,其中,所述URL样本库包括多种URL类型的URL样本,所述 多种URL类型包括正常URL的类型和恶意URL的类型; 处理模块,用于统计所述至少一个URL样本中各URL类型的URL样本数,并将具有最 多URL样本数的URL类型作为所述待检测URL的URL类型。 在其中一些实施例中,所述匹配模块包括: 第一计算单元,用于在以所述多个特征为维度的多维向量空间中,计算所述待检 5 CN 111556042 A 说 明 书 3/11 页 测URL与所述URL样本库中的URL样本的欧式距离; 第一处理单元,与第一计算单元,用于将与所述待检测URL的欧式距离小于预设距 离的URL样本作为所述至少一个URL样本。 在其中一些实施例中,所述匹配模块还包括: 第二计算单元,用于在以所述多个特征为维度的多维向量空间中,计算所述待检 测URL与所述URL样本库中的URL样本的欧式距离; 第二处理单元,与第二计算单元耦合连接,用于按照欧式距离从小到大的顺序从 所述URL样本库中选取预设数量的URL样本作为所述至少一个URL样本。 在其中一些实施例中,所述处理模块包括: 第三计算单元,用于在具有最多URL样本数的URL类型包括至少两种URL类型的情 况下,在以所述多个特征为维度的多维向量空间中,分别计算所述至少两种URL类型的URL 样本与所述待检测URL的平均欧式距离,得到至少两个平均欧式距离; 第一确认组件,与第三计算单元耦合连接,用于将所述至少两个平均欧式距离中 最小的平均欧氏距离对应的URL类型作为所述待检测URL的URL类型。 在其中一些实施例中,所述第一处理单元包括: 第一处理组件,在具有最多URL样本数的URL类型包括至少两种URL类型的情况下, 增加所述预设距离; 第二确认组件,与第一处理组件耦合连接,用于将所述待检测URL的欧式距离小于 增加后的预设距离的URL样本作为所述至少一个URL样本。 在其中一些实施例中,所述第二处理单元还包括: 第二处理组件,用于在在具有最多URL样本数的URL类型包括至少两种URL类型的 情况下,增加所述预设数量; 第三确认组件,与第二处理组件耦合连接,用于按照欧式距离从小到大的顺序从 所述URL样本库中选取增加后的预设数量的URL样本作为所述至少一个URL样本。 在其中一些实施例中,所述匹配模块还包括: 对比单元,用于将所述待检测URL分别与恶意URL情报库和恶意URL关键词库进行 碰撞比对; 第一确认单元,与所述对比单元耦合连接,用于在与所述恶意URL情报库或所述恶 意URL关键词库碰撞比对成功的情况下,确定所述待检测URL为恶意URL,并确定所述待检测 URL的恶意URL的类型为碰撞比对到的恶意URL的类型; 第二确认单元,与所述对比单元耦合连接,用于在与所述恶意URL情报库和所述恶 意URL关键词库碰撞比对均失败的情况下,根据所述多个特征的特征值,从URL样本库中按 照特征相似度匹配至少一个URL样本。 第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器以及存储在 所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时 实现如上述第一方面所述的恶意URL的检测方法。 第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程 序,该程序被处理器执行时实现如上述第一方面所述的恶意URL的检测方法。 相比于相关技术,本申请实施例提供的恶意URL的检测方法、装置、计算机设备和 6 CN 111556042 A 说 明 书 4/11 页 存储介质,通过获取待检测URL;提取所述待检测URL的多个特征的特征值;根据所述多个特 征的特征值,从URL样本库中按照特征相似度匹配至少一个URL样本;统计所述至少一个URL 样本中各URL类型的URL样本的数量,并将URL样本的数量大于预设数量的URL类型作为所述 待检测URL的URL类型,解决了相关技术中对于样本库和特征库之外的恶意URL不能识别的 问题,实现了通过机器分类学习判定不在情报库里的恶意URL类型,降低恶意URL的漏报率。 本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他 特征、目的和优点更加简明易懂。 附图说明 此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申 请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中: 图1是根据本申请实施例的恶意URL的检测方法的流程图; 图2是根据本申请实施例的恶意URL检测的一种具体流程视图; 图3是本申请实施例中相似度测量过程中URL样本库中各种类型的URL分布图; 图4是根据本申请实施例的恶意URL的检测装置的结构图; 图5是根据本申请实施例的计算机设备的内部结构图。
分享到:
收藏