logo好方法网

基于领域实体提取和关联分析的信息溯源方法及装置


技术摘要:
本发明提供的一种基于领域实体提取和关联分析的信息溯源方法及装置,通过爬取网络中目标文件的流转数据作为原始数据;对所述原始数据进行实体抽取处理获取实体数据,对所述原始数据中的所述实体数据进行关系抽取处理获取关系数据,对所述实体数据和所述关系数据进行关  全部
背景技术:
目前,企业在监测器实际使用过程中,需要对一些有涉密的文件进行监测,以防止 泄密情况出现。 现有技术中,当涉密的文件出现泄密风险时,会将涉密风险的文件会以告警的形 式推荐给相关管理工作人员,以提示风险。但是,由于告警信息比较单一,所包含的有用数 据较少,无法单从一个告警信息里面来明确的得知与泄密相关员工的一些有用信息,导致 管理人员即使发现了确凿的告警信息,也无法准确定位到唯一确定的员工或可能的一些员 工,这使得后续的责任追究等相关措施无从实施。 因此,现有技术中无法较准确的定位到与泄密相关的员工信息。
技术实现要素:
本发明实施例提供一种基于领域实体提取和关联分析的信息溯源方法及装置,可 以较准确的定位到与泄密相关的员工信息。 本发明实施例的第一方面,提供一种基于领域实体提取和关联分析的信息溯源方 法,包括: 爬取网络中目标文件的流转数据作为原始数据; 对所述原始数据进行实体抽取处理获取实体数据,对所述原始数据中的所述实体 数据进行关系抽取处理获取关系数据,对所述实体数据和所述关系数据进行关联处理,获 取预设实体关系模型; 在所述预设实体关系模型输入查询实体后,获取初始查询结果。 可选地,在第一方面的一种可能实现方式中,所述对所述原始数据进行实体抽取 处理获取实体数据,包括: 对所述原始数据进行命名实体识别处理,获取所述实体数据,其中,所述实体数据 的实体类型包括IP、QQ、email、人名、身份证、手机号码、座机号码、公司和政府机构。 可选地,在第一方面的一种可能实现方式中,所述原始数据包括结构化告警信息 和非结构化告警信息; 所述对所述原始数据中的所述实体数据进行关系抽取处理获取关系数据,包括: 对所述结构化告警信息中的所述实体数据进行关系抽取处理,获取第一关系数 据; 对所述非结构化告警信息中的所述实体数据进行关系抽取处理,获取第二关系数 据; 根据所述第一关系数据和所述第二关系数据,获取所述关系数据。 4 CN 111737488 A 说 明 书 2/11 页 可选地,在第一方面的一种可能实现方式中,所述对所述结构化告警信息中的所 述实体数据进行关系抽取处理,获取第一关系数据,包括: 获取所述结构化告警信息中的有效表头; 根据所述有效表头对每一行所述结构化告警信息中的所述实体数据进行一致性 查询处理,获取有效实体数据; 获取所述结构化告警信息中每一行中任意两两所述有效实体数据之间的第一初 始关系数据; 根据预设实体关系表对所述第一初始关系数据进行剔除处理,获取所述第一关系 数据,其中,所述预设实体关系表包括两两所述实体数据之间的共联关系。 可选地,在第一方面的一种可能实现方式中,所述对所述非结构化告警信息中的 所述实体数据进行关系抽取处理,获取第二关系数据,包括: 统计每行所述非结构化告警信息中的所述实体数据中包含实体类型和实体数据 的个数,获取每行的类型数量和实体数量; 若所述类型数量大于或等于2,获取该行所述实体类型对应的实体数据,根据所述 实体类型和所述实体数据获取第一实体关系; 若所述类型数量和所述实体数量等于1,判断与该行相邻行的所述类型数量和所 述实体数量是否等于1; 若是,根据所述实体类型和所述实体数据跨行建立关联关系,获取第二实体关系, 若否,删除该行的所述实体类型和所述实体数据; 根据所述第一实体关系和第二实体关系,获取第二初始关系数据; 根据预设实体关系表对所述第二初始关系数据进行剔除处理,获取所述第二关系 数据。 可选地,在第一方面的一种可能实现方式中,所述在所述预设实体关系模型输入 查询实体后,获取初始查询结果,包括: 根据所述预设实体关系模型对所述查询实体进行多次查询处理,获取所述初始查 询结果; 其中,在每次查询处理后,对重复的实体数据进行聚合处理。 可选地,在第一方面的一种可能实现方式中,在所述获取初始查询结果之后,还包 括: 根据预设条件对所述初始查询结果进行筛选处理,获取最终查询结果; 显示所述最终查询结果。 可选地,在第一方面的一种可能实现方式中,所述根据预设条件对所述初始查询 结果进行筛选处理,获取最终查询结果,包括: 根据所述初始查询结果中实体数据的关联度对所述初始查询结果进行筛选处理, 获取所述最终查询结果。 可选地,在第一方面的一种可能实现方式中,在所述根据所述初始查询结果中实 体数据的关联度对所述初始查询结果进行筛选处理,获取所述最终查询结果之前,还包括: 根据第一策略获取所述关联度,其中,所述第一策略如下: 5 CN 111737488 A 说 明 书 3/11 页 式中,score代表关联度,depthWeight代表深度权重,widthWeight代表广度权重, intensityWeight代表边强度权重,fathNodeScore代表其父节点的关联度,δ代表每层衰减 因子,size代表具有相同实体类型的实体数据的个数,intensity代表关联强度, maxIntensity代表本层搜索中具有相同实体类型的实体数据之间的最大关联强度。 本发明实施例的第二方面,提供一种基于领域实体提取和关联分析的信息溯源装 置,包括: 数据模块,用于爬取网络中目标文件的流转数据作为原始数据; 模型模块,用于对所述原始数据进行实体抽取处理获取实体数据,对所述原始数 据中的所述实体数据进行关系抽取处理获取关系数据,对所述实体数据和所述关系数据进 行关联处理,获取预设实体关系模型; 查询模块,用于在所述预设实体关系模型输入查询实体后,获取初始查询结果。 本发明实施例的第三方面,提供一种基于领域实体提取和关联分析的信息溯源设 备,包括:存储器、处理器以及计算机程序,所述计算机程序存储在所述存储器中,所述处理 器运行所述计算机程序执行本发明第一方面及第一方面各种可能涉及的所述方法。 本发明实施例的第四方面,提供一种可读存储介质,所述可读存储介质中存储有 计算机程序,所述计算机程序被处理器执行时用于实现本发明第一方面及第一方面各种可 能涉及的所述方法。 有益效果: 本发明提供的基于领域实体提取和关联分析的信息溯源方法及装置,通过爬取网 络中目标文件的流转数据作为原始数据;对所述原始数据进行实体抽取处理获取实体数 据,对所述原始数据中的所述实体数据进行关系抽取处理获取关系数据,对所述实体数据 和所述关系数据进行关联处理,获取预设实体关系模型;在所述预设实体关系模型输入查 询实体后,获取初始查询结果,实现较准确的定位到与泄密相关的员工信息。其中,预设实 体关系模型是对平时收集到的原始数据进行一系列的处理得到的,其包含了抽取到的实体 数据以及实体之间的关系数据,当输入要查询的实体后,会从预设实体关系模型中查询到 相关信息,即初始查询结果,由于预设实体关系模型内包含了所有的原始数据,使得数据比 较全面,且均提取了原始数据中有用信息,例如实体数据和关系数据,然后利用这些有用信 息得到查询结果,可以较准确的定位到与泄密相关的员工信息。另外,初始查询结果里面可 能包含有较多的实体,为了进一步的提高结果的准确性,本发明再利用一些条件对初始查 询结果进行筛选处理,得到最终的查询结果,从而得到准确的实体数据和关系数据,进而较 准确的定位到与泄密相关的员工信息。 6 CN 111737488 A 说 明 书 4/11 页 附图说明 图1是本发明实施例提供的一种基于领域实体提取和关联分析的信息溯源方法的 流程示意图; 图2是本发明实施例提供的实体与表头属性对应的示意图; 图3是本发明实施例提供的结构化告警信息样例的示意图; 图4是本发明实施例提供的对应图3中的结构化告警信息样例的实体数据的示意 图; 图5是本发明实施例提供的对应图4中实体数据的关系数据示意图; 图6是本发明实施例提供的预设实体关系表的示意图; 图7是本发明实施例提供的非结构化告警信息样例的示意图; 图8是本发明实施例提供的对应图7中的非结构化告警信息样例的实体数据的示 意图; 图9是本发明实施例提供的对应图8中实体数据的关系数据示意图; 图10是本发明实施例提供的一种查询结果示意图; 图11是本发明实施例提供的另一种查询结果示意图; 图12是本发明实施例提供的另一种查询结果示意图; 图13是本发明实施例提供的另一种查询结果示意图; 图14是本发明实施例提供的一种基于领域实体提取和关联分析的信息溯源装置 的结构示意图; 图15是本发明实施例提供的一种基于领域实体提取和关联分析的信息溯源设备 的硬件结构示意图。
分享到:
收藏