logo好方法网

一种事件信息抽取方法及装置


技术摘要:
本申请提供了一种事件信息抽取方法及装置,所述方法首先根据待抽取的目标事件的事件类型以及目标事件的抽取策略,生成所述目标事件对应的事件抽取模板;其次,根据所述事件抽取模板,从待检测文本中筛选出与所述事件类型对应的目标事件文本;然后,对所述目标事件文本  全部
背景技术:
事件信息抽取是自然语言处理领域的重要任务之一。该任务是从文本中自动抽取 事件信息,包括事件涉及的人物、机构、发生时间、发生地点、事件名称以及相应的事件描述 等。事件抽取任务应用广泛,可以应用于人物的行为挖掘,热点事件推荐等。 目前,常用的事件抽取方法包括基于机器学习模型的方法和基于句法分析模型的 方法。基于机器学习模型的事件信息抽取方法需要大量的标注语料,耗费人力较多,其准确 率的提高比较依赖标注数据的质量,在抽取新的类型的事件信息时需要重新训练模型,可 拓展性较差;而基于句法分析模型的方法依赖句法分析的准确性,可靠性较低。
技术实现要素:
有鉴于此,本申请的目的在于提供一种事件信息抽取方法及装置,不需要进行利 用标注语料进行模型训练,可拓展性较高,且不依赖句法分析,准确度较高。 本申请实施例提供了一种事件信息抽取方法,所述方法包括: 根据待抽取的目标事件的事件类型以及目标事件的抽取策略,生成所述目标事件 对应的事件抽取模板; 根据所述事件抽取模板,从待检测文本中筛选出与所述事件类型对应的目标事件 文本; 对所述目标事件文本进行实体识别,得到目标事件的实体信息; 根据所述目标事件文本及所述实体信息,确定所述目标事件的事件信息。 在一种可能的实施方式中,所述根据待抽取的目标事件的事件类型以及目标事件 的抽取策略,生成所述目标事件对应的事件抽取模板,包括: 根据所述目标事件的事件类型,确定所述目标事件的触发关键词; 根据所述触发关键词及所述目标事件的抽取策略,生成所述目标事件对应的事件 抽取模板。 在一种可能的实施方式中,所述抽取策略包括以下至少任意一项: 文本模式匹配策略、否定词检测策略。 在一种可能的实施方式中,在根据所述触发关键词及所述目标事件的抽取策略, 生成所述目标事件对应的事件抽取模板之前,所述方法还包括: 根据所述目标事件的事件类型,确定所述目标事件的辅助关键词和/或必要关键 词; 所述根据所述触发关键词及所述目标事件的抽取策略,生成所述目标事件对应的 事件抽取模板,包括: 根据所述触发关键词、所述辅助关键词和/或必要关键词、所述目标事件的抽取策 4 CN 111597817 A 说 明 书 2/12 页 略,生成所述目标事件对应的事件抽取模板; 所述抽取策略还包括辅助关键词匹配策略和/或必要关键词匹配策略。 在一种可能的实施方式中,所述对所述目标事件文本进行实体识别,得到目标事 件的实体信息,包括: 利用条件随机场算法及指代消解法,确定所述目标事件的实体信息。 在一种可能的实施方式中,所述根据所述目标事件文本及所述实体信息,确定所 述目标事件的事件信息,包括: 根据每个所述实体信息的类型、目标事件文本中包含该实体信息的语句及包含所 述触发关键词的语句,确定所述目标事件的事件信息。 在一种可能的实施方式中,在根据所述目标事件文本及所述实体信息,确定所述 目标事件的事件信息之前,所述方法还包括: 确定所述目标事件文本中,在所述触发关键词前后的预设字符范围内,是否包含 预设实体信息,若是,则执行根据所述目标事件文本及所述实体信息,确定所述目标事件的 事件信息的步骤。 本申请实施例还提供了一种事件信息抽取装置,所述装置包括: 生成模块,用于根据待抽取的目标事件的事件类型以及目标事件的抽取策略,生 成所述目标事件对应的事件抽取模板; 筛选模块,用于根据所述事件抽取模板,从待检测文本中筛选出与所述事件类型 对应的目标事件文本; 识别模块,用于对所述目标事件文本进行实体识别,得到目标事件的实体信息; 确定模块,根据所述目标事件文本及所述实体信息,确定所述目标事件的事件信 息。 在一种可能的实施方式中,所述生成模块具体用于: 根据所述目标事件的事件类型,确定所述目标事件的触发关键词; 根据所述触发关键词及所述目标事件的抽取策略,生成所述目标事件对应的事件 抽取模板。 在一种可能的实施方式中,所述抽取策略包括以下至少任意一项: 文本模式匹配策略、否定词检测策略。 在一种可能的实施方式中,所述生成模块还用于: 根据所述目标事件的事件类型,确定所述目标事件的辅助关键词和/或必要关键 词; 所述生成模块在根据所述触发关键词及所述目标事件的抽取策略,生成所述目标 事件对应的事件抽取模板时,具体用于: 根据所述触发关键词、所述辅助关键词和/或必要关键词、所述目标事件的抽取策 略,生成所述目标事件对应的事件抽取模板; 所述抽取策略还包括辅助关键词匹配策略和/或必要关键词匹配策略。 在一种可能的实施方式中,所述识别模块具体用于: 利用条件随机场算法及指代消解法,确定所述目标事件的实体信息。 在一种可能的实施方式中,所述确定模块具体用于: 5 CN 111597817 A 说 明 书 3/12 页 根据每个所述实体信息的类型、目标事件文本中包含该实体信息的语句及包含所 述触发关键词的语句,确定所述目标事件的事件信息。 在一种可能的实施方式中,所述确定模块还用于: 确定所述目标事件文本中,在所述触发关键词前后的预设字符范围内,是否包含 预设实体信息,若是,则执行根据所述目标事件文本及所述实体信息,确定所述目标事件的 事件信息的步骤。 本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存 储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之 间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述的事件信息抽取方法 的步骤。 本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有 计算机程序,该计算机程序被处理器运行时执行如上述的事件信息抽取方法的步骤。 本申请实施例提供的事件信息抽取方法及装置,首先根据待抽取的目标事件的事 件类型以及目标事件的抽取策略,生成所述目标事件对应的事件抽取模板;其次,根据所述 事件抽取模板,从待检测文本中筛选出与所述事件类型对应的目标事件文本;然后,对所述 目标事件文本进行实体识别,得到目标事件的实体信息;最后,根据所述目标事件文本及所 述实体信息,确定所述目标事件的事件信息。本申请能够利用事件抽取模板拓展抽取的事 件信息的类型,不需要进行利用标注语料进行模型训练,可拓展性较高,且不依赖句法分 析,准确度较高。 为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合 所附附图,作详细说明如下。 附图说明 为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附 图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对 范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这 些附图获得其他相关的附图。 图1示出了本申请实施例所提供的一种事件信息抽取方法的流程图; 图2示出了本申请实施例所提供的另一种事件信息抽取方法的流程图; 图3示出了本申请实施例所提供的一种事件信息抽取装置的结构示意图; 图4示出了本申请实施例所提供的一种电子设备的结构示意图。
分享到:
收藏