logo好方法网

信息抽取方法、装置及电子设备


技术摘要:
本申请公开了一种信息抽取方法、装置及电子设备,涉及自然语言处理技术领域。其中,该方法包括:对文档进行切分以形成多个句子;根据目标词规则集合对多个句子进行筛选,以生成候选句子集合,其中,候选句子集合之中包括多个候选句子;获取每个候选句子的文本特征;根  全部
背景技术:
随着互联网技术的不断发展,网络信息正在爆炸性增长,但这些网络信息中常常 夹杂着大量的冗余信息,造成数据重复和浪费空间等,因此,如何快速对数据中关键信息进 行有效抽取成为研究的焦点之一。 相关技术中,通常通过深度学习的方式从文档中抽取关键信息。但是,由于深度学 习模型复杂,在文档规模较大时,信息抽取的时间开销较大。
技术实现要素:
提供了一种信息抽取方法、装置、电子设备及存储介质。 根据第一方面,提供了一种信息抽取方法,包括:对文档进行切分以形成多个句 子;根据目标词规则集合对所述多个句子进行筛选,以生成候选句子集合,其中,所述候选 句子集合之中包括多个候选句子;获取所述每个候选句子的文本特征;根据所述每个候选 句子的文本特征,生成所述每个候选句子为目标信息的概率;以及从所述候选句子集合中 抽取所述概率大于或等于预设概率阈值的候选句子,以构成目标信息集合。 根据第二方面,提供了一种信息抽取装置,包括:切分模块,用于对文档进行切分 以形成多个句子;筛选模块,用于根据目标词规则集合对所述多个句子进行筛选,以生成候 选句子集合,其中,所述候选句子集合之中包括多个候选句子;第一获取模块,用于获取所 述每个候选句子的文本特征;生成模块,用于根据所述每个候选句子的文本特征,生成所述 每个候选句子为目标信息的概率;以及抽取模块,用于从所述候选句子集合中抽取所述概 率大于或等于预设概率阈值的候选句子,以构成目标信息集合。 根据第三方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一 个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指 令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如前所述的 信息抽取方法。 根据第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所 述计算机指令用于使所述计算机执行如前所述的信息抽取方法。 根据本申请实施例的技术方案,通过将文档切分成多个句子,并根据目标词规则 集合对多个句子进行筛选,以生成包括多个候选句子的候选句子集合,之后根据获取到的 每个候选句子的文本特征,生成每个候选句子为目标信息的概率,进而从候选句子集合中 抽取概率大于或等于预设概率阈值的候选句子,以构成目标信息集合。由此,通过目标词规 则集合进行了初步筛选,降低了信息抽取的数据处理量,从而降低了信息抽取时长,提高了 信息抽取的准确性。 5 CN 111581358 A 说 明 书 2/15 页 应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特 征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。 附图说明 附图用于更好地理解本方案,不构成对本申请的限定。其中: 图1为本申请实施例所提供的一种信息抽取方法的流程示意图; 图2为本申请实施例所提供的另一种信息抽取方法的流程示意图; 图3为本申请实施例所提供的再一种信息抽取方法的流程示意图; 图4为本申请实施例所提供的一种基于CNN的二分类模型的结构示意图; 图5为通过图4所示的基于CNN的二分类模型对候选句子进行处理的流程示意图; 图6本申请实施例所提供的又一种信息抽取方法的流程示意图; 图7为通过图4所示的二分类模型对候选句子进行处理的另一种流程示意图; 图8为本申请实施例提供的一种信息抽取装置的结构示意图; 图9为本申请实施例提供的电子设备的结构示意图。
下载此资料需消耗2积分,
分享到:
收藏