logo好方法网

基于表格的文本生成方法及相关装置


技术摘要:
本申请涉及人工智能技术领域,尤其涉及一种基于表格的文本生成方法及相关装置。该方法包括:获取所述表格中的三元组,所述三元组包括:行名、列名、所述行名和所述列名对应的数值信息;对所述三元组进行特征提取,得到所述三元组的特征表达,所述特征表达中至少包含所  全部
背景技术:
目前,根据表格数据生成文本一直是人工智能中重要的研究方向之一。并且,近年 来有很多借助神经网络模型在这个研究方向上取得很好成果的研究。 然而,相关技术中的研究主要存在两方面的问题:(一)在进行表格中数值到文本 的生成时,将表格中的数值视为字符串来生成表格的文本表达,但生成的文本表达结果存 在不准确的问题;例如在球赛当中将得分高的队伍描述成失败方。(二)在进行表格中数值 到文本的生成时,仅关注到表格中的数值,从而得到数值表示,但不能根据得到的数值表示 得到连贯的可理解的文本表达,导致文本表达不准确。
技术实现要素:
本申请实施例提供基于表格的文本生成方法及相关装置,用以解决相关技术中存 在的基于表格得到的文本表达的准确性还需要提高的问题。 第一方面,本申请实施例提供的一种基于表格的文本生成方法,所述方法包括: 获取所述表格中的三元组,所述三元组包括:行名、列名、所述行名和所述列名对 应的数值信息; 对所述三元组进行特征提取,得到所述三元组的特征表达,所述特征表达中至少 包含所述三元组的上下文信息以及所述三元组的数值信息与其他三元组的数值信息的大 小关系; 由所述表格的多个三元组的特征表达构成特征表达集合,并对所述特征表达集合 进行筛选,得到所述表格中的目标信息序列; 根据所述目标信息序列构建所述表格的文本表达。 在一个实施例中,所述目标函数为: 其中,lpre表示所述目标函数的损失;n表示各训练样本中包含的三元组样本的数 量;i表示第i个三元组样本;j表示第j个三元组样本;ζ为设定值; 表示第i个三元组样 本的评分; 表示第j个三元组样本的评分;ri.v表示第i个三元组的文本向量;rj.v表 示第j个三元组的文本向量;N为常数值。 5 CN 111581929 A 说 明 书 2/19 页 第二方面,本申请实施例提供一种基于表格的文本生成装置,所述装置包括: 获取模块,用于获取所述表格中的三元组,所述三元组包括:行名、列名、所述行名 和所述列名对应的数值信息; 特征提取模块,用于对所述三元组进行特征提取,得到所述三元组的特征表达,所 述特征表达中至少包含所述三元组的上下文信息以及所述三元组的数值信息与其他三元 组的数值信息的大小关系; 筛选模块,用于由所述表格的多个三元组的特征表达构成特征表达集合,并对所 述特征表达集合进行筛选,得到所述表格中的目标信息序列; 构建模块,用于根据所述目标信息序列构建所述表格的文本表达。 在一个实施例中,特征提取模块用于对所述三元组进行特征提取,得到所述三元 组的特征表达时,具体用于: 对所述三元组中的所述行名、所述列名以及所述数值信息分别进行词嵌入得到所 述三元组的文本向量; 构建所述三元组的同类三元组的文本向量集;其中,行名或列名相同的三元组为 同类三元组; 通过预先训练的编码器模型对所述文本向量集进行特征提取,得到所述三元组的 数值特征; 针对任一三元组,由所述三元组的行名和列名的文本向量以及所述三元组的数值 特征构造所述三元组的特征表达; 其中,所述编码器模型是以预先构建的文本分类模型作为约束条件进行训练得到 的,所述文本分类模型用于对所述编码器模型提取的特征表达进行分类,以使任意两个三 元组中数值信息高的三元组划分到高数值类别、数值低的三元组划分到低数值类别。 在一个实施例中,训练所述编码器模型,包括: 构建训练样本,所述训练样本中包括同类三元组样本的文本向量; 通过所述编码器模型对所述训练样本进行特征提取,得到所述训练样本中各三元 组样本的特征表达; 通过所述文本分类模型对各三元组样本的特征表达进行评分,得到各三元组样本 的评分; 将各三元组样本的评分作为目标函数的输入参数,得到所述目标函数的损失; 根据所述目标函数的损失调整所述编码器模型的参数以及所述文本分类模型的 参数,以使任意两个三元组样本中数值高的三元组样本的评分高于数值低的三元组样本的 评分。 在一个实施例中,所述目标函数为: 6 CN 111581929 A 说 明 书 3/19 页 其中,lpre表示目标函数的损失;n表示各训练样本中包含的三元组样本的数量;i 表示第i个三元组样本;j表示第j个三元组样本;ζ为设定值; 表示第i个三元组样本的 评分; 表示第j个三元组样本的评分;ri.v表示第i个三元组的文本向量;rj.v表示第j 个三元组的文本向量;N为常数值。 在一个实施例中,所述筛选模块,用于对所述特征表达集合进行筛选时,具体用 于: 通过多层感知机对所述表格的所述特征表达集合进行特征提取,得到深度特征; 基于已训练的筛选模型对所述深度特征进行筛选,得到所述目标信息序列; 其中,所述筛选模型以及所述多层感知机是根据以下方法训练得到的: 将所述筛选模型筛选出的目标信息序列与预先构建的参考信息序列进行比对; 根据所述目标信息序列与所述参考信息序列的差异对所述筛选模型以及所述多 层感知机的参数进行调整。 在一个实施例中,所述目标信息序列与所述参考信息序列的差异包括:词级别的 差异以及信息序列级别的差异;其中, 所述词级别的差异用于表示所述目标信息序列中的各词与所述目标信息序列的 差异; 所述序列级别的差异用于表示所述目标信息序列与所述参考信息序列的整体相 似度。 在一个实施例中,所述词级别的差异包括以下中的至少一种:数据实体重要性、三 元组的数据重要性;其中,数据实体为行名或列名;所述筛选模块,具体用于: 针对所述目标信息序列中每个数据实体,根据以下方法确定数据实体的所述数据 实体重要性: 若数据实体包含在所述参考信息序列中,则所述数据实体的数据实体重要性为第 一预设值;若数据实体不包含在所述参考信息序列中,则所述数据实体的数据实体重要性 为第二预设值;其中,所述第一预设值大于所述第二预设值; 针对所述目标信息序列中的任一三元组,根据以下方法确定所述三元组的数据重 要性: 若所述三元组包含在所述参考信息序列中,则所述三元组的数据重要性为第三预 设值;若三元组不包含在所述参考信息序列中,则所述三元组的数据重要性为第四预设值; 其中,所述第三预设值大于所述第四预设值。 在一个实施例中,所述序列级别的差异包括以下中的至少一种:数据实体召回率、 三元组的数据召回率、数据顺序;其中,数据实体为行名或列名;所述筛选模块,具体用于: 根据以下方法确定所述数据实体召回率: 确定所述参考信息序列与所述目标信息序列中相同的数据实体数目,将所述相同 的数据实体数目与所述参考信息序列中的数据实体数目的比值作为所述数据实体召回率; 根据以下方法确定所述三元组的数据召回率: 确定所述参考信息序列与所述目标信息序列中相同的三元组数目,将所述相同的 三元组数目与所述参考信息序列中的三元组数目的比值作为所述数据召回率; 7 CN 111581929 A 说 明 书 4/19 页 根据以下方法确定所述目标信息序列的所述数据顺序: 确定所述目标信息序列与所述参考目标信息序列之间的文本相似度作为所述数 据顺序。 第三方面,本申请实施例提供一种计算设备,包括存储器和处理器,其中,所述存 储器用于存储程序指令,所述处理器用于调用所述存储器中存储的程序指令,按照获得的 程序指令执行本申请实施例任一所述的基于表格的文本生成方法。 第四方面,本申请实施例提供一种计算机可读介质,所述计算机可读介质存储有 计算机程序,所述计算机程序用于使所述计算机执行如本申请实施例任一所述的基于表格 的文本生成方法。 本申请实施例中,通过在对表格中的三元组进行特征提取时,融入表格中各三元 组的上下文信息以及三元组的数值信息与其他三元组的数值信息的大小关系,从而使得得 到的三元组的特征表达更准确的反映表格中的数值之间的关系。因此,本申请实施例提供 的基于表格的文本生成方法可生成更准确的文本表达信息。 附图说明 图1所示为本申请实施例提供的一种应用场景示意图; 图2所示为本申请实施例提供的一种基于表格的文本生成方法的流程示意图; 图3A所示为本申请实施例提供的一种获取三元组的特征表达的流程示意图; 图3B所示为本申请实施例提供的一种编码器模型的示意图; 图4A所示为本申请实施例提供的一种训练编码模型的流程示意图; 图4B所示为本申请实施例提供的一种评分的实施方式的示意图; 图5所示为本申请实施例提供的一种基于表格的文本生成方法的结构示意图; 图6所示为本申请实施例提供的一种基于表格的文本生成方法的结果图; 图7所示为本申请实施例提供的基于表格的文本生成装置的结构示意图; 图8为本申请实施例提供的计算设备的结构示意图。
下载此资料需消耗2积分,
分享到:
收藏