logo好方法网

一种召回文档的排序方法及相关设备


技术摘要:
本申请提供了一种召回文档的排序方法及相关设备,涉及人工智能中的机器学习,通过对点击概率构建召回文档的标签进行训练得到的预设排序模型,进而在通过预设排序模型对搜索词条对应的召回结果进行排序时,提高排序的准确率。该方法包括:获取目标词条对应的召回文档集  全部
背景技术:
随着互联网应用的发展,搜索处理技术也日渐成熟。将用户输入的搜索词表示成 特定的形式,来与待排序的搜索结果条目进行排序分数的计算,从而根据排序分数返回更 准确的搜索排序结果,是搜索系统的核心问题。 目前采用的排序方案是将position直接带入网络进行训练,训练的时候由于用户 点击数据中含有position数值,因此可以学出来position对于总体预测分数的影响,然后 在预测的时候,将所有的文档的position全部置换成1,即在预测的时候认为所有的文档的 排序全部都是1。 但是,在实际训练的时候position和许多其他的特征一起进行训练,导致 position这一维度特征对于模型的输出分值贡献很小,进而导致采用该模型对搜索词条的 召回结果进行排序时,准确率不高。
技术实现要素:
本申请提供了一种召回文档的排序方法及相关设备,提前对点击概率构建召回文 档的标签进行训练得到的预设排序模型,进而在通过预设排序模型对搜索词条对应的召回 结果进行排序时,提高排序的准确率。 本申请第一方面提供了一种召回文档的排序方法,包括: 获取目标词条对应的召回文档集合,所述目标词条为待搜索的词条; 确定第一目标召回文档的特征数据,所述第一目标召回文档为所述召回文档集合 任意一个召回文档,所述第一目标召回文档的特征数据为所述第一目标召回文档在第一目 标位次被点击的概率、所述第一目标召回文档排在所述第一目标位次被浏览的概率、所述 第一目标召回文档与所述目标词条的相关性概率以及所述第一目标召回文档对应的历史 点击行为数据; 基于预设排序模型以及所述第一目标召回文档的特征数据生成所述召回文档集 合中每个召回文档的排序得分,所述预设排序模型为通过对训练数据集进行训练得到的, 所述训练数据集包括M个召回文档中每个召回文档的标签,M个召回文档与目标搜索词条相 对应,所述目标搜索词条为N个搜索词条中的任意一个搜索词条,M和N均为大于或等于1的 正整数; 基于所述召回文档集合中每个召回文档的排序得分对所述召回文档集合中的召 回文档进行排序。 可选地,所述方法还包括: 获取所述M个召回文档; 确定所述M个召回文档中每个召回文档对应的点击概率; 5 CN 111581545 A 说 明 书 2/16 页 根据所述M个召回文档中每个召回文档对应的点击概率生成所述M个召回文档中 每个召回文档的标签; 通过所述M个召回文档中每个召回文档的标签进行模型训练,得到所述预设排序 模型。 可选地,所述确定所述M个召回文档中每个召回文档对应的点击概率包括: 确定第二目标召回文档的特征数据,所述第二目标召回文档为所述M个召回文档 中任意一个召回文档; 根据所述第二目标召回文档的特征数据确定所述M个召回文档中每个召回文档对 应的点击概率。 可选地,所述第二目标召回文档的特征数据包括所述第二目标召回文档在第二目 标位次被点击的概率、所述第二目标召回文档在所述第二目标位次被浏览的概率、所述第 二目标召回文档与所述目标搜索词条的相关性概率以及所述第二目标召回文档对应的点 击行为数据,所述根据所述第二目标召回文档的特征数据确定所述M个召回文档中每个召 回文档对应的点击概率: 根据所述第二目标召回文档在第二目标位次被点击的概率、所述第二目标召回文 档在所述第二目标位次被浏览的概率、所述第二目标召回文档与所述目标搜索词条的相关 性概率以及所述第二目标召回文档对应的点击行为数据确定所述M个召回文档中每个召回 文档对应的点击概率。 可选地,所述根据所述M个召回文档中每个召回文档对应的点击概率生成所述M个 召回文档中每个召回文档的标签包括: 将所述M个召回文档中每个召回文档对应的点击概率进行排序,得到排序结果; 根据所述排序结果生成所述M个召回文档中每个召回文档的标签。 可选地,所述通过所述M个召回文档中每个召回文档的标签进行模型训练,得到预 设排序模型: 基于搜索评价指标,通过所述M个召回文档中每个召回文档的标签进行模型训练, 得到所述预设排序模型。 本申请第二方面提供了一种召回文档的排序装置,包括: 获取单元,用于获取目标词条对应的召回文档集合,所述目标词条为待搜索的词 条; 确定单元,用于确定第一目标召回文档的特征数据,所述第一目标召回文档为所 述召回文档集合任意一个召回文档,所述第一目标召回文档的特征数据为所述第一目标召 回文档在第一目标位次被点击的概率、所述第一目标召回文档排在所述第一目标位次被浏 览的概率、所述第一目标召回文档与所述目标词条的相关性概率以及所述第一目标召回文 档对应的历史点击行为数据; 生成单元,用于基于预设预设排序模型以及所述第一目标召回文档的特征数据生 成所述召回文档集合中每个召回文档的排序得分,所述预设排序模型为通过对训练数据集 进行训练得到的,所述训练数据集包括M个召回文档中每个召回文档的标签,M个召回文档 与目标搜索词条相对应,所述目标搜索词条为N个搜索词条中的任意一个搜索词条,M和N均 为大于或等于1的正整数; 6 CN 111581545 A 说 明 书 3/16 页 排序单元,用于基于所述召回文档集合中每个召回文档的排序得分对所述召回文 档集合中的召回文档进行排序。 可选地,所述召回文档的排序装置还包括: 训练单元,所述训练单元包括: 获取模块,用于获取所述M个召回文档; 确定模块,用于确定所述M个召回文档中每个召回文档对应的点击概率; 生成模块,用于根据所述M个召回文档中每个召回文档对应的点击概率生成所述M 个召回文档中每个召回文档的标签; 训练模块,用于通过所述M个召回文档中每个召回文档的标签进行模型训练,得到 所述预设排序模型。 可选地,所述确定模块具体用于: 确定第二目标召回文档的特征数据,所述第二目标召回文档为所述M个召回文档 中任意一个召回文档; 根据所述第二目标召回文档的特征数据确定所述M个召回文档中每个召回文档对 应的点击概率。 可选地,所述第二目标召回文档的特征数据为所述第二目标召回文档在第二目标 位次被点击的概率、所述第二目标召回文档在所述第二目标位次被浏览的概率、所述第二 目标召回文档与所述目标搜索词条的相关性概率以及所述第二目标召回文档对应的点击 行为数据,所述确定模块根据所述第二目标召回文档的特征数据确定所述M个召回文档中 每个召回文档对应的点击概率: 根据所述第二目标召回文档在第二目标位次被点击的概率、所述第二目标召回文 档在所述第二目标位次被浏览的概率、所述第二目标召回文档与所述目标搜索词条的相关 性概率以及所述第二目标召回文档对应的点击行为数据确定所述M个召回文档中每个召回 文档对应的点击概率。 可选地,所述生成模块具体用于: 将所述M个召回文档中每个召回文档对应的点击概率进行排序,得到排序结果; 根据所述排序结果生成所述M个召回文档中每个召回文档的标签。 可选地,所述训练模块具体用于: 基于搜索评价指标,通过所述M个召回文档中每个召回文档的标签进行模型训练, 得到所述预设排序模型。 本申请第三方面提供了一种计算机装置,其包括至少一个连接的处理器、存储器 和收发器,其中,所述存储器用于存储程序代码,所述程序代码由所述处理器加载并执行以 实现上述所述的召回文档的排序方法的步骤。 本申请第四方面提供了一种计算机可读存储介质,其包括指令,当其在计算机上 运行时,使得计算机执行上述所述的召回文档的排序方法的步骤。 综上所述,可以看出,本申请提供的实施例中,通过预先对训练数据集进行训练得 到预设排序模型,该训练数据集包括召回文档中各个文档的标签,不在通过直接通过每个 文档的点击概率进行训练,而是通过点击概率生成各个文档的标签,这样提前对点击概率 构建召回文档的标签进行训练得到的预设排序模型,进而在通过预设排序模型对搜索词条 7 CN 111581545 A 说 明 书 4/16 页 对应的召回结果进行排序时,提高排序的准确率。 附图说明 图1为本申请实施例提供的Pointwise模式下召回文档的排序流程示意图; 图2为本申请实施例提供的点击数据的推导示意图; 图3为本申请实施例提供的召回文档的排序方法的一个流程示意图; 图4为本申请实施例提供的召回文档的排序方法的另一流程示意图; 图5为本申请实施例提供的预设排序模型的训练流程示意图; 图6A为本申请实施例提供的现有的排序模型与本申请的预设排序模型的分桶长 转化率(KPI口径)对比示意图; 图6B为本申请实施例提供的现有的排序模型和本申请的预设排序模型的分桶点 击率(CVR)对比示意图; 图6C为本申请实施例提供的现有的排序模型与本申请的预设排序模型的分桶点 击率(CTR)对比示意图; 图7为本申请实施例提供的召回文档的排序装置的虚拟结构示意图; 图8为本申请实施例提供的服务器的硬件结构示意图。
分享到:
收藏