logo好方法网

用于更新预测模型的方法、装置、介质和电子设备


技术摘要:
公开了一种用于更新预测模型的方法、装置、介质以及电子设备。其中的方法包括:从系统当前使用的预测模型的训练样本集合中获取多个用户的用户特征;从准训练样本集合中获取多个用户的用户特征;确定来自所述训练样本集合的多个用户的用户特征和来自所述准训练样本集合  全部
背景技术:
在为系统中的用户提供服务的过程中,往往需要利用预测模型来预测用户发生成 交行为等目标行为的概率,以便于为用户提供更好的服务。为了提高预测模型的预测准确 率,往往需要对预测模型进行更新。如何及时更新预测模型,以便于提高预测模型的预测准 确率,是一个值得关注的技术问题。
技术实现要素:
为了解决上述技术问题,提出了本公开。本公开的实施例提供了一种用于更新预 测模型的方法、用于更新预测模型的装置、存储介质以及电子设备。 根据本公开实施例的一个方面,提供了一种用于更新预测模型的方法,该方法包 括:从系统当前使用的预测模型的训练样本集合中获取多个用户的用户特征;从准训练样 本集合中获取多个用户的用户特征;确定来自所述训练样本集合的多个用户的用户特征和 来自所述准训练样本集合的多个用户的用户特征的特征分布差异信息;若所述特征分布差 异信息满足预设差异条件,则利用所述准训练样本集合中的用户特征进行预测模型训练; 利用所述训练获得的预测模型更新所述系统当前使用的预测模型;其中,所述预测模型用 于预测系统中的用户在预定时间点之后的第一时间范围内执行目标行为的概率。 在本公开一实施方式中,所述方法在从准训练样本集合中获取多个用户的用户特 征之前,还包括:根据业务数据,定时获取距离预定历史时间最近的第二时间范围内的所有 活跃用户的用户特征,形成准训练样本集合。 在本公开又一实施方式中,所述特征分布差异信息包括:特征分布差异程度;和/ 或,用户特征中的各特征元素对特征分布差异的贡献的排序信息。 在本公开再一实施方式中,所述确定来自所述训练样本集合中的多个用户的用户 特征和来自所述准训练样本集合中的多个用户的用户特征的特征分布差异信息,包括:为 训练样本集合中的各用户的用户特征分别设置第一版本标注信息;为准训练样本集合中的 各用户的用户特征分别设置第二版本标注信息;将所述训练样本集合中的用户特征和所述 准训练样本集合中的用户特征分别作为输入提供给版本识别模型,经由所述版本识别模型 对输入的用户特征分别进行版本识别处理;根据所述版本识别模型输出的版本识别处理结 果、所述第一版本标注信息以及第二版本标注信息,确定来自所述训练样本集合的多个用 户的用户特征和来自所述准训练样本集合的多个用户的用户特征的特征分布差异信息。 在本公开再一实施方式中,所述将所述训练样本集合中的用户特征和所述准训练 样本集合中的用户特征分别作为输入提供给版本识别模型,经由所述版本识别模型对输入 的用户特征分别进行版本识别处理,包括:将所述训练样本集合中的部分用户的用户特征, 4 CN 111598338 A 说 明 书 2/18 页 作为第一训练样本;将所述准训练样本集合中的部分用户的用户特征,作为第二训练样本; 利用所述第一训练样本和第二训练样本对版本识别模型进行训练;将所述训练样本集合中 的另一部分用户的用户特征和所述准训练样本集合中的另一部分用户的用户特征,分别作 为输入提供给训练后的版本识别模型,经由所述训练后的版本识别模型对输入的用户特征 分别进行版本识别处理。 在本公开再一实施方式中,所述根据所述版本识别模型输出的版本识别处理结 果、所述第一版本标注信息以及第二版本标注信息,确定来自所述训练样本集合中的多个 用户的用户特征和来自所述准训练样本集合中的多个用户的用户特征的特征分布差异信 息,包括:根据所述版本识别模型输出的各用户特征的版本信息以及所述输入的各用户特 征的第一版本标注信息/第二版本标注信息,计算所述训练样本集合中的用户特征和所述 准训练样本集合中的用户特征的马修斯相关系数。 在本公开再一实施方式中,所述若所述特征分布差异信息满足预设差异条件,则 利用所述准训练样本集合中的用户特征进行预测模型训练,包括:若所述马修斯相关系数 达到预定阈值,则将所述准训练样本集合中的用户特征作为输入,提供给待训练预测模型; 经由所述待训练预测模型对输入的用户特征进行预测处理;根据所述待训练预测模型输出 的预测处理结果和所述输入的用户特征的目标行为发生标注信息,调整所述待训练预测模 型的网络参数。 在本公开再一实施方式中,所述方法还包括:若实时检测到系统中的一用户产生 执行行为操作,则获取所述用户的当前用户特征;将所述当前用户特征提供给所述系统当 前使用的预测模型,经由所述预测模型执行线上预测处理;根据所述预测模型的预测处理 结果,获得所述当前用户在未来第一时间范围内执行目标行为的概率。 在本公开再一实施方式中,所述方法还包括:根据所述当前用户在未来第一时间 范围内执行目标行为的概率,更新所述系统的当前价值。 在本公开再一实施方式中,所述方法还包括:根据所述预测模型针对多个当前用 户的预测处理结果,确定所述预测模型的受试者工作特征曲线下的面积AUC;和/或,根据所 述预测模型针对多个当前用户的预测处理结果以及执行目标行为的用户数量的后验值,确 定所述系统的当前价值的偏差;和/或,根据所述预测模型针对多个当前用户的预测处理结 果以及执行目标行为的用户数量的后验值,确定所述系统当前使用的预测模型的预测偏 差。 根据本公开实施例的另一个方面,提供了一种用于更新预测模型的装置,该装置 包括:第一获取模块,用于从系统当前使用的预测模型的训练样本集合中获取多个用户的 用户特征;第二获取模块,用于从准训练样本集合中获取多个用户的用户特征;确定分布差 异模块,用于确定来自所述训练样本集合的多个用户的用户特征和来自所述准训练样本集 合的多个用户的用户特征的特征分布差异信息;预测模型训练模块,用于若所述特征分布 差异信息满足预设差异条件,则利用所述准训练样本集合中的用户特征进行预测模型训 练;模型更新模块,用于利用所述预测模型训练模块训练获得的预测模型更新所述系统当 前使用的预测模型;其中,所述预测模型用于预测系统中的用户在预定时间点之后的第一 时间范围内执行目标行为的概率。 在本公开一实施方式中,所述装置还包括:形成集合模块,用于根据业务数据,定 5 CN 111598338 A 说 明 书 3/18 页 时获取距离预定历史时间最近的第二时间范围内的所有活跃用户的用户特征,形成准训练 样本集合。 在本公开又一实施方式中,所述特征分布差异信息包括:特征分布差异程度;和/ 或,用户特征中的各特征元素对特征分布差异的贡献的排序信息。 在本公开再一实施方式中,所述确定分布差异模块,包括:第一子模块,用于为训 练样本集合中的各用户的用户特征分别设置第一版本标注信息;第二子模块,用于为准训 练样本集合中的各用户的用户特征分别设置第二版本标注信息;第三子模块,用于将所述 训练样本集合中的用户特征和所述准训练样本集合中的用户特征分别作为输入提供给版 本识别模型,经由所述版本识别模型对输入的用户特征分别进行版本识别处理;第四子模 块,用于根据所述版本识别模型输出的版本识别处理结果、所述第一版本标注信息以及第 二版本标注信息,确定来自所述训练样本集合的多个用户的用户特征和来自所述准训练样 本集合的多个用户的用户特征的特征分布差异信息。 在本公开再一实施方式中,所述第三子模块包括:第一单元,用于将所述训练样本 集合中的部分用户的用户特征,作为第一训练样本;第二单元,用于将所述准训练样本集合 中的部分用户的用户特征,作为第二训练样本;第三单元,用于利用所述第一训练样本和第 二训练样本对版本识别模型进行训练;第四单元,用于将所述训练样本集合中的另一部分 用户的用户特征和所述准训练样本集合中的另一部分用户的用户特征,分别作为输入提供 给训练后的版本识别模型,经由所述训练后的版本识别模型对输入的用户特征分别进行版 本识别处理。 在本公开再一实施方式中,所述第四子模块进一步用于:根据所述版本识别模型 输出的各用户特征的版本信息以及所述输入的各用户特征的第一版本标注信息/第二版本 标注信息,计算所述训练样本集合中的用户特征和所述准训练样本集合中的用户特征的马 修斯相关系数。 在本公开再一实施方式中,所述预测模型训练模块进一步用于:若所述马修斯相 关系数达到预定阈值,则将所述准训练样本集合中的用户特征作为输入,提供给待训练预 测模型;经由所述待训练预测模型对输入的用户特征进行预测处理;根据所述待训练预测 模型输出的预测处理结果和所述输入的用户特征的目标行为发生标注信息,调整所述待训 练预测模型的网络参数。 在本公开再一实施方式中,所述装置还包括:第三获取模块,用于若实时检测到系 统中的一用户产生执行行为操作,则获取所述用户的当前用户特征;线上预测模块,用于将 所述当前用户特征提供给所述系统当前使用的预测模型,经由所述预测模型执行线上预测 处理,并根据所述预测模型的预测处理结果,获得所述当前用户在未来第一时间范围内执 行目标行为的概率。 在本公开再一实施方式中,所述装置还包括:更新系统价值模块,用于根据所述当 前用户在未来第一时间范围内执行目标行为的概率,更新所述系统的当前价值。 在本公开再一实施方式中,所述装置还包括:第一监测模块,用于根据所述预测模 型针对多个当前用户的预测处理结果,确定所述预测模型的受试者工作特征曲线下的面积 AUC;和/或,第二监测模块,用于根据所述预测模型针对多个当前用户的预测处理结果以及 执行目标行为的用户数量的后验值,确定所述系统的当前价值的偏差;和/或,第三监测模 6 CN 111598338 A 说 明 书 4/18 页 块,用于根据所述预测模型针对多个当前用户的预测处理结果以及执行目标行为的用户数 量的后验值,确定所述系统当前使用的预测模型的预测偏差。 根据本公开实施例的再一方面,提供一种计算机可读存储介质,所述存储介质存 储有计算机程序,所述计算机程序用于执行上述用于更新预测模型的方法。 根据本公开实施例的又一方面,提供一种电子设备,该电子设备包括:处理器;用 于存储所述处理器可执行指令的存储器;所述处理器,用于从所述存储器中读取所述可执 行指令,并执行所述指令以实现上述用于更新预测模型的方法。 基于本公开上述实施例提供的一种用于更新预测模型的方法和装置,通过在判断 出准训练样本集合中的各用户的用户特征的特征分布与训练样本集合中的各用户的用户 特征的特征分布满足预设差异条件时,利用准训练样本集合中的用户特征样本进行预测模 型训练,有利于寻找到较为恰当的模型更新时机;由于系统中的各用户的用户特征的特征 分布变化往往是存在变化趋势的,因此,无论是利用系统更新后的预测模型进行线上预测, 还是利用系统更新后的预测模型进行线下预测,均可以具有较好的预测准确性。由此可知, 本公开提供的技术方案有利于避免不必要的模型训练所造成的资源浪费现象,且有利于促 使系统当前使用的预测模型持续保持较好的预测准确性。 下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。 附图说明 构成说明书的一部分的附图描述了本公开的实施例,并且连同描述一起用于解释 本公开的原理。 参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中: 图1为本公开的适用场景的一个实施例的示意图; 图2为本公开的用于更新预测模型的方法一个实施例的流程图; 图3为本公开利用版本识别模型确定特征分布差异信息一实施例的流程图; 图4为本公开利用版本识别模型确定特征分布差异信息另一实施例的流程图; 图5为本公开的训练预测模型一实施例的流程图; 图6为本公开的用于更新预测模型的装置一个实施例的结构示意图; 图7为本公开一示例性实施例提供的电子设备的结构图。
下载此资料需消耗2积分,
分享到:
收藏