技术摘要:
一种基于Hash的快速候选生成推荐方法,获取用户集和项目集,对其进行二进制编码嵌入,并根据二进制代码建立Hash表,从而大大减少检索所需的时间,此外还可通过随机梯度下降进行优化,从而扩展到其他大型数据集;对于上述的候选生成,我们使用基于实值的排序模型对其进 全部
背景技术:
推荐系统已受到广泛关注,并提出了各种模型,现有的算法通常注重于实现系统 更好的准确性,例如MF采用传统的矩阵分解作为其基础偏好模型,CML采用度量嵌入,NeuMF 使用多层感知器来对用户-项目的交互进行建模。至于系统处理时间问题上,一些方法通过 基于树的数据结构来加快最大内积运算时间(MF模型)。但这些方法只适用于特定模型(例 如取决于内积的特定结构)。因此很难推广到其他模型。另一些方法旨在直接学习用户项目 的二进制代码嵌入来估计它们之间的交互,并建立哈希表以加快检索速度,但是此类方法 在精确度上仍不如传统的基于实值的模型。由于在任何给定时刻绝大多数项目与大多数用 户无关,因此在需要高效率的行业中已经采用了候选人生成和重新排名策略。这种方法首 先以有效的方式生成少量候选者,然后应用别的排名模型来获得最终排名,从大型语料库 生成Top-N推荐在规模上执行成本很高,因此在工业上通常采用候选生成和重排序的方法 来缓解这个问题。
技术实现要素:
为了解决现有推荐系统中的候选生成缓慢的问题,本发明提供了一种基于Hash的 快速候选生成推荐方法。 为了解决上述问题,本发明提供如下的技术方案: 一种基于Hash的快速候选生成推荐方法,包括以下步骤: 步骤1获取用户数据集U和项目数据集I; 步骤2提取U和I中的信息,并用二进制代码对其进行嵌入bu,di; 步骤3根据步骤2的二进制代码,建立Hash表; 步骤4根据用户的历史项目,从表中选取N个用户u可能感兴趣的项目i; 步骤5对步骤4中的N个项目引入注意力机制aij,使用重新排序模型进行重排名; 步骤6对每一个项目i都输出一个预测得分,共N个,并用贝叶斯损失函数进行优 化; 步骤7将步骤6中的预测得分进行从大到小的排序,生成目标用户u的Top-N推荐 集。 进一步,所述步骤2中的二进制代码嵌入使用one-hot编码嵌入,一个离散型特征, 代表工作类型,该离散型特征,共有三个取值,不使用one-hot编码,其表示分别是x_1= (1) ,x_2=(2) ,x_3=(3)。每两个工作之间的距离是,d(x_1,x_2)=1,d(x_2,x_3)=1,d(x_ 1,x_3)=2。显然这样的表示,计算出来的特征的距离是不合理。而使用one-hot编码,则得 到x_1=(1,0,0) ,x_2=(0,1 ,0) ,x_3=(0,0,1),那么每两个工作之间的距离就都是sqrt (2) .即每两个工作之间的距离是一样的,显得更合理。 4 CN 111597432 A 说 明 书 2/5 页 再进一步,所述步骤4中,N个项目的提取是根据每个码组间的汉明距来决定,汉明 距越小,相似度越大。一个汉明空间包含2r个长度为r的二进制字符串。二进制代码可以在 现代系统中有效地存储和计算。在本发明中,我们使用二进制代码b ,d ∈{-1,1}ru i 表示用户 和项目,两个二进制字符串之间的相似性用下面公式衡量: I(·)是一个指标函数,r是二进制代码长度,z代表第z个码字,bu ,z是用户二进制 代码的第z个码字,di,z项目的第z个码字,直至第r个,const为常量。 所述步骤5中,重排名模型考虑到引入注意力机制,即用户评论过的项目并不会被 平等对待,而是赋予它们不同的权重aij: 其中 函数将输入映射到(0,1)上,U是(i,j)的集合。α是一 个平滑超参数,取值在(0,1)之间。f函数有两种计算方式:[pi,qj]是内积计算,(pi ⊙ qj)是 外积计算。W和b是注意力网络中隐藏层的权重矩阵和偏好向量。h是隐藏层的权重向量,用 来将隐藏层的输出转化为一个标量。 所述步骤6中,预测得分通过常规的内积来计算,根据用户-项目矩阵,当预测第i 个用户对第j给项目的得分时,就可直接使用内积公式: su·j=(bu,dj) (3) bu,dj分别是用户和项目的二进制代码嵌入。 此外还辅以贝叶斯损失函数(BPR)来对预测得分进行优化: -Σlnσ(su,i-su,j) (4) su,j是预测值,当经过损失函数输出的值最小时即代表预测值达到最优。 本发明与现有技术相比,具有以下技术效果:1、基于Hash的二进制代码嵌入大大 减少了候选生成所需要的查询时间,与现有的算法相比缩短了几个数量级,可以轻易的扩 展到其他大型数据集;2、基于辅助实值的重排序模型对不同用户历史项目赋予不同权重, 并通过一个损失函数进一步提升了Top-N推荐的准确性。 附图说明 图1为本发明的快速候选生成推荐方法的流程图。 5 CN 111597432 A 说 明 书 3/5 页