logo好方法网

一种基于GBP的主成分析方法


技术摘要:
本发明公开了一种基于GBP的主成分析方法,上述方法能解决现有技术因为没有加入主成分析,需要大量的硬匹配,没有形成完成回路;计算量巨大,占用大量服务器资源;需要二次核对,同时匹配准确度有待加强的问题;该基于GBP的主成分析优化推荐方法能实现当数据量过多时,  全部
背景技术:
随着电子商务网站的快速发展,推荐系统已经被广泛研究和应用,推荐系统通过 提取分析用户的资料、行为、评分等信息,获得用户的喜好,来帮助电商找到特定的用户为 其推荐可能购买的产品,增加商品的销售量。 推荐系统通过收集用户的历史评分、交互(浏览、收藏、“点赞”,“踩”等交互行为)、 用户肖像(年龄、职业、性别等)、社交网络和上下文(时间、位置、活动状态、周围人员等)等 数据,对用户的历史兴趣及偏好进行分析,挖掘出用户喜欢的项目(视频、音频、书籍、菜品、  Web服务等信息),然后主动地将相关信息推荐给用户,满足用户的个性化需求。推荐算法是 推荐系统的核心,很大程度上决定了推荐系统的性能。目前主要的推荐算法包括基于内容 的推荐、基于知识的推荐、基于关联规则的推荐、协同过滤推荐和组合推荐等。 目前被广泛研究的推荐系统有的是采用基于内容的推荐算法、协同过滤推荐算法 等。基于内容的推荐算法是通过用户购买过的产品的特征,为用户推荐与其相似的产品。这 种算法的优点是可以处理冷启动问题,处理新加入的产品,并且这种算法不会受到打分稀 疏性的问题,因为它不依赖于用户对产品的评分。但是它的缺点是无法处理像图形、视频和 音乐这种难以分析提取内容特征的商品。 协同过滤算法则是利用用户-产品评分矩阵,计算用户或产品之间的相似度,利用 相似度较高的邻居对其他产品进行评分预测,并根据预测评分的高低为目标用户进行推 荐。但是每一个用户购买的产品数量通常不到产品总数的1%,所以造成用户-产品评分矩 阵非常稀疏,从而使得推荐结果不佳;而基于邻域的协同过滤推荐算法是应用最早的协同 过滤推荐技术,代表性算法为基于用户的协同过滤推荐和基于项目的协同过滤推荐。然而 随着用户规模和项目数量的快速增长,基于邻域的协同过滤推荐算法的计算量大规模增 大,同时产生了严重的评分数据稀疏性问题,即评分稀疏性问题。为了处理可扩展性和评分 稀疏性问题,一些研究学者提出采用基于矩阵分解模型的推荐算法。矩阵分解模型假定“用 户—项目”评分矩阵可以被分解为低维的潜在特征矩阵的乘积,其中潜在特征用于表示用 户偏好或项目特征,如在电影推荐中,这些特征可能为喜剧、悬疑剧、爱情剧因素等。多次国 际性比赛和大量研究都验证了矩阵分解模型具有抗数据稀疏性、易编程、较低的时空复杂 度、较高的推荐精度和良好的可扩展性等优点。 虽然上述推荐方法各有优势,但是,上述推荐方法因为没有加入主成分析,对离散 数据没有做到精准预测;没有详细对现有用户行为与购买期望商品进行匹配,匹配度不高; 导致需要大量的硬匹配,没有形成完成回路;计算量巨大,占用大量服务器资源;需要二次 核对,同时匹配准确度有待加强。 4 CN 111581523 A 说 明 书 2/7 页
技术实现要素:
基于GBP数据对用户进行推荐,G是基因数据,B是用户行为数据,P是用户表行数 据;本算法基于GBP的主成分析,从而保证对用户进行精准推荐。 主成分分析,是考察用户数据之间多个变量间相关性一种多元统计方法,研究如 何通过少数几个主成分来揭示多个变量间的内部结构,即从原始变量中导出少数几个主成 分,使它们尽可能多地保留原始变量的信息,且彼此间互不相关。从而发现关联用户、商品 的关联问题。它借助于一个正交变换,将其分量相关的原随机向量转化成其分量不相关的 新随机向量,这在代数上表现为将原随机向量的协方差阵变换成对角形阵,在几何上表现 为将原坐标系变换成新的正交坐标系,使之指向样本点散布最开的p个正交方向,然后对多 维变量系统进行降维处理,使之能以一个较高的精度转换成低维变量系统,再通过构造适 当的价值函数,进一步把低维系统转化成一维系统从而用户与需推荐的商品关联性最强。 现有技术缺陷和不足为现有技术因为没有加入主成分析,对离散数据没有做到精准预测。 没有详细对现有用户行为与购买期望商品进行匹配,匹配度不高;主要体现以下三点:需要 大量的硬匹配,没有形成完成回路;计算量巨大,占用大量服务器资源;需要二次核对,同时 匹配准确度有待加强。 本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种基于GBP 的主成分析优化推荐方法,上述推荐方法能解决现有技术因为没有加入主成分析,对离散 数据没有做到精准预测,且没有详细对现有用户行为与购买期望商品进行匹配,匹配度不 高的问题,该算法在迭代优化方法的基础上,通过将用户的基因(Gene),行为(Behavior), 表型  (Phenotypic)这三类信息称之为用户的GBP数据,将这些数据进行标签化,进而形成 以用户为基础的GBP标签;将用户的GBP信息进行标签化后,再将内容(商品、文章、视频、图 片等)信息进行标签化,进而将用户的GBP标签和内容的标签进行算法层面的匹配;本发明 中将上述算法称为基于GBP的主成分析优化推荐方法;能寻找到用户推荐的最大相关性。 为实现上述发明目的,本发明采用如下的技术方案: 一种基于GBP的主成分析优化推荐方法,包含以下步骤: 1)根据用户的GBP数据对用户进行标签化,每个用户就都拥有了各自的GBP标签, 每个标签代表一个不同的item; 2)对内容进行手动打标签,使内容也拥有了一个或多个标签: 3)根据用户的标签和内容标签进行初步的匹配,经过用户使用、反馈和算法校准, 用户已经对一些item做出了喜好判断,喜欢其中的一部分item,不喜欢其中的另一部分; 4)通过用户过去的喜好判断,为用户形成一个通用模型,后续根据用户的实习操 作的数据反馈进行标签权重系数的调整进而优化推荐系统的推荐机制: 5)商品推荐,通过上述通用模型,就可以判断用户是否会喜欢一个新的item,最终 得到推荐结果; 其中,所述的内容为文章、视频、商品、图片等; 其中,当标签数据量较大时,需要对通用模型的目标函数进行优化,在进行目标函 数优化之前,采用主成分法对标签数据进行一次主成分析; 其中,所述的主成分法是确定因子载荷在进行因子分析之前先对数据进行一次主 成分析,然后把前几个主成分作为旋转的公共因子;因子分析的基本思想是根据相关性大 5 CN 111581523 A 说 明 书 3/7 页 小把原始变量分组,使得同组内的变量之间相关性较高,而不同组的变量间的相关性则较 低;每组变量代表一个基本结构,并用一个综合变量表示,这个基本结构就称为公共因子; 但是,由于用这种方法所得到的特殊因子 之间并不相互独立,因 此,用主成分法确定因子载荷不完全符合因子模型的假设前提,也就是说所得到的因子载 荷需要配合更高维度值才可以保证其准确度。当共同度较大时,特殊因子所起的作用较小, 特殊因子之间的相关性所带来的影响几乎可以忽略; 用主成分法寻找公共因子方法如下:假定从相关阵出发求解成分,设有p个变量, 则可以找出p个主成分。将所得的p个主成分按由大到小的顺序排列,记为Y1, Y2,..........Yp,则主成分与原始变量之间存在如下关系: Y1=r11X1 r12X2 …… r1pXp Y2=r21X1 r22X2 …… r2pXp ……………… Yp=rp1X1 rp2X2 ………… rppXp 式中,rij为随机向量X的相关矩阵的特征根所对应的特征向量的分量,因为特征 向量之间彼此正交,从X到Y的转换关系是可逆的,很容易得出由Y到X的转换关系为: X1=r11Y1 r21Y2 ……… rp1Yp X2=r12Y1 r22Y2 ……… rp2Yp ……………………… Xp=r1pY1 r2pY2 ………… rppYp 对上面每一等式只保留前m个主成分而把后面的部分用代替 则式转化为: ....................... 在形式上已经与因子模型一致;并且Yi(i=1,2,… ,m)之间相互独立,Yi与之间 为了把Yi转化成合适的公共因子,现在要做的工作只是把主成分Yi变成方差为1的变 量;为完成此变换,必须将Yi除以其标准差,由上一章主成分析的知识知其标准差即为特征 根的平方根 于是令 则变成: …………… 这与因子模型完全一致,这样,就得到来载荷矩阵A和一组初始公共因子(未旋转) 6 CN 111581523 A 说 明 书 4/7 页 一般设 为样本相关阵R的特征根,r1,r2,…,rp为对应的标准正交 化特征向量。设m
分享到:
收藏