logo好方法网

基于多子空间表示的偏多标记学习方法


技术摘要:
本发明提供了一种基于多子空间表示的偏多标记学习方法。该方法包括利用真实标记矩阵构建标记子空间,利用特征映射矩阵构建特征子空间,通过标记子空间和特征子空间学习得到基于多子空间表示的偏多标记学习模型;对基于多子空间表示的偏多标记学习模型进行交替优化训练  全部
背景技术:
近年来,多标记学习广泛应用在多媒体内容自动标注、生物信息学、Web挖掘、信息 检检索和个性化推荐等领域,但是由于数据集标记信息的不准确性,导致多标记模型的预 测准确度下降。在多标记学习的实际应用中,由于遮挡、光线等问题,数据特征也不可避免 的存在噪声问题。为了更好地解决训练数据标记存在冗余标记的问题,2018年学者将弱监 督框架下的标记存在噪声的多标记学习问题分离成为偏多标记学习问题,近两年来,越来 越多偏多标记学习的方法被发表在国际顶尖会议上。 现有技术中的偏多标记学习解决方法主要可以分为两类:基于统一框架的偏多标 记学习方法偏多标记学习方法以及基于两阶段的偏多标记学习方法。 基于统一框架策略的偏多标记学习是把整个模型的训练过程作为一个整体,优化 候选标记集合(即含有冗余噪声的标记集合)的过程和学习预测模型的过程是同时进行的, 是在一个统一的框架里学习。有方案利用标记置信度来度量每个候选标记成为真实标记的 概率,并根据标记的排名得到真实标签(PML-fp和PML-lc)。也有方案提出一种基于特征诱 导的偏多标记学习算法,该算法利用标记与特征之间的潜在依赖关系识别噪声标签并训练 预测模型(fPML)。还有方案提出在偏多标记学习的框架中使用低秩稀疏分解模型,将观测 的标记矩阵分解为低秩的真实标记矩阵和稀疏的噪声标记矩阵,训练过程中同时得到真实 标记矩阵以及预测模型(PML-LRS)。 上述现有技术中的基于统一框架的偏多标记学习方法的缺点为:直接使用候选标 记集合进行预测模型学习时,模型的准确性会受到候选标记集合中冗余标记所占比例的影 响,在冗余标记较多时,模型的准确性会大大下降。 基于两阶段策略的偏多标记学习包括可靠标记的选择阶段和预测模型学习阶段。 该类方法第一阶段利用各种消歧策略获得候选标记集合中较为可靠的标记,第二阶段使用 上述可靠标记作为真实标记进行预测模型的学习。有方案在第一个阶段通过标记传播算法 赋予每个候选标记的不同的标记置信度,在第二阶段利用具有高标记置信度的可信标签, 通过虚拟标记划分或最大后验(MAP)训练预测模型(PARTICLE)。还有方案第一阶段利用标 记与特征之间的依赖关系得到标记置信度,然后在第二阶段利用标记置信度的梯度增强算 法来学习预测模型(DRAMA)。 上述现有技术中的基于两阶段策略的偏多标记学习方法缺点为:在第一阶段获得 的可靠标记对于预测模型有着很大的影响,在可靠标记不准确、与真实标记差别较大的情 况下第二阶段模型的预测结果则会出现较大的偏差。而且现有的偏多标记学习方法并没有 考虑到特征也会存在少量噪声,特征噪声也会对预测模型的准确性造成影响。 5 CN 111581469 A 说 明 书 2/10 页
技术实现要素:
本发明的实施例提供了一种基于多子空间表示的偏多标记学习方法,以克服现有 技术的缺点。 为了实现上述目的,本发明采取了如下技术方案。 一种基于多子空间表示的偏多标记学习方法,包括: 利用真实标记矩阵构建标记子空间,利用特征映射矩阵构建特征子空间,通过所 述标记子空间和特征子空间学习得到基于多子空间表示的偏多标记学习模型; 对所述基于多子空间表示的偏多标记学习模型进行交替优化训练学习,求解所述 基于多子空间表示的偏多标记学习模型,得到最优的预测模型; 将未知样本输入到所述最优的预测模型,所述最优的预测模型输出所述未知样本 的标记信息。 优选地,所述的利用真实标记矩阵构建标记子空间包括: 将真实标记矩阵 通过约减标记维度得到低维的标记子空间,将真实标记 矩阵 分解为如下两个矩阵的结合: U∈Rn×c表示经过维度约减后的真实标记子空间,P∈Rc×q表示标记关系矩阵; 通过最小化标记矩阵和子空间重构之间的误差来获得标记子空间,公式如下: 其中R(U,P)是正则化项,用来控制整个模型的复杂度; 定义一个两两相似性矩阵S∈Rn×n: 即若xi和xj互为近邻那么Sij等于计算出的两个样本之间的相似度,否则为0,通过 最小化下列式子来引入图拉普拉斯正则项: 其中 是本模型中的图拉普拉斯矩阵,其中 是一个 对角矩阵,该图拉普拉斯正则项用于约束标记子空间与特征空间具有内在一致性。 优选地,所述的利用特征映射矩阵构建特征子空间,通过所述标记子空间和特征 子空间学习得到基于多子空间表示的偏多标记学习模型,包括: 设置特征映射矩阵Q∈Rd×m,利用所述特征映射矩阵Q将原始特征空间映射到低维 6 CN 111581469 A 说 明 书 3/10 页 子空间,得到特征子空间,该特征子空间表示如下: XTQ∈Rn×m 其中m是特征子空间的特征维度; 利用所述特征子空间和标记子空间,学习到从特征子空间到标记子空间的预测模 型W∈Rm×c: s.t.QTQ=I 合并上述各项之后,得到如下的基于多子空间表示的偏多标记学习模型: s.t.QTQ=I 该项是本模型中P、U、W的正则项,用来控 制模型的复杂度,α、β、γ是调节参数,用来保持模型的平衡。 优选地,所述的对所述基于多子空间表示的偏多标记学习模型进行交替优化训练 学习,求解所述基于多子空间表示的偏多标记学习模型,得到最优的预测模型,包括: S3-1:对基于多子空间表示的偏多标记学习模型进行初始化; S3-2:固定U,W,Q,更新P,模型的目标函数等价于如下优化问题: 通过对上式求导等于零,得到P的解如下所示: P=(αUTU γI)-1αUTY S3-3:固定P,W,Q,更新U,模型的目标函数等价于如下优化问题: 使用梯度下降算法对U进行迭代优化,得到U的更新规则如下: 其中λU是梯度下降步长,通过armijo准则得到; S3-4:固定P,W,U,更新Q,模型的目标函数等价于如下优化问题: s.t.QTQ=I 采用梯度下降算法更新Q,其中梯度步长也使用armijo准则得到,更新规则如下所 示: 7 CN 111581469 A 说 明 书 4/10 页 每次迭代更新后,将Q的每行投影到单位球上,即: 其中Qi,:是Q矩阵的第i行。 S3-5:固定P,U,Q,更新W,模型的目标函数等价于如下优化问题: 通过对上式求导等于零,得到W的解如下所示: W=(QTXXTQ γI)-1QTXU S3-6:重复S3-2到S3-5,不断交替更新参数W,P,直到满足迭代停止条件,基于多子 空间表示的偏多标记学习模型收敛,输出基于多子空间表示的偏多标记学习模型的最优解 (P*,U*,Q*,W*),得到最优的预测模型W*。 优选地,所述迭代停止条件包括目标函数值小于某个预设定阈值,或者W,P,U,Q中 的每一位都不再发生变化;或者达到迭代的最大次数。 由上述本发明的实施例提供的技术方案可以看出,本发明提出的基于多子空间表 示的偏多标记学习方法解决了特征存在噪声和冗余标记的问题,使用映射矩阵将特征空间 映射到子空间,从而减少特征噪声对预测模型的影响;使用矩阵分解技术将标记空间降维 到标记子空间,同时使用图拉普拉斯约束标记子空间,消除冗余标记噪声对预测模型的影 响。 本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变 得明显,或通过本发明的实践了解到。 附图说明 为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用 的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本 领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的 附图。 图1为本发明实施的基于多子空间表示的偏多标记学习方法工作流程图 图2为本发明实施的基于多子空间表示的偏多标记模型训练工作流程图 图3为本发明方法与现有方法的对比实验结果 图4为本发明方法与现有方法实验结果经Bonferroni-Dunn测试后的结果。
分享到:
收藏