logo好方法网

一种基于HSIC最大化的张量子空间学习算法


技术摘要:
本发明是研究多维数据的降维问题。本发明采用一个张量表示一个多维数据集,其中张量的前面各维表示多维数据的各个维度,而最后一维则表示数据集所包含的数据的个数。由于张量与矩阵的模式积可以改变张量某个维的大小,因此,本发明提出基于张量模式积的张量数据降维模  全部
背景技术:
随着大数据时代的到来,涉及维数灾难的问题变得越来越严重。因此,子空间学习 算法也越来越受到重视。子空间学习算法是降维算法的一种,子空间学习大意是指通过投 影,实现高维特征向低维空间的映射,是一种经典的降维思想。在模式识别中,可能绝大多 数的维数约简(降维,投影)算法都算是子空间学习,如PCA,LDA,LPP,LLE等等。子空间学习 的主要问题,就是如何将特征从高维空间压缩到低维空间,需要保留什么样的信息,设定什 么样的准则,低维空间的特征具有哪些特征等问题。 HSIC准则是利用两个RKHS中的HS算子来衡量数据集之间的统计依赖性,且使这个 依赖性达到最大。从而确定降维后的子空间的标准正交基。但是将原有数据集映射到RKHS 上最关键的问题是如何保留原有数据的几何结构,而核函数决定RKHS,因此核函数的选取 是也是一个重要的问题。 在数学定义中,一个函数满足对称性、平方可积和正定,那么这个函数我们就称为 核函数。根据Moore-Aronszajn定理:已知一个核函数k(x,y),则存在唯一的一个Hilbert空 间H,使得H是一个再生核希尔伯特空间,且k(x,y)是H的再生核,可知道只要定义了一个核 函数就是定义了一个RKHS以及RKHS的再生核。由于张量数据的维度比较高,在机器学习算 法中,张量数据的处理过程会出现维数灾难的问题,所以要对数据进行降维处理。降维是流 形学习的主要应用,从降维的角度来看,多数流形学习算法都是局部特征保持算法。这可能 是由于流形的数学性质。在数学中,流形被定义为欧几里得空间的局部同胚流形。近年来, 基于流形学习的局部和全局特征保持算法得到了广泛的应用。在许多这样的算法中,首先 确定高维和低维数据之间的全局(线性或非线性)关系,然后将其代入流形学习的目标函数 中确定这些全局关系。 对此,将子空间学习和张量数据的降维结合起来,将原有的张量数据看成是高维 数据空间的元素,将降维后的数据看成是学习到的低维子空间的元素。将高维数据和低维 数据映射到两个不同的RKHS中,利用两个不同的RKHS之间的HS算子来衡量二者的统计依赖 性,使其依赖性最大。即,利用HSIC最大化的准则得到目标子空间的标准正交基,从而来确 定子空间。这么做能够使降维后的数据尽可能保持原有数据的几何结构,达到较好的降维 效果。 3 CN 111582321 A 说 明 书 2/5 页
技术实现要素:
现在机器学习中存在很多输入数据是非欧数据且数据维度比较高,无法直接进行 线性运算,所以使用核函数把输入数据映射到RKHS上,在RKHS上进行线性运算,则可以很好 地处理各种机器学习问题。通过在RKHS上对数据进行降维,从而达到解决维数灾难的问题。 机器学习算法中使用的核函数基本是固定不变的,因此由核函数映射的RKHS也是固定不变 的,不同的核函数产生的RKHS也不同。而每个RKHS对应不同领域的应用,泛化了流形学习中 降维算法在不同领域的应用。因此本发明提出一种子空间的学习框架。流形学习的大部分 目标函数可以简化为如下形式: 其中tr(·)是矩阵的迹,Y是降维后的数据,L是对称半正定矩阵且来源于依据不 同流形学习算法的高维数据。高维数据X和低维数据Y设为是线性相关的,即:Y=WTX ,线性 变换矩阵W由下述流形学习的目标函数确定: 该式展现的算法为LPP或者LPP的变形,理论上,tr(YLYT)可以说是任何流形学习 算法的目标函数。 基于子空间学习的张量数据的降维的框架就是对于一个高维数据集 要求根据一定的准则找到一个子空间spanW,以此来获得 在子空间 spanW上投影的坐标,即: 也称为是 的傅里叶系数。其中spanW是由W的列向量张成的空 间, 且Jn<<Ln ,n=1,2,…,N-1。而对于张量数据而言,由于张量数据 运算满足张量积的运算则有: 对张量进行展开,得到其矩阵的形式如下: 对于子空间学习而言,应该要根据某一准则来确定子空间的标准正交基,其中, 常见的准则是最小距离准则,即:原始数据 与投影后的数据之间的距离最小,如 下: 此时这个算法就是所谓的PCA算法。然而,本发明提出的算法则是基于HSIC最大化 的准则来确定子空间的标准正交基。 本发明的特点及其意义: (1)本文研究多维数据的降维问题。与大多数应用采用一个张量表示一个多维数 据不同,本文的第一个贡献是采用一个张量表示一个多维数据集,其中张量的前面各维表 4 CN 111582321 A 说 明 书 3/5 页 示多维数据的各个维度,而最后一维则表示数据集所包含的数据的个数。 (2)张量与矩阵的模式积可以改变张量某个维的大小,因此,本发明的第二个贡献 是提出基于张量模式积的张量数据降维模型,在这个模型中,模式积的矩阵是可选的,可以 根据不同的准则确定。 (3)根据降维前后两个张量之间HSIC最大化的准则确定模式积的矩阵。HSIC把两 个数据集变换到两个再生核希尔伯特空间(RKHS)上,然后利用两个RKHS之间的HS算子衡量 两个变换后的数据集的统计相关性。 附图说明 图1:一种基于HSIC最大化的张量子空间学习算法流程图。
下载此资料需消耗2积分,
分享到:
收藏