技术摘要:
本发明公开了一种基于排序学习的并行式药物‑靶标相关性预测方法,属于生物信息学领域。该方法通过多种特征提取方法提取多种类型的相似度、相关性特征、化学空间特征、基因空间特征,继而由于多角度的特征提取会得到较高维数的特征集且样本无常规的正反例类标签,故用 全部
背景技术:
预测药物-蛋白质的相关性的方法技术有很多。传统的预测方法分为基于配体和 基于靶标两种类型:基于配体的方法需要靶标蛋白的已知的配体的相关性信息,并以此来 定义药效团模型来描述结合配体的共有特征,这也就表明这种类型的方法不适用于已知的 配体信息较少的情况;基于靶标的方法需要提前获得靶标的3维结构,但是部分蛋白质序列 的3维结构未知且难以获取。 传统的预测方法虽然能保证较高的准确率,但是会耗费大量的时间、金钱。现在很 多研究者将机器学习引入到相关研究中,用机器学习进行预测的方法分为基于特征和基于 相似度两种类型。机器学习的引入的确在速度方面取得了很大进步,但是无论是基于特征 的方法还是基于相似度的方法均存在一定的不足之处:基于相似性的方法一方面是仅仅依 靠单方面(药物或靶标)的相似性,二是当已知的能与靶标(或配体)起作用的配体(或靶标) 数量较少时,通过待测物与仅有的少数样本的相似性就得出是否相关的结论,这样显然不 具备足够的说服力;利用基于特征的方法时,可能由于所用算法的原因无法将药物信息、蛋 白质序列信息用数字的形式很好的表示出来。 除此之外,用机器学习预测药物-蛋白质相关性时,很多研究者只是简单的预测了 药物与蛋白质是否相关,即将研究归为二分类问题,并未对药物-蛋白质的相关性程度进行 更深一步的探究,即没有更进一步的探究哪种蛋白质(药物)与给定药物(蛋白质)相关性最 强。
技术实现要素:
本发明的目的在于:针对上述现有技术中存在的不足,提供一种基于排序学习的 并行式药物-靶标相关性预测方法。 本发明采用的技术方案如下: 一种基于排序学习的并行式药物-靶标相关性预测方法,包括: S1.获取药物的化学结构样本集和靶标的序列样本集; S2.基于所述药物的化学结构样本集和靶标的序列样本集,提取药物特征信息、靶 标特征信息和二者的关联特征信息; S3.将所述药物特征信息、靶标特征信息和二者的关联特征信息组合,然后进行降 维处理; S4.以所述降维处理得到的特征集为输入,查询与药物或靶标相关的蛋白质或配 体,采用排序学习方法进行排序,并计算相关性大小,然后按输出的值大小依次排序; S5.将所得排序顺序与真实相关性顺序作对比;将所得排序结果进行投票处理;采 4 CN 111599403 A 说 明 书 2/5 页 用不同类型测试集测试泛化能力。 本发明通过采用排序学习算法对药物与蛋白质的相关性程度进行排序,而不是简 单的将药物-蛋白质的关系归为相关或是不相关。同时,利用排序学习算法可以将通过多种 技术手段获得的多种类型的信息集成,实现特征算法之间的取长补短,从而提高性能。 进一步地,S1中靶标对象为G蛋白偶联受体,药物对象为与其相关或不相关的。 进一步地,S2中药物特征信息由2D指纹、药物描述符表示,靶标特征信息由氨基酸 的理化性质、频率分布、进化信息表示,二者的关联特征信息由k-NN、BLM-svr、NetLapRLS计 算得出。不同的算法有其各自独特的优点和不足,通过采用多种特征提取算法基于药物、靶 标、药物-靶标三个角度并行的提取其化学空间特征、基因空间特征、相似度及相关性特征, 可实现算法间的取长补短,以进一步提高技术性能。 进一步地,所述S2中在药物重定向方面通过构建异质网络,包括药物-药物、药物- 疾病、药物副作用、药物相似性相关性网络提取特征信息。 进一步地,S3中采用主成分分析法(PCA)进行降维处理。PCA可以把可能具有相关 性的高维变量合成线性无关的低维变量,去除冗余的特征信息,缩短实验周期,另外,PCA降 维适用于没有明确的正反例类标签的特征集。 进一步地,S4中,将输入文件转化为标准格式: 其中,qi表示某一查询,Fj表示样本j的所有特征, 表示相关性程度。 进一步地,S4中,对于输出的相关性数值,应关注其之间的相对大小而非精确数 值。 进一步地,S5中真实相关性由药物与靶标之间的亲和力值表示。 进一步地,亲和力值为IC50,将所述IC50取其对数负值 来直观表示药物与 靶标的相关性程度。IC50值可以用来衡量药物诱导凋亡的能力,即诱导能力越强,该数值越 低。但药物-蛋白对的IC50值会存在数值差异较大的情况,为了更直观的观察出药物-蛋白 对的相关性,需要对药物-靶标之间的亲和力值进行处理,通常使用 表示。取对数可 解决数值差异悬殊对后续实验的影响,再对对数取负值更加符合统计数据的思维逻辑,即 最终结果的数值越大,表示相关性越强。 进一步地,S5中通过NDCG值来衡量排序学习算法的性能,NDCG值越大说明性能越 好,从而能够验证本发明方法的有效性;对于前K个位置的药物-蛋白对,NDCG值的计算公式 如下: 其中,K表示只计算输出的前K个位置的查询结果,ri为第i个位置的药物-蛋白质 对预测出的相关性,R为第i个位置的药物-蛋白质对真实的相关性。 进一步地,对排序结果进行投票处理是为了观察哪些药物-蛋白对总是出现在前K 个位置,能够进一步提高模型对于未知相关性的药物-蛋白对的相关性预测能力。 5 CN 111599403 A 说 明 书 3/5 页 进一步地,S5中,通过调整不同类型的测试集中的样本分别测试在新药研发、药物 重定向方面的性能。当测试集中的蛋白质从未在训练集中出现时,可用于验证老药新用;当 测试集中的药物从未在训练集中出现时,可验证这些药物具体可在哪些蛋白质上发挥作 用。 综上所述,由于采用了上述技术方案,本发明的有益效果是: 1、本发明中基于排序学习,即通过采用排序学习算法对药物与蛋白质的相关性程 度进行排序,不仅有利于新药研发,还有利于药物的重定向; 2、本发明为并行式的预测方法,其并行性体现在两个方面:一是排序学习具备的 并行性,即可同时预测多个药物(靶标)与蛋白质(配体)的相关性;二是实验步骤和程序的 并行性,即可并行的提取包括基于药物、基于蛋白质等的特征信息; 3、本发明通过多种特征提取方法提取多种类型的相似度、相关性特征、化学空间 特征、基因空间特征,继而对数据进行降维处理,去除冗余,使得计算更高效轻便,然后将降 维后的特征集输入排序学习算法中最终会预测输出每种查询下所涉及的药物与靶标的相 关性程度; 4、本发明利用排序学习算法可以将通过多种技术手段获得的多种类型的信息集 成,实现特征算法之间的取长补短,从而提高性能; 5、本发明通过调整测试集中的样本分别测试模型在新药研发、药物重定向方面的 性能,实现一种技术的多角度应用。 附图说明 为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附 图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对 范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这 些附图获得其他相关的附图。 图1为实施例1中所述基于排序学习算法的并行式药物-靶标相关性预测的流程 图; 图2为实施例1中所述基于排序学习算法的并行式药物-靶标相关性预测所支持的 数据文件类型参考示意图; 图3为实施例1中采用PCA技术进行降维前后的示意图; 图4为排序学习算法的原理示意图; 图5为实施例1中排序学习算法计算得到的各药物-蛋白对的相关性预测结果; 图6为实施例1中排序学习算法计算输出的文件中的部分内容结果。
本发明公开了一种基于排序学习的并行式药物‑靶标相关性预测方法,属于生物信息学领域。该方法通过多种特征提取方法提取多种类型的相似度、相关性特征、化学空间特征、基因空间特征,继而由于多角度的特征提取会得到较高维数的特征集且样本无常规的正反例类标签,故用 全部
背景技术:
预测药物-蛋白质的相关性的方法技术有很多。传统的预测方法分为基于配体和 基于靶标两种类型:基于配体的方法需要靶标蛋白的已知的配体的相关性信息,并以此来 定义药效团模型来描述结合配体的共有特征,这也就表明这种类型的方法不适用于已知的 配体信息较少的情况;基于靶标的方法需要提前获得靶标的3维结构,但是部分蛋白质序列 的3维结构未知且难以获取。 传统的预测方法虽然能保证较高的准确率,但是会耗费大量的时间、金钱。现在很 多研究者将机器学习引入到相关研究中,用机器学习进行预测的方法分为基于特征和基于 相似度两种类型。机器学习的引入的确在速度方面取得了很大进步,但是无论是基于特征 的方法还是基于相似度的方法均存在一定的不足之处:基于相似性的方法一方面是仅仅依 靠单方面(药物或靶标)的相似性,二是当已知的能与靶标(或配体)起作用的配体(或靶标) 数量较少时,通过待测物与仅有的少数样本的相似性就得出是否相关的结论,这样显然不 具备足够的说服力;利用基于特征的方法时,可能由于所用算法的原因无法将药物信息、蛋 白质序列信息用数字的形式很好的表示出来。 除此之外,用机器学习预测药物-蛋白质相关性时,很多研究者只是简单的预测了 药物与蛋白质是否相关,即将研究归为二分类问题,并未对药物-蛋白质的相关性程度进行 更深一步的探究,即没有更进一步的探究哪种蛋白质(药物)与给定药物(蛋白质)相关性最 强。
技术实现要素:
本发明的目的在于:针对上述现有技术中存在的不足,提供一种基于排序学习的 并行式药物-靶标相关性预测方法。 本发明采用的技术方案如下: 一种基于排序学习的并行式药物-靶标相关性预测方法,包括: S1.获取药物的化学结构样本集和靶标的序列样本集; S2.基于所述药物的化学结构样本集和靶标的序列样本集,提取药物特征信息、靶 标特征信息和二者的关联特征信息; S3.将所述药物特征信息、靶标特征信息和二者的关联特征信息组合,然后进行降 维处理; S4.以所述降维处理得到的特征集为输入,查询与药物或靶标相关的蛋白质或配 体,采用排序学习方法进行排序,并计算相关性大小,然后按输出的值大小依次排序; S5.将所得排序顺序与真实相关性顺序作对比;将所得排序结果进行投票处理;采 4 CN 111599403 A 说 明 书 2/5 页 用不同类型测试集测试泛化能力。 本发明通过采用排序学习算法对药物与蛋白质的相关性程度进行排序,而不是简 单的将药物-蛋白质的关系归为相关或是不相关。同时,利用排序学习算法可以将通过多种 技术手段获得的多种类型的信息集成,实现特征算法之间的取长补短,从而提高性能。 进一步地,S1中靶标对象为G蛋白偶联受体,药物对象为与其相关或不相关的。 进一步地,S2中药物特征信息由2D指纹、药物描述符表示,靶标特征信息由氨基酸 的理化性质、频率分布、进化信息表示,二者的关联特征信息由k-NN、BLM-svr、NetLapRLS计 算得出。不同的算法有其各自独特的优点和不足,通过采用多种特征提取算法基于药物、靶 标、药物-靶标三个角度并行的提取其化学空间特征、基因空间特征、相似度及相关性特征, 可实现算法间的取长补短,以进一步提高技术性能。 进一步地,所述S2中在药物重定向方面通过构建异质网络,包括药物-药物、药物- 疾病、药物副作用、药物相似性相关性网络提取特征信息。 进一步地,S3中采用主成分分析法(PCA)进行降维处理。PCA可以把可能具有相关 性的高维变量合成线性无关的低维变量,去除冗余的特征信息,缩短实验周期,另外,PCA降 维适用于没有明确的正反例类标签的特征集。 进一步地,S4中,将输入文件转化为标准格式: 其中,qi表示某一查询,Fj表示样本j的所有特征, 表示相关性程度。 进一步地,S4中,对于输出的相关性数值,应关注其之间的相对大小而非精确数 值。 进一步地,S5中真实相关性由药物与靶标之间的亲和力值表示。 进一步地,亲和力值为IC50,将所述IC50取其对数负值 来直观表示药物与 靶标的相关性程度。IC50值可以用来衡量药物诱导凋亡的能力,即诱导能力越强,该数值越 低。但药物-蛋白对的IC50值会存在数值差异较大的情况,为了更直观的观察出药物-蛋白 对的相关性,需要对药物-靶标之间的亲和力值进行处理,通常使用 表示。取对数可 解决数值差异悬殊对后续实验的影响,再对对数取负值更加符合统计数据的思维逻辑,即 最终结果的数值越大,表示相关性越强。 进一步地,S5中通过NDCG值来衡量排序学习算法的性能,NDCG值越大说明性能越 好,从而能够验证本发明方法的有效性;对于前K个位置的药物-蛋白对,NDCG值的计算公式 如下: 其中,K表示只计算输出的前K个位置的查询结果,ri为第i个位置的药物-蛋白质 对预测出的相关性,R为第i个位置的药物-蛋白质对真实的相关性。 进一步地,对排序结果进行投票处理是为了观察哪些药物-蛋白对总是出现在前K 个位置,能够进一步提高模型对于未知相关性的药物-蛋白对的相关性预测能力。 5 CN 111599403 A 说 明 书 3/5 页 进一步地,S5中,通过调整不同类型的测试集中的样本分别测试在新药研发、药物 重定向方面的性能。当测试集中的蛋白质从未在训练集中出现时,可用于验证老药新用;当 测试集中的药物从未在训练集中出现时,可验证这些药物具体可在哪些蛋白质上发挥作 用。 综上所述,由于采用了上述技术方案,本发明的有益效果是: 1、本发明中基于排序学习,即通过采用排序学习算法对药物与蛋白质的相关性程 度进行排序,不仅有利于新药研发,还有利于药物的重定向; 2、本发明为并行式的预测方法,其并行性体现在两个方面:一是排序学习具备的 并行性,即可同时预测多个药物(靶标)与蛋白质(配体)的相关性;二是实验步骤和程序的 并行性,即可并行的提取包括基于药物、基于蛋白质等的特征信息; 3、本发明通过多种特征提取方法提取多种类型的相似度、相关性特征、化学空间 特征、基因空间特征,继而对数据进行降维处理,去除冗余,使得计算更高效轻便,然后将降 维后的特征集输入排序学习算法中最终会预测输出每种查询下所涉及的药物与靶标的相 关性程度; 4、本发明利用排序学习算法可以将通过多种技术手段获得的多种类型的信息集 成,实现特征算法之间的取长补短,从而提高性能; 5、本发明通过调整测试集中的样本分别测试模型在新药研发、药物重定向方面的 性能,实现一种技术的多角度应用。 附图说明 为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附 图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对 范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这 些附图获得其他相关的附图。 图1为实施例1中所述基于排序学习算法的并行式药物-靶标相关性预测的流程 图; 图2为实施例1中所述基于排序学习算法的并行式药物-靶标相关性预测所支持的 数据文件类型参考示意图; 图3为实施例1中采用PCA技术进行降维前后的示意图; 图4为排序学习算法的原理示意图; 图5为实施例1中排序学习算法计算得到的各药物-蛋白对的相关性预测结果; 图6为实施例1中排序学习算法计算输出的文件中的部分内容结果。