logo好方法网

基于MapReduce并行的circRNA识别方法


技术摘要:
本发明公开了一种基于MapReduce并行的circRNA识别方法,首先采用多种特征提取算法提取各序列数据的核酸组成特征、自组织相关性特征、伪核酸组成特征和结构特征,接着使用前期融合的方式将特征文件拼接到一起,形成一个完整的特征集,然后使用MRMD特征选择算法对特征集  全部
背景技术:
环状RNA(circRNA)是一种新型的RNA,它不同于人类传统的线性RNA,circRNA是一 种非编码RNA分子,没有5端帽,也没有3端尾,而是形成了一个环状结构。1969年Diener在研 究马铃薯纺锤体块茎病时首次发现了circRNA。电子显微镜显示了这种闭环RNA的形成,也 被称为类病毒。随后出现的高通量测序技术(high-sequencing  techniques,RNA-seq)改善 了不同物种环状RNA的测序,目前已鉴定出许多环状RNA。迄今为止,已经成功地从果蝇、蠕 虫到小鼠和人类身上识别出超过10000种不同的环状RNA。环状RNA在疾病的发生发展中起 着重要的作用,为药物开发提供了新的思路。准确识别环状RNA对于深入了解其功能非常重 要。目前基于机器学习的蛋白质识别和位点检测的研究很多,如RF和人工神经网络。相比之 下,很少有研究关注环状RNA的识别。因此,有必要研究如何利用RNA序列的特征实现对 circRNA更准确的识别。
技术实现要素:
本发明的目的是提出一种基于MapReduce并行的circRNA识别方法,利用RNA的结 构特征和核苷酸的组成来表达circRNA序列的特征,实现对circRNA更准确的识别。 本发明的技术方案为:基于MapReduce并行的circRNA识别方法,包括以下步骤: S1、下载circRNA序列数据文件,获取待处理的原始circRNA特征数据集。 S2、采用多种特征提取算法提取原始circRNA特征数据集的数据特征,得到多个特 征文件。 S3、采用前期融合的方式对所有特征文件进行拼接,得到一个完整的特征集。 S4、采用MRMD算法对特征集进行特征选择,得到特征与实例类别具有强相关性且 特征之间具有低冗余性的特征子集。 S5、采用粒子群算法优化极限学习机算法的核函数参数g和惩罚系数c,使极限学 习机算法的分类性能达到最优。 S6、采用优化后的极限学习机算法,结合MapReduce并行计算对特征子集中的 circRNA进行分类训练,得到训练好的分类模型。 S7、采用训练好的分类模型构建cirRNAPL分类器,并将特征子集输入cirRNAPL分 类器得到分类结果,完成对circRNA的识别。 进一步地,步骤S1中获取的原始circRNA特征数据集包括正例数据集和反例数据 集,正例数据集为待分类的circRNA序列文件,反例数据集为非circRNA序列文件。 进一步地,步骤S1中在获取待处理的原始circRNA特征数据集之前,需要对下载的 circRNA序列数据文件进行格式判断和内容判断;格式判断的具体方法为:当读入的 5 CN 111599409 A 说 明 书 2/8 页 circRNA序列数据文件的行以字符串“>”为开头时,则取加一行的数据为序列文本数据;内 容判断的具体方法为:读取的序列文本数据的内容是否由“A”、“U”、“C”或“G”四个字母组 成,若有这四个字母之外的字母出现,则提示输入的文本有包括“A”、“U”、“C”和“G”之外的 字母。 进一步地,步骤S2中的特征提取算法包括核酸组成特征提取算法、自组织相关性 特征提取算法、伪核酸组成特征提取算法以及结构特征提取算法;核酸组成特征提取算法 包括k-mer提取算法、Mismatch提取算法和Subsequence提取算法;自组织相关性特征提取 算法包括基于双核苷酸的自相关DAC提取算法、基于双核苷酸的交叉协方差DCC提取算法、 基于双核苷酸的自相关DACC提取算法、Moran自相关MAC提取算法、Geary自相关GAC提取算 法和归一化Moreau-Broto自相关NMBAC提取算法;伪核酸组成特征提取算法包括一般平行 相关伪二核苷酸组合PC提取算法和一般序列相关伪二核苷酸组成SC提取算法;结构特征提 取算法包括局部结构序列三重元特征Triplet提取算法、PseSSC提取算法和PseDPC提取算 法。 进一步地,步骤S2中采用MapReduce并行计算的方式同时执行多种特征提取算法 提取原始circRNA特征数据集的数据特征,其具体方法为: A1、在MapReduce中设计Map函数和Reduce函数。 A2、通过Map函数按行读取原始circRNA特征数据集并进行划分,再转换为特定格 式的文件,形式为<行号,样本>。 A3、遍历所有样本,对每个样本依次进行特征提取,输出数据,形式 为<行号,特征集>。 A4、通过Reduce函数接收Map函数的输出数据,并对接收的数据进行 处理,整合相同的key值对并输出到同一个文件中,即形成每个样本对应的特征文件。 进一步地,步骤S4中采用MRMD算法对特征集进行特征选择的依据为max(MRi MDi), 其中MRi表示第i个circRNA实例类别与特征之间的皮尔逊系数,MDi表示第i个circRNA实例 特征之间的欧式距离,其中maxMRi值的计算公式如下: maxMDi值的计算公式如下: 6 CN 111599409 A 说 明 书 3/8 页 其中PCC(·)表示皮尔逊系数,Fi表示第i个circRNA实例的特征向量,Ci表示第i个 circRNA实例的类别向量,M表示circRNA实例的特征维数,SFiCi表示Fi中所有元素和Ci中所 有元素的协方差,SFi表示Fi中所有元素的标准差,SCi表示Ci中所有元素的标准差,fk表示Fi 中的第k个元素,ck表示Ci中的第k个元素,N为Fi和Ci中的元素数量, 为Fi中所有元素的平 均值, 为Ci中所有元素的平均值,EDi表示第i个circRNA实例特征之间的Euclidean距离, COSi表示第i个circRNA实例特征之间的Cosine距离,TCi表示第i个circRNA实例特征之间的 Tanimoto系数。 进一步地,步骤S5包括以下分步骤: S51、初始化设置粒子群算法的最大迭代次数和粒子群整体大小分别为50和50,每 个粒子都由一组核函数参数g和惩罚系数c组成。 S52、计算使用极限学习机算法对circRNA进行分类得到的分类精度,并将其作为 粒子群算法的适应度值。 S53、更新总体粒子的速度和位置。 S54、判断粒子群算法是否达到最大适应度值或最大迭代次数,若是则进入步骤 S55,否则返回步骤S52。 S55、获取最大适应度值对应的最佳核函数参数g和惩罚系数c,并将其代入极限学 习机算法,得到分类性能最优的极限学习机算法。 进一步地,步骤S52中分类精度的计算公式为: 其中ACC表示使用极限学习机算法对circRNA进行分类得到的分类精度,TP表示预 测正确的circRNA数量,FP表示预测正确的非circRNA数量,TN表示预测错误的circRNA数 量,FN表示预测错误的非circRNA数量。 进一步地,步骤S53中更新总体粒子的速度和位置的公式为: 其中pi(t)和vi(t)分别表示第i个粒子第t次迭代的位置和速度,ω为权重,c1和c2 为加速度因子,R1和R2为0到1之间的随机数,Pbest,i为第i个粒子的最优解,Gbest为针对粒子 群体的最佳解决方案。 进一步地,步骤S6包括以下分步骤: S61、在MapReduce中设计Map函数和Reduce函数。 7 CN 111599409 A 说 明 书 4/8 页 S62、将特征子集中的特征数据划分为10份。 S63、通过Map函数按行读取特征子集,并转换为特定格式的文件,形 式为<行号,特征集>。 S64、遍历每份特征数据,将其中一份作为测试集,剩余9份作为训练集,采用优化 后的极限学习机算法对其中的circRNA进行分类训练,输出数据,形式为<行 号,分类结果>。 S65、通过Reduce函数接收Map函数的输出数据,并对分类效果进行 评价。 S66、重复步骤S64-S65,直到每份特征数据都作为测试集进行过分类训练,得到训 练好的分类模型。 本发明的有益效果是: (1)本发明提出了一种全新的circRNA识别方法,利用RNA的结构特征和核苷酸的 组成来表达circRNA序列的特征,能够实现对circRNA的准确识别,为相应药物开发提供了 理论基础。 (2)本发明在进行特征提取和优化极限学习机算法分类时,引进了MapReduce的并 行计算,有效提高了处理效率。 (3)本发明通过粒子群算法优化极限学习机算法,并基于优化后的极限学习机算 法训练分类模型,进而构建cirRNAPL分类器,优化了circRNA的识别效果 附图说明 图1所示为本发明实施例提供的基于MapReduce并行的circRNA识别方法流程图。 图2所示为本发明实施例提供的特征提取维数分布示意图。 图3所示为本发明实施例提供的极限学习机参数优化效果示意图。 图4所示为本发明实施例提供的不同分类方法识别效果示意图。 图5所示为本发明实施例提供的与传统blast方法对比示意图。 图6所示为本发明实施例提供的与现有识别算法的识别效果对比示意图。
分享到:
收藏