基于MapReduce并行的circRNA识别方法-好方法网

技术摘要：
本发明公开了一种基于MapReduce并行的circRNA识别方法，首先采用多种特征提取算法提取各序列数据的核酸组成特征、自组织相关性特征、伪核酸组成特征和结构特征，接着使用前期融合的方式将特征文件拼接到一起，形成一个完整的特征集，然后使用MRMD特征选择算法对特征集全部
背景技术：
环状RNA(circRNA)是一种新型的RNA，它不同于人类传统的线性RNA，circRNA是一种非编码RNA分子，没有5端帽，也没有3端尾，而是形成了一个环状结构。1969年Diener在研究马铃薯纺锤体块茎病时首次发现了circRNA。电子显微镜显示了这种闭环RNA的形成，也被称为类病毒。随后出现的高通量测序技术(high-sequencing techniques，RNA-seq)改善了不同物种环状RNA的测序，目前已鉴定出许多环状RNA。迄今为止，已经成功地从果蝇、蠕虫到小鼠和人类身上识别出超过10000种不同的环状RNA。环状RNA在疾病的发生发展中起着重要的作用，为药物开发提供了新的思路。准确识别环状RNA对于深入了解其功能非常重要。目前基于机器学习的蛋白质识别和位点检测的研究很多，如RF和人工神经网络。相比之下，很少有研究关注环状RNA的识别。因此，有必要研究如何利用RNA序列的特征实现对 circRNA更准确的识别。
技术实现要素：
本发明的目的是提出一种基于MapReduce并行的circRNA识别方法，利用RNA的结构特征和核苷酸的组成来表达circRNA序列的特征，实现对circRNA更准确的识别。本发明的技术方案为：基于MapReduce并行的circRNA识别方法，包括以下步骤： S1、下载circRNA序列数据文件，获取待处理的原始circRNA特征数据集。 S2、采用多种特征提取算法提取原始circRNA特征数据集的数据特征，得到多个特征文件。 S3、采用前期融合的方式对所有特征文件进行拼接，得到一个完整的特征集。 S4、采用MRMD算法对特征集进行特征选择，得到特征与实例类别具有强相关性且特征之间具有低冗余性的特征子集。 S5、采用粒子群算法优化极限学习机算法的核函数参数g和惩罚系数c，使极限学习机算法的分类性能达到最优。 S6、采用优化后的极限学习机算法，结合MapReduce并行计算对特征子集中的 circRNA进行分类训练，得到训练好的分类模型。 S7、采用训练好的分类模型构建cirRNAPL分类器，并将特征子集输入cirRNAPL分类器得到分类结果，完成对circRNA的识别。进一步地，步骤S1中获取的原始circRNA特征数据集包括正例数据集和反例数据集，正例数据集为待分类的circRNA序列文件，反例数据集为非circRNA序列文件。进一步地，步骤S1中在获取待处理的原始circRNA特征数据集之前，需要对下载的 circRNA序列数据文件进行格式判断和内容判断；格式判断的具体方法为：当读入的 5 CN 111599409 A 说　明　书 2/8 页 circRNA序列数据文件的行以字符串“>”为开头时，则取加一行的数据为序列文本数据；内容判断的具体方法为：读取的序列文本数据的内容是否由“A”、“U”、“C”或“G”四个字母组成，若有这四个字母之外的字母出现，则提示输入的文本有包括“A”、“U”、“C”和“G”之外的字母。进一步地，步骤S2中的特征提取算法包括核酸组成特征提取算法、自组织相关性特征提取算法、伪核酸组成特征提取算法以及结构特征提取算法；核酸组成特征提取算法包括k-mer提取算法、Mismatch提取算法和Subsequence提取算法；自组织相关性特征提取算法包括基于双核苷酸的自相关DAC提取算法、基于双核苷酸的交叉协方差DCC提取算法、基于双核苷酸的自相关DACC提取算法、Moran自相关MAC提取算法、Geary自相关GAC提取算法和归一化Moreau-Broto自相关NMBAC提取算法；伪核酸组成特征提取算法包括一般平行相关伪二核苷酸组合PC提取算法和一般序列相关伪二核苷酸组成SC提取算法；结构特征提取算法包括局部结构序列三重元特征Triplet提取算法、PseSSC提取算法和PseDPC提取算法。进一步地，步骤S2中采用MapReduce并行计算的方式同时执行多种特征提取算法提取原始circRNA特征数据集的数据特征，其具体方法为： A1、在MapReduce中设计Map函数和Reduce函数。 A2、通过Map函数按行读取原始circRNA特征数据集并进行划分，再转换为特定格式的文件，形式为<行号，样本>。 A3、遍历所有样本，对每个样本依次进行特征提取，输出数据，形式为<行号，特征集>。 A4、通过Reduce函数接收Map函数的输出数据，并对接收的数据进行处理，整合相同的key值对并输出到同一个文件中，即形成每个样本对应的特征文件。进一步地，步骤S4中采用MRMD算法对特征集进行特征选择的依据为max(MRi MDi)，其中MRi表示第i个circRNA实例类别与特征之间的皮尔逊系数，MDi表示第i个circRNA实例特征之间的欧式距离，其中maxMRi值的计算公式如下： maxMDi值的计算公式如下： 6 CN 111599409 A 说　明　书 3/8 页其中PCC(·)表示皮尔逊系数，Fi表示第i个circRNA实例的特征向量，Ci表示第i个 circRNA实例的类别向量，M表示circRNA实例的特征维数，SFiCi表示Fi中所有元素和Ci中所有元素的协方差，SFi表示Fi中所有元素的标准差，SCi表示Ci中所有元素的标准差，fk表示Fi 中的第k个元素，ck表示Ci中的第k个元素，N为Fi和Ci中的元素数量，为Fi中所有元素的平均值，为Ci中所有元素的平均值，EDi表示第i个circRNA实例特征之间的Euclidean距离， COSi表示第i个circRNA实例特征之间的Cosine距离，TCi表示第i个circRNA实例特征之间的 Tanimoto系数。进一步地，步骤S5包括以下分步骤： S51、初始化设置粒子群算法的最大迭代次数和粒子群整体大小分别为50和50，每个粒子都由一组核函数参数g和惩罚系数c组成。 S52、计算使用极限学习机算法对circRNA进行分类得到的分类精度，并将其作为粒子群算法的适应度值。 S53、更新总体粒子的速度和位置。 S54、判断粒子群算法是否达到最大适应度值或最大迭代次数，若是则进入步骤 S55，否则返回步骤S52。 S55、获取最大适应度值对应的最佳核函数参数g和惩罚系数c，并将其代入极限学习机算法，得到分类性能最优的极限学习机算法。进一步地，步骤S52中分类精度的计算公式为：其中ACC表示使用极限学习机算法对circRNA进行分类得到的分类精度，TP表示预测正确的circRNA数量，FP表示预测正确的非circRNA数量，TN表示预测错误的circRNA数量，FN表示预测错误的非circRNA数量。进一步地，步骤S53中更新总体粒子的速度和位置的公式为：其中pi(t)和vi(t)分别表示第i个粒子第t次迭代的位置和速度，ω为权重，c1和c2 为加速度因子，R1和R2为0到1之间的随机数，Pbest,i为第i个粒子的最优解，Gbest为针对粒子群体的最佳解决方案。进一步地，步骤S6包括以下分步骤： S61、在MapReduce中设计Map函数和Reduce函数。 7 CN 111599409 A 说　明　书 4/8 页 S62、将特征子集中的特征数据划分为10份。 S63、通过Map函数按行读取特征子集，并转换为特定格式的文件，形式为<行号，特征集>。 S64、遍历每份特征数据，将其中一份作为测试集，剩余9份作为训练集，采用优化后的极限学习机算法对其中的circRNA进行分类训练，输出数据，形式为<行号，分类结果>。 S65、通过Reduce函数接收Map函数的输出数据，并对分类效果进行评价。 S66、重复步骤S64-S65，直到每份特征数据都作为测试集进行过分类训练，得到训练好的分类模型。本发明的有益效果是： (1)本发明提出了一种全新的circRNA识别方法，利用RNA的结构特征和核苷酸的组成来表达circRNA序列的特征，能够实现对circRNA的准确识别，为相应药物开发提供了理论基础。 (2)本发明在进行特征提取和优化极限学习机算法分类时，引进了MapReduce的并行计算，有效提高了处理效率。 (3)本发明通过粒子群算法优化极限学习机算法，并基于优化后的极限学习机算法训练分类模型，进而构建cirRNAPL分类器，优化了circRNA的识别效果附图说明图1所示为本发明实施例提供的基于MapReduce并行的circRNA识别方法流程图。图2所示为本发明实施例提供的特征提取维数分布示意图。图3所示为本发明实施例提供的极限学习机参数优化效果示意图。图4所示为本发明实施例提供的不同分类方法识别效果示意图。图5所示为本发明实施例提供的与传统blast方法对比示意图。图6所示为本发明实施例提供的与现有识别算法的识别效果对比示意图。

相关推荐