
技术摘要:
本发明公开了一种基于MapReduce并行的circRNA识别方法,首先采用多种特征提取算法提取各序列数据的核酸组成特征、自组织相关性特征、伪核酸组成特征和结构特征,接着使用前期融合的方式将特征文件拼接到一起,形成一个完整的特征集,然后使用MRMD特征选择算法对特征集 全部
背景技术:
环状RNA(circRNA)是一种新型的RNA,它不同于人类传统的线性RNA,circRNA是一 种非编码RNA分子,没有5端帽,也没有3端尾,而是形成了一个环状结构。1969年Diener在研 究马铃薯纺锤体块茎病时首次发现了circRNA。电子显微镜显示了这种闭环RNA的形成,也 被称为类病毒。随后出现的高通量测序技术(high-sequencing techniques,RNA-seq)改善 了不同物种环状RNA的测序,目前已鉴定出许多环状RNA。迄今为止,已经成功地从果蝇、蠕 虫到小鼠和人类身上识别出超过10000种不同的环状RNA。环状RNA在疾病的发生发展中起 着重要的作用,为药物开发提供了新的思路。准确识别环状RNA对于深入了解其功能非常重 要。目前基于机器学习的蛋白质识别和位点检测的研究很多,如RF和人工神经网络。相比之 下,很少有研究关注环状RNA的识别。因此,有必要研究如何利用RNA序列的特征实现对 circRNA更准确的识别。
技术实现要素:
本发明的目的是提出一种基于MapReduce并行的circRNA识别方法,利用RNA的结 构特征和核苷酸的组成来表达circRNA序列的特征,实现对circRNA更准确的识别。 本发明的技术方案为:基于MapReduce并行的circRNA识别方法,包括以下步骤: S1、下载circRNA序列数据文件,获取待处理的原始circRNA特征数据集。 S2、采用多种特征提取算法提取原始circRNA特征数据集的数据特征,得到多个特 征文件。 S3、采用前期融合的方式对所有特征文件进行拼接,得到一个完整的特征集。 S4、采用MRMD算法对特征集进行特征选择,得到特征与实例类别具有强相关性且 特征之间具有低冗余性的特征子集。 S5、采用粒子群算法优化极限学习机算法的核函数参数g和惩罚系数c,使极限学 习机算法的分类性能达到最优。 S6、采用优化后的极限学习机算法,结合MapReduce并行计算对特征子集中的 circRNA进行分类训练,得到训练好的分类模型。 S7、采用训练好的分类模型构建cirRNAPL分类器,并将特征子集输入cirRNAPL分 类器得到分类结果,完成对circRNA的识别。 进一步地,步骤S1中获取的原始circRNA特征数据集包括正例数据集和反例数据 集,正例数据集为待分类的circRNA序列文件,反例数据集为非circRNA序列文件。 进一步地,步骤S1中在获取待处理的原始circRNA特征数据集之前,需要对下载的 circRNA序列数据文件进行格式判断和内容判断;格式判断的具体方法为:当读入的 5 CN 111599409 A 说 明 书 2/8 页 circRNA序列数据文件的行以字符串“>”为开头时,则取加一行的数据为序列文本数据;内 容判断的具体方法为:读取的序列文本数据的内容是否由“A”、“U”、“C”或“G”四个字母组 成,若有这四个字母之外的字母出现,则提示输入的文本有包括“A”、“U”、“C”和“G”之外的 字母。 进一步地,步骤S2中的特征提取算法包括核酸组成特征提取算法、自组织相关性 特征提取算法、伪核酸组成特征提取算法以及结构特征提取算法;核酸组成特征提取算法 包括k-mer提取算法、Mismatch提取算法和Subsequence提取算法;自组织相关性特征提取 算法包括基于双核苷酸的自相关DAC提取算法、基于双核苷酸的交叉协方差DCC提取算法、 基于双核苷酸的自相关DACC提取算法、Moran自相关MAC提取算法、Geary自相关GAC提取算 法和归一化Moreau-Broto自相关NMBAC提取算法;伪核酸组成特征提取算法包括一般平行 相关伪二核苷酸组合PC提取算法和一般序列相关伪二核苷酸组成SC提取算法;结构特征提 取算法包括局部结构序列三重元特征Triplet提取算法、PseSSC提取算法和PseDPC提取算 法。 进一步地,步骤S2中采用MapReduce并行计算的方式同时执行多种特征提取算法 提取原始circRNA特征数据集的数据特征,其具体方法为: A1、在MapReduce中设计Map函数和Reduce函数。 A2、通过Map函数按行读取原始circRNA特征数据集并进行划分,再转换为特定格 式的文件