logo好方法网

一种模型非依赖的基因组结构变异检测系统及方法

技术摘要:
本发明提供一种模型非依赖的基因组结构变异检测系统及方法,以模型非依赖结构变异检测理论为核心,通过变异信号提取模块、频繁最大子图挖掘模块和分类模块,实现了不依靠任何变异模型的结构变异检测。频繁变异模式挖掘模块正是抓住了结构变异遗留在基因组上的特征,仅  全部
背景技术:
世界上,没有两个人具有完全相同的基因组序列。即使是同卵双胞胎的基因组在 发育分化过程中也会出现遗传物质上的后天差异。对大多数疾病来说,人们是否患病往往 与自身携带的疾病易感基因变异相关。因此,了解个体基因组变异有助于人们掌握患病的 风险,是实现精准医疗的关键。近年来,基因组测序技术迅猛发展,世界各国越来越多的科 研机构、医院、疾病诊断服务公司对全球多种族人群、多种常见肿瘤和遗传疾病开展基于大 样本的基因测序,目的在于揭示肿瘤等疾病的致病机理,改进复杂疾病的治疗法案,最终达 到对病人的精准诊断和精准治疗。例如英美主导的千人基因组计划,从全球26个种族,共 2535样本中收集民族特异性的基因组变异。美国于2005年启动肿瘤基因组路线图计划(The  Cancer  Genome  Atlas),绘制30多种常见肿瘤的基因组变异图谱。英国于2010年启动 UK10K,即英国万人基因组计划,研究在英国的各种族携带的基因组变异,并延伸探索变异 与疾病、变异与药物治疗的相关性。 基因组变异主要以三种形式存在,分别是单碱基变异(SNP),短的插入缺失 (INDEL)和结构变异(SV)。相较于其余两种变异形式,结构变异是较大尺度的变异,例如大 片段缺失、插入,反转,易位等。虽然结构变异在人类基因组上相比较SNP和INDEL出现频率 较低,但越来越多的研究表明基因组结构变异跟很多遗传病、肿瘤等的发生有着密切的关 系,比如由基因组易位引起的融合基因导致了白血病的发生。随着我国人口老龄化问题加 剧,癌症的发病率越来越高,当前市场上的检测多是针对已知靶标的定向检测,然而临床上 仍存在大量未知原因引起的疾病,因此随着二代测序数据价格的不断下跌,全基因组检测 将会成为临床诊断的另一趋势。目前对于全基因组结构变异检测的主要步骤包含:(1)建立 基因组结构变异的模型;(2)推断该模型在测序数据比对结果中可能反应出的特征;(3)根 据推断的变异信号特征鉴别结构变异。基于以上检测思路开发的工具,例如Pindel、 CNVnator、GenomeSTRiP等方法在欧洲基因组研究所(EBI)、梅奥诊所(Mayo  Clinic)、圣地 亚哥儿童医院等国际顶尖科研医疗机构和Seven  Bridge等公司都有着广泛的应用。 上述“先建模、后计算”的架构,在基因组数据分析方法学开发的起始阶段有助于 迅速建立模型,理解变异信号的基本模式,在实际运用中推动了生物医学的发展。但是,由 于不同的解决方案依赖的变异信号特征不同造成了这一些方案对不同大小范围、不同变异 类型,变异的检测灵敏度和错误率千差万别,例如图1和图2所示,对于删除的不同变异信号 模式。另一方面,随着简单变异类型的攻克以及越来越多的研究表明基因组复杂结构变异 (图3)在疾病中的重要性,例如2015年《Nature》上首次全面介绍了基因组复杂结构变异以 及2017年《Genome  Biology》对689个Autism病人的研究,该研究发现了16种不同的复杂变 异类型并深入分析了它们在疾病形成过程的作用,因此仅仅依靠建模的方法来设计检测系 4 CN 111583996 A 说 明 书 2/9 页 统已经无法满足未来检测的需求。 为了解决上述问题,大多数工具都采用打补丁的方式,也就是将新的变异类型的 模型加入到原有工具当中。这其中最典型的就是针对第三代测速数据的检测算法 Sniffles,该算法通过添加额外模型来检测两种复杂结构变异类型。然而测序技术发展至 今,研究人员对基因组结构变异的了解仍是冰山一角,这种通过打补丁的方式检测结构变 异的方法治标不治本。更重要的是,这种基于建模思路开发的工具由于要针对每种变异类 型编写特定的代码,因此此类工具代码尤其复杂并且可读性差,这也直接导致了计算效率 低和维护困难,例如被梅奥诊所(Mayo  clinic)、七桥公司(Seven  Bridge)等使用的Pindel 检测工具,使用多核对一个30X全基因组测序的样本进行检测仍需要20小时以上。 综上所述,尽管经过近10年的发展,科研人员利用基因组测序数据检测简单类型 变异,并将该信息运用到研究人类进化、种群迁移和融合、疾病的机理和治疗方案中,极大 的推动了生物医学的发展。然而这种“先建模,后计算”的变异检测方法设计理论已经无法 满足未来科研、医院和基因检测服务提供商对变异检测的需求。
技术实现要素:
针对现有技术中存在的问题,本发明提供一种模型非依赖的基因组结构变异检测 系统及方法,实现了不依靠任何变异模型的基因组结构变异检测。 本发明是通过以下技术方案来实现: 一种模型非依赖的基因组结构变异检测系统,包括: 比对模块,用于将测序数据与参考基因组进行比对,确定测序数据在参考基因组 上的坐标并得到比对结果; 变异信号提取模块,用于从比对结果中提取构建变异信号图所需的节点以及建立 节点之间的连接关系,以构建变异信号图; 频繁最大子图挖掘模块,用于采用加入距离约束和超项目数值属性约束的频繁最 大子图挖掘算法,在变异信号图中挖掘与频繁变异模式对应的频繁最大子图,并根据频繁 最大子图中的节点自带属性的特点判断与该频繁最大子图对应的结构变异在基因组上的 具体位置。 优选的,变异信号提取模块包括: 提取过滤模块,用于根据比对结果,通过一遍I/O,过滤掉噪音信号,提取出变异信 号; 变异信号图构建模块,用于将潜在变异断点附近的同一种类型的变异信号整合在 一起构成变异信号图中的节点,每个节点的信息包括所在参考基因组位置、变异信号强度、 等位基因频率和比对方向,按照预先设置的变异信号强度和等位基因频率的阈值过滤噪声 节点;过滤后的节点按照其在参考基因组上出现的位置保存在变异特征映射数据库中,同 时建立节点的连接关系,得到变异信号图。 优选的,频繁最大子图挖掘模块包括: 挖掘模块,采用加入距离约束和超项目数值属性约束的频繁最大子图挖掘算法, 找到变异信号图中包含n个节点的频繁子图及其在参考基因组位点上的变异特征映射数据 库,此时n=1;在变异特征映射数据库中当前记录的下游D范围以内或满足读段连接关系的 5 CN 111583996 A 说 明 书 3/9 页 节点中,查找不同于当前记录的节点且节点的数值属性高于预设阈值,使用模式增长法构 造包含n 1个节点的子图,将n 1更新为n并相应的更新变异特征映射数据库;重复模式增长 法,直到构造的变异特征映射数据库小于预设阈值,得到变异信号图中的所有频繁最大子 图; 变异位置确定模块,用于通过频繁最大子图中的不同类型节点的连接关系、裂解 读段坐标和部分比对坐标来确定该频繁最大子图对应的结构变异在基因组中的位置。 进一步的,D设置为3倍的测序文库片段的标准差加测序文库片段平均值。 进一步的,变异位置确定模块使用较差匹配原则辅助判断结构变异在基因组中的 位置。 一种模型非依赖的基因组结构变异检测方法,包括如下步骤: 步骤1,将测序数据与参考基因组进行比对,确定测序数据在参考基因组上的坐标 并得到比对结果; 步骤2,从步骤1的比对结果中提取变异信号并将变异信号聚类合并生成变异信号 图的节点,然后根据节点的构成元素建立节点之间的连接关系,构建得到变异信号图; 步骤3,采用加入距离约束和超项目数值属性约束的频繁最大子图挖掘算法,在变 异信号图中挖掘与频繁变异模式对应的频繁最大子图,并判断频繁最大子图对应的结构变 异在基因组中的位置。 优选的,步骤2具体包括: 1)提取变异信号:根据步骤1的比对结果,通过一遍I/O,过滤掉噪音信号,提取出 变异信号; 2)将潜在变异断点附近的同一种类型的变异信号整合在一起,生成信号图中的节 点,每个节点的信息包括所在参考基因组位置、变异信号强度、等位基因频率和比对方向, 按照预先设置的变异信号强度和等位基因频率的阈值过滤噪声节点;过滤后的节点按照其 在参考基因组上出现的位置保存在变异特征映射数据库中,同时建立节点的连接关系,得 到变异信号图。 优选的,步骤3中,在变异信号图中挖掘与频繁变异模式对应的频繁最大子图具体 是采用加入距离约束和超项目数值属性约束的PrefixSpan算法进行: 1)找到变异信号图中包含n个节点的频繁子图及其在参考基因组位点上的变异特 征映射数据库,该步骤中,n=1; 2)在变异特征映射数据库中当前记录的下游D范围以内或满足读段连接关系的节 点中,查找不同于当前记录的节点且节点的数值属性高于预设阈值,使用模式增长法构造 包含n 1个节点的频繁子图,将n 1更新为n并相应的更新变异特征映射数据库; 3)重复步骤2),直到构造的变异特征映射数据库小于预设阈值,从而得到变异信 号图中的所有频繁最大子图。 优选的,步骤3中,采用频繁最大子图挖掘算法进行多样本同时挖掘。 优选的,步骤3中,判断频繁最大子图对应的结构变异在基因组中的位置是根据频 繁最大子图中的不同类型节点的连接关系、裂解读段坐标和部分比对坐标,使用较差匹配 原则辅助判断精确变异断点位置,其具体过程为:基于模式增长的字符串模糊匹配算法,变 异断点一侧匹配到基因组上的序列记为M,另一侧未比对上的序列记为S,默认容错为2的交 6 CN 111583996 A 说 明 书 4/9 页 叉匹配正链最长序列记为L,负链记为K;当L>K>=20%*max(length(M) ,length(S))时,得 到正链最佳匹配,反之如果K>L>=20%*max(length(M) ,length(S))时认为是负链最佳匹 配。 与现有技术相比,本发明具有以下有益的技术效果: 本发明的模型非依赖的基因组结构变异检测系统以模型非依赖结构变异检测理 论为核心,通过变异信号提取模块、频繁最大子图挖掘模块,实现了不依靠任何变异模型的 结构变异检测。频繁最大子图挖掘模块正是抓住了结构变异遗留在基因组上的特征,仅仅 通过挖掘大量正常数据中的异常点来判断潜在结构变异区域;其次,根据不同变异类型扰 动基因组的方式不同,进而导致变异信号子图的构成不同。本发明不依靠任何变异模型,因 此变异的检测灵敏度和错误率大大降低,并且适用于复杂变异类型的检测,不需要建立额 外的结构变异模型。本发明所涉及的基因组结构变异检测系统是实现精准诊断的核心技 术,同时抓住新一代测序技术所带来的精准医疗发展的重大机遇,勇于挑战最前沿的科学 问题,创建变异检测新理论。本发明面向国家重大需求,研究国家战略性新兴产业“精准医 疗”中的核心问题,有利于我国在基因组变异检测这一战略必争领域中,打破重大关键核心 技术受制于人的局面,更有利于开辟新的“精准医疗”相关产业发展方向,培育新的经济增 长点。 本发明首次提出模型非依赖的检测理论和根据该理论设计检测算法,通过变异信 号提取、频繁最大子图挖掘,实现了不依靠任何变异模型的结构变异检测,同时通过舍弃变 异模型的方式大大降低了算法实现的复杂度,简化了程序设计。本发明创新的使用频繁最 大子图挖掘算法并结合实际问题进行了优化,进而完成对结构变异的检测;由于频繁最大 子图挖掘算法具有很好的线性时间复杂度,轻量级的算法提升了结构变异的效率,30X的全 基因组检测只需要30分钟,其中90%以上的检测时间用于原始比对文件的I/O读取,这一点 使其可以满足临床快速检测的需求,并且该理论可以针对不同测序平台,包括并不限于第 二代和第三代测序技术。其中关键点在于如何结合不同测序技术特点提取变异信号。 进一步的,频繁最大子图挖掘算法基于PrefixSpan算法,通过加入基因组距离和 测序数据比对特征读段对和裂解读段产生的连接关系约束模式增长,达到在基因组上发现 连续的变异信号富集区域。频繁最大子图挖掘不限于使用基于PrefixSpan的算法,其它模 式挖掘算法同样适用。这里使用基于PrefixSpan的算法是根据其良好的时间和空间复杂 度。 进一步的,频繁最大子图挖掘算法可以扩展到多样本同时检测,在多样本模式下, 变异特征映射数据库的每一条序列对应每个样本提取的变异信号特征,通过对多样本变异 特征数据库挖掘得到结果。采取多样本联合检测的优势在于,由于基因组自身的重复性和 测序过程中的错误,数据点可能比对到基因组错误区间,导致假变异信号。然而,由于相同 变异类型在基因组上有多个实例,且样本间具有局部相似性,相同变异模式会在样本间、样 本内超长维度上频繁出现。因此,在高噪声、大量关键信号缺失并存情况下,基于横向多位 点、纵向多样本的变异模式相似性特征,提高变异模式挖掘的灵敏度和准确率进而满足临 床的需求。由于算法良好的时间和空间复杂度,多样本联合检测的复杂度成线性增长模式。 7 CN 111583996 A 说 明 书 5/9 页 附图说明 图1为删除变异异常信号;a、b中深色条带装部分表示删除变异在基因组上留下的 变异信号,两个实例中均包含明显的裂解读段和部分比对,其中b还包含较强异常读段对信 号 图2为大于1000bp删除变异异常信号;a、b分别表示两种较大删除变异及其对应信 号。其中a、b都包含明显异常比对读段对,但是a中的裂解比对和部分比对信号要更强。 图3为复杂结构变异异常信号; 图4为本发明模型非依赖结构变异检测理论关键步骤; 图5为针对第二代双端测序数据的模型非依赖结构变异检测算法流程; 图6为针对虚拟复杂结构变异检测的性能比较。
下载此资料需消耗2积分,
分享到:
收藏