logo好方法网

一种结合稀疏回归和淘汰规则的基因调控网络推断方法


技术摘要:
本发明提供一种结合稀疏回归和淘汰规则的基因调控网络推断方法,包括:读取基因表达数据;分别建立所述基因表达数据的稀疏回归模型;根据所述稀疏回归模型获取每个调控基因的权重和外部噪声,并建立所有调控基因的权重矩阵;对所述权重矩阵实施权重淘汰规则,按照所述  全部
背景技术:
随着高通量测序技术的发展,大量的基因表达数据给研究提供了可靠的基础。推 断基因调控网络的目的是从基因表达数据中得到基因与基因相互调控而组成的网络结构, 进而通过对表达水平和基因调控关系的分析,可以用于识别致病基因,从而为疾病的治疗 提供参考。尽管已经存在许多推断的方法,但由于基因间复杂的调控关系,利用基因表达数 据来推断基因调控网络依旧是一项重大的挑战。 科研人员对基因调控网络的研究进行了许多研究,但多数的方法存在两个方面的 弊端。主要体现为只能推断出基因间是否存在调控关系,无法确定是激活还是抑制的关系 并且于大规模的基因调控网络推断,计算复杂度高,运行速度慢,对于识别致病基因无法提 供精准的基因调控网络。
技术实现要素:
本发明提供一种结合稀疏回归和淘汰规则的基因调控网络推断方法,以克服上述 技术问题。 本发明提供一种结合稀疏回归和淘汰规则的基因调控网络推断方法,包括以下步 骤: S1:读取基因表达数据,并确定出所述基因表达数据中的每个基因的靶基因以及 对应控基因; S2:分别建立所述基因表达数据的稀疏回归模型; S3:根据所述稀疏回归模型获取每个调控基因的权重和外部噪声,并建立所有调 控基因的权重矩阵; S4:淘汰所述权重矩阵的部分调控基因并构建基因间的基因调控网络。 进一步地,所述S2包括:依据所述基因表达数据类型建立稀疏回归模型,所述类型 包括时间序列数据集或平稳状态数据集; 进一步地,对所述时间序列数据集构建稀疏回归模型为: 其中1≤k≤T-h, 表示为基因j在tk时刻的基因表达值, 为不包括基因j的 所有基因在tk时刻下的基因表达值,参数h为时间步长,w为权重,∈为外部噪声; 对所述平稳状态数据集构建稀疏回归模型为: 3 CN 111583990 A 说 明 书 2/6 页 其中1≤m≤M,x mj 表示为基因j在第m个环境条件下的基因表达值,x m-j 为不包括基 因j的所有基因在第m个环境条件下的基因表达值,w为权重,∈为外部噪声。 进一步地,所述S2包括:将所述基因表达数据分为训练数据集和测试数据集; 对所述训练数据集建立稀疏回归模型;将所述权重和外部噪声带入对所述测试数 据集建立的稀疏回归模型,并基于所述权重和外部噪声确定出指标评价数据。 进一步地,所述淘汰规则包括:阈值规则(Threshold  rule)、双向规则(Symmetric  rule)和链式规则(Chain  rule);以阈值规则、双向规则和链式规则的顺序依次对所述权重 矩阵中的权重对应的调控基因进行淘汰; 本发明不仅可以快速地推断出基因调控网络,而且可以确定出具体的基因间的调 控关系。通过结合先进的机器学习算法和优化规则,进而构造出更加准确且高效的基因调 控网络。 附图说明 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本发 明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以 根据这些附图获得其他的附图。 图1为本发明为本发明的整体流程图; 图2为对基因表达数据建立稀疏回归模型并得到权重矩阵的流程图, 图3为本发明权重淘汰规则的应用过程; 图4为本发明实施例中对经过稀疏化的权重矩阵绘制的基因调控网络。
下载此资料需消耗2积分,
分享到:
收藏