logo好方法网

基于基因及信号通路的蛛网膜下腔出血预测模型建立方法及系统


技术摘要:
本发明提供了一种基于基因及细胞信号通路的蛛网膜下腔出血预测模型建立方法及系统,该方法包括:获取正常脑细胞组1和SAH脑细胞基因芯片数据,并进行预处理;对正常脑细胞组1和SAH脑细胞基因芯片数据进行差异表达分析及信号通路分析;获取正常脑细胞组2和SAH脑细胞进行L  全部
背景技术:
蛛网膜下腔出血是指脑底部或表面的血管发生病变破裂,血液流入蛛网膜下腔, 伴或不伴颅内或椎管内其他部位出血。 而在针对SAH的相关研究中,如何寻找能够预测或筛选蛛网膜下腔出血的有效靶 点,也是目前的一个重要研究方向。例如,NiW等人发现IL-6可作为预测SAH后脑血管痉挛的 早期标志物;Zhang等人证明IL-6和CRP等参与了SAH 的发生和发展过程;Chu等人的研究表 明HGF、VEGF参与了SAH后大鼠脑组织的病理损伤和修复;Wang等人发现下调MMP9和Caspase 可对SAH后脑损伤提供神经保护作用。大多数过往研究主要还是借助临床医学、生物学实验 来完成的,但其研究成果并未有效降低SAH的病死率和致残率。而在现有技术中,针对蛛网 膜下腔出血靶点模型建立的方法的相关研究始终不多,而通过大量的临床研究和总结则对 于靶点的研究效果并不理想,致使在该领域中的研究缺乏有效的、精准的研究辅助工具。因 此,如何有效建立起一套精准的蛛网膜下腔出血的模型,从而能够更加便利地、高效地针对 蛛网膜下腔出血进行相关的研究,从而便于更精准寻找后续靶点等,依然是一个重大的挑 战,具有很重要的科学和现实意义。 以下对本发明所涉及到的技术词汇/技术术语注释如下: 1、蛛网膜下腔出血(Subarachnoid  Hemorrhage,SAH) 2、稀疏主成分分析(sparse  principal  component  analysis,SPCA) 3、支持向量机(support  vector  machine,SVM) 4、经验贝叶斯(empirical  Bayes,e-Bayes)
技术实现要素:
有鉴于此,本发明在总结前人的研究基础上,提出建立一个基于基因表达的模型 来筛选或寻找蛛网膜下腔出血靶点,通过两组实验获得的差异表达基因数据及通路数据。 结合稀疏主成分分析、显著分析性差异、经验贝叶斯及支持向量机递归特征消除法对差异 基因数据进行降维,获得特征基因,并使用逻辑回归、SVM和Naive-Bayes对降维后的数据进 行模拟比对,计算预测模型的准确度。 具体而言,本发明所提出的技术方案如下:提供了一种基于基因及信号通路的蛛 网膜下腔出血预测模型建立方法,其特征在于,所述方法包括: 步骤1、获取正常脑细胞组1和SAH脑细胞基因芯片数据,并进行预处理;优选的,所 述预处理步骤为:获取正常脑细胞组1和SAH脑细胞样本(≥1g),采用经典试剂盒快速提取 法进行RNA提取、质控及文库构建,样品需求量:RNA  ≥10μg;样品浓度:RNA样品≥100ng/μ 5 CN 111584085 A 说 明 书 2/8 页 l;纯度要求:OD260/OD280在1.8-  2.2之间,OD260/OD230≥2,28S/18S≥1,样品RIN≥7.0, RNA无明显降解; 步骤2、对所述正常脑细胞组1和SAH脑细胞基因芯片数据进行差异表达分析及信 号通路分析;优选的,对所述正常脑细胞组1和SAH脑细胞进行上机测序  (Illumina  NovaSeq测序系统,型号NovaSeq  6000),获得RNA-Seq数据,并进行差异表达分析及信号通 路分析; 步骤3、获取正常脑细胞组2和SAH脑细胞进行LCN2干预后,不同条件下RNA-Seq数 据,并进行预处理,形成LCN2数据; 步骤4、对LCN2数据进行差异表达分析及信号通路分析; 步骤5、对步骤2及步骤4中经过差异表达分析获得的差异表达基因数据,使用稀疏 主成分分析、显著分析性差异、经验贝叶斯及支持向量机递归特征消除进行特征选择,得到 特征基因数据; 步骤6、对所述特征基因数据分成测试样本和训练样本,基于所述训练样本对多个 分类器进行训练,得到训练后分类器;集成训练后分类器,建立预测模型。 优选的,所述步骤2进一步包括,筛选差异表达基因,并基于所述差异表达基因对 信号通路进行显著性判断,所述显著性判断通过以下方式进行: N表示芯片样本上提取的基因的总数目,n表示pathway中包含的基因总数目,Nf表 示差异表达基因的数目,nf则表示差异表达基因落在pathway的数目;精确检验的原假设为 H0:p1=p2,备选假设为H1:p1≠p2,其中p1表示差异表达基因落在pathway中的概率,p2表示非 差异表达基因不落在pathway中的概率。 优选的,所述步骤4进一步包括筛选差异表达基因,所述筛选差异表达基因通过 DESeq2方法实现;并基于所述差异表达基因对信号通路进行显著性判断,所述显著性判断 通过以下方式进行: N表示芯片样本上提取的基因的总数目,n表示pathway中包含的基因总数目,Nf表 示差异表达基因的数目,nf则表示差异表达基因落在pathway的数目;精确检验的原假设为 H0:p1=p2,备选假设为H1:p1≠p2,其中p1表示差异表达基因落在pathway中的概率,p2表示非 差异表达基因不落在pathway中的概率。 优选的,所述步骤4中,所述不同条件下RNA-Seq数据,包括设置不同时间下的组别 的RNA-Seq数据。 优选的,所述步骤5进一步包括: 6 CN 111584085 A 说 明 书 3/8 页 步骤501、基于步骤4的结果,形成SAH表达矩阵,针对SAH表达矩阵进行特征选择, 并对特征属性排序,选取前A位并进行显著性检验,检验方式如下: 其中yi和yj代表探针xi和xj的分类标签,K(xi,xj)是核函数,i,j=1,2,...,n;α是 通过训练SVM分类器获得的;DJ(i)是排序函数;H为表达矩阵; 对筛选结果求交集,提取探针的基因ID,确定最终基因; 步骤502、确定所述最终基因在LCN2数据中对应的表达数据,并对该些表达数据进 行显著性检验;取不同条件下的组别的交集,获得结果基因; 步骤503、对所述结果基因进行主成分分析,获得特征基因数据。 优选的,所述步骤6进一步包括: 步骤601、基于所述特征基因数据,建立逻辑回归分类器; 步骤602、基于所述特征基因数据,建立支持向量机分类器; 步骤603、基于所述特征基因数据,建立朴素贝叶斯分类器; 步骤604、对所述逻辑回归分类器、支持向量机分类器、朴素贝叶斯分类器进行集 成,并使用灵敏性、特效性、精度和准确率衡量分类器集成后的模型效果。 同时,还提供了一种基于基因及信号通路的蛛网膜下腔出血预测模型系统,其特 征在于,所述系统包括: 数据获取模块,用于获取正常脑细胞组1和SAH脑细胞基因芯片数据,并进行预处 理,通过基因测序机对所述正常脑细胞组1和SAH脑细胞数据进行上机测序,获得RNA-Seq数 据;以及获取正常脑细胞组2和SAH脑细胞进行LCN2  干预后,并进行预处理,形成LCN2数据; 差异表达分析模块,用于对所述正常脑细胞组1和SAH脑细胞基因芯片数据进行差 异表达分析及信号通路分析;以及对LCN2数据进行差异表达分析及信号通路分析; 特征基因数据模块,用于对经过差异表达分析获得的差异表达基因数据,使用稀 疏主成分分析、显著分析性差异、经验贝叶斯及支持向量机递归特征消除进行特征选择,得 到特征基因数据; 集成分类器模块,包含建立起的预测模型,所述预测模型基于由所述特征基因数 据获得的训练样本进行训练并集成的多个分类器构成;以及用于基于输入数据进行预测计 算。 优选的,筛选差异表达基因,并基于所述差异表达基因对信号通路进行显著性判 断,所述显著性判断通过以下方式进行: N表示芯片样本上提取的基因的总数目,n表示pathway中包含的基因总数目,Nf表 示差异表达基因的数目,nf则表示差异表达基因落在pathway的数目;精确检验的原假设为 H0:p1=p2,备选假设为H1:p1≠p2,其中p1表示差异表达基因落在pathway中的概率,p2表示非 7 CN 111584085 A 说 明 书 4/8 页 差异表达基因不落在pathway中的概率,PF表示Fisher精确检验的P值。Ph表示超几何分布 值,X代表超几何分布的变量,x用于计数。 优选的,所述特征基因数据的获取,通过以下方式: 形成SAH表达矩阵,针对SAH表达矩阵进行特征选择,并对特征属性排序,选取前A 位并进行显著性检验,检验方式如下: 其中yi和yj代表探针xi和xj的分类标签,K(xi,xj)是核函数,i,j=1,2,...,n;α是 通过训练SVM分类器获得的;DJ(i)是排序函数;H为表达矩阵; 对筛选结果求交集,提取探针的基因ID,确定最终基因; 再确定所述最终基因在LCN2数据中对应的表达数据,并对该些表达数据进行显著 性检验;取不同条件下的组别的交集,获得结果基因; 最后对所述结果基因进行主成分分析,获得特征基因数据。 优选的,所述多个分类器包括逻辑回归分类器、支持向量机分类器、朴素贝叶斯分 类器。 与现有技术相比,本发明技术方案具有以下的有益效果: (1)我们进行了SAH干预实验以及LCN2干预实验,明确得到细胞内基因表达及控制 LCN2靶点对模型的影响。获得10组SAH干预实验样本,25组LCN2  干预样本,均准确有效也有 利于未来进一步分析。 (2)对干预实验进行差异基因分析以及通路分析,该预测模型具有很好的鲁棒性 和可靠性。 (3)我们采用集成学习的方法,将各个分类模型进行结合,开发出一个更为准确有 效的预测模型。 附图说明 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以 根据这些附图获得其它的附图。 图1为本发明实施例的方法流程图; 图2为本发明实施例的特征基因筛选流程图; 图3为本发明实施例的集成模型建立流程图; 图4为本发明实施例的模型分类效果对比图。
下载此资料需消耗2积分,
分享到:
收藏