技术摘要:
一种基于AI技术AAV不同治疗方案预后预测模型的方法,包括如下步骤:S1,搜集已有的ANCA相关性肾炎患者采用不同治疗方案治疗后的肾存活预后情况数据;S2,采用Cox回归分析方法与XGBoost机器学习算法构建治疗方案集中每种治疗方案的预后预测模型,采用ANCA相关性肾炎患者 全部
背景技术:
ANCA相关性肾炎(简称AAV)主要就是由ANCA相关性血管炎引起的肾脏疾病,相关 表现为低热、乏力、关节痛等等,有关肾脏病理的体现为蛋白尿、血尿、浮肿,严重者可有高 血压和肾衰竭等,有关肺部的病理表现为咳痰咳血,严重呼吸道感染等,因为ANCA相关性血 管炎是一种系统性自身免疫性疾病,可累及全身多个器官,肾脏为首。 如果ANCA相关性肾炎不能得到及时有效的治疗,预后较差,死亡率较同龄健康人 群增加2倍,平均存活时间仅为6个月。医生对ANCA相关性肾炎患者选择不同治疗方案后肾 存活情况存在差异,而不同的治疗方案将导致不同的治疗预后,也会导致肾存活率不同,而 治疗方案导致的肾存活情况对于患者来说是无法逆转的,因此对治疗方案进行有效的评估 是非常必要的,而目前还没有一个有效模型能够根据患者入院时的临床特征预测不同治疗 方案的肾存活预后情况。
技术实现要素:
为了解决上述技术问题,本发明提出一种基于AI的ANCA相关性肾炎不同治疗方案 预后预测模型的方法,其原理包括如下步骤: S1,搜集已有的ANCA相关性肾炎患者采用不同治疗方案治疗后的肾存活预后情况数 据,不同治疗方案治疗后的肾存活预后情况数据包括不同治疗方案、医学特征数据、以及肾 存活预后情况,肾存活预后情况包括肾存活和肾不存活两种情况。该肾存活预后情况数据 作为测试数据和训练数据。 所述不同治疗方案来自搜集的ANCA相关性肾炎患者肾存活预后情况数据,该数据 中包括了不同治疗方案,人工将搜集到的不同的治疗方案进行分组,归纳总结出治疗方案 集。 S2,采用Cox回归分析方法与XGBoost机器学习算法构建治疗方案集中每种治疗方 案的预后预测模型,采用ANCA相关性肾炎患者采用不同治疗方案治疗后的肾存活预后情况 数据对构建的每种治疗方案的预后预测模型进行训练,得到能够判断每种治疗方案的肾存 活预后情况的有效预后预测的优质Cox回归模型和优质XGBoost模型。 S3,将待评价患者医学特征数据分别输入治疗方案集中每种治疗方案的优质Cox 回归模型和优质XGBoost模型, 有效预后预测的优质Cox回归模型给出治疗方案集中每种治疗方案的肾存活概率,有 效预后预测的优质XGBoost模型给出治疗方案集中每种治疗方案肾存活与否的一个参考 值。 6 CN 111584087 A 说 明 书 2/15 页 S4,最终,医生根据上述治疗方案集中每一种治疗方案的肾存活概率和治疗方案 集中每一种治疗方案肾存活与否的参考值,根据预后风险的高低,选择合适的治疗方案。由 此,达到了引导医生采用预后风险最低的ACNC相关性肾炎治疗方案的目的。 进一步的,步骤S1包括如下步骤: 搜集随访数据;该步骤包括: S11 按照纳入标准和排除标准搜集并随访记录相关患者医学数据, 其中: A、纳入标准: 符合Chapel Hill的ANCA相关性血管炎诊断标准;有肾脏受累; B、排除标准: 排除并发其他导致肾功能异常的疾病如重症肝炎、肿瘤等;排除合并其他自身免疫性 疾病,如系统性红斑狼疮、干燥综合征、类风湿性关节炎、桥本甲状腺炎、溃疡性结肠炎等; 排除肾脏先天发育不良;排除由感染、药物等因素导致的继发性血管炎;排除不能配合或放 弃治疗、不能提供完整临床资料的患者; 根据以上的纳入标准和排除标准,搜集相关患者,并记录其诊断时间及入院时的基本 信息、血检、尿检、病理临床数据,并随访其进展情况;随访期间记录其治疗方案、是否出现 终末期肾病(ESRD,eGFR<15或维持肾脏替代治疗3个月以上)、感染等并发症、尿毒症、死亡 及其相应的时间;直到患者出现终末期肾病(ESRD,eGFR<15或维持肾脏替代治疗3个月以 上)、死亡终末期肾病或死亡就不再对该患者随访;将终末期肾病(ESRD,eGFR<15或维持肾 脏替代治疗3个月以上)、感染等并发症、尿毒症、死亡定义为终点事件; 最终得到符合要求的ANCA相关性肾炎患者的样本数据;所述样本数据包含各患者的医 学特征数据,以及肾存活情况,所述肾存活情况为样本数据的真实结果情况。所述样本数据 包括不同治疗方案、医学特征数据、以及肾存活预后情况,肾存活预后情况包括肾存活和肾 不存活两种情况。 所述患者的医学特征数据是指基本信息、血检、尿检、病理数据;医学特征数据分 为数值型和非数值型医学特征数据; S12 数据清洗和标准化预处理 对样本数据的清洗和标准化处理依据建立的医学实体标准库与规定的单位换算,有些 患者的检验项目名称说法不一, 对于样本数据中的单位进行统一单位换算;找出样本数据中不同的单位名称,采用统 一单位对各不同的单位名称进行统一替换; 对样本数据中非数值型数据进行赋值换算;制定非数值型数据转换规则,对样本数据 中非数值型数据按照转换规则进行赋值换算; 对样本数据中数值型数据进行异常值处理;对每一个医学特征数据进行异常值处理, 异常值处理的步骤包括, 如果样本数据中数值型医学特征数据服从正态分布,样本数据中的数据距离其平均值 大于3倍标准差之外的数据为异常数据,将该异常数据所对应的样本数据剔除;如果样本数 据中数值型医学特征不服从正态分布,则由人工定义数据距离其平均值的倍数,标准差之 外的数据为异常数据,将该异常数据所对应的样本数据剔除; 所述平均值是指医学特征数据所在列的平均值; 7 CN 111584087 A 说 明 书 3/15 页 得到标准化样本数据; S13 选取重要医学特征的步骤 选取ANCA相关性肾炎重要医学特征采用统计学方法进行选取,所述统计学方法如下: 针对数值型医学特征数据,如果样本数据中数值型医学特征数据服从正态分布,采用 统计学上的T检验方法;如果样本数据中数值型医学特征数据不服从正态分布,采用统计学 上的两组间秩和检验,对于没有统计学意义的医学特征进行数据删除; 针对非数值型医学特征数据,采用统计学上的卡方检验或者Mann-Whitney U秩和检 验,对于没有统计学意义的医学特征进行数据删除; 正态分布、T检验方法、卡方检验或者Mann-Whitney U秩和检验均是统计学方法,是一 种现有技术,本发明仅是采用了该方法,并未对上述统计学方法进行创新,对于正态分布、T 检验方法、卡方检验或者Mann-Whitney U秩和检验在此不再累述; 最终,得到ANCA相关性肾炎的重要医学特征数据; S14 将步骤S13中得到的ANCA相关性肾炎的重要医学特征数据进行拆分,按照比例拆 分成训练数据和测试数据。 S2,采用Cox回归分析方法与XGBoost机器学习算法构建治疗方案集中每种治疗方 案的预后预测模型,采用ANCA相关性肾炎患者采用不同治疗方案治疗后的肾存活预后情况 数据对构建的每种治疗方案的预后预测模型进行训练,得到能够判断每种治疗方案的肾存 活预后情况的有效预后预测模型。 进一步的,步骤S2包括如下步骤: S21采用Cox回归分析方法与XGBoost机器学习算法构建治疗方案集中每种治疗方案的 预后预测模型; 具体的说是将训练数据分别输入治疗方案集中每种治疗方案的Cox回归构建预后预测 模型和XGboost预后预测模型; ANCA相关性肾炎预后预测模型包括Cox回归构建预后预测模型和XGboost预后预测模 型;Cox回归构建预后预测模型和XGboost预后预测模型并列; Cox回归模型是统计学领域目前能够进行风险预测的模型;Cox回归模型由测试数据、 Cox回归分析方法、训练过程得出,Cox回归分析方法是Spss软件中自带的一个功能模块,该 功能模块属于现有技术,本发明只是调用了该功能模块,并未对该模块进行创新,对于Cox 回归分析方法的原理、运算属于本领域技术人员能够获知的内容,在此不再累述; XGboost是AI领域预测评估较好的模型,是Python软件中自带的一个功能模块,该功能 模块属于现有技术,本发明只是调用了该功能模块,并未对该模块进行创新,对于XGboost 模型的原理、运算属于本领域技术人员能够获知的内容,在此不再累述; S22将训练数据置入ANCA相关性肾炎预后预测模型,对ANCA相关性肾炎不同治疗方案 进行预后预测评估,得到有效的待评估模型。 因为本发明ANCA相关性肾炎预后预测模型包括Cox回归预后预测模型和XGboost 预后预测模型;Cox回归预后预测模型和XGboost预后预测模型并列;下面,针对Cox回归预 后预测模型和XGboost预后预测模型进行逐一说明: (1)针对Cox回归预后预测模型 以治疗方案集中一种治疗方案为例: 8 CN 111584087 A 说 明 书 4/15 页 Cox回归预后预测模型包括动态协变量和Cox回归计算方法, 本步骤的核心是得到包括Cox优质协变量和优质Cox回归计算方法的Cox回归预后预测 模型。 将训练数据采用Cox回归方法进行建模,人工不停的调整协变量和Cox回归计算方 法,每次调整协变量和Cox回归计算方法后得到待评估模型,将测试数据代入待评估模型, 通过ROC曲线下的面积即AUC值大小判断待评估模型的优劣,保存Cox优质模型。该Cox优质 模型所对应的协变量为Cox优质协变量,该Cox优质模型所对应的Cox回归计算方法为优质 Cox回归计算方法。 得到优质Cox协变量和优质Cox回归计算方法步骤举例如下: 首次训练,将训练数据采用Cox回归方法在SPSS软件中进行建模。该训练数据包括全部 的医学特征数据,将训练数据全部作为协变量,在SPSS软件中分别选择其中一个Cox回归方 法,进行建模,得到待评估的Cox回归模型C1。 所述Cox回归方法包括“输入”、”向前:有条件的”、 ”向前:LR”、 ”向前:wald”、 ” 向后:有条件的”、 ”向后:LR”、 ” 向后:wald”7种。该7种Cox回归方法为现有SPSS软件自带 的功能,本发明仅是调用了该功能,并未对该7种Cox回归方法进行改进,针对该7种Cox回归 方法,本发明在此不在累述。 SPSS软件具有自动筛选协变量的功能。现有SPSS软件针对”向前:有条件的”、 ”向 前:LR”、 ”向前:wald”、 ”向后:有条件的”、 ”向后:LR”、 ” 向后:wald”6种Cox回归方法具 有自动筛选协变量的功能。该功能是现有SPSS软件自带的功能,本发明只是运用了该功能, 并未对该功能进行改进,在此不再累述。 将测试数据代入待评估的Cox回归模型C1中,计算得到预测结果,该预测结果为肾 存活的概率,将预测结果与测试数据的真实结果进行比对,测试数据的真实结果为样本数 据中肾存活与否。 根据肾存活概率和测试数据的真实结果,采用SPSS软件画出ROC曲线图,同时得到 ROC曲线下的面积即AUC值; 如果AUC值大于某个值,例如0.75,则认为待评估的Cox回归模型C1可靠;保存该待评估 的Cox回归模型。该待评估的Cox回归模型包括一个待评估的协变量和一个待评估的Cox回 归方法。 该待评估的Cox回归方法为7种Cox回归方法中的一个。该待评估的协变量为部分 或全部医学特征,具体的说,是Cox回归模型根据Cox回归方法运算出来的部分或全部医学 特征。该Cox回归方法是SPSS软件中自带的功能,属于现有技术,针对Cox回归方法本发明在 此不再累述。 如果AUC值小于或等于某个值,例如0.75,则认为待评估的Cox回归模型不符合标 准,则放弃该待评估的Cox回归模型C1,则重新构建待评估的Cox回归模型C2,重新构建待评 估的Cox回归模型C2的步骤包括: 二次训练。在训练数据中随机则取部分医学特征,得到二次训练数据,所述二次训练数 据包括部分医学特征。将二次训练数据采用Cox回归方法在SPSS软件中进行建模。该二次训 练数据包括部分医学特征数据,将二次训练数据全部作为协变量,在SPSS软件中分别选择 其中一个Cox回归方法,进行建模,得到待评估的Cox回归模型C2。 9 CN 111584087 A 说 明 书 5/15 页 二次训练与首次训练方法和原理相同,不同点在于:两者选择训练数据不同,具体 的说是两者选择的医学特征数据中的医学特征的多少不同。首次训练选择的是全部的医学 特征,二次训练选择的是随机选择的部分医学特征。 同理,以此类推,建立Cox回归模型C3、C4、C5 ……CN 。 直至AUC值大于或等于某个理想值,如0.9,训练结束。 保存的Cox模型中,AUC值最大的为Cox优质模型。该Cox优质模型所对应的协变量 为Cox优质协变量,该Cox优质模型所对应的Cox回归计算方法为优质Cox回归计算方法。 由此,得到了优质的Cox回归模型CX。该优质的Cox回归模型CX包括优质的协变量和 优质的Cox回归方法。 同理,针对治疗方案集中其他治疗方案采用上述方法进行处理,最终得到治疗方 案集中每一种治疗方案的优质Cox回归模型。该优质的Cox回归模型包括优质的协变量和优 质的Cox回归方法。 投入使用时,将待评估的医学特征代入到治疗方案集中每一种治疗方案下的优质 的Cox回归模型CX,得到治疗方案集中每一种治疗方案的不同肾存活概率,例如肾存活概率 为0-1之间的值。将肾存活概率分成低概率、中概率和高概率,例如存活概率0-0.30为低概 率,0.31-0.70为中概率,0.71-1.0为高概率。 (2)针对XGboost预后预测模型 以治疗方案集中一种治疗方案为例: 所述XGBoost预后预测模型包括XGBoost决策树,以及XGBoost决策树之间的关系;所述 XGBoost决策树包括多个结点。结点为医学特征及阈值;所述XGBoost决策树之间的关系为 梯度下降优化算法,后一棵决策树由前一棵树决策树按照梯度下降优化算法得到。 本步骤的核心是得到包括优质的XGBoost 决策树、结点中的医学特征、阈值,以及 XGBoost 决策树之间关系的优质XGBoost预后预测模型。该优质XGBoost预后预测模型对训 练数据肾存活与否进行预测,其预测的肾存活与否结果必须要与训练数据中真实的肾存活 与否的结果相一致。 具体如下: 将训练数据采用XGBoost算法进行建模,建成XGBoost模型,该XGBoost预后预测模型根 据训练数据中肾存活与否,自动调整 XGBoost 决策树、结点中的医学特征、阈值,以及 XGBoost 决策树之间的关系,最终使得ANCA相关性肾炎肾存活预测结果与训练数据中真实 的肾存活与否的结果相一致。 形象一点说,XGBoost 决策树、结点中的医学特征、阈值,以及 XGBoost 决策树之 间关系相当于一张“参数表”,XGBoost根据训练数据中真实的肾存活与否的结果,反推,动 态的调整这张“参数表”,直至调到“参数表”中的参数,结合XGBoost的算法,计算出来的肾 存活与否的结果与训练数据中真实的肾存活结果相一致。我们就认为得到了优质的 XGBoost预后预测模型。所述优质的XGBoost预后预测模型包括优质的“参数表”,所述优质 的“参数表”包括优质的XGBoost 决策树、优质的结点中的医学特征、优质的阈值,以及优质 的 XGBoost 决策树之间的关系。 XGBoost是一种分类方法,XGBoost能够对特征数据采用自带的分类方法进行计 算,给出一个类别参考值。 10 CN 111584087 A 说 明 书 6/15 页 XGBoost是现有Python软件中自带的一个功能包,本发明仅是调用了该功能包,并 未对该功能包进行改进,对于XGBoost如何根据训练数据自动调整 XGBoost 决策树、结点 中的医学特征、阈值,XGBoost 决策树之间的关系、XGBoost算法,属于现有技术,本发明不 再累述。 本发明将医学特征数据输入XGBoost,XGBoost给出一个类别参考值,即肾存活 “与”“否”的参考值。 同理,针对治疗方案集中其他治疗方案采用上述方法进行处理,最终得到治疗方 案集中每一种治疗方案的优质的XGBoost预后预测模型。优质XGBoost预后预测模型包括优 质的“参数表”,该“参数表”包括优质的XGBoost 决策树、结点中的医学特征、阈值,以及 XGBoost 决策树之间关系。 投入使用时,将待评估的医学特征代入到治疗方案集中每一种治疗方案下的优质 的XGBoost预后预测模型,得到治疗方案集中每一种治疗方案的不同肾存活参考值。 最终,医生根据上述治疗方案集中每一种治疗方案的肾存活概率和治疗方案集中 每一种治疗方案肾存活与否的参考值,根据预后风险的高低,选择合适的治疗方案。由此, 达到了引导医生采用预后风险最低的ACNC相关性肾炎治疗方案的目的。 附图说明 图1为本发明Cox回归方法进行建模的流程示意图; 图2为本发明采用XGBoost算法进行建模的流程示意图。