logo好方法网

基于机器学习的原发性肝癌术后复发风险预测方法及系统


技术摘要:
本发明属于医学数据处理技术领域,公开了一种基于机器学习的原发性肝癌术后复发风险预测方法及系统,对数据集进行过滤,并计算各属性与患者复发情况的相关系数,进行特征选择,得到影响原发性肝癌术后复发的关键因素,构建基于机器学习的原发性肝癌术后复发风险数据处  全部
背景技术:
目前,原发性肝癌是目前世界上常见的恶性疾病之一,与其他肿瘤一样,手术切除 应该是原发性肝癌患者的首选,与大多数恶性肿瘤不同,原发性肝癌患者的术后复发率较 高且术后患者5年生存率很低。针对这种现状,探寻预后影响因素、制定个性化治疗措施是 目前世界医学界的重大攻关课题之一。但由于患者数据中各影响因素对原发性肝癌术后复 发预测的相关性较低,传统的数据处理模型对此类问题的评估准确度不高。 通过上述分析,现有技术存在的问题及缺陷为:传统的数据处理模型对原发性肝 癌术后复发的评估准确度不高。 解决以上问题及缺陷的难度为:数据是非线性的,并且存在较多的缺失值;各影响 因素对原发性肝癌术后复发预测的相关性较低。 解决以上问题及缺陷的意义为:可以显著提升原发性肝癌术后复发风险预测的准 确度,以对患者采取对应的治疗措施。
技术实现要素:
针对现有技术存在的问题,本发明提供了一种基于机器学习的原发性肝癌术后复 发风险预测方法及系统。 本发明是这样实现的,一种基于机器学习的原发性肝癌术后复发风险预测方法, 包括: 步骤一,过滤去除原发性肝癌患者病例数据集中的异常值以及不相关数据,并计 算各属性与患者复发情况的Pearson相关系数,进行特征选择,得到影响原发性肝癌术后复 发的关键因素,构建基于机器学习的原发性肝癌术后复发风险数据处理模型; 步骤二,采用经过特征选择后得到的特征数据以及原始病例数据中的原发性肝癌 术后复发情况数据组成样本数据,将样本数据按比例分成训练数据和测试数据,采用KNN方 法利用训练数据上对基于机器学习的原发性肝癌术后复发风险数据处理模型进行训练并 调整模型参数; 步骤三,利用测试数据对基于机器学习的原发性肝癌术后复发风险数据处理模型 进行测试,并对数据处理结果进行评价,确定所述对基于机器学习的原发性肝癌术后复发 风险数据处理模型的准确度; 步骤四,利用构建得到的基于机器学习的原发性肝癌术后复发风险数据处理模型 进行原发性肝癌术后复发风险数据处理。 进一步,步骤一中,所述Pearson相关系数计算方法公式为: 4 CN 111554402 A 说 明 书 2/8 页 进一步,步骤二中,所述特征数据包括肿瘤大小、分化分级、是否有门脉癌栓、PLT、 AFP、异常凝血酶、AST、WBC、和HBsAg共9个属性。 进一步,所述步骤二包括: 训练数据与测试数据的比例为8:2,采用KNN方法的k值为7,距离的度量方法为欧 几里得距离; 所述利用KNN方法进行训练并进行参数调整包括以下步骤: (1)根据给定的距离度量,在训练集中找出与x最邻近的k个点,涵盖这k个点的x的 邻域记作Nk(x); (2)在Nk(x)中根据分类决策规则决定x的类别y: 其中I为指示函数,即当时I为1,否则I为0。 进一步,步骤三中,所述利用测试数据对基于机器学习的原发性肝癌术后复发风 险数据处理模型进行测试,并对数据处理结果进行评价,确定所述对基于机器学习的原发 性肝癌术后复发风险数据处理模型的准确度包括: 1)采用训练后的KNN预测方法利用测试数据对基于机器学习的原发性肝癌术后复 发风险数据处理模型进行测试,并计算其TPR、TNR、FNR、FPR、精确率、准确率、拟合率作为评 价指标; 2)以同样的方式训练并计算由朴素贝叶斯、决策树、Logistic回归、深度神经网络 及其他机器学习预测方法得到的数据,并与步骤1)得到的测试结果进行比较,确定所述对 基于机器学习的原发性肝癌术后复发风险数据处理模型的准确度。 本发明的另一目的在于提供一种实施所述基于机器学习的原发性肝癌术后复发 风险预测方法的基于机器学习的基于机器学习的原发性肝癌术后复发风险预测系统,所述 基于机器学习的术后复发风险数据处理系统包括: 数据预处理模块,用于过滤去除原发性肝癌患者病例数据集中的异常值以及不相 关数据,并计算各属性与患者复发情况的Pearson相关系数,进行特征选择,得到影响原发 性肝癌术后复发的关键因素; 数据划分模块,用于将经过特征选择后得到的特征数据以及原始病例数据中的原 发性肝癌术后复发情况数据组成样本数据,将样本数据按比例分成训练数据和测试数据; 模型构建模块,用于基于得到的关键因素进行原发性肝癌术后复发风险数据处理 模型的构建; 模型训练以及参数调整模块,用于采用KNN方法利用训练数据上对基于机器学习 的原发性肝癌术后复发风险数据处理模型进行训练并调整模型参数; 模型评价模块,用于利用测试数据对对基于机器学习的原发性肝癌术后复发风险 数据处理模型进行测试,并对数据处理结果进行评价,确定所述对基于机器学习的原发性 肝癌术后复发风险数据处理模型的准确度; 5 CN 111554402 A 说 明 书 3/8 页 数据处理模块,用于利用构建得到的基于机器学习的原发性肝癌术后复发风险数 据处理模型进行原发性肝癌术后复发风险数据处理。 本发明的另一目的在于提供一种接收用户输入程序存储介质,所存储的计算机程 序使电子设备执行所述基于机器学习的原发性肝癌术后复发风险预测方法。 本发明的另一目的在于提供一种存储在计算机可读介质上的计算机程序产品,包 括计算机可读程序,供于电子装置上执行时,提供用户输入接口以实施所述基于机器学习 的原发性肝癌术后复发风险预测方法。 本发明的另一目的在于提供一种执行所述基于机器学习的原发性肝癌术后复发 风险预测方法的计算机。 结合上述的所有技术方案,本发明所具备的优点及积极效果为:本发明采用基于 KNN的原发性肝癌术后复发风险数据处理方法,能达到相比于其他处理方法更好的预测效 果。 本发明基于机器学习的原发性肝癌术后复发风险预测方法,通过计算每一属性与 患者复发情况数据的Pearson系数,可以筛选出对原发性肝癌术后复发情况影响较大的属 性,采用基于KNN的原发性肝癌术后复发风险预测方法,能达到相比于其他预测方法更好的 预测效果。 附图说明 图1是本发明实施例提供的基于机器学习的原发性肝癌术后复发风险预测方法流 程图。 图2是本发明实施例提供的基于机器学习的原发性肝癌术后复发风险预测方法原 理图。 图3是本发明实施例提供的模型评价方法流程图。 图4是本发明实施例提供的基于机器学习的基于机器学习的原发性肝癌术后复发 风险预测系统结构示意图。 图中:1、数据预处理模块;2、数据划分模块;3、模型构建模块;4、模型训练以及参 数调整模块;5、模型评价模块;6、数据处理模块。
下载此资料需消耗2积分,
分享到:
收藏