logo好方法网

一种病历集优化方法、装置、设备及存储介质


技术摘要:
本申请提供了一种病历集优化方法、装置、设备及存储介质,方法包括:采用多种不同的病历修正方式,分别对目标病历集中存在不合理诊断的病历进行修正,获得多个修正后病历集;获取目标病历集对应的疾病知识图谱和多个修正后病历集分别对应的疾病知识图谱,疾病知识图谱  全部
背景技术:
近几年,随着电子病历的快速推广,海量病历的积累已经成为现实。一般来说,门 诊处理较多是常见疾病,确诊难度相对不大,并且电子病历通常都有辅助诊断、病历检查等 类似功能来协助医生,因此,具有不合理诊断的病历相对而言较少。 然而,在病历的数据量较大时,难免会存在少数具有不合理诊断的病历,少数具有 不合理诊断的病历可能源于手误、专业判断失误等一系列偶然因素,这少量具有不合理诊 断的病历混杂在大量具有合理诊断的病历里,削弱了病历集的可靠性,可能给后续分析、挖 掘带来一定困难。因此,如何对包含大量病历的病历集进行优化,以对病历集中少量存在不 合理诊断的病历进行修正是目前亟需解决的问题。
技术实现要素:
有鉴于此,本申请提供了一种病历集优化方法、装置、设备及存储介质用以对病历 集进行优化,以对病历集中少量存在不合理诊断的病历进行修正,进而提升病历集的质量 和可靠性,其技术方案如下: 一种病历集优化方法,包括: 采用多种不同的病历修正方式,分别对目标病历集中存在不合理诊断的病历进行 修正,获得多个修正后病历集; 获取所述目标病历集对应的疾病知识图谱以及所述多个修正后病历集分别对应 的疾病知识图谱,其中,所述疾病知识图谱包括若干个节点和节点之间的边,每个节点代表 对应病历集中各病历的诊断结果中的一种疾病,两个节点之间的边代表对应的两种疾病之 间的关系; 根据所述目标病历集对应的疾病知识图谱以及所述多个修正后病历集分别对应 的疾病知识图谱,从所述多个修正后病历集中确定最优病历集,作为所述目标病历集对应 的优化后病历集。 可选的,获取一病历集对应的疾病知识图谱,包括: 从该病历集中各病历的诊断结果中提取疾病名,以得到由提取的疾病名组成的疾 病集合; 根据所述疾病集合,从预先构建的疾病知识图谱中获取该病历集对应的疾病知识 图谱,其中,所述预先构建的疾病知识图谱包括分别代表各种疾病的若干节点和节点之间 的边。 可选的,所述根据所述目标病历集对应的疾病知识图谱以及所述多个修正后病历 集分别对应的疾病知识图谱,从所述多个修正后病历集中确定最优病历集,包括: 7 CN 111599483 A 说 明 书 2/22 页 对于每个修正后病历集,根据所述目标病历集所包含病历中的症状词、该修正后 病历集所包含病历中的症状词以及所述目标病历和该修正后病历集分别对应的疾病知识 图谱,确定该修正后病历集对应的修正效果表征值,以得到所述多个修正后病历集分别对 应的修正效果表征值; 将所述多个修正后病历集分别对应的修正效果表征值中,最大的修正效果表征值 对应的修正后病历集,确定为最优病历集。 可选的,所述根据所述目标病历集所包含病历中的症状词、该修正后病历集所包 含病历中的症状词以及所述目标病历集和该修正后病历集分别对应的疾病知识图谱,确定 该修正后病历集对应的修正效果表征值,包括: 以疾病和其对应的症状是否匹配为依据,根据所述目标病历集所包含病历中的症 状词,确定所述目标病历集对应的疾病知识图谱的质量得分,作为所述目标病历集的质量 表征值; 以疾病和其对应的症状是否匹配为依据,根据该修正后病历集所包含病历中的症 状词,确定该修正后病历集对应的疾病知识图谱的质量得分,作为该修正后病历集的质量 表征值; 根据所述目标病历集的质量表征值、该修正后病历集的质量表征值以及该修正后 病历集中修正病历的数量,确定该修正后病历集对应的修正效果表征值。 可选的,以疾病和其对应的症状是否匹配为依据,根据一病历集所包含病历中的 症状词,确定该病历集对应的疾病知识图谱的质量得分,包括: 从该病历集中的各病历中提取症状词,由提取的症状词组成症状词总集; 根据所述症状词总集,确定该病历集对应的疾病知识图谱中每种疾病的症状分布 向量,其中,一种疾病的症状分布向量由该疾病分别与所述症状词总集中各症状词在该病 历集所包含病历中的共现情况表征值组成; 以疾病和其对应的症状是否匹配为依据,根据该病历集对应的疾病知识图谱中每 种疾病的症状分布向量,确定该病历集对应的疾病知识图谱的质量得分。 可选的,所述两种疾病之间的关系为上下位关系、演化关系、鉴别关系中的一种; 所述根据该病历集对应的疾病知识图谱中每种疾病的症状分布向量,确定该病历 集对应的疾病知识图谱的质量得分,包括: 根据该病历集对应的疾病知识图谱中代表上下位关系的边,以及代表上下位关系 的边所连接疾病的症状分布向量,确定该病历集对应的疾病知识图谱在上下位关系上的质 量得分; 根据该病历集对应的疾病知识图谱中代表演化关系的边,以及代表演化关系的边 所连接疾病的症状分布向量,确定该病历集对应的疾病知识图谱在演化关系上的质量得 分; 根据该病历集对应的疾病知识图谱中代表鉴别关系的边,以及代表鉴别关系的边 所连接疾病的症状分布向量,确定该病历集对应的疾病知识图谱在鉴别关系上的质量得 分; 根据该病历集对应的疾病知识图谱中每个疾病的症状分布向量,确定该病历集对 应的疾病知识图谱在疾病的症状个数上的质量得分; 8 CN 111599483 A 说 明 书 3/22 页 根据该病历集对应的疾病知识图谱分别在上下位关系、演化关系、鉴别关系以及 疾病的症状个数上的质量得分,确定该病历集对应的疾病知识图谱的质量得分。 可选的,所述根据该病历集对应的疾病知识图谱中代表上下位关系的边,以及代 表上下位关系的边所连接疾病的症状分布向量,确定该病历集对应的疾病知识图谱在上下 位关系上的质量得分,包括: 将该病历集对应的疾病知识图谱中代表上下位关系的边作为第一边: 针对每条第一边连接的每种疾病,根据该疾病的状态分布向量和所述症状词总集 确定该疾病对应的症状词集; 以每条第一边连接的两种疾病中,下位疾病对应的症状词集是否为上位疾病对应 的症状词集的子集为依据,确定该病历集对应的疾病知识图谱在上下位关系上的质量得 分。 可选的,所述根据该病历集对应的疾病知识图谱中代表演化关系的边,以及代表 演化关系的边所连接疾病的症状分布向量,确定该病历集对应的疾病知识图谱在演化关系 上的质量得分,包括: 将该病历集对应的疾病知识图谱中代表演化关系的边作为第二边: 针对每条第二边连接的每种疾病,根据该疾病的状态分布向量和所述症状词总集 确定该疾病对应的症状词集; 获取每条第二边连接的两种疾病分别对应的症状词集的交集,以得到每条第二边 连接的两种疾病的共有症状词集; 根据每条第二边连接的两种疾病的共有症状词集,确定每条第二边连接的两种疾 病在二者共有症状上的症状严重程度变化一致性表征值; 根据每条第二边连接的两种疾病在二者共有症状上的症状严重程度变化一致性 表征值,确定该病历集对应的疾病知识图谱在演化关系上的质量得分。 可选的,所述根据该病历集对应的疾病知识图谱中代表鉴别关系的边以及代表鉴 别关系的边所连接疾病的症状分布向量,确定该病历集在鉴别关系上的质量表征值,包括: 将该病历集对应的疾病知识图谱中代表鉴别关系的边作为第三边: 根据每条第三标连接的两种疾病的症状分布向量,确定每条第三边连接的两种疾 病的症状分布差异表征值; 根据每条第三边连接的两种疾病的症状分布差异表征值,确定该病历集对应的疾 病知识图谱在鉴别关系上的质量得分。 可选的,所述根据该病历集对应的疾病知识图谱中每个疾病的症状分布向量,确 定该病历集对应的疾病知识图谱在疾病的症状个数上的质量得分,包括: 根据该病历集对应的疾病知识图谱中每种疾病的症状分布向量,分别确定所述症 状词总集中不属于该病历集对应的疾病知识图谱中每种疾病的症状词的个数: 根据所述症状词总集中不属于该病历集对应的疾病知识图谱中每种疾病的症状 词的个数,确定该病历集对应的疾病知识图谱在疾病的症状个数上的质量得分。 可选的,所述病历集优化方法还包括: 从所述最优病历集中获取病程集合,其中,所述病程集合中的一个病程由一患者 一次发病的所有病历组成,一个病程中的所有病历按就诊时间先后排序; 9 CN 111599483 A 说 明 书 4/22 页 以病历在其所在的病程中是否合理为依据,从所述病程集合中的病程中确定不合 理病历,并对确定出的不合理病历进行修正。 可选的,所述以病历在其所在的病程中是否合理为依据,从所述病程集合中的病 程中确定不合理病历,并对确定出的不合理病历进行修正,包括: 对于所述病程集合中的每个病程,若该病程中病历的诊断结果包括一种主要疾病 和至少一种次要疾病,且所述主要疾病和所述次要疾病满足三个条件,则将该病程中诊断 结果为所述次要疾病的病历确定不合理病历,并将该不合理病历的诊断结果修正为所述主 要疾病: 其中,所述三个条件包括:诊断结果为所述主要疾病的病历的数量占比大于预设 的主要诊断占比阈值;所述次要疾病与所述主要疾病存在上下位关系、演化关系、鉴别关系 中的一种关系;诊断结果为同一种次要疾病的病历连续。 可选的,所述以病历在其所在的病程中是否合理为依据,从所述病程集合中的病 程中确定不合理病历,并对确定出的不合理病历进行修正,包括: 从所述病程集合中选取目标病程,由选取的目标病程组成目标病程集合,其中,所 述目标病程中前一部分病历的诊断结果为第一种疾病,后一部分病历的诊断结果为第二种 疾病,且所述第二种疾病由所述第一种疾病演化而来; 若所述目标病程集合中病程的数量大于预设的数量阈值,则根据所述目标病程集 合中每个病程的第一种疾病的时间跨度和时间跨度占比,确定所述目标病程集合中的每个 病程中是否存在不合理病历,并在有病程中存在不合理病历时,对该不合理病历进行修正, 其中,一病程的第一种疾病的时间跨度占比为该病程的第一种疾病的时间跨度与该病程的 第二种疾病的时间跨度的比值。 可选的,所述根据所述目标病程集合中每个病程的第一种疾病的时间跨度和时间 跨度占比,确定所述目标病程集合中的每个病程中是否存在不合理病历,并在有病程中存 在不合理病历时,对该不合理病历进行修正,包括: 对所述目标病程集合中各个病程的第一种疾病的时间跨度求均值,并对所述目标 病程集合中各个病程的第一种疾病的时间跨度占比求标准差,并根据求得的均值和标准 差,确定第一种疾病的可接受时间跨度和可接受时间跨度占比; 对于所述目标病程集合中的每个病程: 根据该病程的第一种疾病的时间跨度和时间跨度占比,以及所述第一种疾病的可 接受时间跨度和可接受时间跨度占比,确定该病程中是否存在不合理病历; 若该病程中存在不合理病历,则根据所述第一种疾病的可接受时间跨度和可接受 时间跨度占比以及该病程的时间跨度,确定该病程中的不合理病历,并将该病程中不合理 病历的诊断结果修正为该病程的第二种疾病。 一种病历集优化装置,包括:第一病历修正模块、疾病知识图谱获取模块和最优病 历集确定模块; 所述第一病历修正模块,用于采用多种不同的病历修正方式,分别对目标病历集 中存在不合理诊断的病历进行修正,获得多个修正后病历集; 所述疾病知识图谱获取模块,用于获取所述目标病历集对应的疾病知识图谱以及 所述多个修正后病历集分别对应的疾病知识图谱,其中,所述疾病知识图谱包括若干个节 10 CN 111599483 A 说 明 书 5/22 页 点和节点之间的边,每个节点代表对应病历集中各病历的诊断结果中的一种疾病,两个节 点之间的边代表对应的两种疾病之间的关系; 所述最优病历集确定模块,用于根据所述目标病历集对应的疾病知识图谱以及所 述多个修正后病历集分别对应的疾病知识图谱,从所述多个修正后病历集中确定最优病历 集,作为所述目标病历集对应的优化后病历集。 可选的,所述病历集优化装置还包括:病程集合获取模块和第二病历修正模块; 所述病程集合获取模块,用于从所述最优病历集中获取病程集合,其中,所述病程 集合中的一个病程由一患者一次发病的所有病历组成,一个病程中的所有病历按就诊时间 先后排序; 所述第二病历修正模块,用于以病历在其所在的病程中是否合理为依据,从所述 病程集合中的病程中确定不合理病历,并对确定出的不合理病历进行修正。 一种病历集优化设备,包括:存储器和处理器; 所述存储器,用于存储程序; 所述处理器,用于执行所述程序,实现上述任一项所述的病历集优化方法的各个 步骤。 一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实 现上述任一项所述的病历集优化方法的各个步骤。 经由上述方案可知,本申请提供的病历集优化方法,首先采用多种不同的病历修 正方式,分别对目标病历集中存在不合理诊断的病历进行修正,获得多个修正后病历集,然 后获取目标病历集对应的疾病知识图谱以及多个修正后病历集分别对应的疾病知识图谱, 最后根据目标病历集对应的疾病知识图谱以及多个修正后病历集分别对应的疾病知识图 谱,从多个修正后病历集中确定最优病历集,作为目标病历集对应的优化后病历集,由此可 见,本申请提供的病历集优化方法可实现对病历集的优化,并且,由于目标病历集对应的优 化后病历集为采用多种病历修正方式对目标病历集进行修正后得到的多个修正后病历集 中的最优病历集,因此,目标病历集对应的优化后病历集的质量较好、可靠性较高,基于这 样的病历集进行后续的分析和挖掘,可获得较好的分析和挖掘效果。 附图说明 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据 提供的附图获得其他的附图。 图1为本申请实施例提供的病历集优化方法的流程示意图; 图2为本申请实施例提供的获取一病历集对应的疾病知识图谱的流程示意图; 图3为本申请实施例提供的疾病知识图谱的一示例的示意图; 图4为本申请实施例提供的根据目标病历集对应的疾病知识图谱以及多个修正后 病历集分别对应的疾病知识图谱,从多个修正后病历集中确定最优病历集的流程示意图; 图5为本申请实施例提供的根据一病历集所包含病历中的症状词,确定该病历集 对应的疾病知识图谱的质量得分的流程示意图; 11 CN 111599483 A 说 明 书 6/22 页 图6为本申请实施例提供的病历集优化装置的结构示意图; 图7为本申请实施例提供的病历集优化设备的结构示意图。
下载此资料需消耗2积分,
分享到:
收藏