logo好方法网

噪声性听力损失预测及易感人群筛选方法、装置、终端和介质


技术摘要:
本申请提供噪声性听力损失预测及易感人群筛选方法、装置、终端和介质,包括:采集噪声暴露人群样本的多种听力特征数据并进行预处理;基于人群样本预处理数据定义高频听阈切迹听力特征数据,构建用于预测个体易感情况的高频听阈切迹面积预测模型;获取待测人群样本中的  全部
背景技术:
听力损失是全球排名第四位的致残疾病,严重影响患者的言语交流,导致患者社 会交际、认知和情感心理障碍,为家庭和社会带来沉重负担。噪声性听力损失(Noise  Induced  Hearing  loss ,NIHL)是成年人最常见的一类听力损失,位列全球三大职业病之 首。美国疾病控制中心(Centers  for  Disease  Control,CDC)的数据显示,全球至少有11亿 人口存在NIHL的风险,已经成为亟待解决的人群健康问题。 由于噪声性听力损失尚无有效的治疗和干预手段,发现易感人群并给予相应噪声 防护指导是目前降低其发病率的关键。近年来的研究认为,噪声性听力损失是由遗传基因 和环境因素(如噪声暴露、药物性聋、年龄相关性听力损失等)共同导致的复杂疾病,即使环 境噪声暴露导致的听力障碍发病也具有高度个体遗传易感性,因此,针对听力障碍疾病开 展大样本人群队列研究,建设听力及遗传信息大数据平台,建立听力障碍疾病的预测模型 并进行个体化智能听力健康干预和管理,是听力障碍疾病防控的关键和瓶颈问题。 申请内容 鉴于以上所述现有技术的缺点,本申请的目的在于提供噪声性听力损失预测及易 感人群筛选方法、装置、终端和介质,用于解决现有技术无法针对听力障碍疾病开展大样本 人群队列研究,建设听力及遗传信息大数据平台,建立听力障碍疾病的预测模型并进行个 体化智能听力健康干预和管理的技术问题。 为实现上述目的及其他相关目的,本申请的第一方面提供一种基于机器学习的噪 声性听力损失预测及易感人群筛选方法,包括:采集噪声暴露人群样本的多种听力特征数 据并进行预处理;基于预处理数据,对人群样本进行高频听阈切迹定义;构建用于预测个体 易感情况的切迹面积预测模型;获取待测人群样本中的医学特征数据和听力阈值测量数 据;所述待测人群样本中的医学特征数据用于输入到所述切迹面积预测模型后计算预测切 迹面积值;所述待测人群样本中的听力阈值测量数据用于计算实际切迹面积值;比较所述 预测切迹面积值和实际切迹面积值,据以判断待测人群样本的个体易感情况。 于本申请的第一方面的一些实施例中,对所述噪声暴露人群样本的多种听力特征 数据进行预处理,包括如下预处理方式中的一种或多种:预处理方式1)将非数值型数据进 行赋值处理;预处理方式2)剔除缺失特征较多的样本;预处理方式3)剔除包含极端异常值 的样本;预处理方式4)补齐缺失特征较少的样本。 于本申请的第一方面的一些实施例中,所述听力特征数据包括非数值型数据和数 值型数据;所述非数值型数据包括:性别数据、工种数据、HPD数据、听力困难数据、耳鸣数 据、耳鸣性质数据、耳鸣音调数据、耳鸣周期数据、吸烟数据、饮酒数据、生活噪声接触数据 以及娱乐噪声接触数据中的任一种或多种组合;所述数值型数据包括:年龄数据、工龄数 4 CN 111584065 A 说 明 书 2/9 页 据、各频率听力阈值数据。 于本申请的第一方面的一些实施例中,所述对人群样本进行高频听阈切迹定义, 包括:将单耳符合切迹标准的样本归为切迹人群;以及,在双耳都符合切迹标准的情况下, 采用切迹面积更大的耳朵进行统计;其中,所述切迹标准是指3,4和6kHz中任一听力阈值高 于0.5kHz和1kHz听力阈值平均值至少15dB,且高于8kHz听力阈值至少5dB。 于本申请的第一方面的一些实施例中,所述切迹面积预测模型的构建方式包括: 利用相关分析算法,从所述人群样本的听力特征数据中剔除与切迹面积相关度较低的特征 数据,并保留相关度较高的特征数据;使用极度梯度提升算法进行回归拟合,并设定模型初 始参数;使用十折交叉法随机匹配测试集和训练集训练模型,得到最小均方根误差模型;设 定参数浮动范围,通过参数自适应调优得到切迹面积预测模型。 于本申请的第一方面的一些实施例中,所述待测人群样本中的医学特征数据包 括:性别数据、年龄数据、工种数据、工龄数据、BMI数据、HPD数据、听力困难数据、耳鸣数据、 吸烟数据、饮酒数据、生活噪声数据、娱乐噪声数据、佩戴耳机数据;所述听力阈值测量数据 包括实际检测的双耳0.25,0.5,1,2,3,4,6和8kHz的检测听力阈值。 于本申请的第一方面的一些实施例中,所述判断待测人群样本的个体易感情况, 包括:所述个体易感情况分为五个等级:极耐受,一般耐受,正常,一般易感,极易感;根据其 面积和标准值的比值或按照面积大小进行易感等级的划分。 为实现上述目的及其他相关目的,本申请的第二方面提供一种基于机器学习的噪 声性听力损失预测及易感人群筛选装置,包括:采集及预处理模块,用于采集噪声暴露人群 样本的多种听力特征数据并进行预处理;高频听阈切迹定义模块,用于基于预处理数据,对 人群样本进行高频听阈切迹定义;预测模型构建模块,构建用于预测个体易感情况的切迹 面积预测模型;待测数据获取模块,用于获取待测人群样本中的医学特征数据和听力阈值 测量数据;所述待测人群样本中的医学特征数据用于输入到所述切迹面积预测模型后计算 预测切迹面积值;所述待测人群样本中的听力阈值测量数据用于计算实际切迹面积值;比 较及判断模块,用于比较所述预测切迹面积值和实际切迹面积值,据以判断待测人群样本 的个体易感情况。 为实现上述目的及其他相关目的,本申请的第三方面提供一种计算机可读存储介 质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述基于机器学习的噪 声性听力损失预测及易感人群筛选方法。 为实现上述目的及其他相关目的,本申请的第四方面提供一种电子终端,包括:处 理器及存储器;所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的 计算机程序,以使所述终端执行所述基于机器学习的噪声性听力损失预测及易感人群筛选 方法。 如上所述,本申请的噪声性听力损失预测及易感人群筛选方法、装置、终端和介 质,具有以下有益效果:本发明通过大数据预测和长期的临床经验,辅助判断听力损失情况 和筛选易感抵抗个体,达到填补噪声性听力损失早期辅助诊断的空白效果,解决了当前各 界对于噪声性听力损失早期诊断没有金标准,帮助患者早期预防,这是防治噪声性听力损 失的关键。 5 CN 111584065 A 说 明 书 3/9 页 附图说明 图1显示为本申请一实施例中的基于机器学习的噪声性听力损失预测及易感人群 筛选方法的流程示意图。 图2显示为本申请一实施例中的基于机器学习的噪声性听力损失预测及易感人群 筛选装置的结构示意图。 图3显示为本申请一实施例中电子终端的结构示意图。
技术实现要素:
以下通过特定的具体实例说明本申请的实施方式,本领域技术人员可由本说明书 所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实 施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离 本申请的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施 例中的特征可以相互组合。 需要说明的是,在下述描述中,参考附图,附图描述了本申请的若干实施例。应当 理解,还可使用其他实施例,并且可以在不背离本申请的精神和范围的情况下进行机械组 成、结构、电气以及操作上的改变。下面的详细描述不应该被认为是限制性的,并且本申请 的实施例的范围仅由公布的专利的权利要求书所限定。这里使用的术语仅是为了描述特定 实施例,而并非旨在限制本申请。空间相关的术语,例如“上”、“下”、“左”、“右”、“下面”、“下 方”、“下部”、“上方”、“上部”等,可在文中使用以便于说明图中所示的一个元件或特征与另 一元件或特征的关系。 在本申请中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”、 “固持”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接; 可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以 是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术 语在本申请中的具体含义。 再者,如同在本文中所使用的,单数形式“一”、“一个”和“该”旨在也包括复数形 式,除非上下文中有相反的指示。应当进一步理解,术语“包含”、“包括”表明存在所述的特 征、操作、元件、组件、项目、种类、和/或组,但不排除一个或多个其他特征、操作、元件、组 件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括 性的,或意味着任一个或任何组合。因此,“A、B或C”或者“A、B和/或C”意味着“以下任一个: A;B;C;A和B;A和C;B和C;A、B和C”。仅当元件、功能或操作的组合在某些方式下内在地互相 排斥时,才会出现该定义的例外。 目前人工智能技术在医学领域的应用飞速发展,已有研究将计算机算法如人工神 经网路、决策树、集成方法、SVM、基于径向基函数等成功应用于建立疾病预测模型。鉴于噪 声性听力损失的遗传易感性并可能由多种基因和复杂环境因素共调控的特征,本专利从噪 声性听力损失易感性以及受遗传与环境因素共同影响的共性入手,基于机器学习方法建立 达到噪声性听力损失预测效果的模型,筛选遗传易感人群,实现个体化的听力损失智能诊 断及预测,辅助医生决策,对噪声性听力损失的防控及时给出有效的健康指导意见,具有巨 大的临床实用前景。应理解,降低噪声性听力损失发病率最经济有效的措施是早期发现高 6 CN 111584065 A 说 明 书 4/9 页 危易感人群和早期干预的一级和二级预防。 因此,本发明的目的是针对目前缺乏早期筛查噪声性听力损失高危易感人群的技 术缺陷,开发了一种基于机器学习预测个体对噪声性听力损失易感性,早期检出高危易感 人群的方法,有助于针对个体提出个性化的听力保护及干预建议,实现精准防控噪声性听 力损失,帮助降低耳聋的发病率。本发明通过大数据预测和长期的临床经验,辅助判断听力 损失情况和筛选易感抵抗个体,达到填补噪声性听力损失早期辅助诊断的空白效果,解决 了当前各界对于NIHL失早期诊断没有金标准,帮助患者早期预防,这是防治噪声性听力损 失的关键。 为了使本发明的目的、技术方案及优点更加清楚明白,通过下述实施例并结合附 图,对本发明实施例中的技术方案的进一步详细说明。应当理解,此处所描述的具体实施例 仅用以解释本发明,并不用于限定发明。 实施例一: 如图1所示,展示了本发明一实施例中的基于机器学习的噪声性听力损失预测及 易感人群筛选方法的流程示意图。 应理解,采用大样本噪声暴露相关人群听力数据及基本人口学、个体健康行为信 息,通过机器学习建模的方法建立噪声性听力损失程度的预测模型,即其听力图中最典型 的特征——切迹的面积来评估个体对噪声性听力损失的易感性,对个体的就业选择(尤其 是噪声暴露相关职业)及听力防护具有指导价值。 有鉴于此,本发明针对噪声暴露人群,采集噪声暴露人群的医学相关数据,将噪声 性听力损失的评判标准通过切迹面积进行表示,定义切迹和切迹面积,分析并获得切迹面 积数据后设定易感抵抗评判标准,使用机器学习方法获得预测切迹面积值,使用算法计算 实际切迹面积值,通过预测值与实际值的对比判断个体易感情况,用于辅助医学诊断。本实 施例的基于机器学习的噪声性听力损失预测及易感人群筛选方法的各流程步骤说明如下。 步骤S11:采集噪声暴露人群样本的多种听力特征数据并进行预处理。 优选的,纳入分析的噪声暴露人群样本的资料详细至少包括基本人口学特征、职 业噪声暴露史、个人行为方式以及听觉相关症状。由于现有技术缺乏大样本噪声暴露人群 的流行病学调查,因此本实施例对高噪音工作环境(如造船厂等)下的大量职工进行了详细 的听力健康问卷调查,通过严格的纳入标准和一般耳科学检查,排除了耳科疾病、外伤、大 剂量娱乐噪声、先天性聋等因素对听力损失的影响。此外,为了确保采集数据的合理性和有 效性,本实施例对不同工作环境进行了噪声暴露剂量测量和频谱分析,并分别对高噪音工 作环境中不同岗位的职工进行了个人暴露剂量测量,以获得精确详细的噪声暴露数据。 需说明的是,在本实施例的采集噪声暴露人群样本的听力特征数据的过程中,听 力检查在标准的隔音室内由专业听力师进行,包括简单询问耳科相关病史,用电耳镜检查 外耳道情况,用中耳分析仪检测中耳功能,以及纯音气导测听等等。纯音测听按照ISO  8253-1:2010标准操作,在远离交通和振动的背景噪声<30dB(A)隔音室中,由熟练的听力师 对受试者进行每只耳朵0.25,0.5,1,2,3,4,6和8kHz的测试,采用5dB步进法。受试者在接受 检查前16小时以内不接触职业噪声暴露环境。需说明的是,出于说明性目的而提供以上示 例,并且以上示例不应被理解成是限制性的。同样的,该方法可以另外地或替代地包括其它 特征或包括较少的特征,而未背离本申请的范围。 7 CN 111584065 A 说 明 书 5/9 页 具体来说,本实施例涉及的听力特征数据包括非数值型数据和数值型数据;所述 非数值型数据包括但不限于性别、工种、HPD、听力困难、耳鸣、耳鸣性质、耳鸣音调、耳鸣周 期、吸烟、饮酒、生活噪声接触以及娱乐噪声接触等数据;所述数值型数据包括但不限于年 龄、工龄、各频率听力阈值等数据。 在本实施例中,需对非数值型数据进行赋值处理,并对所有数据(包括数值型数据 和赋值后的非数值型数据)进行筛查;筛查的目的是剔除特征值缺失个数较多的样本,例如 剔除特征值缺失个数大于3的样本,使用KNN等分类算法检测包含极端异常值删除该样本, 最后再使用KNN算法补齐其余缺失数据。 步骤S12:基于预处理数据,对人群样本进行高频听阈切迹定义。 在本实施例中,定义符合高频听阈切迹标准听力特征数据的方式是,单耳符合切 迹标准归属于切迹听力特征数据,双耳都符合切迹标准的情况下采用切迹面积更大的耳朵 进行统计。 需说明的是,所述切迹面积是由听力图中0.25 ,0 .5和1kHz的听阈平均值,1和 2kHz,2和3kHz,3和4kHz,4和6kHz,6和8kHz五组频率的听阈值相连的五条边,和1和8kHz听 阈值分别到0.25,0.5和1kHz的听阈平均值的两条垂线共同围成的区域面积;所述听力图即 声图,听力图横坐标表示声音的频率,纵坐标表示声音的强度(用分贝dB表示),听力图是了 解听力状况的最直接的依据,因听力图本身已是公知常识,故不再赘述。 本实施例涉及的高频听阈切迹听力特征数据,噪声性听力损失主要表现为高频 (3,4和6kHz处)听力损失,在纯音听力阈值图上呈现出高频区域的阈值切迹,被认为是噪声 损伤听力的特征。目前国际上还没有统一的高频听力阈值切迹定义,本发明采用的是美国 疾病控制中心(Centers  for  Disease  Control,CDC)提到的高频听力阈值切迹算法:3,4和 6kHz处中任一听力阈值高于0.5kHz和1kHz听力阈值平均值至少15dB,且高于8kHz听力阈值 至少5dB。 步骤S13:构建用于预测个体易感情况的切迹面积预测模型。所述切迹面积预测模 型的构建步骤如下: 步骤S131:利用相关分析算法,从所述切迹人群样本的各听力特征数据中剔除与 切迹面积相关度较低的特征数据,并保留相关度较高的特征数据。具体来说,选用步骤S11 中预处理的听力特征数据,利用相关分析算法来检测切迹面积和各个听力特征数据之间的 相关性,由此剔除掉和切迹面积的相关性较低的特征数据,而保留相关性较高的特征数据, 例如保留相关性较高的如下多个听力特征数据:性别、年龄、工种、工龄、BMI(身体质量指数 Body  Mass  Index)、HPD(听力保护工具)、听力困难、耳鸣、吸烟、饮酒、生活噪声、娱乐噪声、 佩戴耳机等数据。 需说明的是,相关分析算法(Analysis  of  Correlation)是对不同特征或数据间 的关系进行分析,发现其中的关键影响及驱动因素。相关分析的方法较多,例如初级方法可 快速发现数据之间的正相关、负相关或不相关等关系;中级方法可以对数据间关系的强弱 进行度量,如完全相关,不完全相关等;高级方法可以将数据间的关系转化为模型,并通过 模型对未来的业务发展进行预测。本实施例涉及的相关分析算法不限于图表相关分析法、 协方差及协方差矩阵法、相关系数法、一元回归及多元回归法、信息熵及互信息法等等。 步骤S132:使用极端梯度提升算法xgboost(eXtreme  Gradient  Boosting),进行 8 CN 111584065 A 说 明 书 6/9 页 回归拟合,并设定初始参数。梯度提升算法是一个序列模型的集成学习算法,它通过把一系 列弱学习器集成为强学习器来提升它的预测精度;梯度提升算法的初始参数包括决策树参 数、提升算法参数、其它初始参数(如损失函数、随机数种子、学习率等)。需说明的是,梯度 提升算法本身已是现有技术,因此不再赘述。 步骤S133:使用十折交叉法随机匹配测试集和训练集训练模型,得到最小均方根 误差RMSE(root-mean-square  error)模型。十折交叉法用来测试算法准确性,是常用的测 试方法,将数据集分成10份,轮流将其中9份作为训练数据,1份作为测试数据,进行试验。 步骤S134:设定参数浮动范围,通过参数自适应调优得到切迹面积预测模型。 以上,对构建用于预测噪声性听力损失情况的预测模型的过程做了详细的解释说 明,但应理解的是,出于说明性目的而提供以上的建模示例,并且以上的建模示例不应被理 解成是限制性的。 步骤S14:获取待测人群样本中的医学特征数据和听力阈值测量数据;所述待测人 群样本中的医学特征数据用于输入到所述切迹面积预测模型后计算预测切迹面积值;所述 待测人群样本中的听力阈值测量数据用于计算实际切迹面积值。 其中,所述医学特征数据用于输入所述切迹面积预测模型后计算预测切迹面积 值,记为Spredictive-Notch;所述听力阈值测量数据用于计算实际切迹面积值,记为Sreal-Notch。 优选的待测人群样本的医学特征数据包括但不限于:性别、年龄、工种、工龄、BMI (身体质量指数Body  Mass  Index)、HPD(听力保护工具)、听力困难、耳鸣、吸烟、饮酒、生活 噪声、娱乐噪声、佩戴耳机等数据;这些数据被输入到切迹面积预测模型后输出对应的预测 切迹面积值。 待测人群样本的听力阈值测量数据包括但不限于实际检测数据双耳0.25,0.5,1, 2,3,4,6和8kHz的检测听力阈值。本专利提供一种切迹面积的计算方法,将上述切迹面积由 1和2kHz,2和3kHz,3和4kHz,4和6kHz,6和8kHz五组频率分为五个区域,每个区域的子切迹 面积分别为S1、S2、S3、S4、S5。在纵坐标轴上5dB视为1个单位长度,在横坐标轴上1个倍频程 视为1个单位长度,S1在横坐标轴上视为1个单位长度,上底边长STR1为1kHz听阈值减0.25, 0.5和1kHz的听阈平均值,下底边长STR2为2kHz听阈值减0.25,0.5和1kHz的听阈平均值,S1 =(STR1 STR2)×1×0.5。以此类推S2在横坐标轴上视为0.5个单位长度,上底边长STR2为 1kHz听阈值减0.25,0.5和1kHz的听阈平均值,下底边长STR2为3kHz听阈值减0.25,0.5和 1kHz的听阈平均值,同时可以求出S3、S4、S5的面积。实际切迹面积值Sreal-Notch=S1 S2 S3 S4 S5。 步骤S15:比较所述预测切迹面积值和实际切迹面积值,据以判断待测人群样本的 个体易感情况。 可选的,所述易感抵抗评判标准是指:首先,统计样本的切迹面积值,根据切迹面 积的定义,计算出样本双耳的切迹面积,比较个体双耳最大的切迹面积值;其次,通过概率 密度统计和指数分布检验最终确定噪声暴露人群中切迹人群的切迹面积值服从指数分布, 并由此定义易感抵抗评判标准: Sreal-Notch-Spredictive-Notch≤a为极耐受个体; a
分享到:
收藏