
技术摘要:
本发明公开了一种基于贝叶斯粗糙集和布谷鸟算法的高维特征选择算法,包括:获取肺部肿瘤图像,并进行目标轮廓分割,得到分割后的ROI图像;提取分割后的ROI图像的高维度特征分量,并基于特征分量构建包含特征属性的决策信息表;采用BRSGA算法对原始特征空间进行约简,得 全部
背景技术:
随着计算机辅助诊断(computer aided diagnosis,CAD)研究的发展,医学图像处 理技术得到了飞速发展。但是医学图像本身的多模态性、灰度模糊性和不确定性使得单一 模态的医学影像诊断过程中漏诊率和误诊率居高不下。因此,不同模态医学图像处理技术 应运而生,按照不同的层次分为像素级、特征级和决策级。而特征级处理在保留重要信息的 基础上又能实现信息量的压缩,处理速度更快。医学图像特征级处理过程中,特征之间的冗 余性和相关性使得“维数灾难”成为一个NP-hard问题,特征选择是解决这一问题行之有效 的措施,可以有效减少特征空间的维度,降低时间复杂度。 高维特征选择过程存在的问题包括如何生成最优特征子集,效果如何评价,评价 所用分类器的选择,分类器参数的优化等,针对这些问题,近年来专家学者们相继提出了很 多算法。首先,变精度粗糙集(variable precision rough set,VPRS)的提出可有效克服粗 糙集(rough set,RS)只能处理精确分类数据的局限性,通过引入分类错误率β将RS的下近 似由“完全包含”放松为“部分包含”,提高了存在噪声的数据集处理结果的鲁棒性和泛化能 力。VPRS研究的核心是分类错误率β的选取问题,主要研究领域包括三个方面:第一,不考虑 β选取的细节,提出多种扩展VPRS模型,如:变精度模糊粗糙集、变精度多粒度粗糙集、广义 VPRS、基于β-公差关系和巴氏距离的扩展VPRS等;第二,通过不同的计算方式获得β的取值, 如将平均包含度作为选取上下近似的阈值;第三,引入概率公式提出了很多概率RS模型,如 VPRS、博弈粗糙集、决策粗糙集、贝叶斯粗糙集(bayesian rough set,BRS)、0.5概率粗糙集 等。概率粗糙集中各种方法之间具有一定的相关性,差异性体现在概率公式的计算和参数 设计方式的不同。其中BRS是在VPRS的基础上引入先验概率,用先验概率代替VPRS中的分类 错误率β,不需要人工设置参数,既克服了RS对下近似的完全精确划分,又避免了VPRS中参 数β对上下近似的影响。对于BRS的研究目前很多还处于理论分析阶段,缺乏成熟独立的模 型,未见与其他算法结合处理医学图像高维特征选择问题。 其次,分类器的性能是评价高维特征选择算法的依据,支持向量机(support vector machine,SVM)是常用的一种二分类算法,核函数的引入更加拓宽了其应用范围,常 用的核函数包括多项式核函数、径向基核函数(RBF)和Sigmoid核函数,其中多项式核函数 的计算速度较慢,严重影响了其效果,应用较少;RBF相比Sigmoid核函数参数较少,在计算 过程中只需要计算核矩阵,时间复杂度较小,参数人工设置工作量大、时间较长,并且最终 得到的参数并不一定是最优的,需要将参数的选择转化为优化问题进行分析。 因此,如何提供一种具有低时间复杂度和较好鲁棒性的基于贝叶斯粗糙集和布谷 鸟算法的高维特征选择算法是本领域技术人员亟需解决的问题。 4 CN 111583194 A 说 明 书 2/11 页
技术实现要素:
有鉴于此,本发明提供了一种基于贝叶斯粗糙集和布谷鸟算法的高维特征选择算 法,结合BRS、GA、CS和SVM算法,提出一种基于BRSGA和CS两阶段优化的高维特征选择算法。 第一阶段的优化采用BRSGA算法对原始特征空间进行约简,得到最优特征子集,第二阶段利 用CS算法对SVM的惩罚因子和核函数参数进行优化,使用最优的参数组合构建CS-SVM分类 模型,对肺部肿瘤图像进行识别。 为了实现上述目的,本发明提供如下技术方案: 一种基于贝叶斯粗糙集和布谷鸟算法的高维特征选择算法,包括如下步骤: S1、获取肺部肿瘤图像,并进行目标轮廓分割,得到分割后的ROI图像; S2、提取所述分割后的ROI图像的高维度特征分量,并基于所述高维度特征分量构 建包含特征属性的决策信息表,所述特征属性与所述高维度特征分量中不同维度的特征相 对应; S3、基于贝叶斯粗糙集模型,利用全局相对增益函数、属性约简长度和基因编码权 值函数的加权求和构建适应度目标函数,结合遗传算子组合对所述特征属性进行约简,得 到约简后的特征子集; S4、利用布谷鸟算法对SVM的惩罚因子和核函数进行优化,并将所述约简后的特征 子集输入至优化后的SVM,得到分类识别结果。 优选的,所述S2中的高维度特征分量包括肺部肿瘤图像的形状特征、纹理特征和 灰度特征。 优选的,所述S3具体包括如下步骤: S31、构建适应度目标函数: 目 标 函 数 一 为 等 价 关 系 E 相对 于 特 征 属性 D的 全 局 相对 增益 函 数 : 采用全局相对增益衡量信息系统S的属性重要度; 目标函数二为属性约简长度: 其中,|C|为条件属性个数,Lr为r染色体中基因为1的个数; 目标函数三为基因编码权值函数: 其中,分子为非0、1的基因乘积和,分母为染色体的长度; 构造适应度目标函数F(x)=-ω1×target1-ω2×target2 ω3×target3对所述 特征属性进行特征属性约简; S32、根据所述适应度目标函数对遗传算子进行寻优: 根据适应度目标函数计算特征属性的适应度值,并判断是否满足终止条件,若是 则得到约简后的特征子集;若否则对特征属性依次进行无放回余数随机选择、均匀交叉和 高斯变换构成的遗传算法运算,并重新执行S32。 优选的,所述S4中布谷鸟算法优化SVM参数的具体步骤包括: S41、初始化设置:包括概率Pa、迭代次数N、鸟巢数量n、上下界限、SVM的惩罚因子c 和RBF核函数参数σ; 5 CN 111583194 A 说 明 书 3/11 页 S42、初始化n个鸟巢位置,计算所有鸟巢的适应度值并保存当前最优位置和适应 度值; S43、根据公式更新鸟巢位置,并与上一代相应位置的鸟巢适应度值进行对比,保 留适应度值最小的鸟巢位置和适应度值作为最优鸟巢; S44、生成随机数r,以给定概率Pa抛弃差的鸟巢,若r>Pa,则更新鸟巢,否则不更 新; S45、重新计算鸟巢的适应度值,用适应度高的鸟巢替换适应度值低的鸟巢,生成 一组新的鸟巢位置; S46、判断是否完成迭代次数,若是,则停止搜索,得到全局最优适应度值和对应的 最优鸟巢,如果不满足停止条件,则跳至S43继续寻优; S47、根据最优鸟巢位置所对应的最优参数c和σ构建SVM预测模型。 本发明设计的一种基于贝叶斯粗糙集和布谷鸟算法的高维特征选择算法与现有 技术相比的优点在于: 从全局相对增益函数的角度分析了属性重要度,结合属性约简长度和基因编码权 值函数的加权和构造适应度函数,通过选择、交叉和变异等遗传操作生成最优特征子集,在 不降低分类精确度的前提下降低特征维度,摆脱了参数人工设置的束缚,在很大程度上减 少了时间消耗。利用CS对支持向量机(SVM)参数进行全局寻优,CS算法中全局搜索,具有无 限的均值和方差,可以比使用标准的高斯过程的算法更有效的探索搜索空间,拓宽了搜索 领域,丰富了种群的多样性,具有良好的鲁棒性和较强的全局搜索能力。将BRS与智能优化 算法结合进行特征选择,使用CS优化SVM的参数具有一定的可行性和有效性。 附图说明 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据 提供的附图获得其他的附图。 图1为本发明提供的基于贝叶斯粗糙集和布谷鸟算法的高维特征选择算法的流程 图; 图2为本发明实施例提供的利用Otsu算法对ROI区域进行分割前后的对比图; 图3为本发明实施例提供的最优特征子集生成流程图; 图4为本发明实施例提供的CS优化SVM参数流程图; 图5为本发明实施例提供的某次特征子集生成过程中适应度函数变化情况示意 图; 图6为本发明实施例提供的基于BRSGA选择算法不同分类算法结果的对比图。