logo好方法网

多任务的目标检测方法、装置、电子设备及存储介质


技术摘要:
一种多任务的目标检测、装置、电子设备及存储介质,应用于图像处理技术领域,利用级联式的注意力模块,提取目标的注意力感知的卷积特征图,能够从粗到精地生成全图注意力感知的卷积特征,抑制背景噪声的干扰。基于注意力感知的卷积特征图,提取目标的局部部件特征、全  全部
背景技术:
目标检测是计算机视觉中的一项基础任务,是很多其他任务的前提,目标检测的 难点在其他任务中几乎都有体现,并且更为复杂多样,如背景噪声干扰、目标遮挡、截断、姿 态变化以及形变等。在目标检测基础上进行多任务的设计也一直是个热门问题,通过一个 网络同时进行多项任务的预测不仅可以节省计算量,同时还能改善模型的泛化能力。 现有多任务的框架,例如Mask  R-CNN扩展性较强,受到广泛应用,但是此框架没有 考虑环境以及目标本身状态带来的影响,并没有针对性的结构和学习策略,所以其表达能 力还有待增强。综合来看,目前缺乏对环境干扰、目标姿态变化等多任务的整体解决方案。
技术实现要素:
本公开的主要目的在于提供一种多任务的目标检测方法、装置、电子设备及存储 介质,可解决上述至少一个技术问题。 为实现上述目的,本公开实施例第一方面提供一种多任务的目标检测方法,包括: 获取待检测目标的图像; 利用级联式的注意力模块,提取所述目标的注意力感知的卷积特征图; 基于所述注意力感知的卷积特征图,提取所述目标的局部部件特征、全局结构特 征、空间上下文特征以及多任务特征; 基于所述目标的局部部件特征、全局结构特征、空间上下文特征以及多任务特征, 实现所述目标的检测任务、关键点检测任务、实例分割任务中的至少一个。 可选的,所述利用级联式的空间注意力模块,提取所述目标的注意力感知的卷积 特征图包括: 将注意力模块插入预设基础网络下采样的多个预设倍数处,得到多个注意力图; 将所述多个注意力图分别与对应下采样倍数处的卷积特征图逐通道相乘,得到注 意力感知的卷积特征图。 可选的,所述基于所述注意力感知的卷积特征图,提取所述目标的局部部件特征、 全局结构特征、空间上下文特征以及多任务特征包括: 在所述注意力感知的卷积特征图上提取包含所述目标的候选框; 基于所述注意力感知的卷积特征图和所述候选框,提取所述目标的局部部件特 征、全局结构特征、空间上下文特征以及多任务特征。 可选的,所述基于所述目标的局部部件特征、全局结构特征、空间上下文特征以及 多任务特征,实现所述目标的检测任务包括: 将所述目标的局部部件特征、全局结构特征、空间上下文特征进行融合,得到所述 5 CN 111598112 A 说 明 书 2/10 页 目标的结构化特征; 基于所述结构化特征,实现所述目标的检测任务。 可选的,所述基于所述目标的局部部件特征、全局结构特征、空间上下文特征以及 多任务特征,实现所述目标的关键点检测任务,和/或,实例分割任务包括: 将所述结构化特征进行上采样,使所述结构化特征的分辨率与所述多任务特征的 分辨率相同; 将上采样后的结构化特征与所述多任务特征进行融合,得到融合后的特征; 将融合后的特征进行关键点检测,实现所述目标的关键点检测任务,和/或,将融 合后的特征进行实例分割,实现所述目标的实例分割任务。 可选的,所述基于所述注意力感知的卷积特征图和所述候选框,提取所述目标的 局部部件特征包括: 将所述注意力感知的卷积特征图通过一个大小为1×1的卷积层,得到部件敏感的 特征图; 通过PSRoIPooling将所述候选框映射到所述部件敏感的特征图上,并将所述候选 框划分为k×k个候选框块,以使每个候选框块表示一个局部部件,每个候选框形成一个k× k的部件特征; 将每个k×k的部件特征均进行平均池化,得到所述目标的局部部件特征。 可选的,所述基于所述注意力感知的卷积特征图和所述候选框,提取所述目标的 全局结构特征包括: 将所述注意力感知的卷积特征图通过一个大小为1×1的卷积层进行降维,得到一 组降维的卷积特征图; 通过RoIPooling将所述候选框映射到所述降维的卷积特征图上,并将所述候选框 划分为k×k个候选框块,以使每个候选框块形成一个k×k的全局特征; 将每个k×k的全局特征当做一个整体,通过两个大小分别为k×k和1×1的卷积层 进行编码,得到所述目标的全局结构特征。 可选的,所述基于所述注意力感知的卷积特征图和所述候选框,提取所述目标的 上下文结构特征包括: 将所述注意力感知的卷积特征图通过一个大小为1×1的卷积层降维,得到一组降 维的卷积特征图; 保持每个候选框中心点不变,将每个候选框面积扩大至预设倍数; 通过RoIPooling将面积扩大后的候选框映射到所述降维的卷积特征图上,并将面 积扩大后的候选框划分为k×k个候选框块,以使每个候选框形成一个k×k的上下文特征; 将每个k×k的上下文特征当做一个整体,通过两个大小分别为k×k和1×1的卷积 层进行编码,得到所述目标的上下文结构特征。 可选的,所述基于所述注意力感知的卷积特征图和所述候选框,提取所述目标的 多任务特征包括: 将所述注意力感知的卷积特征图通过一个大小为1×1的卷积层降维,得到一组降 维的卷积特征图; 通过RoIPooling将所述候选框映射到所述降维的卷积特征图上,并将所述候选框 6 CN 111598112 A 说 明 书 3/10 页 划分为2k×2k个候选框块,以使每个候选框形成一个2k×2k的特征; 通过4个大小为3×3,通道数为256的卷积将每个2k×2k的特征进行编码; 将编码后的每个候选框的特征进行频率为预设倍数的上采样,得到所述目标的多 任务特征。 可选的,其中,通过预设的损失检测模型,检测实现所述目标的检测任务、关键点 检测任务、实例分割任务中的至少一个的损失; 所述预设的损失模型: Loss=Ldet(N) λ1Latt(N) λ2Lmulti(N); 其中,N表示实现所述多任务的目标检测方法的检测网络,Ldet表示实现所述检测 任务的损失,Latt表示所述注意力模块的损失,Lmulti表示实现所述关键点检测任务和/或实 例分割任务的损失,λ1和λ2为预设的损失调节因子。 本公开实施例第二方面提供一种多任务的目标检测装置,包括: 获取模块,用于获取待检测目标的图像; 第一提取模块,用于利用级联式的空间注意力模块,提取所述目标的注意力感知 的卷积特征图; 第二提取模块,用于基于所述注意力感知的卷积特征图,提取所述目标的局部部 件特征、全局结构特征、空间上下文特征以及多任务特征; 任务实现模块,用于基于所述目标的局部部件特征、全局结构特征、空间上下文特 征以及多任务特征,实现所述目标的检测任务、关键点检测任务、实例分割任务中的至少一 个。 本公开实施例第三方面提供了一种电子设备,包括: 存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在 于,所述处理器执行所述程序时实现本公开实施例第一方面提供的多任务的目标检测方 法。 本公开实施例第四方面提供了一种计算机可读存储介质,其上存储有计算机程 序,所述计算机程序被处理器执行时实现本公开实施例第一方面提供的多任务的目标检测 方法。 从上述本公开实施例可知,本公开提供的多任务的目标检测、装置、电子设备及存 储介质,利用级联式的注意力模块,提取目标的注意力感知的卷积特征图,能够从粗到精地 生成全图注意力感知的卷积特征,抑制背景噪声的干扰。基于注意力感知的卷积特征图,提 取目标的局部部件特征、全局结构特征、空间上下文特征以及多任务特征,基于目标的局部 部件特征、全局结构特征、空间上下文特征以及多任务特征,实现目标的检测任务、关键点 检测任务、实例分割任务中的至少一个。能够有效的关联目标全局结构、局部部件以及上下 文信息,形成结构化的特征表达,提高特征对遮挡、形变以及姿态等的鲁棒性,改善多任务 性能。 附图说明 为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 7 CN 111598112 A 说 明 书 4/10 页 公开的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据 这些附图获得其他的附图。 图1为本公开一实施例提供的多任务的目标检测方法的流程示意图; 图2为本公开一实施例提供的多任务的空间注意力机制的示意图; 图3为本公开一实施例提供的多任务的目标检测方法中步骤S103的流程示意图; 图4为本公开一实施例提供的实现多任务的目标检测方法的模型的结构示意图; 图5为本公开一实施例提供的实现多任务的目标检测装置的结构示意图; 图6示出了一种电子设备的硬件结构示意图。
下载此资料需消耗2积分,
分享到:
收藏