
技术摘要:
本发明公开一种基于时频分析和深度学习的直升机旋翼声音检测方法,以解决雷达检测方法对直升机的检测存在盲区的问题。该方法分为四个步骤:首先对声音信号预处理,然后对预处理后的信号采用时频分析,得到时频图像,之后利用基于深度学习的检测网络,检测声音中是否存 全部
背景技术:
目前直升机的使用广泛应用于各个领域,但在使用过程中,对其监管成为一个问 题。尤其在野外环境下,未经审批而飞行的直升机可能对空域的飞行安全,甚至国土安全造 成威胁。由于直升机在低空飞行,雷达检测技术失效。而利用直升机声音旋翼声音较大,传 播范围较远,不受障碍物遮挡等诸多特点,可以用于对其进行监控检测。 直升机气动声音主要来源于旋翼系统。通常在平稳飞行时,在频谱的低频部分占 主导地位的是旋转声音。旋转声音是一种周期性谐波噪声,其频谱是由旋翼通过频率的各 阶谐波组成。 目前声音检测算法主要应用于语音和生活环境声音检测,其特点在于,信噪比较 高,且频域成分丰富。而野外平稳飞行的直升机旋翼声音的特点在于,信噪比低,且频域成 分相对较少。使得利用现有方法,对野外平稳飞行的直升机旋翼声音的检测效果不理想。 因此研究针对野外平稳飞行的直升机旋翼声音的检测算法,实现对非法飞行的直 升机监控检测成为亟待解决的问题。
技术实现要素:
为解决现有技术中存在的技术问题,本发明实施例提供一种基于时频分析和深度 学习的旋翼声音检测算法,能实现对在野外平稳飞行的直升机旋翼声音进行检测,以便相 关监管部门监测。 本发明提供一种声音检测算法,对在野外平稳飞行的直升机旋翼声音进行检测, 该算法包含三个部分:预处理、时频分析和检测网络; 所述预处理,依次对环境声音进行采样、滤波和分片; 所述环境声音,是野外环境下的声音,其中一定包括环境噪声,可能包括平稳飞行 的直升机旋翼声音; 一般地,当环境噪声中含有直升机旋翼声音时,直升机旋翼声音能量低于环境噪 声能量; 所述采样,对来自麦克风采集的信号进行数字采样,采样频率是待测频率范围的4 倍以上; 所述滤波,是带通滤波,以直升机起飞所需的最小旋翼转速为滤波器下边界,以直 升机平稳飞行时旋翼的最大转速为滤波器上边界; 所述分片,是将无限长的声音信号,分成相互重叠的声音信号段,时间上相互重叠 的长度不小于单个声音信号段长度的一半。 所述时频分析,对声音信号段进行时频分析处理,形成时频图像; 所述时频图像,是时频变换后的浮点矩阵,或者处理后转为的单通道图像。 3 CN 111572809 A 说 明 书 2/4 页 可选地,所述时频分析处理包括: 短时Fourier变换、Wigner-Ville变换以及Choi-Williams变换; 但是不包括Mel频率倒谱变换。 所述检测网络,是综合利用卷积神经网络和循环神经网络,形成的深度神经网络; 所述卷积神经网络,输入是时频图像,输出是时频特征; 所述循环神经网络,输入是时频特征,输出是以one-hot编码的概率形式呈现的检 测结果; 所述时频图像,由以时间顺序排列的声音频域向量构成; 所述时频特征,由以时间顺序排列的特征向量构成,且时间顺序和时频图像的时 间顺序一致; 所述时间顺序一致,特征向量在时间上的先后次序,与时频图像对应时间位点的 先后次序相同,但是特征向量在某些时间点上可以不存在,而时频图像在对应时间位点存 在频域向量。 综上,本发明提供了一种基于时频分析方法和深度学习方法的声音检测算法,用 于对野外非法飞行的直升机旋翼声音检测。其中时频分析方法不是使用Mel倒谱变换,可以 使用其他常见时频变换。深度学习方法先利用卷积神经网络提取每个时刻的特征向量,再 利用循环神经网络检测。 有益效果是,本发明所述技术方案能够对野外非法飞行的直升机旋翼声音进行检 测,提升相关监管和管理部门的工作效率,降低监管成本。 附图说明 为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需的附图做 简单介绍。 图1为本发明实施例对野外平稳飞行的旋翼声音检测算法的实施例流程图; 图2是示出图1所示的步骤S11的实施例流程图; 图3是示出图1所示的步骤S13的实施例流程图; 图4是示出图3所示的步骤S1301的实施例流程图; 图5是示出图3所示的步骤S1303的实施例流程图; 具体实施方案 为了使本领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附 图,对本发明实施例中的技术方案进行清楚的描述,所述的实施例仅是本发明一部分实施 例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳 动的前提下所获得的所有其他实施例,都属于本发明的保护范围。 本发明主要应用于野外直升机非法检测,便于相关部门进行监管和管理。 以下将参照图1,对本发明实施例的野外飞行的旋翼声音检测的算法流程进行说 明。算法分为四个部分。步骤S11对收集到的环境声音预处理,步骤S12对预处理后的数据进 行时频分析,得到时频图,步骤S13对时频图利用检测网络检测,得到检测结果存入数据库 10中,步骤S14判断算法是否结束,如果结束则终止算法,否则返回步骤S11。 4 CN 111572809 A 说 明 书 3/4 页 具体地,参照图2,对步骤S11的实施例流程进行详细说明。预处理包括三个步骤, 步骤S1101是对声音进行数字采样,步骤S1102是对采样后的数据带通滤波,步骤S1103是对 滤波后的数据分片。 具体地,对步骤S1101,在采样时,采样频率高于预期目标声音频率的4倍。 对于步骤S1102,在滤波时,以直升机起飞所需的最小旋翼转速为下边界,以直升 机平稳飞行时旋翼的最大转速为上边界; 对于步骤S1103,分片是将无限长的声音信号,分成相互重叠的声音信号段,且在 时间上,相互重叠的长度不小于单个声音信号段长度的 优选地,在分片时,相互重叠的长度为单个声音信号段长度的 对预处理后的数据,在步骤S12中,对其进行时频分析,得到时频图像。时频分析方 法可以有多种选择,但是不选用Mel频率倒谱变换。 优选地,时频分析方法选择短时Fourier变换; 次优选地,时频分析方法选择Choi-Williams变换。 具体地,时频图像是时频变换后的浮点矩阵,或者将浮点矩阵处理后,转换为的单 通道JPEG图像。 一种转换实施例方法是 其中v是浮点矩阵的一个位点数值, vmax是浮点矩阵中最大的数值,vmin是浮点矩阵中最小的数值,int(·)是求整数运算。 对步骤S12得到的时频图像,步骤S13进行检测处理,并将检测结果写入数据库10。 参照图3,对步骤S13的实施例流程进行详细说明。检测网络包含三个部分,步骤 S1301利用卷积神经网络提取时频特征,步骤S1302将卷积神经网络提取的时频特征,重新 排列整理,步骤S1303将重新排列的时频特征送入循环神经网络,得到检测结果,写入数据 库10。 具体地,对步骤S1301,参照图4,对卷积神经网络提取时频特征的一种实施例流程 说明。卷积神经网络处理流程由多个卷积块S130101和池化S130102交替构成。 一方面,卷积块S130101由多种不同的卷积核组成。 另一方面,随着处理深度的增加,卷积块S130101的通道数量成倍数增加。 卷积块S130101的一种实施方式是一个大小为3×3卷积核,其步长为1,通道数为 30; 卷积块S130101的另一种实施方式是由大小为3×1卷积核和大小为1×3卷积核, 先后级联构成,其中每个卷积核的步长为1,通道数为60; 池化S130102仅对频域维度池化,时间维度不变。或者时间维度的池化步长小于频 域维度。 优选地,池化大小为3×3,频域维度池化步长为2,时间维度池化步长为1。 将卷积后得到的时频特征有三个维度,维度为f×t×c,其中f是频域维度数,t是 时间维度数,c是通道维度数。 接着,步骤S1302,对时频特征重整。将同一个时间点上,维度为f×c的二维矩阵, 5 CN 111572809 A 说 明 书 4/4 页 转为维度为c×f的一维向量。时频特征维数变为维度为(c×f)×t,其中c×f是频域维度 数,t是时间维度数。 将步骤S1302重整后的时频特征,送入步骤S1303,利用循环神经网络检测目标声 音。 具体地,参照图5,对循环神经网络提取时频特征的一种实施例流程说明。循环神 经网络处理流程由多个循环单元S130301和输出层S130302构成。 循环单元S130301对于每个时刻的输入均有输出,每个时刻,输出向量的大小是输 入维度的1/4到1/2之间。 循环单元S130301的一种实施例是门控循环单元,每个时刻,均有输出,输出向量 的大小是输入维度1/2。 输出层S130302是全连接层,输出是以one-hot形式编码的二维向量,代表存在目 标概率和不存在概率。其中存在目标概率和不存在概率的和为1。当存在目标概率大于阈值 时,表示存在飞行的直升机,否则不存在。 本发明中的检测网络在训练时,采用常用随机梯度下降法,对卷积神经网络和循 环神经网络同时进行训练。 以上实例用以说明而非限制本发明的技术方案。不脱离本发明精神和范围的任何 修改和替换,均应涵盖在本发明的权利要求范围中。 6 CN 111572809 A 说 明 书 附 图 1/3 页 图1 图2 7 CN 111572809 A 说 明 书 附 图 2/3 页 图3 图4 8 CN 111572809 A 说 明 书 附 图 3/3 页 图5 9