一种表情识别模型的训练方法、装置及设备-好方法网

技术摘要：
一种表情识别模型的训练方法、装置及设备，涉及人工智能的技术领域，可以提升表情识别模型识别结果的稳定性和准确率，该方法包括：根据M个第一图像得到人脸表情微变且与原第一图像属于同一类表情的N个第二图像，将M个第一图像和N个第二图像分别输入到预训练模型中，得全部
背景技术：
人脸表情识别作为计算机视觉中的一个基础问题，在当今市场上有着广泛的应用前景，受到了很多关注。在涉及到人机交互的应用场景中，如看护、线上课程等，人脸表情识别可用于对用户状态进行实时跟踪，从而完成对服务质量的及时反馈和有效评估，起到了十分重要的作用。然而，基于深度学习的方法往往会面对鲁棒性和稳定性的挑战。例如，在一个微笑表情中加入如嘴角微微下坠，或者眼角微微上扬等细小变化后仍然是一种微笑表情，即细小变化前后的表情应该被算法识别为同一种表情。然而，深度学习算法往往难以完成这种目标，人脸表情类似的细小变化对算法识别结果的影响很大，造成人脸表情识别算法的准确率不高。
技术实现要素：
本申请提供的一种表情识别模型的训练方法、装置及设备，可以提升表情识别模型识别结果的稳定性和准确率。为了实现上述目的，本申请实施例提供了以下技术方案：第一方面、提供一种表情识别模型的训练方法，包括：根据M个包含人脸的第一图像，生成N个第二图像，其中，M个第一图像中各个图像分别对应N个第二图像中的一个或多个；N个第二图像中每个第二图像中人脸相较于对应的第一图像中的人脸发生变化，且N个第二图像中每个第二图像的人脸和对应的第一图像的人脸属于同一类表情；将M个第一图像和N个第二图像分别输入到预训练模型中，得到M个第一图像的M个第一表情预测结果，以及N个第二图像的N个第二表情预测结果；分别计算M个第一图像中各个图像的第一表情预测结果与对应的第二图像的第二表情预测结果的距离；若M个第一图像中P个图像的第一表情预测结果与对应的第二图像的第二表情预测结果的距离小于或等于阈值，则使用M个第一图像中P个图像的第一表情预测结果训练预训练模型，以得到目标模型；其中，M、N、P为正整数，且P小于或等于M。也就是说，先根据采集的包含人脸的训练图像，即第一图像，生成面部发生微小变化的且与原第一图像属于同一类表情的第二图像。然后，将第一图像和其对应的第二图像输入到预训练模型中，得到二者的预测结果。然后，根据二者预测结果之间的距离，确定出预测结果波动较大的第一图像，确定为不可靠的第一图像。不可靠的第一图像的预测结果，为不可靠的预测结果。其中，预测结果波动较大的第一图像，是指该第一图像的预测结果，与根据该第一图像生成的样本的预测结果相差较大。反之，预测结果波动不大的第一图像，为可靠的第一图像。可靠的第一图像的预测结果为可靠的预测结果。而后，使用可靠的预测结果进一步训练预训练模型，以得到表情识别模型。 5 CN 111611852 A 说　明　书 2/18 页由此可见，使用本申请实施例的训练方法得到的表情识别模型，对于面部的微小变化的识别结果不会呈现较大的波动。也就是说，两张仅面部发生微小变化的图像会被识别为同一类表情。即，提升了表情识别模型的稳定性，提高了表情识别模型识别的准确率。一种可能的实现方式中，阈值为M个第一图像中各个图像的第一表情预测结果与对应的第二图像的第二表情预测结果的距离的平均值或中值。一种可能的实现方式中，其特征在于，距离为欧式距离或散度。一种可能的实现方式中，根据M个包含人脸的第一图像，生成N个第二图像，包括：将M个包含人脸的第一图像输入到生成模型中，得到N个第二图像；其中，生成模型为具有 ResBlock结构的自编码器模型，和/或，生成模型为解码器的神经网络层数大于编码器的神经网络层数的自编码器模型。需要注意的是，若直接采用传统的自编码器模型训练得到的生成模型，生成模型生成的图像模糊。因此，为了提升生成模型根据输入图像重建新图像的能力，提升重建新图像的清晰度，本申请实施例对使用的传统的自编码器模型的网络结构进行优化。在一个示例中，可以将传统的自编码器模型(包括编码器模块和解码器模块)中的卷积层替换为ResBlock结构，以加大模型的复杂度，提升模型生成图像的清晰度。在另一个示例中，也可以将传统的自编码器模型中解码器模块每一层的卷积层后增加一层或多层相同的卷积层。在又一个示例中，也可以将传统的自编码器模型(包括编码器模块和解码器模块)中的卷积层替换为ResBlock结构，而后将解码器模块中每一层的ResBlock结构后增加一层或多层相同的ResBlock结构。一种可能的实现方式中，该方法还包括：在训练生成模型的过程中，使用二范数损失和感知损失进行约束。示例性的，在训练生成模型的过程中，为了使得生成模型输出的图像与原始输入的图像样本的尺寸一致，可以先采用二范数损失进行约束，以快速地保证生成模型输入图像和输出图像接近，但可能导致输出图像模糊。因此，在训练得到较好的生成模型后，可以采用感知损失进行约束，以获得提升生成模型生成图像的质量。同时，加入判别器进行对抗训练，提升辅助生成模型生成图像的真实性。在一示例中，在计算感知损失时，可以先采用现有技术预先训练出一个表情识别模型，然后使用该预训练的表情识别模型计算感知损失，以使得生成模型的输出图像和输入图像为同一类表情，而且表情无关的因素不会对损失造成影响。第二方面、提供一种表情识别的方法，包括：接收输入的待识别表情的图像，利用表情识别模型对待识别表情的图像进行表情识别，输出待识别表情的图像对应的表情类别；其中，表情识别模型为根据分批次输入的包含人脸的第一图像和预训练模型迭代训练得到；其中每一批次包括M个第一图像；并且，在每一批次的训练过程中，根据M个第一图像生成N个第二图像，其中，M个第一图像中各个图像分别对应N个第二图像中的一个或多个；N 个第二图像中每个第二图像中人脸相较于对应的第一图像中的人脸发生变化，且N个第二图像中每个第二图像的人脸和对应的第一图像的人脸属于同一类表情；将M个第一图像和N 个第二图像分别输入到预训练模型中，得到M个第一图像的M个第一表情预测结果，以及N个第二图像的N个第二表情预测结果；分别计算M个第一图像中各个图像的第一表情预测结果与对应的第二图像的第二表情预测结果的距离；若M个第一图像中P个图像的第一表情预测 6 CN 111611852 A 说　明　书 3/18 页结果与对应的第二图像的第二表情预测结果的距离小于或等于阈值，则使用M个第一图像中P个图像的第一表情预测结果训练预训练模型，其中，M、N、P为正整数，且P小于或等于M。一种可能的实现方式中，阈值为M个第一图像中各个图像的第一表情预测结果与对应的第二图像的第二表情预测结果的距离的平均值或中值。一种可能的实现方式中，距离为欧式距离或散度。一种可能的实现方式中，根据M个第一图像生成N个第二图像，包括：将M个第一图像输入到生成模型中，得到N个第二图像；其中，生成模型为具有ResBlock结构的自编码器模型，和/或，生成模型为解码器的神经网络层数大于编码器的神经网络层数的自编码器模型。一种可能的实现方式中，该方法还包括：在训练生成模型的过程中，使用二范数损失和感知损失进行约束。第三方面、提供一种表情识别模型的训练装置，包括生成单元、计算单元和训练单元；生成单元，用于根据M个包含人脸的第一图像，生成N个第二图像，其中，M个第一图像中各个图像分别对应N个第二图像中的一个或多个；N个第二图像中每个第二图像中人脸相较于对应的第一图像中的人脸发生变化，且N个第二图像中每个第二图像的人脸和对应的第一图像的人脸属于同一类表情；计算单元，用于将M个第一图像和N个第二图像分别输入到预训练模型中，得到M个第一图像的M个第一表情预测结果，以及N个第二图像的N个第二表情预测结果；计算单元，还用于分别计算M个第一图像中各个图像的第一表情预测结果与对应的第二图像的第二表情预测结果的距离；训练单元，用于若M个第一图像中P个图像的第一表情预测结果与对应的第二图像的第二表情预测结果的距离小于或等于阈值，则使用M 个第一图像中P个图像的第一表情预测结果训练预训练模型，以得到目标模型；其中，M、N、P 为正整数，且P小于或等于M。一种可能的实现方式中，阈值为M个第一图像中各个图像的第一表情预测结果与对应的第二图像的第二表情预测结果的距离的平均值或中值。一种可能的实现方式中，距离为欧式距离或散度。一种可能的实现方式中，根据M个包含人脸的第一图像，生成N个第二图像，包括：将M个包含人脸的第一图像输入到生成模型中，得到N个第二图像；其中，生成模型为具有 ResBlock结构的自编码器模型，和/或，生成模型为解码器的神经网络层数大于编码器的神经网络层数的自编码器模型。一种可能的实现方式中，训练单元，还用于在训练生成模型的过程中，使用二范数损失和感知损失进行约束。第四方面、一种表情识别的装置，包括接收单元、计算单元和输出单元，接收单元，用于接收输入的待识别表情的图像；计算单元，用于利用表情识别模型对接收单元接收到的待识别表情的图像进行表情识别；输出单元，用于输出计算单元识别出的待识别表情的图像对应的表情类别；其中，表情识别模型为根据分批次输入的包含人脸的第一图像和预训练模型迭代训练得到；其中，每一批次包括M个第一图像；并且，在每一批次的训练过程中，根据M个第一图像生成N个第二图像，其中，M个第一图像中各个图像分别对应N个第二图像中的一个或多个；N个第二图像中每个第二图像中人脸相较于对应的第一图像中的人脸发生变化，且N个第二图像中每个第二图像的人脸和对应的第一图像的人脸属于同一类表 7 CN 111611852 A 说　明　书 4/18 页情；将M个第一图像和N个第二图像分别输入到预训练模型中，得到M个第一图像的M个第一表情预测结果，以及N个第二图像的N个第二表情预测结果；分别计算M个第一图像中各个图像的第一表情预测结果与对应的第二图像的第二表情预测结果的距离；若M个第一图像中P 个图像的第一表情预测结果与对应的第二图像的第二表情预测结果的距离小于或等于阈值，则使用M个第一图像中P个图像的第一表情预测结果训练预训练模型，其中，M、N、P为正整数，且P小于或等于M。一种可能的实现方式中，阈值为M个第一图像中各个图像的第一表情预测结果与对应的第二图像的第二表情预测结果的距离的平均值或中值。一种可能的实现方式中，距离为欧式距离或散度。一种可能的实现方式中，根据M个第一图像生成N个第二图像，包括：将M个第一图像输入到生成模型中，得到N个第二图像；其中，生成模型为具有ResBlock结构的自编码器模型，和/或，生成模型为解码器的神经网络层数大于编码器的神经网络层数的自编码器模型。一种可能的实现方式中，计算单元，还用于在训练生成模型的过程中，使用二范数损失和感知损失进行约束。第五方面、提供一种计算机可读存储介质，包括计算机指令，当计算机指令在移动终端上运行时，使得移动终端执行如上述方面及其中任一种可能的实现方式中所述的方法。第六方面、提供一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行如上述方面中及其中任一种可能的实现方式中所述的方法。第七方面、提供一种服务器或终端，包括：处理器和存储器，所述存储器与所述处理器耦合，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，当所述处理器从所述存储器中读取所述计算机指令，以使得所述服务器或终端执行上述方面中及其中任一种可能的实现方式中所述的方法。第八方面、提供一种芯片系统，包括处理器，当处理器执行指令时，处理器执行如上述方面中及其中任一种可能的实现方式中所述的方法。附图说明图1为本申请实施例提供的一种数据处理系统的结构示意图；图2A为本申请实施例提供的另一种数据处理系统的结构示意图；图2B为本申请实施例提供的一种表情识别模型的网络结构示意图；图3为本申请实施例提供的一种芯片系统的结构示意图；图4为本申请实施例提供的一种训练设备的结构示意图；图5为本申请实施例提供的一种表情识别模型的训练方法的流程示意图；图6A为现有技术中的一种自变量器的网络结构示意图；图6B为本申请实施例提供的一种优化后的自变量器的网络结构示意图；图7为本申请实施例提供的一种表情识别模型的网络结构示意图；图8为本申请实施例提供的一种样本选择模型/算法的结构示意图；图9为本申请实施例提供的一种训练装置的结构示意图； 8 CN 111611852 A 说　明　书 5/18 页图10为本申请实施例提供的一种识别装置的结构示意图；图11为本申请实施例提供的一种芯片系统的结构示意图。

相关推荐