技术摘要:
本发明公开了一种视频社会语义分类方法,包括对待分类的视频进行分帧;获取每帧图片的HSV三维特征向量;截取每帧图片中的人脸图片,并获取人脸图片的RGB特征向量;将待分类视频的HSV三维特征向量和RGB特征向量输入训练好的三维卷积神经网络模型,获得待分类视频社会语 全部
背景技术:
人工智能在视频上的应用主要一个课题是视频理解,努力解决“语义鸿沟”的问 题,其中包括了:视频结构化分析:即是对视频进行帧、超帧、镜头、场景、故事等分割,从而 在多个层次上进行处理和表达;目标检测和跟踪:如车辆跟踪,多是应用在安防领域;人物 识别:识别出视频中出现的人物;动作识别:Activity Recognition,识别出视频中人物的 动作;情感语义分析:即观众在观赏某段视频时会产生什么样的心理体验。短视频、直播视 频中大部分承载的是人物 场景 动作 语音的内容信息,如何用有效的特征对其内容进行 表达是进行该类视频理解的关键。 深度学习对图像内容的表达能力十分不错,在视频的内容表达上也有相应的方 法。最近几年主流的方法包括基于单帧的识别方法、基于CNN扩展网络的识别方法、双路CNN 的识别方法和基于LSTM的识别方法。但是现在很少有从情感语义的角度对视频进行分类的 方法
技术实现要素:
本发明提供了一种视频社会语义分类方法及系统,解决了