一种基于音视频分离的智能拆条方法-好方法网

技术摘要：
本发明公开了一种基于音视频分离的智能拆条方法，具体步骤为：从输入视频中，分离出音频和视频流；使用对象跟踪技术对视频进行场景切分，粗分出场景片段；对各场景片段对应的音频片段进行语音识别，根据识别出的文本细分场景片段；或者根据音频的节奏、声纹等信息进行全部
背景技术：
在移动互联网、大数据、AI智能的技术驱动下，短视频正以其自身优势，打破内容行业的传统思路。随着5G技术的发展，平台运营成本降低，移动端网速大幅提升，短视频井喷的流量和突出的营销效应，使得用户的社交活跃性和使用黏性大大提升，越来越符合移动用户时间碎片化的体验。但同时，如何根据不同性质的内容信息，将长视频精准拆条成多段独立的短视频，成为一个亟待解决的问题。传统的长视频拆条方式，需要投入大量的人工进行手动预览拆分视频，耗时耗力，无法在短时间内批量地深度挖掘同质同类内容并验证其重复性，对精准的用户传播造成了很大阻碍。
技术实现要素：
本发明的目的在于针对现有技术的缺陷和不足，提供一种基于音视频分离的智能拆条方法。为实现上述目的，本发明采用的技术方案是：它包含如下步骤：一、从输入视频中，分离出音频和视频流，并根据时间戳来同步音频与视频流；二、使用对象跟踪技术对视频进行场景切分，粗分出场景片段；三、对各场景片段对应的音频片段进行语音识别，根据识别出的文本细分场景片段：对于可识别出文本的场景片段，通过文本分类方式，分离文字段落，根据段落细分每个场景片段；对于不能识别出文本的场景片段，执行步骤四；四、根据音频的节奏、声纹等信息，进行场景片段细分；五、利用深度学习技术，基于视频理解，对视频片段打标签；六、返回带有标签的视频拆条片段。进一步地，步骤四中根据音频的节奏、声纹等信息，进行场景片段细分的具体方法为：对于不能识别出文本的场景片段，每隔N秒钟取一个分段，使用GRU(Gated Recurrent Unit)网络识别各分段的旋律节奏、情感、流派、声纹等组合特征，将相邻特征误差在R范围内的分段作为连续片段，从场景片段中拆分出来。进一步地，步骤五中利用深度学习技术，基于视频理解，对视频片段打标签的具体方法为：对步骤三与步骤四中从场景片段细分出的视频片段，使用深度3D卷积神经网络提取片段的时空信息，并进行场景识别、动作捕捉、情感分析等，提取出场景信息、对象信息、人物表情、运动信息等，作为视频片段的标签信息。采用上述方案后，本发明有益效果为：本发明所述的一种基于音视频分离的智能拆条方法，根据不同性质的内容信息，将长视频精准拆条成多段独立的短视频，并能在短时间内批量地深度挖掘同质同类内容并验证其重复性，视频拆条的效率及准确率高。 3 CN 111586494 A 说　明　书 2/2 页

相关推荐