logo好方法网

一种基于音视频分离的智能拆条方法

技术摘要:
本发明公开了一种基于音视频分离的智能拆条方法,具体步骤为:从输入视频中,分离出音频和视频流;使用对象跟踪技术对视频进行场景切分,粗分出场景片段;对各场景片段对应的音频片段进行语音识别,根据识别出的文本细分场景片段;或者根据音频的节奏、声纹等信息进行  全部
背景技术:
在移动互联网、大数据、AI智能的技术驱动下,短视频正以其自身优势,打破内容 行业的传统思路。随着5G技术的发展,平台运营成本降低,移动端网速大幅提升,短视频井 喷的流量和突出的营销效应,使得用户的社交活跃性和使用黏性大大提升,越来越符合移 动用户时间碎片化的体验。但同时,如何根据不同性质的内容信息,将长视频精准拆条成多 段独立的短视频,成为一个亟待解决的问题。传统的长视频拆条方式,需要投入大量的人工 进行手动预览拆分视频,耗时耗力,无法在短时间内批量地深度挖掘同质同类内容并验证 其重复性,对精准的用户传播造成了很大阻碍。
技术实现要素:
本发明的目的在于针对现有技术的缺陷和不足,提供一种基于音视频分离的智能 拆条方法。 为实现上述目的,本发明采用的技术方案是:它包含如下步骤: 一、从输入视频中,分离出音频和视频流,并根据时间戳来同步音频与视频流; 二、使用对象跟踪技术对视频进行场景切分,粗分出场景片段; 三、对各场景片段对应的音频片段进行语音识别,根据识别出的文本细分场景片 段:对于可识别出文本的场景片段,通过文本分类方式,分离文字段落,根据段落细分每个 场景片段;对于不能识别出文本的场景片段,执行步骤四; 四、根据音频的节奏、声纹等信息,进行场景片段细分; 五、利用深度学习技术,基于视频理解,对视频片段打标签; 六、返回带有标签的视频拆条片段。 进一步地,步骤四中根据音频的节奏、声纹等信息,进行场景片段细分的具体方法 为:对于不能识别出文本的场景片段,每隔N秒钟取一个分段,使用GRU(Gated  Recurrent  Unit)网络识别各分段的旋律节奏、情感、流派、声纹等组合特征,将相邻特征误差在R范围 内的分段作为连续片段,从场景片段中拆分出来。 进一步地,步骤五中利用深度学习技术,基于视频理解,对视频片段打标签的具体 方法为:对步骤三与步骤四中从场景片段细分出的视频片段,使用深度3D卷积神经网络提 取片段的时空信息,并进行场景识别、动作捕捉、情感分析等,提取出场景信息、对象信息、 人物表情、运动信息等,作为视频片段的标签信息。 采用上述方案后,本发明有益效果为:本发明所述的一种基于音视频分离的智能 拆条方法,根据不同性质的内容信息,将长视频精准拆条成多段独立的短视频,并能在短时 间内批量地深度挖掘同质同类内容并验证其重复性,视频拆条的效率及准确率高。 3 CN 111586494 A 说 明 书 2/2 页
下载此资料需消耗2积分,
分享到:
收藏