logo好方法网

一种基于场景的关键信息提醒方法、系统及装置


技术摘要:
本发明提供一种关键信息提醒方法、系统及嵌入式音频播放装置,相对现有技术,其中的嵌入式音频播放装置可独立完成基于场景的连续语音关键信息实时检测、提醒、录制和回放,使用方便、便捷且私密性好。其中的关键信息提醒系统和提醒方法,预先根据当前应用场景的实际需  全部
背景技术:
当前,互联网、移动通信网络已经进入千家万户,遍布人们生活的角角落落。基于 这些远程通信平台的网络会议、网络教学、网络商务洽谈、网络销售等各种远程音视频应用 也随着计算机网络技术、音视频处理技术和以片上系统SoC为核心的嵌入式设备等相关技 术和产品的高度成熟而日渐兴起。这些配合手机、耳机、平板电脑、音箱等嵌入式设备使用 的远程音视频应用,完全打破了地域的限制,使身处异地的人们可以随时实现实时的语音 和视频的交流互动,为人们的生产生活提供了极大的便利。例如在当前疫情汹涌的情势下, 学生通过网络教学平台得以继续在家上课。学生们经常会通过头戴式耳机参加网课,并在 授课过程戴着耳机在一定范围内随意走动。但不利的是,网络教学时因为缺少课堂氛围,老 师也无法及时观察到每个孩子的听课状态,因此非常依赖学生个人的自律性。而学生一旦 走神或私下玩耍,就没有人能够给予及时提醒和纠正,而老师传授的课业内容也被错过了。 这种情形在网络视频会议时其实也类似地存在,例如会议中因为私事的打扰或者接听电话 等,而错失会议的关键的语音信息。通常,在手机或者电脑上的网课、视频会议软件中没有 针对对端说话者的内容的关键信息提醒功能。即使有,本地用户也未必在手机或电脑边上。 因此,非常有必要在头戴式耳机或者音箱这类最贴近本地用户的手机或电脑的附属型设备 中直接实现关键信息提醒的功能,使本地用户的思维能在第一时间内被拉回网课或视频会 议。 近年来,语音识别技术被越来越多的用于语音监测和识别重要信息中。特别是在 摩尔定律和大数据的强力支撑下,基于人工智能技术的语音识别已经从浅层识别迈入了深 度学习阶段。基于深度学习理论和神经网络模型的语音识别技术可输出更高正确率的识别 结果,因此在智能语音唤醒、智能语音控制、智能语音对话等诸多领域被广泛应用。 但发明人深入研究后发现,如果将人工智能的语音识别技术用于当前远程音视频 应用中实现关键语音信息提醒功能,却存在诸多技术瓶颈,例如: 第一方面,人工智能的语音识别技术中,语音识别模型是保障识别准确率的关键。 而现在的各种智能语音唤醒、智能语音控制、智能语音对话技术应用中,往往都是采用通用 版的语音识别模型,即由设备/应用的提供方预先完成语音识别模型的训练,重要信息的判 断标准、训练样本的选择,全部都由设备/应用的提供方决定。如果将这种通用版的语音识 别模型简单用于远程音视频应用中,难以适应各种不同的应用场景,甚至可能因为无法保 障识别准确率而导致糟糕的用户体验。 第二方面,人工智能的语音识别技术,特别是深度学习技术的实现,需要大量高精 度计算,这依赖于硬件系统在内存、计算开销和功耗等方面的强大支撑。因此目前这类技术 大多是用在GPU、FPGA等高成本、高功耗、高性能的大型专用计算平台上,而在普通消费者使 5 CN 111601215 A 说 明 书 2/16 页 用得最多的各种低功耗、低性能的嵌入式设备(如耳机、便携式音箱、电话手表、会议终端设 备等等手机或电脑的附属型设备)进行不依赖于手机或者云端的、独立的关键词识别却非 常少见,或者仅采用较简单的孤立词或者固定关键词集合,限定句型识别等技术,实现一些 简单、低层次的语音识别功能,如,简单的语音唤醒、智能家居语音控制等,却未能在复杂且 连续的语音流中实现关键语音信息提醒功能。如目前市场上为大家所熟知的一些智能语音 助理,均是将嵌入式设备采集到的语音流上载到手机或者云端后进行识别,通常只能实现 单一语句的语音识别;而将采集的语音流上传到云端或远端设备识别后再返回结果,通常 因延时长而导致用户体验差,并且用户的隐私难以得到保障。究其原因,其中很重要的一点 是嵌入式设备硬件算力和功耗限制,难以为现行的大词汇量连续语音识别技术提供足够的 支撑。 第三方面,目前的消费领域的语音识别,均是对本地输入的语音流进行关键词或 者全语音的识别后进行一定的交互,缺少在特定场景中对另一方向的/来自于远端的语音 进行感兴趣关键词识别后进行提醒的功能。 因此有必要提出一种基于场景的关键信息提醒技术,以解决上述的至少一个技术 缺陷。
技术实现要素:
有鉴于此,本发明提出一种关键信息提醒方法、设备、系统及嵌入式音频播放装 置,可以有效提醒用户注意关键信息。 为实现上述目的,作为本发明的第一方面,提供一种嵌入式音频播放装置,包括扬 声器和通信单元,还包括控制单元、存储单元、语音识别单元及提醒单元, 所述通信单元接收来自远端的音频流; 所述语音识别单元包括关键词识别模型单元,所述关键词识别模型单元用于存储 基于场景的关键词识别模型; 所述关键词和应用场景关联,其中包含一组在该应用场景中需要重点关注的词 汇,所述词汇中的一个或多个由用户预先指定; 所述语音识别单元自所述音频流中提取语音信号,并采用所述基于场景的关键词 识别模型实时检测所述语音信号中是否包含所述关键词; 所述控制单元用于在所述语音信号中包含关键词时,开始录制所接收的音频流, 并控制所述提醒单元输出关键信息提醒; 所述存储单元用于存储被录制的音频流; 所述扬声器用于播放所述音频流,或响应于回放指令,回放所录制的音频流。 优选的,所述基于场景的关键词识别模型可以为预先基于包含针对所述关键词的 语音样本,和/或针对所述关键词的特定人的语音样本的训练样本库,采用深度学习算法训 练获得; 所述控制单元还可以用于通过所述通信单元自远端下载所述基于场景的关键词 识别模型。 优选的,所述语音识别单元还可以包括语音预处理单元,用于对输入的音频流进 行预处理,以消除噪声、背景人声、音乐声,提取语音信号; 6 CN 111601215 A 说 明 书 3/16 页 优选的,所述语音识别单元还可以包括神经网络处理单元,用于基于所述关键词 识别模型,采用深度学习算法对所述语音信号或所述语音预处理单元处理后的语音信号进 行数据处理,从而对语音信号中出现的词汇进行推理和判决,以确定其中是否包含关键词 词汇。 优选的,所述提醒单元可以为指示灯模组、振动器模组、文字消息生成模组、语音 消息生成模组、音乐消息生成模组中的一种或多种。 进一步的,还可以包括输入单元,用于接收用户输入的录制停止指令、回放指令; 所述控制单元在所述语音信号中包含关键词时,可以开始对接收到的音频流进行 持续压缩编码并本地存储; 所述控制单元在接收到录制停止指令或持续录制时间超过第一预定时长时,可以 停止录制; 所述控制单元在接收到回放本地音频指令时,可以播放本地存储的录制音频流; 进一步的,所述控制单元还可以用于在所述语音信号中包含关键词时,向远端发 送录制开始指令,用于使远端开始对所发送的音频流持续录制,当持续录制时间未超过第 二预定时长且接收到停止录制指令时,向远端发送录制停止指令; 所述控制单元在接收到回放远端音频指令时,可以向远端发送回放请求,并接收 和播放远端存储的录制音频流。 优选的,所述嵌入式音频播放装置为耳机或带通话功能的音箱。 作为本发明的第二方面,提供一种关键信息提醒系统,包括嵌入式音频播放装置 和远端设备, 所述远端设备接收用户自定义的关键词词汇,和/或用户提供的、至少包含所述关 键词的特定人的语音样本,以用于获取基于场景的关键词识别模型;所述关键词和应用场 景关联,其中包含一组在该应用场景中需要重点关注的词汇; 所述基于场景的关键词识别模型为预先基于包含针对所述关键词的语音样本, 和/或针对所述关键词的特定人的语音样本的训练样本库,训练获得; 所述嵌入式音频播放装置与所述远端设备通信,接收来自远端设备的音频流,并 播放; 所述嵌入式音频播放装置还自所述音频流中获取语音信号,并采用基于场景的关 键词识别模型针对所述语音信号进行语音识别,实时检测所述语音信号中是否包含关键 词; 当所述语音信号中包含关键词时,所述嵌入式音频播放装置产生关键信息提醒, 并开始录制所接收的音频流; 所述嵌入式音频播放装置响应于回放指令,播放所录制的音频流。 进一步的,还可以包括云服务器, 所述远端设备与所述云服务器通信,将所述关键词和/或特定人的语音样本发送 至所述云服务器; 所述云服务器将接收到的关键词和/或所述特定人的语音样本用于对其标准样本 库进行扩充形成训练样本库,并基于所述训练样本库,采用深度学习算法训练获得所述基 于场景的关键词识别模型; 7 CN 111601215 A 说 明 书 4/16 页 所述远端设备接收来自所述云服务器的基于场景的关键词识别模型,并将所述基 于场景的关键词识别模型下载至所述嵌入式音频播放装置。 优选的,所述远端设备将用户输入的关键词词汇和/或用户提供的至少包含所述 关键词的特定人的语音样本用于对标准样本库进行扩充,形成训练样本库,并基于所述训 练样本库,采用深度学习算法训练获得所述基于场景的关键词识别模型; 所述远端设备将所述基于场景的关键词识别模型下载至所述嵌入式音频播放装 置。 作为本发明的第三方面,提供一种关键信息提醒方法,其中, 接收用户自定义的关键词词汇,和/或用户提供的、至少包含所述关键词的特定人 的语音样本;所述关键词和应用场景关联,包含一组在该应用场景中需要重点关注的词汇; 基于包含针对所述关键词的语音样本,和/或针对所述关键词的特定人的语音样 本的训练样本库,训练获得所述基于场景的关键词识别模型; 在接收和播放音频流时,自所述音频流中获取语音信号; 采用所述基于场景的关键词识别模型针对所述语音信号进行语音识别,实时检测 所述语音信号中是否包含关键词; 当所述语音信号中包含关键词时,产生关键信息提醒,并开始录制所接收的音频 流; 响应于回放指令,播放所录制的音频流。 优选的,预先采集广泛的语音样本,形成标准样本库; 根据所述关键词获取至少包含所述关键词的语音样本; 将所述包含所述关键词的语音样本和/或所述特定人的语音样本扩充至所述标准 样本库,形成训练样本库,基于所述训练样本库采用深度学习算法训练获得所述基于场景 的关键词识别模型。 进一步的,所述的自所述音频流中获取语音信号步骤中,还可以包括消除噪声、音 乐声、背景人声的预处理步骤; 优选的,所述采用所述基于场景的关键词识别模型针对所述语音信号或预处理后 的语音信号进行语音识别,实时检测所述语音信号中是否包含关键词,具体可以包括:构建 基于所述关键词识别模型的深度学习神经网络,将语音信号连续输入所述深度学习神经网 络进行数据处理,以对所述语音信号中出现的词汇进行推理和判决,确定其中是否包含关 键词词汇。 优选的,所述录制所接收的音频流,具体可以包括:在所述语音信号中包含关键词 时,开始对接收到的音频流进行持续压缩编码并本地存储; 接收到录制停止指令或持续录制时间超过第一预定时长时,停止本地录制; 所述响应于回放指令,播放所录制的音频流,具体包括:响应于回放本地音频指 令,播放本地存储的录制音频流。 优选的,所述录制所接收的音频流,具体可以包括:在所述语音信号中包含关键词 时,向远端发送录制开始指令,远端开始对所发送的音频流持续录制,并进行远端存储; 持续录制时间未超过第二预定时长且接收到停止录制指令时,向远端发送录制停 止指令,远端停止录制; 8 CN 111601215 A 说 明 书 5/16 页 所述响应于回放指令,播放所录制的音频流,具体包括:响应于回放远端音频指 令,向远端发送回放请求,并接收和播放远端存储的录制音频流。 优选的,所述关键信息提醒可以为视觉提醒、触觉提醒和听觉提醒中的一种或多 种形式的组合; 所述视觉提醒包括光效提醒、远端文字消息提醒; 所述触觉提醒包括振动提醒; 所述听觉提醒包括语音提醒、音乐提醒 本发明的有益效果是:相对现有技术,本发明所提供的嵌入式音频播放设备,可独 立完成基于场景的连续语音关键信息实时检测、提醒、录制和回放,使用方便、便捷且私密 性好。本发明所提供的关键信息提醒系统和提醒方法,预先根据当前应用场景的实际需求 及用户自行定制的关键词或训练样本,训练获得与应用场景高度契合的关键词识别模型, 因此可有效提高识别连续语音流中的关键信息准确率,并针对当前应用场景应当重点关注 的信息和用户感兴趣的信息及时输出提醒并保存,用户体验度极好。 附图说明 为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用 的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本 领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的 附图。 图1为本发明实施例1的关键信息提醒方法的流程图; 图2为本发明实施例2的嵌入式音频播放装置的电路原理方框图; 图3为本发明实施例3的关键信息提醒系统的系统架构图。
下载此资料需消耗2积分,
分享到:
收藏