logo好方法网

语音助手的实现方法、装置及计算机存储介质


技术摘要:
本公开是关于一种语音助手的实现方法、装置及计算机存储介质,涉及终端设备的智能语音技术。本公开提供一种语音助手的实现方法,应用于终端设备中,包括:从终端设备正在进行的通话业务的音频流中,检测用于唤醒语音助手的音频信息;当检测到音频信息时,唤醒语音助手  全部
背景技术:
智能语音助手在手机、轿车和电视等设备中有很多的应用。相关技术中,智能语音 助手一般利用语音识别ASR(Automatic  Speech  Recognition)、语音合成TTS(Text  ToSpeech)、自然语言处理NLP(Natural  Language  Processing)及声纹识别等技术,实现对 使用者输入的语音形式信息进行意图识别及意图处理。
技术实现要素:
为克服相关技术中存在的问题,本公开提供一种语音助手的实现方法、装置及计 算机存储介质。 根据本公开实施例的第一方面,提供一种语音助手的实现方法,应用于终端设备 中,包括: 从终端设备正在进行的通话业务的音频流中,检测用于唤醒语音助手的音频信 息; 当检测到所述音频信息时,唤醒语音助手; 所述语音助手检测到语音指令时,识别所述语音指令触发的操作任务的类型,所 述操作任务的类型包括语音播报结果类型和数据处理类型; 所述操作任务的类型为语音播报结果类型时,根据所述操作任务的内容进行对应 操作,并将操作结果以音频格式插入所述通话业务的音频流中进行播报; 所述操作任务的类型为数据处理类型时,根据所述操作任务的内容进行对应的数 据处理操作。 其中,在上述语音助手的实现方法中,所述识别所述语音指令触发的操作任务的 类型,包括: 确定所述语音指令触发的操作任务属于预设的第一类任务时,识别所述语音指令 触发的操作任务的类型为语音播报结果类型,所述第一类任务至少包括智能语音输出和/ 或会议主持; 确定所述语音指令触发的操作任务属于预设的第二类任务时,识别所述语音指令 触发的操作任务的类型为数据处理类型,所述第二类任务至少包括多媒体信息传输、文本 记录和通话录音中的任一种。 其中,在上述语音助手的实现方法,还包括: 唤醒所述语音助手后,检测所述终端设备正在进行的通话业务的类型,所述通话 业务的类型包括一对一通话类型和一对多通话类型; 所述根据所述操作任务的内容进行对应操作,并将操作结果以音频格式插入所述 5 CN 111556197 A 说 明 书 2/13 页 通话业务的音频流中进行播报,包括: 所述通话业务的类型为一对一通话类型或一对多通话类型时,若确定所述操作任 务为智能语音输出时,提取所述操作任务的内容包含的关键词,确定所述关键词对应的智 能语音输出信息,将所述智能语音输出信息转换为音频数据,并插入所述通话业务的音频 流中进行播报; 所述通话业务的类型为一对多通话类型时,若确定所述操作任务为会议主持,则 根据所述操作任务的内容将预设的会议流程信息转换为音频数据,并插入所述通话业务的 音频流中进行播报。 其中,在上述语音助手的实现方法中,所述根据所述操作任务的内容进行对应的 数据处理操作,包括: 确定所述操作任务为信息传输时,根据所述操作任务的内容与通话业务的对端进 行数据传输; 确定所述操作任务为文本记录时,调用预设的具备有文本记录功能的应用,将所 述操作任务的内容存储至预设位置中; 确定所述操作任务为通话录音时,调用预设的具备录音功能的应用,根据所述操 作任务的内容对所述通话业务的音频流进行录音操作。 其中,在上述语音助手的实现方法,还包括: 预先存储智能语音输出与关键词的映射信息; 其中,将关键词存储为索引,将与所述关键词对应的智能语音输出信息存储为该 索引对应的输出值。 根据本公开实施例的第二方面,提供一种语音助手的实现装置,所述装置包括: 第一检测模块,用于从终端设备正在进行的通话业务的音频流中,检测用于唤醒 语音助手的音频信息; 唤醒模块,用于在检测到所述音频信息时,唤醒语音助手; 识别模块,用于在所述语音助手检测到语音指令时,识别所述语音指令触发的操 作任务的类型,所述操作任务的类型包括语音播报结果类型和数据处理类型; 第一处理模块,用于在所述操作任务的类型为语音播报结果类型时,根据所述操 作任务的内容进行对应操作,并将操作结果以音频格式插入所述通话业务的音频流中进行 播报; 第二处理模块,用于在所述操作任务的类型为数据处理类型时,根据所述操作任 务的内容进行对应的数据处理操作。 其中,上述语音助手的实现装置中,所述识别模块,包括: 第一类型识别子模块,用于在确定所述语音指令触发的操作任务属于预设的第一 类任务时,识别所述语音指令触发的操作任务的类型为语音播报结果类型,所述第一类任 务至少包括智能语音输出和/或会议主持; 第二类型识别子模块,用于在确定所述语音指令触发的操作任务属于预设的第二 类任务时,识别所述语音指令触发的操作任务的类型为数据处理类型,所述第二类任务至 少包括多媒体信息传输、文本记录和通话录音中的任一种。 其中,上述语音助手的实现装置,还包括: 6 CN 111556197 A 说 明 书 3/13 页 第二检测模块,用于唤醒所述语音助手后,检测所述终端设备正在进行的通话业 务的类型,所述通话业务的类型包括一对一通话类型和一对多通话类型; 所述第一处理模块,包括: 智能语音输出处理子模块,用于在所述通话业务的类型为一对一通话类型或一对 多通话类型时,若确定所述操作任务为智能语音输出,则提取所述操作任务的内容包含的 关键词,确定所述关键词对应的智能语音输出信息,将所述智能语音输出信息转换为音频 数据,并插入所述通话业务的音频流中进行播报; 会议主持处理子模块,用于在所述通话业务的类型为一对多通话类型时,若确定 所述操作任务为会议主持,则根据所述操作任务的内容将预设的会议流程信息转换为音频 数据,并插入所述通话业务的音频流中进行播报。 其中,上述语音助手的实现装置中,所述第二处理模块,包括: 信息传输子模块,用于在确定所述操作任务为信息传输时,根据所述操作任务的 内容与通话业务的对端进行数据传输; 文本存储子模块,用于在确定所述操作任务为文本记录时,调用预设的具备有文 本记录功能的应用,将所述操作任务的内容存储至预设位置中; 录音子模块,用于在确定所述操作任务为通话录音时,调用预设的具备录音功能 的应用,根据所述操作任务的内容对所述通话业务的音频流进行录音操作。 其中,上述语音助手的实现装置,还包括: 设置模块,用于预先存储智能语音输出与关键词的映射信息; 其中,将关键词存储为索引,将与所述关键词对应的智能语音输出信息存储为该 索引对应的输出值。 根据本公开实施例的第三方面,提供一种语音助手的实现装置,包括: 处理器; 用于存储处理器可执行指令的存储器; 其中,所述处理器被配置为: 从终端设备正在进行的通话业务的音频流中,检测用于唤醒语音助手的音频信 息; 当检测到所述音频信息时,唤醒语音助手; 在所述语音助手检测到语音指令时,识别所述语音指令触发的操作任务的类型, 所述操作任务的类型包括语音播报结果类型和数据处理类型; 所述操作任务的类型为语音播报结果类型时,根据所述操作任务的内容进行对应 操作,并将操作结果以音频格式插入所述通话业务的音频流中; 所述操作任务的类型为数据处理类型时,根据所述操作任务的内容进行对应的数 据处理操作。 根据本公开实施例的第四方面,提供一种非临时性计算机可读存储介质,当所述 存储介质中的指令由终端设备的处理器执行时,使得终端设备能够执行一种语音助手的实 现方法,所述方法包括: 从终端设备正在进行的通话业务的音频流中,检测用于唤醒语音助手的音频信 息; 7 CN 111556197 A 说 明 书 4/13 页 当检测到所述音频信息时,唤醒语音助手; 在所述语音助手检测到语音指令时,识别所述语音指令触发的操作任务的类型, 所述操作任务的类型包括语音播报结果类型和数据处理类型; 所述操作任务的类型为语音播报结果类型时,根据所述操作任务的内容进行对应 操作,并将操作结果以音频格式插入所述通话业务的音频流中; 所述操作任务的类型为数据处理类型时,根据所述操作任务的内容进行对应的数 据处理操作。 本公开的实施例提供的技术方案可以包括以下有益效果: 本实施例技术方案在通话过程中调用语音助手,并通过增加的用户语音触发的操 作任务的类型,为用户提供语音播报结果类型和数据处理类型的服务。从而方便用户通过 语音触发各种操作任务,丰富了语音助手的应用场景,提高了用户使用语音助手的体验感。 应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不 能限制本公开。 附图说明 此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施 例,并与说明书一起用于解释本发明的原理。 图1是根据一示例性实施例示出的一种语音助手的实现方法的流程图。 图2是根据一示例性实施例示出的一种语音助手的实现方法的流程图。 图3是根据一示例性实施例示出的一种语音助手的实现装置的框图。 图4是根据一示例性实施例示出的一种语音助手的实现装置的框图。
下载此资料需消耗2积分,
分享到:
收藏