
技术摘要:
本公开提供了会议声音采集、会议记录以及会议记录呈现方法和装置。会议记录方法的一具体实施方式包括:接收会议声音采集终端发送的声音数据;对上述声音数据进行人声分离;生成分离后的每个分离声音数据对应的会议记录,其中,每个分离声音数据对应的会议记录包括该分 全部
背景技术:
语音识别已经开始广泛应用于车载、智能音箱、智能家居等多种领域,通过语音识 别触发机器能够执行的指令可以极大的提高效率、解放双手、增强产品的用户体验。随着语 音识别识别率的提高,将语音转为文字的需求也在人们的日常会议系统中被越来越多的采 用。例如,作为个人随身携带的智能录音笔等会议记录产品,能够将录制的语音送往服务器 转换成文字,方便检索和查阅。
技术实现要素:
本公开提出了会议声音采集、会议记录以及会议记录呈现方法和装置。 第一方面,本公开提供了一种会议声音采集方法,上述会议声音采集方法包括:实 时获取上述麦克风阵列采集的声音数据;将上述声音数据发送给会议记录服务器,上述声 音数据用于触发上述会议记录服务器对上述声音数据进行人声分离,以及生成分离后的每 个分离声音数据对应的、包括该分离声音数据以及该分离声音数据对应的说话内容文本和 说话人身份信息的会议记录,并将所生成的各会议记录发送给上述会议声音采集终端对应 的当前会议标识对应的各会议记录呈现终端,各上述会议记录用于触发收到各上述会议记 录的会议记录呈现终端呈现各上述会议记录。 在一些可选的实施方式中,上述会议声音采集终端还设置有至少一个说话人方向 指示灯;以及上述会议声音采集方法还包括:对上述声音数据进行到来角估计;对于估计得 到的每个到来角,按照预设的到来角与说话人方向指示灯标识之间的对应关系,确定与该 到来角对应的说话人方向指示灯,以及将所确定的说话人方向指示灯打开第一预设时长。 在一些可选的实施方式中,上述将上述声音数据发送给会议记录服务器,包括:将 上述声音数据压缩后发送给上述会议记录服务器。 第二方面,本公开提供了会议声音采集装置,应用于设置有麦克风阵列的会议声 音采集终端,上述会议声音采集装置包括:声音数据获取单元,被配置成实时获取上述麦克 风阵列采集的声音数据;声音数据发送单元,被配置成将上述声音数据发送给会议记录服 务器,上述声音数据用于触发上述会议记录服务器对上述声音数据进行人声分离,以及生 成分离后的每个分离声音数据对应的、包括该分离声音数据以及该分离声音数据对应的说 话内容文本和说话人身份信息的会议记录,并将所生成的各会议记录发送给上述会议声音 采集终端对应的当前会议标识对应的各会议记录呈现终端,各上述会议记录用于触发收到 各上述会议记录的会议记录呈现终端呈现各上述会议记录。 在一些可选的实施方式中,上述会议声音采集终端还设置有至少一个说话人方向 指示灯;以及上述会议声音采集装置还包括:到来角估计单元,被配置成对上述声音数据进 7 CN 111739553 A 说 明 书 2/32 页 行到来角估计;以及指示灯打开单元,被配置成对于估计得到的每个到来角,按照预设的到 来角与说话人方向指示灯标识之间的对应关系,确定与该到来角对应的说话人方向指示 灯,以及将所确定的说话人方指示灯打开第一预设时长。 在一些可选的实施方式中,上述声音数据发送单元进一步被配置成:将上述声音 数据压缩后发送给上述会议记录服务器。 需要说明的是,本公开提供的会议声音采集装置中各单元的实现细节和技术效果 可以参考本公开中其它实施例的相关说明,在此不再赘述。 第三方面,本公开提供了一种会议记录方法,应用于会议记录服务器,上述会议记 录方法包括:接收会议声音采集终端发送的声音数据;对上述声音数据进行人声分离;生成 分离后的每个分离声音数据对应的会议记录,其中,每个分离声音数据对应的会议记录包 括该分离声音数据以及该分离声音数据对应的说话内容文本和说话人身份信息;将所生成 的各会议记录发送给目标会议标识对应的会议记录呈现终端,其中,上述目标会议标识为 发送上述声音数据的会议声音采集终端对应的当前会议标识,各上述会议记录用于触发收 到各上述会议记录的会议记录呈现终端呈现各上述会议记录。 在一些可选的实施方式中,上述对上述声音数据进行人声分离,包括:对所收到的 声音数据进行人声分离,生成预设数目个分离声音数据,其中,所生成的各分离声音数据分 别与预设声源方向范围集合中各声源方向范围一一对应,上述预设声源方向范围集合中各 声源方向范围互不重叠。 在一些可选的实施方式中,上述生成分离后的每个分离声音数据对应的会议记 录,包括:对于所生成的每个分离声音数据,响应于确定该分离声音数据中存在有效语音, 执行以下会议记录生成操作:分别对该分离声音数据进行语音识别和声纹识别,得到识别 文本和说话人身份信息;响应于确定该分离声音数据为语音起点,新建与上述目标会议标 识和所得到的说话人身份信息对应的当前语音和当前说话文本;将所得到的识别文本拼接 到与上述目标会议标识和所得到的说话人身份信息对应的当前说话文本的尾部,以及将该 分离声音数据拼接到与上述目标会议标识和所得到的说话人身份信息对应的当前语音的 尾部;用与上述目标会议标识和所得到的说话人身份信息对应的当前语音和当前说话文本 以及所确定的说话人身份信息生成与该分离声音数据对应的会议记录。 在一些可选的实施方式中,上述会议记录生成操作还包括:响应于确定该分离声 音数据为语音尾点,用与上述目标会议标识和所得到的说话人身份信息对应的当前语音和 当前说话文本以及所确定的说话人身份信息生成历史会议记录,以及将所生成的历史会议 记录存储为与上述目标会议标识对应的历史会议记录。 在一些可选的实施方式中,上述会议记录方法还包括:响应于接收到会议记录呈 现终端发送的说话内容文本更新请求,其中,上述说话内容文本更新请求是上述会议记录 呈现终端响应于检测到针对所呈现的历史会议记录中说话内容文本的修改操作而向上述 会议记录服务器发送的,上述说话内容文本更新请求包括上述修改操作对应的修改后的说 话内容文本以及上述修改操作所针对的历史会议记录的会议记录标识,将上述说话内容文 本更新请求中的会议记录标识对应的历史会议记录中的说话内容文本更新为上述说话内 容文本更新请求中的说话内容文本。 在一些可选的实施方式中,上述对该分离声音数据进行语音识别,包括:基于语音 8 CN 111739553 A 说 明 书 3/32 页 识别模型对该分离声音数据进行语音识别;以及上述会议记录方法还包括:响应于确定满 足预设语音识别模型更新条件,基于所存储的历史会议记录中修改过说话内容文本的历史 会议记录中的声音数据和对应的说话内容文本更新上述语音识别模型。 在一些可选的实施方式中,上述会议记录生成操作还包括:响应于确定该分离声 音数据为语音起点,将当前时间确定为与上述目标会议标识和所得到的说话人身份信息对 应的说话起始时间。 在一些可选的实施方式中,上述用与上述目标会议标识和所得到的说话人身份信 息对应的当前语音和当前说话文本以及所确定的说话人身份信息生成与该分离声音数据 对应的会议记录,包括:用与上述目标会议标识和所得到的说话人身份信息对应的说话起 始时间、当前语音和当前说话文本以及所确定的说话人身份信息生成与该分离声音数据对 应的会议记录;和/或上述用与上述目标会议标识和所得到的说话人身份信息对应的当前 语音和当前说话文本以及所确定的说话人身份信息生成历史会议记录,以及将所生成的历 史会议记录存储为与上述目标会议标识对应的历史会议记录,包括:用与上述目标会议标 识和所得到的说话人身份信息对应的说话起始时间、当前语音和当前说话文本以及所确定 的说话人身份信息生成历史会议记录,以及将所生成的历史会议记录存储为与上述目标会 议标识对应的历史会议记录。 在一些可选的实施方式中,上述分别对该分离声音数据进行语音识别和声纹识 别,得到识别文本和说话人身份信息,包括:分别将该分离声音数据发送给语音识别服务器 和声纹识别服务器,其中,该分离声音数据用于触发上述语音识别服务器对收到的声音数 据进行语音识别并返回识别结果,以及用于触发上述声纹识别服务器对收到的声音数据进 行声纹识别并返回识别结果;分别将从上述语音识别服务器收到的识别结果和从上述声纹 识别服务器收到的识别结果确定为对该分离声音数据进行语音识别和声纹识别所得到的 识别文本和说话人身份信息。 在一些可选的实施方式中,上述会议记录服务器、上述语音识别服务器和上述声 纹识别服务器中的至少一个根据安全和/或保密需求配置为私有部署服务器。 在一些可选的实施方式中,上述会议记录方法还包括:响应于接收到会议记录呈 现终端发送的包括待查阅会议标识和查阅人标识的会议记录查阅请求,确定上述查阅人标 识是否属于上述待查阅会议标识对应的参会人员标识集合;响应于确定属于,获取与上述 待查阅会议标识对应的历史会议记录,以及将所获取的历史会议记录发送给发送上述会议 记录查阅请求的会议记录呈现终端。 在一些可选的实施方式中,上述会议记录方法还包括:响应于接收到会议记录呈 现终端发送的包括参会人员标识集合的会议预定请求,生成会议标识,将上述会议预定请 求中的参会人员标识集合存储为与所生成的会议标识对应的参会人员标识集合,以及将所 生成的会议标识返回发送上述会议预定请求的会议记录呈现终端。 第四方面,本公开提供了一种会议记录装置,应用于会议记录服务器,上述会议记 录装置包括:声音数据接收单元,被配置成接收会议声音采集终端发送的声音数据;人声分 离单元,被配置成对上述声音数据进行人声分离;会议记录生成单元,被配置成生成分离后 的每个分离声音数据对应的会议记录,其中,每个分离声音数据对应的会议记录包括该分 离声音数据以及该分离声音数据对应的说话内容文本和说话人身份信息;会议记录发送单 9 CN 111739553 A 说 明 书 4/32 页 元,被配置成将所生成的各会议记录发送给目标会议标识对应的会议记录呈现终端,其中, 上述目标会议标识为发送上述声音数据的会议声音采集终端对应的当前会议标识,各上述 会议记录用于触发收到各上述会议记录的会议记录呈现终端呈现各上述会议记录。 在一些可选的实施方式中,上述人声分离单元进一步被配置成:对所收到的声音 数据进行人声分离,生成预设数目个分离声音数据,其中,所生成的各分离声音数据分别与 预设声源方向范围集合中各声源方向范围一一对应,上述预设声源方向范围集合中各声源 方向范围互不重叠。 在一些可选的实施方式中,上述会议记录生成单元进一步被配置成:对于所生成 的每个分离声音数据,响应于确定该分离声音数据中存在有效语音,执行以下会议记录生 成操作:分别对该分离声音数据进行语音识别和声纹识别,得到识别文本和说话人身份信 息;响应于确定该分离声音数据为语音起点,新建与上述目标会议标识和所得到的说话人 身份信息对应的当前语音和当前说话文本;将所得到的识别文本拼接到与上述目标会议标 识和所得到的说话人身份信息对应的当前说话文本的尾部,以及将该分离声音数据拼接到 与上述目标会议标识和所得到的说话人身份信息对应的当前语音的尾部;用与上述目标会 议标识和所得到的说话人身份信息对应的当前语音和当前说话文本以及所确定的说话人 身份信息生成与该分离声音数据对应的会议记录。 在一些可选的实施方式中,上述会议记录生成操作还包括:响应于确定该分离声 音数据为语音尾点,用与上述目标会议标识和所得到的说话人身份信息对应的当前语音和 当前说话文本以及所确定的说话人身份信息生成历史会议记录,以及将所生成的历史会议 记录存储为与上述目标会议标识对应的历史会议记录。 在一些可选的实施方式中,上述会议记录装置还包括:说话内容文本更新单元,被 配置成响应于接收到会议记录呈现终端发送的说话内容文本更新请求,其中,上述说话内 容文本更新请求是上述会议记录呈现终端响应于检测到针对所呈现的历史会议记录中说 话内容文本的修改操作而向上述会议记录服务器发送的,上述说话内容文本更新请求包括 上述修改操作对应的修改后的说话内容文本以及上述修改操作所针对的历史会议记录的 会议记录标识,将上述说话内容文本更新请求中的会议记录标识对应的历史会议记录中的 说话内容文本更新为上述说话内容文本更新请求中的说话内容文本。 在一些可选的实施方式中,上述对该分离声音数据进行语音识别,包括:基于语音 识别模型对该分离声音数据进行语音识别;以及上述会议记录装置还包括:语音识别模型 更新单元,被配置成响应于确定满足预设语音识别模型更新条件,基于所存储的历史会议 记录中修改过说话内容文本的历史会议记录中的声音数据和对应的说话内容文本更新上 述语音识别模型。 在一些可选的实施方式中,上述会议记录生成操作还包括:响应于确定该分离声 音数据为语音起点,将当前时间确定为与上述目标会议标识和所得到的说话人身份信息对 应的说话起始时间。 在一些可选的实施方式中,上述用与上述目标会议标识和所得到的说话人身份信 息对应的当前语音和当前说话文本以及所确定的说话人身份信息生成与该分离声音数据 对应的会议记录,包括:用与上述目标会议标识和所得到的说话人身份信息对应的说话起 始时间、当前语音和当前说话文本以及所确定的说话人身份信息生成与该分离声音数据对 10 CN 111739553 A 说 明 书 5/32 页 应的会议记录;和/或上述用与上述目标会议标识和所得到的说话人身份信息对应的当前 语音和当前说话文本以及所确定的说话人身份信息生成历史会议记录,以及将所生成的历 史会议记录存储为与上述目标会议标识对应的历史会议记录,包括:用与上述目标会议标 识和所得到的说话人身份信息对应的说话起始时间、当前语音和当前说话文本以及所确定 的说话人身份信息生成历史会议记录,以及将所生成的历史会议记录存储为与上述目标会 议标识对应的历史会议记录。 在一些可选的实施方式中,上述分别对该分离声音数据进行语音识别和声纹识 别,得到识别文本和说话人身份信息,包括:分别将该分离声音数据发送给语音识别服务器 和声纹识别服务器,其中,该分离声音数据用于触发上述语音识别服务器对收到的声音数 据进行语音识别并返回识别结果,以及用于触发上述声纹识别服务器对收到的声音数据进 行声纹识别并返回识别结果;分别将从上述语音识别服务器收到的识别结果和从上述声纹 识别服务器收到的识别结果确定为对该分离声音数据进行语音识别和声纹识别所得到的 识别文本和说话人身份信息。 在一些可选的实施方式中,上述会议记录服务器、上述语音识别服务器和上述声 纹识别服务器中的至少一个根据安全和/或保密需求配置为私有部署服务器。 在一些可选的实施方式中,上述会议记录装置还包括:查阅人标识确定单元,被配 置成响应于接收到会议记录呈现终端发送的包括待查阅会议标识和查阅人标识的会议记 录查阅请求,确定上述查阅人标识是否属于上述待查阅会议标识对应的参会人员标识集 合;历史会议记录获取及发送单元,被配置成响应于确定属于,获取与上述待查阅会议标识 对应的历史会议记录,以及将所获取的历史会议记录发送给发送上述会议记录查阅请求的 会议记录呈现终端。 在一些可选的实施方式中,上述会议记录装置还包括:会议预定单元,被配置成响 应于接收到会议记录呈现终端发送的包括参会人员标识集合的会议预定请求,生成会议标 识,将上述会议预定请求中的参会人员标识集合存储为与所生成的会议标识对应的参会人 员标识集合,以及将所生成的会议标识返回发送上述会议预定请求的会议记录呈现终端。 第五方面,本公开提供了一种会议记录呈现方法,应用于会议记录呈现终端,上述 会议记录呈现方法包括:响应于接收到会议记录服务器发送的会议记录,呈现所收到的会 议记录,其中,所收到的会议记录为上述会议记录服务器对从会议声音采集终端收到的声 音数据进行人声分离后,针对分离后的每个分离声音数据所生成的对应的会议记录,每个 分离声音数据对应的会议记录包括该分离声音数据以及该分离声音数据对应的说话内容 文本和说话人身份信息。 在一些可选的实施方式中,上述会议记录呈现方法还包括:响应于检测到用户输 入的包括待查阅会议标识和查阅人标识的会议记录查阅请求,向会议记录服务器发送上述 会议记录查阅请求,其中,上述会议记录查阅请求用于触发上述会议记录服务器响应于确 定上述查阅人标识属于上述待查阅会议标识对应的参会人员标识集合,获取与上述待查阅 会议标识对应的历史会议记录,以及将所获取的历史会议记录发送给发送上述会议记录查 阅请求的会议记录呈现终端;响应于接收到上述会议记录服务器响应于上述会议记录查阅 请求而发送的历史会议记录,呈现所收到的历史会议记录。 在一些可选的实施方式中,上述会议记录呈现方法还包括:响应于检测到针对所 11 CN 111739553 A 说 明 书 6/32 页 呈现的历史会议记录中说话内容文本的修改操作,向上述会议记录服务器发送说话内容文 本更新请求,其中,上述说话内容文本更新请求包括上述修改操作对应的修改后的说话内 容文本以及上述修改操作所针对的历史会议记录的会议记录标识,上述说话内容文本更新 请求用于触发上述会议记录服务器将上述说话内容文本更新请求中的会议记录标识对应 的历史会议记录中的说话内容文本更新为上述说话内容文本更新请求中的说话内容文本。 在一些可选的实施方式中,上述呈现所收到的会议记录,包括:对应呈现以下至少 一项:所收到的会议记录中的说话内容文本、说话人身份信息和与所收到的会议记录中的 分离后声音数据关联的声音播放图标;响应于检测到针对所显示的声音播放图标的预设操 作,播放所检测到的预设操作所针对的声音播放图标所关联的分离后声音数据。 在一些可选的实施方式中,上述播放所检测到的预设操作所针对的声音播放图标 所关联的分离后声音数据,包括:播放所检测到的预设操作所针对的声音播放图标所关联 的分离后声音数据,以及在播放过程中显示与上述播放过程对应的播放进度指示信息。 在一些可选的实施方式中,会议记录还包括说话起始时间;以及上述对应呈现以 下至少一项:所收到的会议记录中的说话内容文本、说话人身份信息和与所收到的会议记 录中的分离后声音数据关联的声音播放图标,包括:对应呈现以下至少一项:所收到的会议 记录中的说话起始时间、说话内容文本、说话人身份信息和与所收到的会议记录中的分离 后声音数据关联的声音播放图标。 在一些可选的实施方式中,上述会议记录呈现方法还包括:响应于检测到用户输 入的包括参会人员标识集合的会议预定请求,将上述会议预定请求发送给上述会议记录服 务器,其中,上述会议预定请求用于触发上述会议记录服务器生成会议标识,将上述会议预 定请求中的参会人员标识集合存储为与所生成的会议标识对应的参会人员标识集合,以及 将所生成的会议标识返回发送上述会议预定请求的会议记录呈现终端。 第六方面,本公开提供了一种会议记录呈现装置,应用于会议记录呈现终端,上述 会议记录呈现装置包括:会议记录呈现单元,被配置成响应于接收到会议记录服务器发送 的会议记录,呈现所收到的会议记录,其中,所收到的会议记录为上述会议记录服务器对从 会议声音采集终端收到的声音数据进行人声分离后,针对分离后的每个分离声音数据所生 成的对应的会议记录,每个分离声音数据对应的会议记录包括该分离声音数据以及该分离 声音数据对应的说话内容文本和说话人身份信息。 在一些可选的实施方式中,上述会议记录呈现装置还包括:会议记录查阅请求发 送单元,被配置成响应于检测到用户输入的包括待查阅会议标识和查阅人标识的会议记录 查阅请求,向会议记录服务器发送上述会议记录查阅请求,其中,上述会议记录查阅请求用 于触发上述会议记录服务器响应于确定上述查阅人标识属于上述待查阅会议标识对应的 参会人员标识集合,获取与上述待查阅会议标识对应的历史会议记录,以及将所获取的历 史会议记录发送给发送上述会议记录查阅请求的会议记录呈现终端;历史会议记录接收及 呈现单元,被配置成响应于接收到上述会议记录服务器响应于上述会议记录查阅请求而发 送的历史会议记录,呈现所收到的历史会议记录。 在一些可选的实施方式中,上述会议记录呈现装置还包括:说话内容文本更新请 求发送单元,被配置成响应于检测到针对所呈现的历史会议记录中说话内容文本的修改操 作,向上述会议记录服务器发送说话内容文本更新请求,其中,上述说话内容文本更新请求 12 CN 111739553 A 说 明 书 7/32 页 包括上述修改操作对应的修改后的说话内容文本以及上述修改操作所针对的历史会议记 录的会议记录标识,上述说话内容文本更新请求用于触发上述会议记录服务器将上述说话 内容文本更新请求中的会议记录标识对应的历史会议记录中的说话内容文本更新为上述 说话内容文本更新请求中的说话内容文本。 在一些可选的实施方式中,上述呈现所收到的会议记录,包括:对应呈现以下至少 一项:所收到的会议记录中的说话内容文本、说话人身份信息和与所收到的会议记录中的 分离后声音数据关联的声音播放图标;响应于检测到针对所显示的声音播放图标的预设操 作,播放所检测到的预设操作所针对的声音播放图标所关联的分离后声音数据。 在一些可选的实施方式中,上述播放所检测到的预设操作所针对的声音播放图标 所关联的分离后声音数据,包括:播放所检测到的预设操作所针对的声音播放图标所关联 的分离后声音数据,以及在播放过程中显示与上述播放过程对应的播放进度指示信息。 在一些可选的实施方式中,会议记录还包括说话起始时间;以及上述对应呈现以 下至少一项:所收到的会议记录中的说话内容文本、说话人身份信息和与所收到的会议记 录中的分离后声音数据关联的声音播放图标,包括:对应呈现以下至少一项:所收到的会议 记录中的说话起始时间、说话内容文本、说话人身份信息和与所收到的会议记录中的分离 后声音数据关联的声音播放图标。 在一些可选的实施方式中,上述会议记录呈现装置还包括:会议预定请求发送单 元,被配置成响应于检测到用户输入的包括参会人员标识集合的会议预定请求,将上述会 议预定请求发送给上述会议记录服务器,其中,上述会议预定请求用于触发上述会议记录 服务器生成会议标识,将上述会议预定请求中的参会人员标识集合存储为与所生成的会议 标识对应的参会人员标识集合,以及将所生成的会议标识返回发送上述会议预定请求的会 议记录呈现终端。 第七方面,本公开提供了一种会议声音采集终端,包括:麦克风阵列,用于采集声 音数据;一个或多个处理器;存储装置,其上存储有一个或多个程序,当上述一个或多个程 序被上述一个或多个处理器执行时,使得上述一个或多个处理器实现如第一方面中任一实 施方式描述的方法。 第八方面,本公开提供了一种会议记录服务器,包括:一个或多个处理器;存储装 置,其上存储有一个或多个程序;当上述一个或多个程序被上述一个或多个处理器执行时, 使得上述一个或多个处理器实现如第三方面中任一实施方式描述的方法。 在一些可选的实施方式中,上述会议记录服务器根据安全和/或保密需求配置为 私有部署服务器。 第九方面,本公开提供了一种会议记录呈现终端,包括:一个或多个处理器;存储 装置,其上存储有一个或多个程序;当上述一个或多个程序被上述一个或多个处理器执行 时,使得上述一个或多个处理器实现第五方面中任一实施方式描述的方法。 第十方面,本公开提供了一种计算机可读存储介质,其上存储有计算机程序,其 中,上述计算机程序被一个或多个处理器执行时实现如第一方面中任一实施方式描述的方 法,或者如第三方面中任一实施方式描述的方法,或者如第五方面中任一实施方式描述的 方法。 第十一方面,本公开提供了一种会议记录系统,包括如第八方面中任一实施方式 13 CN 111739553 A 说 明 书 8/32 页 描述的会议记录服务器、至少一个如第七方面中任一实施方式描述的会议声音采集终端以 及至少一个如第九方面中任一实施方式描述的会议记录呈现终端。 在一些可选的实施方式中,上述会议记录系统还包括语音识别服务器和声纹识别 服务器,其中,上述语音识别服务器被配置成对从上述会议记录服务器收到的分离声音数 据进行语音识别并将识别所得到的说话内容文本发送给上述会议记录服务器,上述声纹识 别服务器被配置成对从上述会议记录服务器收到的分离声音数据进行声纹识别并将识别 所得到的说话人身份信息发送给上述会议记录服务器。 在一些可选的实施方式中,上述语音识别服务器和/或上述声纹识别服务器根据 安全和/或保密需求配置为私有部署服务器。 目前的会议记录产品大多实时采集语音数据并将所采集的语音数据上传云服务 器,在云服务器通过语音识别得到对应的讲话内容,再将识别得到的讲话内容返回会议记 录产品。申请人在实践中经过研究发现,目前的会议记录产品在单人讲话场景中识别效果 较好,在多人讲话时往往识别率较低。这是由于在多人讲话时,所采集的语音中可能存在多 个人语音交杂在一起的情况,而目前的会议记录产品没有对多人语音进行分离后进行单独 识别,而是直接对所采集的语音进行识别,这导致了识别率较低。另外,目前的会议记录产 品中也没有对说话人的身份进行标识,导致会议记录中只有说话内容,没有说话人身份信 息,即会议记录内容较为单一。 为解决上述申请人发现的技术问题,本公开提供的会议声音采集方法和装置、会 议记录方法和装置以及会议记录呈现方法和装置,通过在会议声音采集终端中设置麦克风 阵列,在会议开始后会议声音采集终端实时采集会议现场的声音数据,以及将实时采集的 声音数据发送给会议记录服务器。会议记录服务器对所收到的声音数据进行人声分离,并 生成分离后的每个分离声音数据对应的、包括该分离声音数据以及该分离声音数据对应的 说话内容文本和说话人身份信息的会议记录,再并将所生成的各会议记录发送给会议声音 采集终端对应的当前会议标识对应的各会议记录呈现终端。会议记录呈现终端可以呈现所 收到的各会议记录。其技术效果可以包括但不限于以下方面: 第一,由于会议记录服务器首先对所收到的声音数据进行了人声分离,并且对分 离后的每个声音数据单独进行语音识别,可以提高语音识别得到的说话内容文本的准确 率。 第二,由于会议记录服务器对所收到的声音数据进行了人声分离,并且为每个分 离后的声音数据生成了对应的会议记录,会议记录中包括了该分离后声音数据。在查阅会 议记录时,可以单独查阅每个人的说话内容以及回放每个人的声音数据,而不是多人声音 混杂在一起,提高了对会议声音内容和说话人身份识别的可分辨度。 第三,在会议记录服务器所生成的会议记录中除了包括了分离后的声音数据以及 相应的说话内容文本,还包括说话人身份信息,丰富了会议记录的内容,继而用户在会议记 录呈现终端可以接收到的会议记录内容也更加丰富,即除了可以记录参会人员的说话内 容,还可以记录每段说话内容对应的参会人员身份信息。 附图说明 通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本公开的其它 14 CN 111739553 A 说 明 书 9/32 页 特征、目的和优点将会变得更明显: 图1是根据本公开的会议记录系统的一个实施例的示例性系统架构图; 图2A和图2C是根据本公开的会议记录系统的一个实施例的时序图; 图2B是根据本公开的会议记录生成操作的一个实施例的分解流程图; 图3是根据本公开的会议声音采集方法的一个实施例的流程图; 图4是根据本公开的会议记录方法的一个实施例的流程图; 图5是根据本公开的会议记录呈现方法的一个实施例的流程图; 图6是根据本公开的会议声音采集装置的一个实施例的结构示意图; 图7是根据本公开的会议记录装置的一个实施例的结构示意图; 图8是根据本公开的会议记录呈现装置的一个实施例的结构示意图; 图9是适于用来实现本公开的会议声音采集终端的计算机系统的结构示意图; 图10是适于用来实现本公开的会议记录服务器或会议记录呈现终端的计算机系 统的结构示意图。