logo好方法网

机器人转译技能训练方法、装置及电子设备和存储介质


技术摘要:
本申请公开了一种机器人转译技能训练方法、装置及一种电子设备和计算机可读存储介质,该方法包括:获取目标视频段,并确定目标视频段中的动作信息和每个动作信息的概率;其中,动作信息至少包括主体物体、受体物体和主体物体的动作类型,动作信息还包括左手的抓取类型  全部
背景技术:
传统的工业机器人依靠人工进行预先编程,进而设定机器人的操作指令。虽然预 编程使得这些机器人动作比较精准,但是如果工作场景或操作发生了变化,就需要重新进 行编程来适应新的变化,这样不仅增加了人力物力等成本,而且大大局限了机器人的实用 性。假若机器人能够拥有自主学习的能力,那么面对场景的变化,甚至操作动作的变化,都 能良好地适应并执行最优的操作指令,这样就能降低成本,提高效率。 为了使得机器人更具有自主学习能力,在相关技术中,将视频输入到神经网络之 中识别出操作指令三元组:(主体、动作、受体),利用该操作指令三元组即可直观地得到操 作指令。但是,机器人从视频中学习到的信息比较有限,因此无法做到复杂的、包含多种元 素的操作。在视频学习中,往往只识别出了主体物体、受体物体以及它们之间的动作关系, 没有识别出物体的状态、抓取物体的手势、双手分别执行的操作。 因此,如何使得机器人可以学习更复杂的操作是本领域技术人员需要解决的技术 问题。
技术实现要素:
本申请的目的在于提供一种机器人转译技能训练方法、装置及一种电子设备和一 种计算机可读存储介质,使得机器人可以学习更复杂的操作。 为实现上述目的,本申请提供了一种机器人转译技能训练方法,包括: 获取目标视频段,并确定所述目标视频段中的动作信息和每个所述动作信息的概 率;其中,所述动作信息至少包括主体物体、受体物体和所述主体物体的动作类型,所述动 作信息还包括左手的抓取类型和右手的抓取类型中的任一项或两项; 为所述目标视频段中的每帧图像创建视觉语义图,并利用相邻帧图像的视觉语义 图确定所述受体物体的状态和所述状态的概率;其中,所述状态包括分开、聚集、变形和转 移中的任一项或任几项的组合; 利用维特比算法基于每个所述动作信息的概率和所述状态的概率建立操作指令 树,并根据所述操作指令树确定所述目标视频段对应的操作指令,以便机器人执行所述操 作指令。 其中,为所述目标视频段中的每帧图像创建视觉语义图,包括: 利用图像分割技术确定所述目标视频段中每帧图像的受体物体区域,并基于每帧 图像中的所有所述受体物体区域为每帧图像创建视觉语义图;其中,所述视觉语义图包括 描述所述受体物体区域的定位点集合、描述相同帧图像中不同受体物体区域之间的空间关 系的边集合和描述所述受体物体区域的属性信息,所述属性信息包括位置信息和外观信 4 CN 111571567 A 说 明 书 2/11 页 息,所述外观信息包括形状信息和颜色信息。 其中,所述利用图像分割技术确定所述目标视频段中每帧图像的受体物体区域, 包括: 利用最大流最小割算法确定所述目标视频段中每帧图像的受体物体的定位点,并 根据所有所述定位点确定所述受体物体区域。 其中,所述利用相邻帧图像的视觉语义图确定所述受体物体的状态和所述状态的 概率,包括: 利用相邻帧图像的视觉语义图对所述目标视频段中的受体物体区域进行检测; 若检测到所述受体物体区域的数量增加,则判定所述受体物体的状态为分开,并 确定分开的概率; 若检测到多个所述受体物体区域速度差小于第一预设值且距离欧几里得距离差 小于第二预设值,则判定所述受体物体的状态为聚集,并确定聚集的概率; 若检测到所述受体物体区域的外观信息发生变化,则判定所述受体物体的状态为 变形,并确定变形的概率; 若检测到所述受体物体区域的位置信息发生变化,则判定所述受体物体的状态为 转移,并确定转移的概率。 其中,所述获取目标视频段,包括: 获取原始视频,将所述原始视频以动作类型作为划分标准划分为多个所述目标视 频段。 其中,所述利用维特比算法基于每个所述动作信息的概率建立操作指令树之后, 还包括: 以所述受体物体为索引将所述操作指令树存储至数据库中; 所述方法还包括: 当接收到目标操作指令时,确定所述目标操作指令中每个元素的概率,判断是否 存在所述概率小于预设阈值的元素; 若是,则确定所述目标操作指令中的目标受体物体,在所述目标受体物体对应的 操作指令树中匹配得到目标操作指令树,并利用目标操作指令树更新所述目标操作指令。 其中,所述利用维特比算法基于每个所述动作信息的概率和所述状态的概率建立 操作指令树,包括: 根据所述受体物体的概率和所述状态的概率计算受体物体信息的概率,并根据所 述动作信息的概率计算每个手部短语和每个动作短语的概率;其中,所述手部短语和所述 动作短语为对所述动作信息、所述受体物体信息按照预设组合规则进行组合得到的短语; 基于每个所述动作信息的概率、每个所述手部短语的概率、每个所述动作短语的 概率、所述受体物体信息的概率、所述状态的概率、左手和右手的概率建立所述目标视频段 对应的语法规则表; 根据所述语法规则表利用所述维特比算法建立所述操作指令树。 为实现上述目的,本申请提供了一种机器人转译技能训练装置,包括: 确定模块,用于获取目标视频段,并确定所述目标视频段中的动作信息和每个所 述动作信息的概率;其中,所述动作信息包括主体物体、受体物体、左手的抓取类型、右手的 5 CN 111571567 A 说 明 书 3/11 页 抓取类型和所述主体物体的动作类型; 建立模块,用于利用维特比算法基于每个所述动作信息的概率建立操作指令树; 训练模块,用于根据所述操作指令树确定所述目标视频段对应的操作指令,以便 机器人执行所述操作指令。 为实现上述目的,本申请提供了一种电子设备,包括: 存储器,用于存储计算机程序; 处理器,用于执行所述计算机程序时实现如上述机器人转译技能训练方法的步 骤。 为实现上述目的,本申请提供了一种计算机可读存储介质,所述计算机可读存储 介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述机器人转译技能训 练方法的步骤。 通过以上方案可知,本申请提供的一种机器人转译技能训练方法,包括:获取目标 视频段,并确定所述目标视频段中的动作信息和每个所述动作信息的概率;其中,所述动作 信息至少包括主体物体、受体物体和所述主体物体的动作类型,所述动作信息还包括左手 的抓取类型和右手的抓取类型中的任一项或两项;为所述目标视频段中的每帧图像创建视 觉语义图,并利用相邻帧图像的视觉语义图确定所述受体物体的状态和所述状态的概率; 其中,所述状态包括分开、聚集、变形和转移中的任一项或任几项的组合;利用维特比算法 基于每个所述动作信息的概率和所述状态的概率建立操作指令树,并根据所述操作指令树 确定所述目标视频段对应的操作指令,以便机器人执行所述操作指令。 本申请提供的机器人转译技能训练方法,从视频段中提取包括主体物体、受体物 体、左右手的抓取类型和主体物体的动作类型在内的动作信息和每个动作信息的概率,另 外基于相邻帧的视觉语义图提取受体物体的状态,基于动作信息和状态的概率建立操作指 令树,进而得到该视频段对应的操作指令信息以训练机器人。由于操作指令信息中包括左 右手的抓取手势、左右手各自抓取的物体、两只手或单手执行的操作以及受体物体的状态 等更为复杂的信息,因此机器人可以学习到更复杂的操作。本申请还公开了一种机器人转 译技能训练装置及一种电子设备和一种计算机可读存储介质,同样能实现上述技术效果。 应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本 申请。 附图说明 为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以 根据这些附图获得其他的附图。附图是用来提供对本公开的进一步理解,并且构成说明书 的一部分,与下面的
分享到:
收藏