logo好方法网

一种基于跨传感器迁移学习的室内单目导航方法及系统


技术摘要:
本发明涉及一种基于跨传感器迁移学习的室内单目导航方法及系统。所述方法包括:根据仿真单线激光雷达数据,采用确定性策略梯度的深度强化学习方法,确定自主导航模型;获取实际环境中移动机器人在同一时刻的实际单线激光雷达数据和单目摄像头数据;根据实际单线激光雷  全部
背景技术:
无人机、无人车等可移动机器人能够为人类社会带来极大的便利,以无人机为例, 从最初的实验性试飞到民用航拍,再到近些年来的自主导航甚至分布式定位及建图,都极 大提高了人们的工作效率。以小型无人机、无人车为代表的移动机器人体积小、机动性高等 特点使其在室内及相似复杂环境中能够更加方便地执行任务。因此,如果移动机器人能够 在复杂陌生室内环境中自主智能导航,将极大的扩展其应用范围。然而,移动机器人的室内 自主导航算法的研发具有很大的挑战性,自从自主导航算法诞生以来,其在环境结构不确 定、光线不稳定,以及室内的行人具有形态差异大、行走方向随意性高等场景下自适应稳定 导航一直是无人机、无人车等移动机器人自主导航领域中的难点之一。因此研究室内环境 下的自主导航方法具有重大意义。 自然界的生物经过长期进化,环境的多变性反复强化了生物对环境的适应能力。 生物科学研究表明,生物在适应一个环境时,是通过不断与环境进行交互,并且获得环境的 反馈来不断强化生物的某项能力。例如动物的行走、捕猎、群体运动等等,生物都是在不断 地试错的过程中来不断改善和提升自身的决策策略。该类型学习过程亦属于演化进化的范 畴,其特点是没有对环境进行精确建模,仅仅是通过与环境的不断交互,来获取环境对自身 的奖励或者惩罚来不断改进自身的策略。以无人机为例,对于其自主导航,亦可以用这种类 型的学习方式来习得在未知环境中的自主导航能力。在此过程中,将无人机类比作生物,无 人机不断试错学习的过程类比作生物的学习过程,生物能够获取到自然界反馈的回报,因 此对于无人机在自主学习导航的过程中,可以人为的设定对于无人机学习自主导航有利的 奖励和惩罚来激励无人机更快适应这个环境。这也是强化学习算法的基本思想,可以看出, 强化学习属于端到端的学习类型,输入一个环境状态,直接输出一个决策动作。 目前,根据路径规划是否基于轨迹法,可将移动机器人导航算法分为两大类,分别 是基于轨迹规划的方法和基于动作响应的(端到端决策)方法。对于基于轨迹规划的方法, 其优点在于通过动态规划,可以求解出一条全局最优路径,其结果更加可控,更加稳定,但 是该类方法带来的弊端是算法耗时长,比较依赖计算机的算力,而且往往基于轨迹规划的 算法的泛化能力会相对比较弱一些。对于基于动作响应的方法,此类方法的优点在于其为 端到端决策类型的算法,通常算法决策耗时比较短,同时目前基于端到端的算法的泛化能 力普遍要优于基于轨迹的方法,但是基于端到端的方法的短板也非常明显,那就是其决策 并不一定是全局最优解。 基于动作响应的导航算法又可分为自主学习类和非自主学习两类,非自主学习类 的算法诸如人工势场法等算法,但由于当移动机器人距离障碍物过近或者离目标位置太远 将会导致局部震荡等一系列问题,虽然后续有改进版本的人工势场法,但也使得其参数变 4 CN 111578940 A 说 明 书 2/8 页 得很难整定,实际应用起来很难。对于自主学习类的移动机器人导航算法,目前主要是基于 深度强化学习和深度学习的方法。目前应用深度强化学习进行室内导航较为成功的案例有 诸如基于状态值估计的Generalization  through  Simulation  Integrating  Simulated  and  Real  Data  into  Deep  Reinforcement  Learning  forVisionBasedAutonomous  Flight(GTS),该方法为移动机器人室内导航的端到端决策方法。 然而对于该深度强化学习(GTS)的导航算法,首先,其利用仿真环境训练出来的状 态值估计网络,其对动作空间里所有的动作采取的是利用状态值估计网络逐个评估的方 法,这意味着在决策时会加大响应延迟;其次,其采用离散动作空间,这意味着决策动作也 将变得离散,动作不是那么平滑;最后,该方法(GTS)将仿真环境训练好的网络移植到实物 移动机器人上,由于网络模型过于简单,在实物效果上表现为导航裕度不够、路径不稳定。 目前基于单目视觉的端到端移动机器人导航算法几乎都是在无人的环境下进行 飞行试验,因为单目摄像头难以求取深度信息,而且,行人运动的特点是随机性比较强,同 时人们喜欢聚焦、围观,这使得该类算法的实用性大大下降,甚至无法使用。
技术实现要素:
本发明的目的是提供一种基于跨传感器迁移学习的室内单目导航方法及系统,提 高搭载单目摄像头的移动机器人导航的准确性。 为实现上述目的,本发明提供了如下方案: 一种基于跨传感器迁移学习的室内单目导航方法,包括: 获取仿真模型中移动机器人的仿真单线激光雷达数据;所述仿真模型在Webots开 源仿真环境里搭建;所述移动机器人的型号为大疆Mavic  Pro,所述移动机器人上方安装 LMS  291单线激光雷达;所述仿真单线激光雷达数据为深度值; 根据所述仿真单线激光雷达数据,采用确定性策略梯度的深度强化学习方法,确 定自主导航模型;所述自主导航模型以所述激光雷达数据为输入,以所述移动机器人的航 向角为输出; 获取实际环境中移动机器人在同一时刻的实际单线激光雷达数据和单目摄像头 数据; 根据所述实际单线激光雷达数据,采用所述自主导航模型,确定移动机器人的航 向角; 根据同一时刻的所述移动机器人的航向角和相应时刻的所述单目摄像头数据,采 用Resnet18网络和预训练好的YOLO  v3网络,确定激光雷达单目视觉导航模型;所述激光雷 达单目视觉导航模型以所述单目摄像头数据为输入,以对应时刻的航向角为输出; 获取待确定的单目摄像头数据; 根据所述待确定的单目摄像头数据,采用所述激光雷达单目视觉导航模型,确定 移动机器人当前时刻的航向角; 根据所述当前时刻的航向角进行移动机器人的导航。 可选的,所述根据所述仿真单线激光雷达数据,采用深度确定性策略梯度的学习 算法,确定自主导航模型,具体包括: 利用 确定回报函数;其中,R为回报函数,k为一个常数取值为0.5, 5 CN 111578940 A 说 明 书 3/8 页 d m i n为当前移动机器人的安全裕度,R p为当前移动机器人的动态性能激励项, 其中,v为线速度,w为角速度。 可选的,所述根据同一时刻的所述移动机器人的航向角和相应时刻的所述单目摄 像头数据,采用Resnet18网络和预训练好的YOLO  v3网络,确定激光雷达单目视觉导航模 型,具体包括: 根据同一时刻的所述移动机器人的航向角对所述单目摄像头数据打标签,得到样 本图像。 可选的,所述根据同一时刻的所述移动机器人的航向角和相应时刻的所述单目摄 像头数据,采用Resnet18网络和预训练好的YOLO  v3网络,确定激光雷达单目视觉导航模 型,具体还包括: 获取所述Resnet18网络和预训练好的YOLO  v3网络; 将所述样本图像分别输入所述Resnet18网络和预训练好的YOLO  v3网络; 将所述预训练好的YOLO  v3网络输出的行人信息向量合并到所述Resnet18网络的 全连接层,得到激光雷达单目视觉导航模型。 一种基于跨传感器迁移学习的室内单目导航系统,包括: 第一获取模块,用于获取仿真模型中移动机器人的仿真单线激光雷达数据;所述 仿真模型在Webots开源仿真环境里搭建;所述移动机器人的型号为大疆Mavic  Pro,所述移 动机器人上方安装LMS  291单线激光雷达;所述仿真单线激光雷达数据为深度值; 自主导航模型确定模块,用于根据所述仿真单线激光雷达数据,采用确定性策略 梯度的深度强化学习方法,确定自主导航模型;所述自主导航模型以所述激光雷达数据为 输入,以所述移动机器人的航向角为输出; 第二获取模块,用于获取实际环境中移动机器人在同一时刻的实际单线激光雷达 数据和单目摄像头数据; 移动机器人的航向角确定模块,用于根据所述实际单线激光雷达数据,采用所述 自主导航模型,确定移动机器人的航向角; 激光雷达单目视觉导航模型确定模块,用于根据同一时刻的所述移动机器人的航 向角和相应时刻的所述单目摄像头数据,采用Resnet18网络和预训练好的YOLO  v3网络,确 定激光雷达单目视觉导航模型;所述激光雷达单目视觉导航模型以所述单目摄像头数据为 输入,以对应时刻的航向角为输出; 第三获取模块,用于获取待确定的单目摄像头数据; 移动机器人当前时刻的航向角确定模块,用于根据所述待确定的单目摄像头数 据,采用所述激光雷达单目视觉导航模型,确定移动机器人当前时刻的航向角; 导航模块,用于根据所述当前时刻的航向角进行移动机器人的导航。 可选的,自主导航模型确定模块具体包括: 回报函数确定单元,用于利用 确定回报函数;其中,R为回报函数, k为一个常数取值为0.5,dmin为当前移动机器人的安全裕度,Rp为当前移动机器人的动态性 6 CN 111578940 A 说 明 书 4/8 页 能激励项, 其中,v为线速度,w为角速度。 可选的,所述激光雷达单目视觉导航模型确定模块具体包括: 样本图像确定单元,用于根据同一时刻的所述移动机器人的航向角对所述单目摄 像头数据打标签,得到样本图像。 可选的,所述激光雷达单目视觉导航模型确定模块具体还包括: 第一获取单元,用于获取所述Resnet18网络和预训练好的YOLO  v3网络; 激光雷达单目视觉导航模型确定单元,用于将所述样本图像分别输入所述 Resnet18网络和预训练好的YOLO  v3网络,并将所述预训练好的YOLO  v3网络输出的行人信 息向量合并到所述Resnet18网络的全连接层,得到激光雷达单目视觉导航模型。 根据本发明提供的具体实施例,本发明公开了以下技术效果: 本发明所提供的一种基于跨传感器迁移学习的室内单目导航方法及系统,通过在 仿真环境中使用虚拟单线激光雷达作为传感器,通过基于确定性策略梯度(DDPG)的深度强 化学习方法,得到一个稳定的自主导航模型,然后通过将单线激光雷达与单目摄像头采集 的现实环境数据逐帧绑定,利用自主导航模型,对现实环境数据进行实时标注,并采用标注 后的数据集进一步训练得到激光雷达单目视觉导航模型,从而实现从只使用激光雷达的仿 真环境向只使用单目摄像头的现实环境的跨传感器迁移学习。进而通过只单目摄像头数据 获取搭载单目摄像头的移动机器人的导航角,进一步提高搭载单目摄像头的移动机器人导 航的准确性。 附图说明 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所 需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施 例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图 获得其他的附图。 图1为本发明所提供的一种基于跨传感器迁移学习的室内单目导航方法流程示意 图; 图2为单线激光雷达数据示意图; 图3为自主导航模型结构示意图; 图4为激光雷达单目视觉导航模型结构示意图; 图5为本发明所提供的一种基于跨传感器迁移学习的室内单目导航系统结构示意 图。
分享到:
收藏