logo好方法网

AI模型训练方法、AI模型使用方法、设备及存储介质


技术摘要:
本申请公开了一种AI模型训练方法、AI模型使用方法、计算机设备及存储介质,所述方法包括:获取虚拟环境中的智能体观测的环境信息,从所述环境信息提取所述智能体的观测特征;调用所述智能体对应的AI模型,将所述观测特征输入至所述AI模型进行预测,得到动作行为;将所  全部
背景技术:
随着人工智能(Artificial  Intelligence,AI)技术的发展,人工智能逐渐被应用 于各个领域,例如自动驾驶汽车、星际争霸和Dota2等。在游戏娱乐领域,由AI模型控制的智 能体能够达到超越职业玩家的水平。 但目前的AI模型在训练时,大多是采用基于任务的规划控制方法进行训练,但这 种基于任务或者规则的方式训练得到的AI模型在载具器械的多智能体控制领域表现不佳。 这是由于在多智能体控制领域,AI模型需要考虑多智能体之间或者智能体与玩家之间的竞 争与合作关系,并基于竞争与合作关系对载具器械进行控制。局面复杂程度上升导致需要 AI模型分析的数据量增加,这不仅会导致AI模型的数据分析速度变慢,也可能会使得AI模 型无法基于当前局面进行有效分析,进而体现为智能体的动作迟缓,或做出的动作不合理。 因此,如何提高在多智能体控制领域下AI模型的准确率成为亟待解决的问题。
技术实现要素:
本申请提供了一种AI模型训练方法、AI模型使用方法、计算机设备及存储介质,以 提高在多智能体控制领域下AI模型的准确率。 第一方面,本申请提供了一种AI模型训练方法,所述方法包括: 获取虚拟环境中的智能体观测的环境信息,从所述环境信息提取所述智能体的观 测特征; 调用所述智能体对应的AI模型,将所述观测特征输入至所述AI模型进行预测,得 到动作行为; 将所述动作行为发送给所述智能体,以使所述智能体执行所述动作行为,得到与 所述动作行为对应的反馈信息; 获取所述反馈信息,并将所述反馈信息、观测特征和动作行为作为训练样本; 根据所述训练样本对所述AI模型进行训练更新。 第二方面,本申请还提供了一种AI模型使用方法,所述方法包括: 获取虚拟环境中的智能体观测的环境信息,从所述环境信息中提取所述智能体的 观测特征; 将所述观测特征输入至AI模型,以得到多个动作行为对应的概率,所述AI模型为 采用第一方面所述的模型训练方法得到的模型; 根据多个所述动作行为对应的概率从多个动作行为中确定目标动作行为; 将所述目标动作行为发送至所述智能体,以使所述智能体根据所述目标动作行为 执行对应的动作。 4 CN 111589157 A 说 明 书 2/13 页 第三方面,本申请还提供了一种计算机设备,所述计算机设备包括存储器和处理 器;所述存储器用于存储计算机程序;所述处理器,用于执行所述计算机程序并在执行所述 计算机程序时实现如上述的AI模型训练方法和/或AI模型使用方法。 第四方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质 存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如上述的AI模型训 练方法和/或AI模型使用方法。 本申请公开了一种AI模型训练方法、AI模型使用方法、计算机设备及存储介质,通 过获取虚拟环境中智能体观测的环境信息,从环境信息中提取智能体的观测特征,然后调 用智能体对应的AI模型,将观测特征输入AI模型进行预测,得到动作行为,将动作行为发送 给智能体,使智能体执行所述动作行为,并得到与动作行为对应的反馈信息,最后将反馈信 息、观测特征和动作行为作为训练样本,根据所述训练样本对AI模型进行训练更新。通过从 环境信息中提取观测特征,并将智能体基于观测特征执行的动作行为对应的反馈信息共同 作为训练样本,对AI模型进行训练更新,从而提高在多智能体控制领域下AI模型的准确率。 附图说明 为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的 附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普 通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。 图1是本申请实施例提供的训练AI模型的场景示意图; 图2是本申请实施例提供的一种AI模型训练方法的示意流程图; 图3是本申请实施例提供的角度示意图; 图4是本申请实施例提供的编码和行为对照示意图; 图5是本申请实施例提供的AI模型的层级结构示意图; 图6是本申请实施例提供的使用AI模型的场景示意图; 图7是本申请实施例提供的AI模型使用方法的流程示意图; 图8是图5中提供的AI模型使用方法的子步骤流程示意图; 图9是本申请实施例提供的一种计算机设备的结构示意性框图。
分享到:
收藏