logo好方法网

多智能体协作信息处理方法、系统、存储介质、智能终端


技术摘要:
本发明属于人工智能技术领域,公开了一种多智能体协作信息处理方法、系统、存储介质、智能终端,每个agent在环境中每采取下一步行为在环境中留下自己的信息微量,当其它agent到达环境中状态时会先搜索周围的信息微量,把信息微量加入到神经网络中进行训练;分组模型找  全部
背景技术:
目前,多智能体协作是在实际应用的新课题,也是一项富有挑战意义的课题。a)如 何让多智能体在更大和随机环境中仍然能够高效地学习是强化学习一直存在的挑战。强化 学习中一些算法采用策略迭代方式训练智能体,可以泛化到更大尺寸的环境中,但是这种 方式只能用在单智能体算法的优化上,在多智能体系统中,此种方式就没那么适用了。b)让 多智能体能像人一样组队合作完成目标是一项新课题。深度强化学习使用异步框架来训练 多智能体,每个智能体相对于其它智能体都是独立的,如果出现各个智能体分工不一样的 情况,异步框架就不适用了。一些多智能体算法中智能体的交互是全连接,这样不仅增加算 法复杂度更难应用到现实中。c)如何管理多智能体训练学习中的生和灭也是多智能体强化 学习的一个难题。多智能体训练学习中,不管智能体学习的好和坏,每回合都会同时结束当 前训练。因此,让学习好的智能体继续训练,学习差的智能体重新学习也是一项挑战。 现有技术缺点: a)基于策略梯度的单智能体强化学习 强化学习分为两大类:有模型强化学习、无模型强化学习,其中无模型又可以分为 基于值和基于策略。自从2015年引入强化学习以来,Q-learning、Sarsa和TD-lambda等算法 成为强化学习的主流。Q-learing、Sarsa、TD-lambda都是无模型基于值迭代的算法,使用时 间差分法TD,无需等待到终止时间才进行更新,而是在下一步行动前就可以进行估计的更 新。与蒙特卡洛方法相比时间差分法TD会进行极大虽然估计,使得估计的结果更符合未来 数据的趋势。深度强化学习(Deep  Reinforcement  Learning,DRL),它将具有决策的强化学 习和具有感知的深度学习相结合。最初,它被应用于视频游戏领域,随着深度强化学习的不 断创新,它解决了越来越多的问题,如控制机器人,工厂智能机器人手臂,人脸识别,视频分 析。DQN在Q-learning的改进下被提出来,它解决了Q-learning“纬度灾难”的问题。DQN做的 三大改进为:使用经验重放和目标网络稳定基于DL的近似动作值函数;使用端到端方法,将 CNN网络将原始图片和游戏得分作为输入,使得模型仅需较少的领域知识;训练出可变的网 络,在多任务中具有良好的表现,有些实验结果还超越人类专业玩家。为了消除强化学习数 据之间的强相关性,DQN使用均匀采样经验重放机制来训练神经网络,然而均匀采样方法忽 略了不同经验的重要性程度,因此,提出了优先经验重放,利用TD  error对智能体经验的重 要性进行衡量和重放多次,进而提高学习效率。Hasselt等人[7]在DQN基础上提出Double  DQN算法,将动作选择和价值估计分开,避免价值过高估计。和上面所提到的基于值迭代算 法不同的是,Policy  Gradient算法往往采用的回合更新,也就是要到一轮结束后才能进行 更新,这样在评估一个策略时通常效率较低。Actor-Critic结合Policy  Gradient和TD算 法,采用单步更新解决评估策略低效的问题。在AC算法的基础上DPG、A3C被提出来,其中A3C 6 CN 111582469 A 说 明 书 2/16 页 与DQN经验重放机制不同,采用并行训练方法打破了训练数据间的相关性。相比AC算法,A3C 可大幅度提升算法的学习效率。和AC不同的是,DPG算法采用TD的方式降低方差,能更好地 应用于off-policy。DDPG算法由DPG算法改进而来,其在输入上仅仅依赖状态空间,可以应 对高维的输入,实现端对端的控制,还可以输出连续动作,使得深度强化学习方法可以应用 于较为复杂动作空间和连续动作空间。TRPO结合Policy  Gradient和蒙特卡洛方法,通过一 步步改进梯度策略,提高算法的稳定性。PPO算法和TRPO算法近似,该算法更能适应大规模 的运算,在实现的难易程度、采样复杂度、调试所需精力之间取得了新的平衡。尽管现有的 单智能体算法很成熟,但是当任务变为多个智能体合作模式,就打破了单智能体算法的基 本前提,环境变得非稳定性,单智能体算法算法就很难学习好策略。 b)基于策略梯度的多智能体强化学习 Mao等人结合AC算法和DL提出了通用的协作网络(ACCNet),在部分观测的环境中 从零学习agent之间的通信方式,从而减轻环境的非稳态性。提出平均场强化学习,它使用 整体或邻近agent之间的平均相互作用来近似agent之间的相互作用,个人的最优策略取决 于整体动态,而全局动态则根据个人策略集而改变,极大地简化了智能体数量带来的动作 空间增大的问题。Lowe等人将DDPG方法扩展到多智能体强化学习中,通过观测对手行为然 后进行学习,同时构建全局critic函数对全局状态动作进行评估,并训练一组agent策略提 高算法的鲁棒性。提出一个基于参数共享的MADDPG算法(PS-MADDPG),包括三种actor- critic共享组合架构:不同应用环境中的actor-critic网络都共享、actor网络共享和 critic网络不共享、actor共享和critic部分共享,用于解决MADDPG算法可扩展性差的问 题。通过确定agent之间交互的程度,即考虑agent是否应该同某一agent进行交互或者仅将 其当作环境的一部分而不进行交互,这样将降低算法的复杂度。考虑多个agent在环境中感 知和行动的问题,让agent在这些环境中学习通信协议,共享解决任务所需的信息,最大限 度地提高它们的共享效用。在多智能体的设置下,AC算法往往会由于独立训练,导致信息共 享不足,agent之间的协作能力较差,在COMA中引入centralised  critic,将全局的信息传 输到每个agent,从而提高每个agent对其他agent的信息的建模能力,以此给出解决这个问 题的初步方案。多智能体系统同DRL的结合会带来一些问题:相对于单智能体系统,多智能 体系统中单个agent策略会受到同一环境中其它agent的影响,导致难以制定较好的学习目 标;随着agent数量的增加,策略输出的动作维度变大,动作空间呈现指数增长的趋势;多个 agent的同步学习会使环境变得不稳定;智能体数量的增加更容易使得策略的学习陷入死 循环,难以学会良好的策略。 c)群体智能技术在多智能体强化学习中的应用 多机器人系统强化学习算法提出一种多机器人意向行为结构,这种结构研究了每 个机器人的行为能力和群体交互模式,兼顾整体利益和个人奖励,显著改善了传统的强化 学习算法。讨论了多智能体强化学习领域中共享事件和共享策略的协调方法,并从强化学 习的角度,分析了蚁群系统中多个agent间接通信的性能,利用信息素解决优化问题。结合 强化学习和蚁群算法中的信息素,提出一种改进的蚁群算法,求取从第一层出发的蚁群到 各层节点之间的路径,将各层中信息素最大的节点作为最终的故障诊断类别。大多数探索- 开采策略都使用从单一模拟轨迹中提取的一些统计数据,而使用从一群蚂蚁群中获得的多 个模拟轨迹中提取的一些统计信息,提出一种新的基于蚁群系统的强化学习开发策略,该 7 CN 111582469 A 说 明 书 3/16 页 策略保持了Q-learing的收敛性。等传统的蚁群优化算法都是人为地设定信息素的衰减量, 这种方式放到多智能体系统中,agent就不智能了。 现有技术的技术方案MADDPG算法,在多智能体环境(Multiagent  environments) 中,智能体之间对资源的恶性竞争现象无疑是通往通用人工智能(Artificial  general  intelligence,AGI)路上的一块绊脚石。多智能体环境具有两大实用的特性:首先,它提供 了一个原生的课程(Natural  curriculum)——这里环境的困难程度取决于竞争对手的能 力(而如果你是与自身的克隆进行竞争,则该环境与你的能力等级是相当匹配的);其次,多 智能体环境不具有稳定的平衡:因为无论智能体多么聪明,总是存在着更大压力使得它更 加聪明。这些环境与传统环境有着非常大的不同,因此还有更多的研究有待进行。来自 OpenAI的研究员发明了一种新算法——MADDPG。该算法适用于多智能体环境下的集中式学 习(Centralized  learning)和分散式执行(Decentralized  execution),并且允许智能体 之间学会协作与竞争。该算法将模拟中的每个智能体视为一个“Actor”,并且每个Actor将 从“Critic”那儿获得建议,这些建议可以帮助Actor在训练过程中决定哪些行为是需要加 强的。通常而言,Critic试图预测在某一特定状态下的行动所带来的价值(比如,期望能够 获得的奖励),而这一价值将被智能体(Actor)用于更新它的行动策略。这么做比起直接使 用奖励来的更加稳定,因为直接使用奖励可能出现较大的差异变动。另外,为了使训练按全 局协调方式行动的多个智能体(Multiple  agents  that  can  act  in  a  globally- coordinated  way)变得可行,OpenAI的研究员还增强了Critic的级别,以便于它们可以获 取所有智能体的行为和观察,传统的分散式增强学习(Descentralized  reinforcement  learning)方法,比如DDPG,actor-critic  learning,deep  Q-learning等等,在多智能体环 境下的学习总是显得很挣扎,这是因为在每个步骤中,每个智能体都将尝试学习预测其它 智能体的行动,并且同时还要采取自己的行动,这在竞争的情况下尤为如此。MADDPG启用了 一个集中式Critic来向智能体提供同类代理的观察和潜在行为的信息,从而将一个不可预 测的环境转换成可以预测的环境。当前,梯度策略方法(Policy  gradient  methods)面临着 更多的挑战。因为当奖励不一致的时候,这些方法很难得到正确的策略,并且表现出了高度 的差异。另外研究员还发现,加入了Critic之后虽然提高了稳定性,但是依然无法解决多个 环境之间诸如交流合作的问题。并且对于学习合作策略问题,在训练过程中综合考虑其它 智能体的行为似乎是非常重要的。一个智能体(agent)以及智能体环境中的当前状态为S, 经过行为a通过状态转移函数获得下一步状态为5′,每一步的回报值为r,agenti的观测值 O:O={agenti在环境中的状态,其它agent的状态}agenti通过确定性行为策略μθ选择行为: 所有agent每一步经验(S,a,r,S′)都存放到经验库D中,done表示是 否agent完成目标,完成done是1,反之为0,D=(S,a,r,S′,done)。MADDPG算法中每个agent 从环境中获取观测值,使用把观测值放到Actor网络中学习出下一步行为,状态-行为通过 环境反馈获得回报值,算法将(S,a,r,5′)存放经验库,随机抽取经验通过梯度下降法训练 神经网络。 但是该技术存在以下缺点: a)很难让多智能体能像人一样组队合作完成目标。深度强化学习使用异步框架来 训练多智能体,每个智能体相对于其它智能体都是独立的,如果出现各个智能体分工不一 样的情况,异步框架就不适用了。MADDPG多智能体算法中智能体的交互是全连接,这样不仅 8 CN 111582469 A 说 明 书 4/16 页 增加算法复杂度更难应用到现实中。使用了集中训练,分散执行框架,在训练过程中实现了 多智能体之间的交流合作策略,在复杂的现实世界让所有人都产生交集是不可能的,同时 也会增加计算机的负担,因此如何让多智能体之间互相选择队友学习也是一个挑战。 b)很难让多智能体在更大和随机环境中仍然能够高效地学习。强化学习中一些算 法采用策略迭代方式训练智能体,可以泛化到更大尺寸的环境中,但是这种方式只能用在 单智能体算法的优化上,在多智能体系统中这些算法显得没那么适应了。 c)难以让多智能体训练学习中遗传好的学习经验。多智能体训练学习中,不管智 能体学习的好和坏,每回合都会同时结束当前训练。因此,让学习好的智能体继续训练,学 习差的智能体重新学习也是一项挑战。 综上所述,现有技术存在的问题是: (1)现有技术的智能体学习效率不快、也不适用于随机变化环境的问题。 (2)现有技术的多智能体很难像人类一样自己选择分组完成目标问题,MADDPG中 让所有智能体的交互都是全连接的,增加算法的收敛时间,甚至难以收敛,出现分工合作的 场景效果就不好。 (3)传统算法中多智能体在训练时每回合都会从零开始,算法结束训练的条件是 找到目标或者达到最大步长,训练时间就会变得很大。还有些agent在训练中进入了死胡 同,学习的就很慢。 解决上述技术问题的难度:环境规模越大,智能体的探索就越花费更多时间,同时 也容易进入死循环,因此导致智能体无法学习高效的策略。如果智能体的数量增多,多智能 体算法中很容易出现维度爆炸,难以训练。在每次训练的过程中都要采用额外的评估指标 评估智能体的训练情况。 解决上述技术问题的意义:现实世界是复杂的,让多智能体能适应更大更复杂的 环境,这样就可以把这些算法应用到现实世界中,比如城市交通中去控制大规模的车流量。 同样的解决了上述技术问题可以提高多智能体算法的学习效率,能够实现在短时间内高效 完成任务。能更好的实现如下场景: a)城市车辆路径规划。当城市中出现大数量的车辆时,为了减少整体城市交通拥 堵时间,使用深度多智能体强化学习为每个车辆推荐出最优行进路线,确保交通顺畅。 b)出租车调度。分析城市出租车的地理位置分布和在某个时刻人流数量分布,采 用深度多智能体强化学习为不同地理位置的出租车制定目标和路径,整体上实现最大化出 租车资源利用。 c)无人驾驶。当使用无人驾驶决策控制汽车的行为时,采用多智能体强化学习技 术研究出自适应的合作交流通讯系统来应对驾驶环境中出现的各种突发情况。
技术实现要素:
针对现有技术存在的问题,本发明提供了一种多智能体协作信息处理方法、系统、 存储介质、智能终端。 本发明是这样实现的,一种多智能体协作信息处理方法,所述多智能体协作信息 处理方法包括以下步骤: 第一步,每个agent在环境中每采取下一步行为在环境中留下自己的信息微量,当 9 CN 111582469 A 说 明 书 5/16 页 其它agent到达环境中这个状态时会先搜索周围的信息微量,把信息微量加入到神经网络 中进行训练; 第二步,分组模型找到多智能体之间更好的合作策略,分组模型使用RNN网络设计 出多智能体之间的分组关系,称为G模型,并且通过G模型能够预测出多智能体在下一时刻 的最优分组; 第三步,在每次经过G模型训练一回合结束时,把每个agent的损失函数公式看作 适应度,统计每一回合智能体轨迹的损失值均值,汇总每一回合所有agent轨迹的损失值, 最后使用生灭过程遗传信息给下一代agent。 进一步,所述第一步每个agent在环境中每采取下一步行为在环境中留下自己的 信息微量,当其它agent到达环境中这个状态时会先搜索周围的信息微量,把信息微量加入 到神经网络中进行训练具体包括:智能体agent 的信息微量X ,信息微量用x表示,X=Rn×ni i 到其中n×n表示环境大小; x′i=xi Δs; Agenti每到达下一个状态都会更新信息微量表中对应状态的数量值,Δs表示 agenti到达对应状态记为1,否则记为0;所有agent信息微量汇总方式如下: xall=λ1x1 λ2x2 … λnxn; λi是xi的权重,如果agenti在一回合内完成目标,那么信息微量xi就是正反馈λi= 1,反之λi=-1;每回合结束后环境中的信息微量汇总xall,对汇总表xall的信息微量进行归 一化, 两个智能体agent1和agent2,x1和x2过程如下: x1 x2=xall; 得到xall后对其归一化,当agenti到达xall中某一状态是获取周围4个方向的信息 微量数值,放到actor中训练,在训练过程中agenti利用这四个数值优化行为策略,在学习 过程中agenti会朝信息微量相对多的方向行动的概率会增大。 进一步,所述第二步组队策略Gt,使用分组模型找到多智能体之间更好的合作策 略,分组模型使用RNN网络设计出多智能体之间的分组关系,称为G模型,并且通过G模型能 够预测出多智能体在下一时刻的最优分组; 每个agent通过自己的Actor网络选出下一步行为a,通过Critic网络更新Actor策 略。经过G模型的组队,agent1和agent3组队训练Critic1网络,agent2和agent1、agent3组队 10 CN 111582469 A 说 明 书 6/16 页 训练Critic2网络,agent3和agent2组队训练Critic3网络用有向图表示agent组队。 进一步,所述Gt定义;多智能体分组模型G =Rn×nt ,其中n表示智能体的个数: G表示一个n×n的所有智能体组队矩阵,Gt表示t时刻的组队矩阵,用矩阵存储多 智能体的组队情况,agent不能和自己连接,Gt(i)表示t时刻agenti和其它智能体的组队情 况: Gt(3)={1,1,0}。 进一步,通过Gt预测Gt 1,通过Gt构造拟合模型,将Gt输入该模型,得到Gt 1。 进一步包括: 第一步:基于Gt构造训练集Dtrain;Dtrain分为两部分Ftrain和Ltrain,RNN网络中Ftrain是 自变量,Ltrain是因变量,Ftrain的构造:缓存每一步agenti的经验:buffer=(S,x,a,r,S′, done),agenti的所有经验都会存放到经验库Di中,Di={bufferi,1,bufferi,2,..., bufferi,t},D存放N条经验,但存满后新来的经验会替换掉最早缓存的经验;根据t-1时刻的 组队情况把经验拼接构造成Ftrain;agent3和智能体agent1、agent2组队共享经验,组队经验 拼接到一起,Ltrain的构造:根据Ftrain中两条经验中如果有任何一条经验完成任务done是 true,那么Ltrain设为1,只有done都是false,Ltrain才是0; agent3和智能体agent1、agent2组队共享经验,依次构造Ftrain,Ltrain,在训练网络 时,buffer里的数据当作特征,特征一批一批输入到网络中,通过预测结果和真实结果差距 反向传播,更新网络权重; 第二步:基于RNN构造训练模型,通过RNN网络训练预测模型,RNN网络的损失函数l 定义,通过交叉熵损失函数最小化预测结果和完成任务之间的差距,RNN输入的是(Ftrain_i, Ltrain_i); 第三步:基于Gt构造预测集Dtest,三个agent,agent3和agent1构造出2条数据集; 第四步:基于Gt预测Gt 1,通过所有预测的结果来构造t 1时刻组队矩阵Gt 1: Gt中第3行agent3和agent1、agent2组队,预测结果为agent3和agent1较好,RNN模型 预测是一条一条预测的,当所有智能体组队预测完成后把结果组成Gt 1矩阵。 进一步,所述G模型的更新函数有N个循环神经网络生成算法如下: 输入:t时刻分组矩阵 输出:t 1时刻分组矩阵 步骤一:.初始化损失值1; 步骤二:根据分组矩阵构造训练集和测试集; 11 CN 111582469 A 说 明 书 7/16 页 步骤三:使用RNN网络计算损失函数; 步骤四:每回合都执行步骤二-步骤三,直到训练结果达到评估指标。 进一步,所述第三步统计每一回合agenti轨迹的损失值均值L(Θi)mean: L(Θi)mean=E(L(Θi)1 L(Θi)2 … L(Θi)step); 汇总每一回合所有agent轨迹的损失值∑L(Θ): ∑L(Θ)=L(Θ1)mean … L(Θn)mean; ∑L(Θ)为所有agent损失轨迹总和,agenti生灭的概率公式如下: p(i)越大agenti生的概率越大反之越小,选出适应度较高的agent衍生出下个子 代,子代将会继承父亲的状态、信息微量表: agent_i_alive=(Snew,xnew); (S→Snew,x→xnew); 其它适应度不好的agent就会死亡而且会回到初始状态,只继承父亲的神经网络 参数和经验库,定义如下: aagent_i_death=(Snew,xnew); (Sinitial→Snew,xinitial→xnew)。 进一步包括: 输入:所有智能体的状态,经验库; 输出:所有智能体的新状态和新信息微量表; 步骤一:初始化所有智能体的状态,信息微量; 步骤二:每个回合都收集每个智能体网络的损失值; 步骤三:对每个智能体的损失值加权求和,计算智能体的存活概率; 步骤四:更新所有智能体的状态和信息微量表。 本发明的另一目的在于提供一种实施所述多智能体协作信息处理方法的多智能 体协作信息处理系统,所述多智能体协作信息处理系统包括: 神经网络训练模块,用于实现每个agent在环境中每采取下一步行为在环境中留 下自己的信息微量,当其它agent到达环境中这个状态时会先搜索周围的信息微量,把信息 微量加入到神经网络中进行训练; 多智能体最优分组预测模块,用于分组模型找到多智能体之间更好的合作策略, 分组模型使用RNN网络设计出多智能体之间的分组关系,称为G模型,并且通过G模型能够预 测出多智能体在下一时刻的最优分组; 损失值获取模块,用于在每次经过G模型训练一回合结束时,把每个agent的损失 函数公式看作适应度,统计每一回合智能体轨迹的损失值均值,汇总每一回合所有agent轨 迹的损失值。 本发明的另一目的在于提供一种接收用户输入程序存储介质,所存储的计算机程 序使电子设备执行权利要求任意一项所述包括下列步骤: 第一步,每个agent在环境中每采取下一步行为在环境中留下自己的信息微量,当 其它agent到达环境中这个状态时会先搜索周围的信息微量,把信息微量加入到神经网络 12 CN 111582469 A 说 明 书 8/16 页 中进行训练; 第二步,分组模型找到多智能体之间更好的合作策略,分组模型使用RNN网络设计 出多智能体之间的分组关系,称为G模型,并且通过G模型能够预测出多智能体在下一时刻 的最优分组; 第三步,在每次经过G模型训练一回合结束时,把每个agent的损失函数公式看作 适应度,统计每一回合智能体轨迹的损失值均值,汇总每一回合所有agent轨迹的损失值。 本发明的另一目的在于提供一种实现所述多智能体协作信息处理方法的智能终 端。 综上所述,本发明的优点及积极效果为:本发明针对现有技术的算法智能体学习 效率不快、也不适用于随机变化环境的问题,受到蚁群算法启发,使每个智能体行动后留下 自己的信息素,随着时间推移这些多智能体将学会如何加重好的信息素和衰减不好的信息 素。通过增加多智能体之间的交互,智能体就会一步步优化自己的策略。即使环境发生变 化,智能体也能根据已学的策略很好地完成目标。希望agent能像蚁群那样具有群体协作智 慧,比如蚁群“感受”到适合度景观山脉上的梯度,它们试图向山上攀爬并努力到达局部或 整个山脉的最高峰。如果让所有agent都不共享经验,那么多智能体就会像单智能体那样只 能完成单一的任务。加入信息微量共享策略是让多智能体能更快的完成合作任务。信息微 量可以弥补分组带来的所有智能体无法共享信息的问题,每个agent在环境中每采取下一 步行为在环境中留下自己的信息微量,当其它agent到达环境中这个状态时会先搜索周围 的信息微量,把这些信息微量加入到神经网络中进行训练,因此间接的让多智能体共享信 息微量经验,agent学习别人走过的路这样就不会绕更多弯路。 本发明针对现有技术的多智能体很难像人类一样自己选择分组完成目标问题, MADDPG中让所有智能体的交互都是全连接的,会增加算法的收敛时间,甚至难以收敛,出现 分工合作的场景效果就不好。本发明使用一种预测模型让多智能体在训练期间学会组队, 选择要学习的同伴,而不是单一地学习离它最近或者其它所有智能体。组队策略不仅解决 了多智能体因数量过多交互变得复杂的问题,而且还将节省计算机的运行时耗。提出了分 组模型来找到多智能体之间更好的合作策略。分组模型使用RNN网络设计出一种多智能体 之间的分组关系,称为G模型,并且通过G模型能够预测出多智能体在下一时刻的最优分组。 本发明针对现有技术的传统算法中多智能体在训练时每回合都会从零开始的问 题,采用生灭过程实现多智能体的后代遗传。在考虑一个群体的出生和死亡过程时,假设在 一个规模为n的群体中有两种类型的个体A和B,它们具有相同的生育率和死亡率。在任何时 间点,随机选择逐个进行繁殖,然后随机选择逐个进行死亡。本发明设计允许多智能体训练 在每个回合结束时可以选择生或者灭,且生灭的遗传信息是不一样的。传统的算法结束训 练的条件是找到目标或者达到最大步长。这种方法并不是最优,因为有些agent下一步就能 完成目标,结果因为每回合步长限制又要重新回到初始点,这样训练时间就会变得很大。还 有些agent在训练中进入了死胡同,学习的就很慢。进入死胡同的agent最好的选择就是早 点死亡回到初始点开始训练。基于以上分析,本发明设计出一种科学的agent生灭训练。在 每一回合结束后把学习好的智能体的经验遗传给后代,这样后代就不需要每次从头开始学 习,将节省更多时间。 目前大部分多智能体强化学习算法都是采用集中学习,分散行动的策略,即所有 13 CN 111582469 A 说 明 书 9/16 页 智能体在训练时可以同时获得所有其他智能体的信息,这样的学习框架不仅会增加算法的 收敛时间,同时也可能导致算法无法收敛。为了加快多智能体的集体学习时间,本发明提出 了多智能体的分组学习策略,A模型是多智能体训练过程中加入了信息微量,使用信息微量 来加快策略收敛时间。G部分从环境中获取多智能体当前的组队情况,使用神经网络预测t 1时刻多智能体的组队情况。ED模型是在每回合结束时通过生灭过程ED遗传经验。通过使用 循环神经网络预测出多智能体的分组矩阵,通过在分组内部共享智能体之间经验的机制, 提高了多智能体的团队学习效率。同时,为了弥补分组带来的所有智能体无法共享信息的 问题,提出了信息微量的概念来在所有智能体之间传递部分全局信息;为了加强分组内部 优秀经验的留存,提出了推迟组内优秀智能体死亡时间的生灭过程。最终目的是实现多智 能体能够团队协作更好的完成任务。 附图说明 图1是本发明实施例提供的多智能体协作信息处理方法流程图。 图2是本发明实施例提供的4×4迷宫示意图。 图3是本发明实施例提供的基于G模型的分组训练过程图。 图4是本发明实施例提供的G模型的预测过程图。 图5是本发明实施例提供的Ftrain,Ltrain构造案例示意图。 图6是本发明实施例提供的Ftest_i构造案例示意图。 图7是本发明实施例提供的信息微量示意图。 图8是本发明实施例提供的夺旗实验结果图; 图中:(a)8x8迷宫迭代次数对应的平均回报;(b)16x16迷宫迭代次数对应的平均 回报;(c)32x32迷宫迭代次数对应的平均回报;(d)64x64迷宫迭代次数对应的平均回报; (e)80x80迷宫迭代次数对应的平均回报。 图9是本发明实施例提供的迷宫实验结果图; 图中:(a)10x10夺旗实验迭代次数对应的平均回报;(b)17x17夺旗实验迭代次数 对应的平均回报;(c)33x33夺旗实验迭代次数对应的平均回报。 图10是本发明实施例提供的多智能体捕猎图。 图11是本发明实施例提供的捕猎实验结果图。 图12是本发明实施例提供的GAED-MADDPG算法框架示意图。 图13是本发明实施例提供的实施例的原理示意图。 图14是本发明实施例提供的把行车轨迹OD热力图。 图15是本发明实施例提供的使用GAED-MADDPG算法优化行车轨迹OD热力图。
下载此资料需消耗2积分,
分享到:
收藏