logo好方法网

实现全局优化AODV路由的方法、系统及介质


技术摘要:
本发明提供了一种实现全局优化AODV路由的方法、系统及介质,包括发起节点Q表的更新过程和目的节点计算近似全局优化路由的过程;所述发起节点Q表的更新过程为:在发起节点中引入分布值函数优化Q值的更新策略,其中的权重参数由卡尔曼滤波结合高斯滤波算法通过建立轨迹预  全部
背景技术:
无人机网络作为ad-hoc网络的一种,具有分布式和良好的可扩展性等特点,应用 范围已经渐渐从军用领域扩展至民用领域。但是由于无人机的随机运动会造成网络拓扑的 迅速变化,极易造成链路断开,如果此时仍有业务在此链路传输,则会发生丢包现象,降低 了网络性能。因此,如果路由策略可以适应网络拓扑的迅速变化,则可以提升信息传输成功 率,从而提升网络性能。 AODV作为一种被动式路由协议,当节点有发送业务需求时,此节点将广播这一需 求,随后其邻居节点转发这一需求,形成网络洪泛直至找到目的节点。随后目的节点会将路 由信息由源节点传输至目的节点的路径反向传输回去,通知源节点这一路径,所以AODV对 路由动态性适应较强且开销较少,故本发明基于AODV协议。但是,在AODV协议中返回的是跳 数最少的路由,并未考虑拓扑即环境的改变,所以节点的随机运动可能会造成此路由很快 失效。 强化学习是机器学习的方法之一,在强化学习中,通过智能体(agent)与环境的不 断交互使学习策略收益最大化。因此,智能体可以感知周围环境的变化。Q-learning是强化 学习中常用的算法之一,属于无监督学习。但是在目前已有的将Q-learning应用在AODV协 议的若干算法中,节点Q值的更新策略仅仅考虑和维护其邻居Q表中最大的Q值,并未考虑其 它邻居节点Q表中的Q值,会产生局部最优问题。因此,如何更好地将Q-learning应用在AODV 路由策略中,成为越来越多人研究的热点。 经检索文献发现,Celimuge  Wu等人在IEEE  Transactions  on  Vehicular  Technology发表的“Flexible ,Portable ,and  Practicable  Solution  for  Routing  in  VANETs:A  Fuzzy  Constraint  Q-Learning  Approach”文章中提出了一种改善AODV协议性 能的方法,该方法综合考虑链路质量、可用带宽以及节点运动因素,将以上因素的影响体现 在Q-learning算法更新Q值的参数中,提高了信息传输成功率,降低了端到端时延。但是,该 方法所采用的Q值更新策略仅仅考虑邻居节点Q表中Q值最大的节点,并未综合考虑其它邻 居节点的Q值,会产生局部最优问题。Xinge  Li等人在2019IEEE  International  Conference  on  Communications发表的“A  Multi-Agent  Reinforcement  Learning  Routing  Protocol  for  Underwater  Optical  Sensor  Networks”文章中提出了一种基于 multi-agent的Q-learning算法,从全局角度对AODV协议选取的路由进行优化。但是,该方 法中的网络拓扑动态性不高,并未考虑节点间由于相对运动造成的链路不稳定问题。 Tiansi  Hu等人在IEEE  Transactions  on  Mobile  Computing发表的“QELAR:A  Machine- Learning-Based  Adapt  ive  Routing  Protocol  for  Energy-Efficient  and  Lifetime- 6 CN 111614559 A 说 明 书 2/8 页 Extended  Underwater  Sensor  Networks”文章中提出一种基于Q-learning改进AODV协议 的方法,该方法综合考虑了节点能量分布情况以及节点间的移动性,改善了协议的性能。但 是,该方法中的Q值更新策略没有综合考虑其它邻居节点,仍会产生局部最优问题。 专利文献CN104244356A(申请号:201410443069.1)公开了一种基于演化图全路由 预测的定向蚁群路由优化方法,其主要技术特点是:在应用层,控制中心或者GPS全球定位 系统提供节点轨道、链路调度信息或节点位置、运动速度和方向信息并发送至网络层;在网 络层,节点首先根据应用层信息建立演化图模型,然后进行全路由预测,最后采用定向蚁群 路由优化方法选择最优路由并发送数据;在物理层,收集链路时延、数据传输速率、可用带 宽信息。
技术实现要素:
针对现有技术中的缺陷,本发明的目的是提供一种实现全局优化AODV路由的方 法、系统及介质。 根据本发明提供的实现全局优化AODV路由的方法,包括: 步骤1:发起节点Q表的更新和目的节点计算近似全局优化路由的过程; 步骤2:在发起节点Q表的更新中引入分布值函数进行优化,其中权重参数代表邻 居节点Q表中的Q值在发起节点Q表更新中所占的比重; 步骤3:邻居节点采用卡尔曼滤波结合高斯滤波算法对自身轨迹进行预测,通过 hello包将信息发送至发起节点; 步骤4:发起节点根据邻居节点和发起节点的轨迹预测信息计算链路生存时间,得 到归一化链路生存时间,对应权重参数的值,完成节点Q表的更新; 步骤5:改变目的节点路由请求RREQ包处理机制,缓存一段时间内接收到的所有 RREQ包,计算接收到的RREQ包中路由的平均Q值,将平均Q值最大的路由添加至RREP包返回 给源节点,完成优化。 优选的,所述步骤1包括: 步骤1.1:引入分布值函数优化Q表更新,将发起节点所有邻居节点的Q值考虑到本 节点的Q表更新中; 步骤1.2:修改hello包帧格式,在hello包中增加相应信息字段,其中(xnow ,ynow , znow)为采集的邻居节点在当前时刻的地理位置信息,(xpre,ypre,zpre)为采用卡尔曼滤波结 合高斯滤波预测邻居节点t0时刻后的地理位置信息,(vx,vy ,vz)为邻居节点在当前时刻的 运动速度信息,Dq为邻居节点此时队列中的平均排队时延; 步骤1.3:当发起节点收到邻居节点的hello包后提取运动速度信息和预测的地理 位置信息,计算对应链路的链路生存时间,同时提取邻居节点此时队列中的平均排队时延 信息; 步骤1.4:发起节点根据收到其它邻居节点hello包中的信息计算对应的链路生存 时间进而计算得到归一化链路生存时间以及某一邻居节点的相对负载值,代入分布值函 数,近似实现全局优化。 优选的,引入分布值函数,将发起节点所有邻居节点Q表中最大的Q值考虑到本节 点的Q值更新策略中,利用局部信息的迭代逼近全局最优,全局优化Q表更新表达式为: 7 CN 111614559 A 说 明 书 3/8 页 其中,α为学习率,γ表示折现系数, 为分布值函数,Ni为节 点i的邻居节点集合, 表示节点i在t时刻采取动作 后的Q值, 和 分别表示节点i在t时刻的邻居节点j和k的Q表中最大的Q值; 表示:节点i在t 时刻处于状态s;ω表示:其它节点的Q值在某一节点的Q值更新策略中所占的比重;Aj表示: 节点j的动作集;Ak表示:节点k的动作集; 为节点i在t时刻采取动作 后获得的收 益,定义如下: 其中, 表示节点j中队列的平均排队时延,刻画了节点j的负载水平,奖励函数中 的 表示节点j的相对负载水平, 值越大表明节点j的负载情况与节点i的其它 邻居节点相比越轻,节点i的下一跳若选择节点j,则时延性能会较好;w(i,j)和w(i,k)为在 上述Q值更新策略中节点j和k的Q表中Q值在节点i的Q值更新策略中所占的权重。 优选的,采用卡尔曼滤波结合高斯滤波算法,根据相应物理运动定理,预测无人机 运动轨迹,卡尔曼滤波方程表示如下: 其中, 表示无人机节点在t时刻的运动状态矢量, 为预测节点在下一时刻的运动状 态矢量, 为状态转移矩阵, 为加速度转移矩阵, 为加速度矢量,服从均值为零且方 差为 的高斯分布, 为观测矢量, 表示观测矩阵; 表示观测噪声,服从均值为零 且方差为 的高斯分布; 在 卡 尔 曼 滤 波 方 程 中 , 为 系统 状 态 方 程 , 为观测方程; 是服从高斯分布的随机变量,为了减小噪声对预测结果的影响,考虑到高斯 滤波器对高斯噪声有良好的处理效果,所以采用如下高斯滤波方程对观测矢量进行预处 8 CN 111614559 A 说 明 书 4/8 页 理: 其中, 表示方差为 的二维高斯核,*表示卷积运算。 优选的,所述步骤3包括: 步骤3.1:初始化状态转移矩阵 高斯分布参数 以及无人机节点在初始 时刻的运动状态 步骤3.2:预测阶段:根据系统状态方程,预测无人机节点在T0时间后的系统状态 先验值,hello包的周期为T1,并且节点间是通过hello包的交互得知彼此的运动消息,预测 周期等于hello包周期,即T0=T1;预测阶段得到的是节点在下一hello周期的系统状态先验 值,同时得到在此时刻运动状态先验值的协方差矩阵; 步骤3.3:校正阶段:利用协方差矩阵计算得到卡尔曼增益,利用GPS或者其它获取 地理信息的装置得到观测矢量 根据方程 对 进行高斯滤波预处 理得到 由修正过的观测方程得到观测噪声;通过观测噪声和卡尔曼增益,对系统状 态先验值进行校正,得到系统状态后验值,将校正后的预测信息添加到hello包中,并且更 新系统状态后验值的协方差矩阵。 优选的,当发起节点i接收到邻居节点j发送的hello包后,提取hello包中的有关 信息,计算在下一时刻两节点之间的距离,其中无人机为等高运动,计算公式如下: 表示预测节点i下一时刻的x坐标; 表示预测节点i下一时刻的y坐标; 在得到 的基础上,根据两节点间的相对运动过程,计算链路ij的链路生存时 间Tij,计算公式如下: 其中, 表示由节点j指向节点i的距离矢量,R为节点的通信半径, 为节点j 和节点i之间的相对速度矢量,β为矢量 和矢量 之间的夹角。 优选的,当发起节点接收到所有邻居节点发送的hello包后,分别计算其与各个邻 居节点之间的链路所对应的链路生存时间,进而计算对应的归一化链路生存时间以及该节 点的相对负载值,归一化链路生存时间定义如下: 9 CN 111614559 A 说 明 书 5/8 页 其中,w(i,j)取值范围是[0,1],该值越接近1表明此链路与其它链路相比生存时 间越长;此值即为邻居节点Q表中的Q值在发起节点Q值更新策略中所占的权重参数值,最终 发起节点i依靠得到的权重参数以及节点j的相对负载值完成其Q表中对节点j的Q值更新。 优选的,所述目的节点计算近似全局优化的路由过程包括: 修改目的节点RREQ包处理机制,包括:目的节点首次收到RREQ包后,缓存预设时间 段内所有的RREQ包中的路由; 计算缓存中所有路由的平均Q值,将平均Q值最大的路由返回给源节点; 当源节点发起路由寻路过程时,向邻居节点发送RREQ包,源节点以及寻路过程中 涉及到的所有前序节点的Q值会添加到RREQ包中,当目的节点首次收到RREQ包后启动定时 器T2,缓存T2时间内收到的所有RREQ包中的路由,定时器失效后计算缓存中所有路由的平均 Q值,将平均Q值最大的路由添加到RREP包中返回给源节点,从而告知源节点此路由。 根据本发明提供的实现全局优化AODV路由的系统,包括: 模块M1:发起节点Q表的更新和目的节点计算近似全局优化路由的过程; 模块M2:在发起节点Q表的更新中引入分布值函数进行优化,其中权重参数代表邻 居节点Q表中的Q值在发起节点Q表更新中所占的比重; 模块M3:邻居节点采用卡尔曼滤波结合高斯滤波算法对自身轨迹进行预测,通过 hello包将信息发送至发起节点; 模块M4:发起节点根据邻居节点和发起节点的轨迹预测信息计算链路生存时间, 得到归一化链路生存时间,对应权重参数的值,完成节点Q表的更新; 模块M5:改变目的节点路由请求RREQ包处理机制,缓存一段时间内接收到的所有 RREQ包,计算接收到的RREQ包中路由的平均Q值,将平均Q值最大的路由添加至RREP包返回 给源节点,完成优化。 与现有技术相比,本发明具有如下的有益效果: 1、本发明解决了强化学习Q-learning中Q值更新策略产生的局部最优问题; 2、本发明解决了无人机网络中由于节点随机运动造成的链路断开现象而引发的 信息传输失败的问题; 3、本发明提升了网络的鲁棒性和信息传输成功率,降低了网络端到端时延。 附图说明 通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、 目的和优点将会变得更明显: 图1是本发明拓扑样例,虚线表示节点间默认存在双向链路; 图2是本发明图1状态中两节点间相对运动的过程。
下载此资料需消耗2积分,
分享到:
收藏