logo好方法网

一种基于增强学习的自组织网介质访问控制方法


技术摘要:
本发明公开一种基于增强学习的自组织网介质访问控制方法,应用于无线网络领域,针对现有技术普遍未考虑在动态TDMA介质访问控制方法中的分布式网络节点多时隙选取问题;本发明帧结构设计上采用了时隙交织方案,使得介质访问控制方法对硬件设备的分组响应时延性能要求更  全部
背景技术:
自组织(Ad  hoc)网络是无线网络环境下的一种无需依靠固定通信设施就能自我 建立、自我维护的多跳通信系统,具有很强的鲁棒性和抗毁能力。自组织网络非常适合应用 于无人机通信、车联网场景、环境监测等无线网络场景。 MAC(Medium  Access  Control)介质访问控制方法是负责节点共享和接入有限的 信道资源的关键所在,其性能优劣直接影响网络的整体性能。通常情况下,相比于传统的随 机竞争介质访问控制方法,基于TDMA(Time  Division  Multiple  Access)方式的介质访问 控制方法具有更好的网络性能,更加适用于Ad  hoc网络。TDMA介质访问控制方法主要分为 固定分配、动态分配和前两者混合型的方式。固定方式分配方式简单易实现,但通常不适用 于网络通信性能要求较高的应用场景。动态分配方式通常具有良好的网络性能,相关研究 较多,应用场景广泛。固定与动态结合的混合分配方式在吞吐量、时延方面都有一定的提 升,但复杂度以及控制开销也较大。 自组织网络领域中提出了两种经典的动态TDMA介质访问控制方法,这两种方法分 别代表了两种信道分配方法。一种是基于竞争接入的FPRP(Five  Phase  Reservation  Protocol)介质访问控制方法,FPRP的五步预约方法解决了隐藏终端问题,具有时隙复用的 特性。另一种是在竞争接入的基础上,引入节点相互协商占用信道方法的E-TDMA (Evolutionary-TDMA)介质访问控制方法,该方法除了具有FPRP的优点外,还适用于单播和 广播业务,时隙利用率更高。不少动态TDMA介质访问控制方法在其中一种介质访问控制方 法基础上进行相关改进,或者在一定程度上采用与其中一种方案相类似的分配方法。 在基于TDMA的介质访问控制方法的研究过程中,需考虑硬件设备在传输、处理和 分析分组的时延性能。不少TDMA介质访问控制方法如FPRP、E-TDMA以及相关改进介质访问 控制方法要求在紧邻的下一时隙其他节点能及时接收解析该分组信号,并完成数据计算, 生成响应控制分组,这对物理设备时延性能要求过高而不适用于实际的网络场景,从而产 生介质访问控制方法的实用性的问题。如何降低TDMA介质访问控制方法对物理设备时延性 能的要求,是解决介质访问控制方法实用性的关键之一。 TDMA介质访问控制方法通常配置相应的时隙分配算法,时隙分配算法对介质访问 控制方法的吞吐量、公平性、时延等性能都有重要影响。当前自组织网中已有大量较为成熟 的信道竞争预约算法被提出,相关算法的进一步优化遇到一定瓶颈,需寻求不同的优化思 路。增强学习技术非常适用于实时控制任务和优化问题,而且在动态网络的优化能力将有 可能超过传统网络算法。现已有一些增强学习应用于通信领域的例子,Alnwaimi等采用基 于增强学习的算法解决了蜂窝网络场景中的资源分配和用户接入的问题(Dynamic  Heterogeneous  Learning  Games  for  Opportunistic  Access  in  LTE-Based  Macro/ Feratocel1Deployments)。檀华丽等利用增强学习技术提出一种节点着色算法来解决TDMA 4 CN 111601398 A 说 明 书 2/8 页 信道资源分配问题(无线传感器网络中多信道TDMA调度算法研究)。在CSMA/CA场景下,杜艾 芊提出一种基于Q学习的竞争窗口调整算法。网络性能影响因素较为复杂,以上算法普遍未 考虑在动态TDMA介质访问控制方法中的分布式网络节点多时隙选取问题,将增强学习技术 应用于分布式网络节点多时隙选取场景,能使得时隙选取算法较为全面的考虑环境影响因 素,并从其中自适应学习到更优化的多时隙选取策略,基于增强学习的多时隙选取方法具 有重要研究价值和挑战性。
技术实现要素:
为解决上述技术问题,本发明提出一种基于增强学习的自组织网介质访问控制方 法。 本发明采用的技术方案为:一种基于增强学习的自组织网介质访问控制方法,基 于的帧结构包括:控制信道与数据信道;控制信道包括接入时隙与预约时隙,数据信道包括 多个信息时隙; 如图3所示,所述方法包括: S1、在自组织网环境中,节点通过FPRP机制在接入时隙竞争预约时隙占用权; S2、如果节点获取预约时隙占用权,则在预约时隙周期性的与邻居节点交互控制 信息,控制信息包含两跳范围内信息时隙占用情况和两跳范围内节点负载信息,并根据时 隙有限状态机维护时隙状态;如果节点未获取FS时隙占用,则返回步骤S1; S3、如果节点有数据需要发送,节点根据自身负载计算得到随后TCycMAX个周期需要 预约的信息时隙数nSlotNum,TCycMAX表示预约轮数并预先设定为固定值,然后执行步骤S4; 如果节点无数据需要发送,则执行步骤S5; S4、节点通过时隙竞争情况评估算法计算得出时隙竞争情况评估值,并将需预约 信息时隙数nSlotNum和时隙竞争情况评估值作为输入值,通过基于增强学习的多时隙选取 算法,运算得出随后TCycMAX个周期需选取预约的空闲信息时隙; S5、节点构造预约控制报文,在控制时隙广播预约控制报文;包含节点负载信息、 节点时隙状态信息、邻居信息、邻居负载等信息 S6、如果节点在下一次广播控制信息前,没有邻居节点的预约控制报文通告节点 所选取预约的信息时隙发生预约冲突,则表示节点预约成功,节点获得正奖赏值;如果节点 在下一次广播控制信息前,收到邻居节点的预约控制报文通告节点所选取预约的信息时隙 发生预约冲突,则表示节点预约失败,节点获得负奖赏值;通过奖赏更新基于增强学习的多 时隙选取算法相关参数; S7、如果节点成功预约信息时隙,则在相应信息时隙发送数据分组; S8、若节点接收到所占用预约时隙的冲突控制报文,则返回执行步骤S1;否则执行 步骤S9; S9、若节点需退出网络,则结束流程,否则返回步骤S2。 所述接入时隙的结构包括五个阶段,依次为:预约请求阶段、冲突报告阶段、预约 确认阶段、预约应答阶段、打包/消除阶段,记预约请求阶段为RR、冲突报告阶段为CR、预约 确认阶段为RC、预约应答阶段为RA、打包/消除阶段为P/E。 所述接入时隙中的五个阶段采用交替排列的形式,具体的:对于连续的k个接入时 5 CN 111601398 A 说 明 书 3/8 页 隙;第1个预约请求阶段位于第1个接入时隙,第k个预约请求阶段位于第k个接入时隙,第k- 1个预约请求阶段位于第k-1个接入时隙;第1个冲突报告阶段位于第2个接入时隙,第k个冲 突报告阶段位于第1个接入时隙,第k-1个冲突报告阶段位于第k个接入时隙;第1个预约确 认阶段位于第3个接入时隙,第k个预约确认阶段位于第2个接入时隙,第k-1个预约确认阶 段位于第1个接入时隙;第1个预约应答阶段位于第4个接入时隙,第k个预约应答阶段位于 第3个接入时隙,第k-1个预约应答阶段位于第2个接入时隙;第1个打包/消除阶段位于第5 个接入时隙,第k个打包/消除阶段位于第4个接入时隙,第k-1个打包/消除阶段位于第3个 接入时隙; 所述k大于或等于5; 第一个接入时隙的结构包括:第1个预约请求阶段、第k个冲突报告阶段、第k-1个 预约确认阶段、第k-2个预约应答阶段、第k-3个打包/消除阶段; 第k个接入时隙的结构包括:第k个预约请求阶段、第k-1个冲突报告阶段、第k-2个 预约确认阶段、第k-3个预约应答阶段、第k-4个打包/消除阶段; 本发明的有益效果:本发明在帧结构设计上采用了时隙交织方案,使得介质访问 控制方法对硬件设备的分组响应时延性能要求更加宽松。同时该方法采用多时隙预约机 制,使得网络节点在每周期只需发送一次控制帧并预约随后多个周期的信息时隙,交互流 程简单易实现,控制开销小。本发明的信道分配方法利用增强学习算法较好的自适应动态 调整能力和复杂状态处理能力,将增强学习算法DDPG(Deep  Deterministic  Policy  Gradient)与多时隙选取算法相结合,提出基于增强学习的多时隙选取算法。ME-TDMA (Multicycle  enhanced  TDMA)节点可获取每段信息时隙上可参与竞争的节点数量和邻居 节点的负载信息,这两种因素影响着不同时隙的竞争冲突概率。在此基础上,基于增强学习 的多时隙选取算法自适应调整每段时隙选取概率,产生更优化的时隙选取策略,从而减少 时隙竞争冲突,提高时隙分配效率,进一步优化介质访问控制方法的竞争成功率、传输带 宽、传输时延、丢包率等性能;本发明的方法具备以下优点: 1、本发明使用时隙交织的方法将帧周期内预约时隙与信息时隙进行交替排列,在 此基础上,配合提出多周期预约方法(ME-TDMA),在一段预约时隙中可预约随后多个周期的 信息时隙;使得介质访问控制方法对硬件设备的分组响应时延性能要求更加宽松,增加了 介质访问控制方法的实用性。 2、本发明提出动态TDMA时隙预约的多时隙选取算法,该算法结合增强学习技术, 使各分布式网络节点在每次预约中能够选取多个时隙。在选取预约时隙时,考虑了竞争节 点数量和节点负载的差异对不同时隙竞争冲突概率的影响。 附图说明 图1ME-TDMA信道控制访问方法的帧结构图; 图2AS时隙结构图; 图3ME-TDMA信道控制访问方法的运行流程图; 图4时隙有限状态机图; 图5为预约控制报文所包含内容的示意图; 图6为Neigh字段、FCState字段、SlotState字段、LoadState字段包含内容的示意 6 CN 111601398 A 说 明 书 4/8 页 图。
分享到:
收藏