logo好方法网

一种基于SDN的异构无线网络接入选择方法及系统


技术摘要:
本发明涉及一种基于SDN的异构无线网络接入选择方法及系统,该方法包括步骤:在目标观测时间长度下,获取每个时刻环境中的目标观测数据;利用预设神经网络对目标观测数据依次进行多属性特征提取、空间特征提取和时序特征提取,得到当前时刻的状态向量;使用初始Q网络对  全部
背景技术:
工业互联网是推动未来网络发展的一个典型应用场景,是驱动未来互联网发展的 关键动力之一,无论是5G时代还是后5G时代,其中确定性低时延是关键的技术需求。当前基 于IETF(Internet  Engineering  Task  Force,国际互联网工程任务组)的TCP/IP协议栈的 互联网,其提供“尽力而为”的网络传送服务以及有限的QoS(Quality  of  Service,服务质 量)保证。但在未来的工业连接上,不仅要提供确定的、及时的传送服务(in  time,时延短), 而且要提供确定的、准时的传送服务(on  time,抖动小)。由于5G在室内覆盖上成本高,终端 兼容性弱的限制,而新一代Wi-Fi  6在室内覆盖上已经克服了大带宽、大容量、低时延的挑 战,可以支持VR/4K/AGV等大带宽低时延的关键应用,所以Wi-Fi网络与5G网络在大部分的 场景里是可以相互协同,使得整个接入系统的服务最优。而由于移动终端业务的多样性、无 线网络信道传输质量的差异性、无线网络信号的重叠性等因素,需要依靠网络接入选择算 法保障用户能够接入到最适合的网络进行业务处理,而由于传统无线网络的封闭结构,使 得接入选择方法难以部署。无线终端的移动性和无线信道的时变性,更是使得无线网络的 接入选择面临的情况较为复杂。此外,传统架构中无线访问接入点(WirelessAccessPoint, AP)具有独立性,只能获取到与自身关联的终端信息,不同AP间缺少同步信息。 而基于深度Q学习网络DQN(Deep  Q-learning  Network)的异构无线网络接入选择 算法,将终端的吞吐量作为DQN的奖励值,使用AP接收到终端的RSSI(Received  Signal  Strength  Indication,接收的信号强度指示)信息表征终端在网络中所处的状态;通过将 算法放置到实际的网络环境或者仿真平台进行训练,从而得到适用于对应的网络场景的切 换判决策略。由于该算法所提供的切换判决算法采用了强化学习的方法,因此其具有针对 不同网络环境的普适性以及应对网络变化的自适应性。基于DQN的切换判决算法与传统的 切换判决算法相比,能够做出最佳的切换决策,并明显地提高终端在切换过程中的吞吐量。 然而,由于该算法只考虑了终端的RSSI因素作为终端在网络中所处的状态,而单 一的RSSI指标并不能确切反映出网络中的实际状况,因此在该接入选择算法下,不能使得 终端满足确定性低时延,且传统的DQN算法存在过估计(overestimate)问题,导致无法获得 稳定有效的策略。
技术实现要素:
为了解决现有技术中存在的上述问题,本发明提供了一种基于SDN的异构无线网 络接入选择方法及系统。本发明要解决的技术问题通过以下技术方案实现: 本发明实施例提供了一种基于SDN的异构无线网络接入选择方法,包括步骤: S1、在目标观测时间长度下,获取每个时刻环境中的目标观测数据,输出所述目标 5 CN 111586809 A 说 明 书 2/10 页 观测数据;其中,所述目标观测数据包括若干属性; S2、利用预设神经网络对所述目标观测数据依次进行多属性特征提取、空间特征 提取和时序特征提取,得到当前时刻的状态向量; S3、使用初始Q网络对所述状态向量进行处理,并利用Double  DQN算法对所述预设 神经网络和所述初始Q网络进行训练,得到训练好的预设神经网络和目标Q网络; S4、利用训练好的所述预设神经网络和所述目标Q网络计算当前时刻每个决策的 评估值,并根据所述评估值选取目标决策,输出所述目标决策; S5、执行所述目标决策。 在本发明的一个实施例中,步骤S1包括: S11、从环境中获取第j个接入点上的第一观测数据Pj: 其中,Pj表示第j个接入点上的第一观测数据,n表示第一观测数据包括的属性个 数,fk表示第一观测数据中第k个属性的值; S12、获取在第i时刻环境中所有接入点上的第二观测数据Oi: 其中,Oi表示在第i时刻的第二观测数据,m表示环境中的接入点的数量; S13、输出由所述第二观测数据形成的目标观测数据O: 其中,O表示目标观测数据,l表示目标观测时间长度。 在本发明的一个实施例中,所述若干属性包括终端侧接收信号的强度、无线接入 点的连接用户数、无线接入点的当前负载中的一种或多种。 在本发明的一个实施例中,步骤S2包括: S21、利用多属性神经网络对所述目标观测数据进行多属性特征提取,得到属性特 征B: B=fANN(O;θANN) 其中,B表示属性特征,fANN表示多属性神经网络的非线性映射函数,θANN表示多属 性神经网络中的可变参数; S22、利用卷积神经网络对所述多属性特征进行空间特征提取,得到空间特征C; C=fCNN(B;θCNN) 其中,C表示空间特征,fCNN表示卷积神经网络的非线性映射函数,θCNN表示卷积神 经网络中的可变参数; S23、利用循环神经网络对所述空间特征进行时序特征进行提取,得到状态向量S: S=fRNN(C;θRNN) 其中,S表示状态向量,fRNN表示循环神经网络的非线性映射函数,θRNN表示循环神 经网络中的可变参数。 6 CN 111586809 A 说 明 书 3/10 页 在本发明的一个实施例中,步骤S3包括: S31、根据环境中接入点的数量和每个设备接入的决策定义决策空间A: 其中,A表示决策空间,t表示环境中的接入点的数量,ai表示选择第i个设备接入 的决策; S32、使用所述初始Q网络对所述状态向量进行处理,得到当前时刻决策空间中每 个决策的评估值; S33、根据随机概率和当前时刻所述每个决策的评估值,从所述决策空间选取第一 决策; S34、获取当前时刻终端执行所述第一决策时的奖励值和下一时刻的目标观测数 据; S35、根据所述奖励值和所述下一时刻的目标观测数据计算所述Double  DQN算法 的损失函数; S36、根据所述损失函数,使用随机梯度下降的方法更新所述预设神经网络中的可 变参数和所述初始Q网络中的可变参数,得到训练好的预设神经网络和目标Q网络。 本发明的另一个实施例还提供了一种基于SDN的异构无线网络接入选择系统,包 括环境模块、特征模块和策略模块,其中, 所述环境模块用于在目标观测时间长度下,获取每个时刻环境中的目标观测数 据,输出所述目标观测数据,其中,所述目标观测数据包括若干属性;所述环境模块还用于 检测并执行所述策略模块输出的策略行为; 所述特征模块连接所述环境模块,用于利用预设神经网络对所述目标观测数据依 次进行多属性特征提取、空间特征提取和时序特征提取,得到当前时刻的状态向量; 所述策略模块连接所述环境模块和所述特征模块,用于使用初始Q网络对所述状 态向量进行处理,并利用Double  DQN算法对所述预设神经网络和所述初始Q网络进行训练, 得到训练好的预设神经网络和目标Q网络,然后利用训练好的所述预设神经网络和所述目 标Q网络计算当前时刻每个决策的评估值,根据所述评估值选取目标决策,并输出所述策略 行为至所述环境模块。 在本发明的一个实施例中,所述若干属性包括终端接收信号的强度、无线接入点 的连接用户数、无线接入点的当前负载中的一种或多种。 在本发明的一个实施例中,所述特征模块包括多属性神经网络模块、卷积神经网 络模块和循环神经网络模块,其中, 所述多属性神经网络模块用于利用多属性神经网络对所述目标观测数据进行多 属性特征提取,得到属性特征; 所述卷积神经网络模块用于利用卷积神经网络对所述多属性特征进行空间特征 提取,得到空间特征; 所述循环神经网络模块用于利用循环神经网络对所述空间特征进行时序特征进 行提取,得到所述状态向量。 与现有技术相比,本发明的有益效果: 7 CN 111586809 A 说 明 书 4/10 页 本发明的接入选择方法通过对若干属性因素依次进行多属性特征提取、空间特征 提取和时序特征进行提取,并使用Double  DQN算法实现网络接入选择方法的训练,可以使 得任何一个移动设备在一个5G和WIFI网络覆盖的区域内都能够根据当前的环境状况与自 身的状态,选择最优的网络进行接入,从而满足确定性低时延,以保证用户的业务体验。 附图说明 图1为本发明实施例提供的一种基于SDN的异构无线网络接入选择方法的流程示 意图; 图2为本发明实施例提供的一种基于SDN的异构无线网络接入选择系统的结构示 意图。
下载此资料需消耗2积分,
分享到:
收藏