技术摘要:
本发明公开了一种适于双向coflow调度方法的最佳并发连接数预测方法,包括:采用C‑SVC模型作为多类分类器,生成预测模型对最佳并发连接数进行预测,所述预测模型用于根据已知丢包率计算得到对应的缓冲区大小,结合缓冲区大小和并发连接数的关系,计算得到当前最佳并发 全部
背景技术:
在数据中心网络中,主流的数据并行框架如Hadoop和Spark,其网络通信是高度结 构化的。因此,最小化单个流完成时间或提高流之间的公平性等网络级优化不能提高性能。 Coflow是为应用程序级语义提出的一种网络抽象,表示通信阶段的一组相关流。它的完成 需要所有这些流中的最后一个已经完成。这种抽象缩短了应用程序级语义和网络级优化之 间的差距。最小化coflow完成时间(Coflow Completion Time,CCT)减少了相应作业的完成 时间。 然而,最新的coflow调度方法具有几个缺点。一方面,它们无法实现最优调度。当 主机入口链路的带宽成为瓶颈时,发送方驱动的coflow调度可能是次优的。相应地,当主机 出口链路的带宽成为瓶颈时,接收方驱动的调度也可能是次优的。在真实的网络中,由于任 务分配的不均衡,这两种情况通常共存。另一方面,现有工作无法优化每个主机上的并发连 接数量。已经证明,良好的吞吐量与并发连接的数量有很强的相关性。对于每个主机接入链 路对应的交换机出口端口,队列长度会随着并发连接数的增加而增加。当超过队列缓冲区 的限制时,交换机开始丢弃数据包,导致重新传输甚至重新连接。由于并发连接太多或太 少,CCT可能会延长。
技术实现要素:
本发明目的在于提供一种适于双向coflow调度方法的最佳并发连接数预测方法, 主张使用丢包率作为预测并发连接的最优数量的关键特征,通过测量不同设置的性能,建 立了一个预测模型来预测并发连接的最优数量,实现了最佳并发连接预测过程的精确性和 高效性,同时避免了由于连接太多而导致的拥塞和由于连接太少而导致的带宽浪费。在此 基础上,结合发送方驱动和接收方驱动两种调度方法的优点,达到接近最优的调度效果。 为达成上述目的,结合图1,本发明提出一种适于双向coflow调度方法的最佳并发 连接数预测方法,所述预测方法包括: 采用C-SVC模型作为多类分类器,生成预测模型对最佳并发连接数进行预测,所述 预测模型用于根据已知丢包率计算得到对应的缓冲区大小,结合缓冲区大小和并发连接数 的关系,计算得到当前最佳并发连接数。 作为其中的一种优选例,所述预测方法还包括: S11,随机生成一个包含ξ个并发小流的incast流量,重复t次,t为大于1的正整数, 获取每个并发小流对应的丢包率x和对应的缓冲区大小y,生成集合Q,集合Q中包含了t组不 同的(x,y)值对,其中x的取值范围为[-1,1]; S12,将一组并发流的丢包率x和对应的缓冲区大小y视为一组样本数据,从集合Q 4 CN 111585905 A 说 明 书 2/6 页 中随机选择一定量具有不同缓冲区大小特性的样本数据,生成样本数据集; S13,采用C-SVC模型作为多类分类器,生成预测模型,采用样本数据集对预测模型 进行训练; S14,采用训练完成的预测模型,结合缓冲区大小和并发连接数的关系,计算得到 当前最佳并发连接数。 作为其中的一种优选例,所述C-SVC模型由[|Q|*(|Q|-1)]/2个二分类器组成,其 中|Q|是类的数量; 在训练阶段,每个二分类器通过求解一个凸二次规划以寻找一个超平面来划分特 定的两个类;在测试阶段,对于给定的输入x,所有二分类器都将投票决定类号y,其中y表示 估计的缓冲区大小。 结合图2,本发明还提及一种双向coflow调度方法,其特征在于,所述调度方法包 括以下步骤: S1,采用前述预测方法,预测每个主机上的最佳并发连接数; S2,采用全局调度程序收集映射器和减速器的信息,并在跟踪器上生成全局的候 选列表; S3,根据动态优先级列表确定本地调度程序上每个减速器的并发连接数; S4,在微调度程序上重新调整每个减速器的连接状态,并将当前连接状态报告给 全局调度程序。 作为其中的一种优选例,步骤S1中,所述预测每个主机上的最佳并发连接数是指, 采用支持向量机作为机器学习模型来自动识别并发连接的最佳数量,即交换机中的队列限 制。 作为其中的一种优选例,步骤S2中,所述全局调度程序在跟踪器上运行,用于监视 每个主机的网络状态,并在收到微调度程序的请求后动态生成候选列表; 步骤S3中,所述本地调度程序在每个主机上运行,用于根据本地优先级列表在发 送方和接收方之间重新分配连接; 步骤S4中,所述微调度程序在每个减速器上运行,用于对来自相应的本地调度程 序的连接重新分配做出反应,并调整每个减速器的连接数。 作为其中的一种优选例,步骤S3中,所述根据动态优先级列表确定本地调度程序 上每个减速器的并发连接数的过程包括如下步骤: S31,采用最短剩余时间优先原则,根据coflow和减速器的剩余大小对减速器进行 排序; S32,判断最优先减速器是否相比上次调度排序保持不变,如果是,进入步骤S33, 否则,进入步骤S34; S33,判断以下两个条件是否同时满足:(1)空闲的下行带宽超过α·b,其中,b为瓶 颈链路容量,α为0到1之间的实数参数(2)剩余的连接数大于零,如果同时满足,则分配一个 或多个连接给次优先减速器,分配的连接数不超过空闲连接数的一半;否则,停止将连接分 配给非优先的减速器,结束当前流程; S33,判断剩余的连接数是否小于β·m,其中,m为预测的连接数,β为0到1之间的实 数参数,如果是,关闭上次调度排序中的最优先减速器的部分连接;否则,当上次调度排序 5 CN 111585905 A 说 明 书 3/6 页 中的最优先减速器的流传输完成时,收回已分配的连接,并且将β·m个连接分配给当前最 优先减速器,结束当前流程。 作为其中的一种优选例,步骤S4中,所述在微调度程序上重新调整每个减速器的 连接状态的过程包括如下步骤: S41,判断减速器的当前连接数是否超过分配的连接数,如果是,进入步骤S42,否 则,进入步骤S43; S42,采用微调度程序逐个关闭流量传输速率最高的部分连接,直到当前连接数满 足要求,结束当前流程; S43,采用微调度程序向跟踪器请求候选列表以打开更多连接,若减速器是最优先 减速器,连接具有最大空闲上行链路容量的映射器,否则连接具有最大剩余发送流量的映 射器。 作为其中的一种优选例,步骤S2中,所述采用全局调度程序收集映射器和减速器 的信息,并在跟踪器上生成全局的候选列表的过程包括如下步骤: S21,判断减速器是否为最优先的减速器,如果是,进入步骤S22,否则,进入步骤 S23; S22,对于每一个发送方主机,如果减速器所属的coflow在发送方主机中也具有优 先级,则向空闲上行带宽添加一个常量λ·b,λ定义为0到1之间的实数,b定义为瓶颈链路容 量,根据空闲上行带宽由小到大的顺序排序发送方主机,由首位开始依次选取不超过预测 连接数量的已排序发送方主机生成全局的候选列表,结束当前流程; S22,如果减速器所属主机空闲下行带宽大于θ·b,θ为0到1之间的实数参数,b定 义为瓶颈链路容量,根据空闲上行带宽由小到大的顺序排序发送方主机,选取与减速器所 属主机空闲下行带宽最接近的发送方主机的空闲上行带宽,由该选取的主机开始依次选取 排序在它前且不超过预测连接数量的已排序发送方主机生成全局的候选列表。 结合图3,基于前述调度方法,本发明还提及一种基于预测并发连接数的双向 coflow调度系统,所述调度系统包括: (1)预测模型,用于预测每个主机上的最佳并发连接数; (2)全局调度程序,运行在跟踪器上,用于收集映射器和减速器的信息,并在跟踪 器上生成全局的候选列表; (3)本地调度程序,运行在与跟踪器连接的各个主机上,用于根据存储在主机本地 的动态优先级列表确定与当前主机连接的每个减速器的并发连接数; (4)微调度程序,运行在各个减速器上,用于重新调整每个减速器的连接状态,并 将当前连接状态报告给全局调度程序。 以上本发明的技术方案,与现有相比,其显著的有益效果在于: (1)主张使用丢包率作为预测并发连接的最优数量的关键特征,通过测量不同设 置的性能,建立了一个预测模型来预测并发连接的最优数量,实现了最佳并发连接预测过 程的精确性和高效性,同时避免了由于连接太多而导致的拥塞和由于连接太少而导致的带 宽浪费。 (2)在自动识别并发连接的最优数量的基础上,结合发送方驱动和接收方驱动两 种调度方法的优点,达到接近最优的调度效果。 6 CN 111585905 A 说 明 书 4/6 页 (3)本发明估计并发连接数量的准确度为98%,分别降低15%和40%的平均 coflow完成时间和尾部coflow完成时间。 (4)本发明采用的预测模型可以在一个相关的大范围内容忍估计误差,具有较强 的鲁棒性。 应当理解,前述构思以及在下面更加详细地描述的额外构思的所有组合只要在这 样的构思不相互矛盾的情况下都可以被视为本公开的发明主题的一部分。另外,所要求保 护的主题的所有组合都被视为本公开的发明主题的一部分。 结合附图从下面的描述中可以更加全面地理解本发明教导的前述和其他方面、实 施例和特征。本发明的其他附加方面例如示例性实施方式的特征和/或有益效果将在下面 的描述中显见,或通过根据本发明教导的