技术摘要:
本发明公开了一种基于深度强化学习Ceph系统性能调优系统,由数据源模块、数据访问模式学习模块、评价机制学习模块和系统参数调整学习模块组成;一种基于深度强化学习Ceph系统性能调优策略,通过如下步骤实现:S1:对数据源进行预处理;S2:Ceph文件系统运行环境模型的 全部
背景技术:
Ceph是一个Linux PB级分布式文件系统,广泛运用于各大分布式存储领域,因此 当用户访问一个文件时,Ceph文件系统会读写该文件对应的元数据,进而进行相关数据的 获取,当前在使用Ceph文件系统时,受到默认的配置参数影响,往往会存在文件间的执行冲 突,进而导致Ceph文件系统停止工作或者响应速度变慢。 其次,Ceph文件的系统性能,也受到服务器硬件配置的影响,当硬件配置较低时, 受到处理器、服务器等设备的影响,Ceph的文件性能也会相应的降低,再加上访问Ceph的参 数不变,导致Ceph文件被访问时,会进一步降低Ceph文件的系统性能,致使Ceph文件无法继 续使用或出现卡顿的现象,从而增加系统在运行时的负载和速度。
技术实现要素:
针对现有技术的不足,本发明提供了一种基于深度强化学习Ceph系统性能调优策 略与系统,解决了在使用Ceph文件系统时,受到默认的配置参数影响,往往会存在文件间的 执行冲突,进而导致Ceph文件系统停止工作或者响应速度变慢、降低Ceph文件的系统性能, 致使Ceph文件无法继续使用或出现卡顿,从而增加系统在运行时的负载和速度现象的问 题。 为实现上述目的,本发明提供如下技术方案:一种基于深度强化学习Ceph系统性 能调优系统,由数据源模块、数据访问模式学习模块、评价机制学习模块和系统参数调整学 习模块组成; 所述数据源模块用于对获得的数据源进行数据预处理,所述数据源包括Ceph文件 系统运行日志、系统性能数据、系统硬件配置信息,所述数据预处理是将所述Ceph文件系统 运行日志和所述系统硬件配置信息输送至所述数据访问模式学习模块,将所述系统性能信 息输送至所述评价机制学习模块; 所述数据访问模式学习模块用于Ceph文件系统运行环境模型,所述数据访问模式 学习模块学习结果构成数据访问模式的特征,所述数据访问模式学习模块将获得的所述数 据访问模式的特征输送至所述系统参数调整学习模块; 所述评价机制学习模块将从所述数据源模块中获得的信息结合评价机制得到调 优过程中所需要的奖赏函数,所述奖赏函数作为所述评价机制的反馈数据被所述评价机制 学习模块输送至所述系统参数调整学习模块; 所述系统参数调整学习模块从所述数据访问模式学习模块和所述评价机制学习 模块分别获得所述Ceph文件系统具体的运行环境和所述奖赏函数,并进行基于深度强化学 习方法的Ceph文件系统性能调优学习训练,与所述Ceph文件系统数据访问模型进行不断的 4 CN 111581178 A 说 明 书 2/5 页 交互学习,通过所述评价机制学习模块得到反馈的所述奖赏函数从而用于之后的系统参数 调整,并通过策略更新机制,得到所述Ceph文件系统最优的系统参数。 优选的,所述评价机制包括系统参数调整奖励评分机制学习和参数调整惩罚评分 机制学习。 优选的,所述系统参数调整学习模块进行深度强化学习是基于A2C模型进行的,所 述A2C模型与所述Ceph文件系统运行环境模型进行不断的交互学习。 一种基于深度强化学习Ceph系统性能调优策略,所述Ceph文件系统性能调优策略 通过如下步骤实现: S1:对数据源进行预处理; 从数据源中提取出Ceph文件系统运行日志和系统硬件配置信息数据,构成Ceph文 件系统运行环境模型;从数据源中提取出系统性能数据作为评价机制学习的参数; S2:Ceph文件系统运行环境模型的学习与分类; 通过采集Ceph文件系统的运行数据,采用基于历史Ceph文件系统运行数据的无监 督算法进行Ceph文件系统运行环境模型的训练和分类,Ceph文件系统运行环境模型通过学 习获得Ceph文件系统具体的运行环境,并将获得的Ceph文件系统具体的运行环境用于Ceph 文件系统参数调整策略学习; S3:评价机制学习; 将从数据源中获得的中一段时间的Ceph文件系统性能数据作为Ceph文件系统参 数调整的奖赏函数,奖赏函数作为Ceph文件系统参数调整的评价值被用于Ceph文件系统参 数调整策略学习; S4:Ceph文件系统参数调整策略学习; 采用深度强化学习方法对Ceph文件系统的运行环境进行参数调整策略学习,并通 过获得的奖赏函数对参数调整策略的更新与优化,进而获得Ceph文件系统参数的优化调整 策略。 优选的,所述Ceph文件系统参数调整方法还包括策略更新机制,优化后的所述参 数调整策略能够应用所述策略更新机制进行实时的策略更新,指导自身在当前参数调整策 略的基础上,实时自适应学习得出更优化的参数调整策略,实现Ceph文件系统性能的逐步 优化。 优选的,所述在步骤S2中,Ceph文件系统的运行环境信息包括Ceph文件系统硬件 配置信息、数据访问数据和Ceph文件系统负载数据,其中大部分参数在一定的范围内波动, 是可通过历史数据观察和预测到的波动信息,而有小部分参数在实际场景中是不确定性 的,并可能发生不可预测的波动。 优选的,所述Ceph文件系统运行环境模型通过基于历史样本数据的无监督学习算 法完成Ceph文件系统的运行环境模型的分类。 优选的,所述无监督学习算法为聚类算法或神经网络算法。 优选的,所述在步骤S3中,所述评价机制包括参数调整奖励评分机制和参数调整 惩罚评分机制,所述参数调整评分机制基于参数调整前后系统的性能变化制定。 优选的,所述在步骤S4中,通过A2C模型完成参数调整策略学习,基于所述深度强 化学习算法,所述Ceph文件系统运行环境模型以参数调整动作后的评价作为反馈信息,评 5 CN 111581178 A 说 明 书 3/5 页 价机制通过奖赏或惩罚当前的参数调节动作,给所述A2C模型反馈一个奖赏评价值,所述 A2C模型结合运行状态迭代地进行策略的更新与优化。 有益效果如下: 本发明根据数据访问模式,采用深度强化学习算法,再结合A2C模型与Ceph文件系 统的交互学习,得到优化后的参数,即可选择适应数据访问模式的最优系统参数,该方法可 适应不同的数据访问模式和硬件配置,通过智能学习获取最优的系统参数,使得系统参数 可以根据,从而提高Ceph文件系统的性能,使得Ceph文件系统可以根据不用的硬件配置运 行不同的参数,从而增加运行速度。 本发明通过数据访问模式学习模块和评价机制学习模块将分别获得的具体的数 据访问模式特征和奖赏函数值输出至系统参数调整学习模块,基于深度强化学习算法, Ceph文件系统性能调优以Ceph文件系统参数调整的评价作为反馈信息,通过奖赏或惩罚当 前的系统参数调整,给系统参数调整策略反馈一个奖赏函数作为奖赏评价值,控制策略结 合运行状态迭代地进行策略的更新与优化,本发明能更好的优化Ceph文件系统的性能,并 极大地减少了人工参与。
本发明公开了一种基于深度强化学习Ceph系统性能调优系统,由数据源模块、数据访问模式学习模块、评价机制学习模块和系统参数调整学习模块组成;一种基于深度强化学习Ceph系统性能调优策略,通过如下步骤实现:S1:对数据源进行预处理;S2:Ceph文件系统运行环境模型的 全部
背景技术:
Ceph是一个Linux PB级分布式文件系统,广泛运用于各大分布式存储领域,因此 当用户访问一个文件时,Ceph文件系统会读写该文件对应的元数据,进而进行相关数据的 获取,当前在使用Ceph文件系统时,受到默认的配置参数影响,往往会存在文件间的执行冲 突,进而导致Ceph文件系统停止工作或者响应速度变慢。 其次,Ceph文件的系统性能,也受到服务器硬件配置的影响,当硬件配置较低时, 受到处理器、服务器等设备的影响,Ceph的文件性能也会相应的降低,再加上访问Ceph的参 数不变,导致Ceph文件被访问时,会进一步降低Ceph文件的系统性能,致使Ceph文件无法继 续使用或出现卡顿的现象,从而增加系统在运行时的负载和速度。
技术实现要素:
针对现有技术的不足,本发明提供了一种基于深度强化学习Ceph系统性能调优策 略与系统,解决了在使用Ceph文件系统时,受到默认的配置参数影响,往往会存在文件间的 执行冲突,进而导致Ceph文件系统停止工作或者响应速度变慢、降低Ceph文件的系统性能, 致使Ceph文件无法继续使用或出现卡顿,从而增加系统在运行时的负载和速度现象的问 题。 为实现上述目的,本发明提供如下技术方案:一种基于深度强化学习Ceph系统性 能调优系统,由数据源模块、数据访问模式学习模块、评价机制学习模块和系统参数调整学 习模块组成; 所述数据源模块用于对获得的数据源进行数据预处理,所述数据源包括Ceph文件 系统运行日志、系统性能数据、系统硬件配置信息,所述数据预处理是将所述Ceph文件系统 运行日志和所述系统硬件配置信息输送至所述数据访问模式学习模块,将所述系统性能信 息输送至所述评价机制学习模块; 所述数据访问模式学习模块用于Ceph文件系统运行环境模型,所述数据访问模式 学习模块学习结果构成数据访问模式的特征,所述数据访问模式学习模块将获得的所述数 据访问模式的特征输送至所述系统参数调整学习模块; 所述评价机制学习模块将从所述数据源模块中获得的信息结合评价机制得到调 优过程中所需要的奖赏函数,所述奖赏函数作为所述评价机制的反馈数据被所述评价机制 学习模块输送至所述系统参数调整学习模块; 所述系统参数调整学习模块从所述数据访问模式学习模块和所述评价机制学习 模块分别获得所述Ceph文件系统具体的运行环境和所述奖赏函数,并进行基于深度强化学 习方法的Ceph文件系统性能调优学习训练,与所述Ceph文件系统数据访问模型进行不断的 4 CN 111581178 A 说 明 书 2/5 页 交互学习,通过所述评价机制学习模块得到反馈的所述奖赏函数从而用于之后的系统参数 调整,并通过策略更新机制,得到所述Ceph文件系统最优的系统参数。 优选的,所述评价机制包括系统参数调整奖励评分机制学习和参数调整惩罚评分 机制学习。 优选的,所述系统参数调整学习模块进行深度强化学习是基于A2C模型进行的,所 述A2C模型与所述Ceph文件系统运行环境模型进行不断的交互学习。 一种基于深度强化学习Ceph系统性能调优策略,所述Ceph文件系统性能调优策略 通过如下步骤实现: S1:对数据源进行预处理; 从数据源中提取出Ceph文件系统运行日志和系统硬件配置信息数据,构成Ceph文 件系统运行环境模型;从数据源中提取出系统性能数据作为评价机制学习的参数; S2:Ceph文件系统运行环境模型的学习与分类; 通过采集Ceph文件系统的运行数据,采用基于历史Ceph文件系统运行数据的无监 督算法进行Ceph文件系统运行环境模型的训练和分类,Ceph文件系统运行环境模型通过学 习获得Ceph文件系统具体的运行环境,并将获得的Ceph文件系统具体的运行环境用于Ceph 文件系统参数调整策略学习; S3:评价机制学习; 将从数据源中获得的中一段时间的Ceph文件系统性能数据作为Ceph文件系统参 数调整的奖赏函数,奖赏函数作为Ceph文件系统参数调整的评价值被用于Ceph文件系统参 数调整策略学习; S4:Ceph文件系统参数调整策略学习; 采用深度强化学习方法对Ceph文件系统的运行环境进行参数调整策略学习,并通 过获得的奖赏函数对参数调整策略的更新与优化,进而获得Ceph文件系统参数的优化调整 策略。 优选的,所述Ceph文件系统参数调整方法还包括策略更新机制,优化后的所述参 数调整策略能够应用所述策略更新机制进行实时的策略更新,指导自身在当前参数调整策 略的基础上,实时自适应学习得出更优化的参数调整策略,实现Ceph文件系统性能的逐步 优化。 优选的,所述在步骤S2中,Ceph文件系统的运行环境信息包括Ceph文件系统硬件 配置信息、数据访问数据和Ceph文件系统负载数据,其中大部分参数在一定的范围内波动, 是可通过历史数据观察和预测到的波动信息,而有小部分参数在实际场景中是不确定性 的,并可能发生不可预测的波动。 优选的,所述Ceph文件系统运行环境模型通过基于历史样本数据的无监督学习算 法完成Ceph文件系统的运行环境模型的分类。 优选的,所述无监督学习算法为聚类算法或神经网络算法。 优选的,所述在步骤S3中,所述评价机制包括参数调整奖励评分机制和参数调整 惩罚评分机制,所述参数调整评分机制基于参数调整前后系统的性能变化制定。 优选的,所述在步骤S4中,通过A2C模型完成参数调整策略学习,基于所述深度强 化学习算法,所述Ceph文件系统运行环境模型以参数调整动作后的评价作为反馈信息,评 5 CN 111581178 A 说 明 书 3/5 页 价机制通过奖赏或惩罚当前的参数调节动作,给所述A2C模型反馈一个奖赏评价值,所述 A2C模型结合运行状态迭代地进行策略的更新与优化。 有益效果如下: 本发明根据数据访问模式,采用深度强化学习算法,再结合A2C模型与Ceph文件系 统的交互学习,得到优化后的参数,即可选择适应数据访问模式的最优系统参数,该方法可 适应不同的数据访问模式和硬件配置,通过智能学习获取最优的系统参数,使得系统参数 可以根据,从而提高Ceph文件系统的性能,使得Ceph文件系统可以根据不用的硬件配置运 行不同的参数,从而增加运行速度。 本发明通过数据访问模式学习模块和评价机制学习模块将分别获得的具体的数 据访问模式特征和奖赏函数值输出至系统参数调整学习模块,基于深度强化学习算法, Ceph文件系统性能调优以Ceph文件系统参数调整的评价作为反馈信息,通过奖赏或惩罚当 前的系统参数调整,给系统参数调整策略反馈一个奖赏函数作为奖赏评价值,控制策略结 合运行状态迭代地进行策略的更新与优化,本发明能更好的优化Ceph文件系统的性能,并 极大地减少了人工参与。