技术摘要:
本发明实施例提供了一种温度控制方法、装置及中央温度控制系统,涉及温度控制技术领域。其中,上述温度控制方法包括将获得的实时环境数据输入估计网络模型;基于估计网络模型所对应的贪心概率,采用贪心策略从多个学习动作值中选出优选学习动作值;利用优选学习动作值 全部
背景技术:
中央型温度控制系统是一种控制集中、可为多个独立空间提供温度控制服务的系 统。比如,地暖系统、中央空调等。目前控制中央型温度控制系统为所有空间提供温度控制 服务,主要基于用户设置的控制参数。而用户配置的控制参数往往不能使中央型温度控制 系统提供优质服务,还需用户盲目地常识改变控制参数以探索较佳的控制参数。这一过程 不仅耗时耗能,还会造成温度波动,影响用户的使用体验。
技术实现要素:
为解决如何兼顾得到最优控制输入量及避免尝试配置控制参数的成本的问题,本 发明实施例提供了一种温度控制方法、装置及中央温度控制系统。 第一方面,本发明实施例提供一种温度控制方法,应用于中央温度控制系统,所述 中央温度控制系统内存储有训练得到的估计网络模型;所述温度控制方法包括:将获得的 实时环境数据输入所述估计网络模型,以的得到多个学习动作值;其中,一个所述学习动作 值对应一个用于调节温度的控制输入量;基于所述估计网络模型所对应的贪心概率,采用 贪心策略从所述多个学习动作值中选出优选学习动作值;其中,所述贪心概率与所述估计 网络模型的迭代次数呈反比;利用所述优选学习动作值所对应的控制输入量,控制所述中 央温度控制系统进行温度调节。本方案利用估计网络模型评估在当前的实时环境数据下不 同控制输入量所对应的学习动作值,学习动作值一定程度上可以表征控制输入量的优质程 度。然后,利用与估计网络模型的迭代次数呈反比的贪心概率,寻找最终用于控制中央温度 控制系统的控制输入量。如此,减少不断尝试不同控制输入量所带来的能耗成本和避免影 响温度的波动。并且能够确保使用不同精度的估计网络模型都能够最大可能的获得最优的 控制输入量,提高中央温度控制系统提供的温度服务质量和用户的使用体验。 在可选的实施方式中,所述中央温度控制系统中预先存储有初始估计模型和初始 目标模型;所述温度控制方法还包括:获取所述中央温度控制系统的历史温度调节数据及 对应的历史环境数据;根据所述历史温度调节数据及对应的历史环境数据生成多个样本数 据;其中,所述样本数据包括第一环境参数、样本控制输入量、第二环境参数及控制奖励值; 所述控制奖励值用于表征样本执行过程的能耗成本及温度控制效果;所述样本执行过程为 所述中央温度控制系统执行所述样本控制输入量将实时环境数据从所述第一环境参数调 节至所述第二环境参数的过程;利用所述样本数据,结合初始目标模型,对所述初始估计模 型进行训练,得到所述估计网络模型,并存储。从而得到能够从能耗成本及温度控制效果等 角度评估控制输入量的估计网络模型。 在可选的实施方式中,所述利用所述样本数据,结合初始目标模型,对所述初始估 5 CN 111609534 A 说 明 书 2/11 页 计模型进行训练的步骤包括:将所述第一环境参数输入所述初始估计模型,以得到所述样 本控制输入量所对应的估计动作值;将所述第二环境参数输入所述初始目标模型,以得到 多个中间动作值;根据最大的所述中间动作值及所述控制奖励值,计算目标动作值;根据所 述估计动作值与所述目标动作值之间的差异对所述初始估计模型的模型参数进行迭代,以 得到所述估计网络模型。 在可选的实施方式中,所述利用所述样本数据,结合初始目标模型,对所述初始估 计模型进行训练的步骤还包括:根据迭代后所述初始估计模型的模型参数,更新所述初始 目标模型的模型参数。如此,有助于提高训练估计网络模型的准确性。 在可选的实施方式中,所述控制奖励值的生成方式包括:从所述历史温度调节数 据中获取所述样本执行过程产生的所述能耗成本;从所述第二环境参数中获取所述中央温 度控制系统所服务的每一个空间的实际室内温度;根据所述能耗成本、实际室内温度及预 设的舒适温度区间,利用公式: 计算所 述控制奖励值;其中,r代表所述控制奖励值;cost(at,st,st 1)代表所述能耗成本,z代表所 述中央温度控制系统所服务的空间总数; 代表第i个空间的实际室内温度; 代表第i 个空间所对应的舒适温度区间的上限值; 代表第i个空间所对应的舒适温度区间的下限 值,λ代表预设的温度控制惩罚系数。使训练得到的模型对控制输入量的评估能够充分考虑 到用电成本及所有空间的温度调节效果,避免选择能耗成本高或者大部分空间温度调节效 果差的控制输入量。 在可选的实施方式中,在对所述初始估计模型进行训练之前,所述温度控制方法 还包括:结合所述历史环境数据,分别对所述第一环境参数和所述第二环境参数进行放缩 处理。如此,便于提高模型训练速度。 在可选的实施方式中,结合所述历史环境数据,对所述第一环境参数进行放缩处 理的步骤包括:根据所述第一环境参数及所述历史环境数据,利用公式: 计 算放缩处理后的所述第一环境参数;其中,所述s′1代表放缩处理后的所述第一环境参数;s1 代表放缩处理前的所述第一环境参数;smin代表所述历史环境数据中的最小值;smax代表所 述历史环境数据中的最大值。 在可选的实施方式中,所述第一环境参数包括室内温度、室外温度及阳光辐射量; 结合所述历史环境数据,对所述第一环境参数进行放缩处理的步骤包括:结合所述历史环 境数据,分别对所述第一环境参数对应的所述室内温度、所述室外温度及所述阳光辐射量 进行放缩处理。充分考虑到多类影响温度调节效果的因素。 在可选的实施方式中,所述中央温度控制系统包括中央空调和地暖设备之一或之 间的组合;所述估计网络模型包括空调估计网络模型和地暖估计网络模型;所述将获得的 实时环境数据输入所述估计网络模型包括:当启用所述中央空调时,将所述实时环境数据 输入所述空调估计网络模型;当启用所述地暖设备时,将所述实时环境数据输入所述地暖 估计网络模型。实现中央空调和地暖设备的两联供。 在可选的实施方式中,所述温度控制方法还包括:当所述估计网络模型的迭代次 数增加指定数量时,下调所述贪心概率,直至所述贪心概率达到预设的最低阈值。 6 CN 111609534 A 说 明 书 3/11 页 第二方面,本发明实施例提供一种温度控制装置,应用于中央温度控制系统,所述 中央温度控制系统内存储有训练得到的估计网络模型;所述温度控制装置包括:处理模块, 用于将获得的实时环境数据输入所述估计网络模型,以的得到多个学习动作值;其中,一所 述学习动作值对应一用于调节温度的控制输入量;选择模块,用于基于所述估计网络模型 所对应的贪心概率,采用贪心策略从所述多个学习动作值中选出优选学习动作值;其中,所 述贪心概率与所述估计网络模型的迭代次数呈反比;控制模块,用于利用所述优选学习动 作值所对应的控制输入量,控制所述中央温度控制系统进行温度调节。 在可选的实施方式中,所述中央温度控制系统中预先存储有初始估计模型和初始 目标模型;所述温度控制装置还包括:获取模块,用于获取所述中央温度控制系统的历史温 度调节数据及对应的历史环境数据;生成模块,用于根据所述历史温度调节数据及对应的 历史环境数据生成多个样本数据;其中,所述样本数据包括第一环境参数、样本控制输入 量、第二环境参数及控制奖励值;所述控制奖励值用于表征样本执行过程的能耗成本及温 度控制效果;所述样本执行过程为所述中央温度控制系统执行所述样本控制输入量将实时 环境数据从所述第一环境参数调节至所述第二环境参数的过程;训练模块,用于利用所述 样本数据,结合初始目标模型,对所述初始估计模型进行训练,得到所述估计网络模型,并 存储。 第三方面,本发明实施例提供一种中央温度控制系统,包括处理器和存储器,所述 存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器可执行所述机器可执 行指令以实现前述实施方式任一所述的方法。 在可选的实施方式中,所述中央温度控制系统为中央空调和地暖设备之一或之间 的组合。 第四方面,本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序, 所述计算机程序被处理器执行时实现前述实施方式中任一项所述的方法。 附图说明 图1为本发明实施例中提供的一种中央温度控制系统的示意图; 图2为本发明实施例中提供的一种温度控制方法的步骤流程图之一; 图3为本发明实施例中提供的一种温度控制方法的步骤流程图之二; 图4为图3中步骤S203的子步骤流程图之一; 图5为图3中步骤S203的子步骤流程图之二; 图6为本发明实施例中提供的一种温度控制装置的示意图。 附图标记说明: 1-中央温度控制系统;2-存储器;3-处理器;4-中央空调;5-地暖设备;6-温度控制 装置;7-处理模块;8-选择模块;9-控制模块。