logo好方法网

一种基于强化学习和LSTM网络的负荷实时调度方法


技术摘要:
本发明公开了一种基于强化学习和LSTM网络的负荷实时调度方法,包括:建立负荷实时调度模型,所述模型为奖励最大化模型,同时定义目标函数;将负荷实时调度问题制定为马尔可夫决策过程;在负荷调度时段开始前,获取负荷削减信息和电价范围,并获得最近一次训练的LSTM网  全部
背景技术:
随着可再生能源的大规模并网、电动汽车的大量使用以及空调负荷的不断攀升等 多重因素的影响,电网面临的不确定性日益增大,负荷的实时调度可以实现电网负荷水平 的实时调节,因而受到越来越广泛的重视。随着信息和通讯技术的进步,使得负荷的实时调 度方式得以实现。电力市场化改革的推进让用户负荷参与电网调度成为可能,如何实现用 户负荷的实时调度,以达到精准削减电网高峰负荷的目的,成为一个亟需解决的问题。 尽管对于用户负荷的实时调度已经有了很多研究,但在一些方面仍存在局限。首 先,很多方法建立了用户的具体负荷变化模型,事实上,在从未实施过用户负荷调度的地 区,用户的负荷变化模型是无法得知的。其次,大多数方法忽略了不同时段用户负荷变化的 差异,事实上不同时段的用户负荷变化是不相同的,将所有时段统一考虑可能会导致偏差。 因此,在没有任何用户先验知识的情况下,现有的技术无法做到精准调度用户负 荷。
技术实现要素:
本发明提供了一种基于强化学习和LSTM网络的负荷实时调度方法,本发明充分利 用用户历史信息,引导用户主动削减高峰负荷,达到精准削减电网高峰负荷、保障电网安全 可靠运行的目的,详见下文描述: 一种基于强化学习和LSTM网络的负荷实时调度方法,所述方法包括以下步骤: 建立负荷实时调度模型,所述模型为奖励最大化模型,同时定义目标函数; 将负荷实时调度问题制定为马尔可夫决策过程;在负荷调度时段开始前,获取负 荷削减信息和电价范围,并获得最近一次训练的LSTM网络; 利用强化学习和LSTM网络进行最优负荷调度价格的虚拟探索;将总奖励f(XT)最 大时当前时段的价格xt作为当前时段的负荷调度价格,并公布给用户; 当前调度时段结束,得到用户的实际负荷变化;将当前时段的实际价格和用户负 荷变化添加至历史数据集,更新历史数据集;根据最新的数据集重新训练LSTM网络。 其中,所述目标函数为: 其中,T表示一日内高峰时段数量,XT={x1,x2,…,xT}表示一日内高峰时段需要设 定的负荷调度价格集合。 进一步地,所述将负荷实时调度问题制定为马尔可夫决策过程具体为: 将决策变量即时段t的价格xt作为动作at,将所有用户的总负荷变化Dtotal,t作为环 4 CN 111598721 A 说 明 书 2/7 页 境状态st,将时段t的奖励f(xt)作为环境的奖励rt,将P(st,at,st 1)表示为在环境状态st时 采取动作at使环境状态转移到st 1的概率。 其中,所述方法还包括: 建立用户历史数据集,用H1表示, H1={(x1,D1) ,(x2,D2) ,…,(xt-1,Dt-1) ,(xt,Dt)} 其中,(xt,Dt)为一次负荷调度的数据对; 对历史数据集H1进行扩展,使其包含过去时段的信息,用H2表示, H2={(I1,D1) ,(I2,D2) ,…,(It-1,Dt-1) ,(It,Dt)} 其中,It表示与当前时段的负荷变化可能相关的特征量,不仅包含了当前时段的 价格,还包含了之前时段的价格和负荷变化: It={xt-L,Dt-L,…,xt-2,Dt-2,xt-1,Dt-1,xt} 其中,L为时间步长。 进一步地,所述方法还包括: 在训练时,用历史数据集H2中的特征量{I1 ,I2,…,It}作为网络的输入,用对应的 用户总负荷变化{D1,D2,…,Dt}作为网络的输出,用来训练LSTM网络。 进一步地,所述利用强化学习和LSTM网络进行最优负荷调度价格的虚拟探索具体 为: 在当前虚拟时段t,用贪婪策略选择一个价格xt; 将价格xt和最新的历史数据集制定成时间序列形式,输入到LSTM网络,预测得到xt 对应的负荷变化; 计算价格xt的对应奖励f(xt);使用价格xt,到达下一个虚拟时段,基于其所有可能 的价格,获得下一个时段最大的Q值maxQ(st 1,at 1),更新矩阵Q: 设置下一个时段作为当前时段,最后一个时段结束时计算价格序列对应的总奖 励。 本发明提供的技术方案的有益效果是: (1)相较于现有技术中建立用户具体负荷变化模型的技术方案,本发明通过结合 LSTM网络强大的预测能力,利用强化学习算法进行最优负荷调度价格的虚拟探索,可以有 效利用用户历史负荷变化信息,从而达到精准削减电网高峰负荷的目的; (2)相对于现有技术中的短视优化方法,即只对当前时段的负荷进行最优调度,不 考虑对未来时段的影响,本发明由于考虑不同时段的负荷最优调度对用户其他时段负荷变 化的影响,可以避免进行单个时段负荷的最优调度时对其他时段负荷调度产生的负效用, 以减小电网负荷高峰时段实时调度的偏差; (3)相对于现有技术中将所有时段无偏差考虑的方法,本发明利用历史价格和负 荷变化作为当前时段的影响因素,在不同时段训练不同的负荷变化模型,考虑了用户在不 同时段的负荷差异。 因此,本发明可以充分利用已有的用户历史负荷变化信息,为用户负荷变化模型 未知地区的负荷实时调度问题,提供一个精准削减电网高峰负荷的方案。 5 CN 111598721 A 说 明 书 3/7 页 附图说明 图1为本发明的流程图; 图2为本发明面向的电力市场架构; 图3为负荷实时调度问题的马尔可夫决策过程定义; 图4为负荷实时调度过程示意图; 图5为LSTM网络的训练和预测过程; 图6为本发明方法的实际实施过程示意图; 图7为300天当天本发明方法和只利用强化学习方法进行负荷实时调度得到的奖 励对比。
下载此资料需消耗2积分,
分享到:
收藏