水电与抽水蓄能

基于深度强化学习算法的光伏抽蓄互补系统智能 

来源:水电与抽水蓄能 【在线投稿】 栏目:期刊导读 时间:2021-02-26

0 引言

光伏太阳能、风能的开发利用是全球能源结构调整与转型的重大措施。近年来,在国家政府的扶持下,光伏发电已经进入规模化、产业化的发展阶段[1]。截至2018年底,国家能源局发布了我国2018年全年太阳能光伏发电新增装机容量44 260MW,仅次于2017年新增装机,为历史第二高,其中,集中式和分布式光伏电站分别新增 23 300MW 和 20 960MW[2]。但由于光伏发电受气象因素影响,具有较强的间歇性和随机性,这些特性使得高渗透率并网光伏给电力系统的稳定性与经济性带来了巨大的挑战[3],并且严重制约了光伏的100%消纳。

采用新能源互补发电技术是全额消纳新能源的有效途径[4],即在最大功率跟踪模式下,利用储能设备及时有效地提供功率支撑来抑制并网点功率波动。同时,储能设备的接入提高了并网新能源系统的等效惯量水平、阻尼系数和同步能力[5-8],实现了互补系统与大电网之间的平滑对接。通过调节新能源互补发电系统的等效参数来缓解风速、光照等因素的间歇性变化引起的区域间功率振荡,可以使新能源发电系统主动参与大电网响应。但在实际应用时由于全网各个储能设备之间的相互影响,使得控制器参数优化整定异常困难,且难以实时更新以响应新能源系统的变化。

根据上级调度系统的功率调度指令向电网平稳输送功率的直接功率控制能有效地避免集群控制参数的设计与整定带来的困难。文献[9]提出了一种基于指数平滑的功率爬坡控制策略。文献[10]提出了一种分布式模型预测控制方法有效地求解了高渗透率新能源参与的经济调度问题。文献[11]为解决新能源的间歇性出力带来传统发电机组爬坡/卸荷频繁的问题,提出了一种限制爬坡约束的经济调度鲁棒优化模型。文献[12]提出了一种分布式屋顶光伏与储能互补的智能实时能量调度系统,实现了互补系统响应大电网的实时电价以获取最大利益。文献[13]基于虚拟电厂提出了储能系统在市场参与模式下支持大规模、高渗透率的新能源备用辅助服务的最优潮流模型。文献[14]分析了在分时电价模式下,储能参与分布式光伏配网电压调节综合运行控制策略。文献[15]提出了一种集中式风-光互补的随机优化经济调度策略,并分析了不同置信区间下的机会约束模型对整个互补系统的经济效益与备用服务能力的影响。

然而,基于直接功率控制的日前或随机优化调度策略性能与源/荷预测的精度强相关[16-17],在保证系统能量动态平衡的准则下,若预测精度偏低则系统实际出力会偏离最优策略,此时系统经济性难以保证。随机优化以一定的置信区间考虑了预测误差问题,最优解带有一定的风险水平,但难以适应实际工程应用。

因此,迫切需要找到一种能够适应新能源发电特点的实时智能调度方法。强化学习(Reinforcement Learning, RL)受到行为主义心理学的启发,关注智能体在与动态随机环境的交互过程中的累积回报奖励[18]。在电力系统中,该奖励则可表现为系统的运行指标,如运行利润最大、稳定裕度最高。智能体与环境的交互过程如图1所示,智能体向环境施加动作,环境则向智能体反馈该动作的奖励值以及动作对环境改变后的状态信息。

图1 智能体与环境的交互过程Fig.1 Interaction process of reinforcement learning

人工智能在电力系统及综合能源系统中的应用面临着诸多机遇与挑战[19-20]。最早的强化学习算法如Q学习针对由离散的状态与动作构成的问题,通过查表的方式获得状态的奖励[21]。然而,复杂环境往往是由高维状态组成,此时传统的 RL算法将会面临“维数灾”,且在将连续的动作离散化的过程中会造成信息的丢失,难以找到最优解。深度强化学习(Deep Reinforcement Learning, DRL)则是结合了深度神经网络的非线性感知能力和强化学习的动态决策能力[22],利用深度神经网络实现对动作值函数的逼近。如文献[23-24]采用深度Q学习研究了油电混动公交与能源互联系统的能量管理策略。文献[25]采用深度Q学习建立了含有大规模光伏与电动汽车的在线调度策略。深度Q学习算法通过神经网络有效地实现了状态空间的连续化,但所能应对的动作空间仍是离散的。

鲜有文献采用先进的连续型深度强化学习算法分析电力系统的智能经济调度问题,特别是对含有大规模储能和新能源的互补发电系统的智能随机经济调度问题。对此,本文以光伏-抽蓄(Photovoltaic-Pump Hydro Storage, PV-PHS)互补发电系统为研究对象,考虑光伏发电的不确定性,以100%消纳光伏为前提,构建并网点功率波动约束和抽水蓄能经济效益模型。针对抽水蓄能出力连续可调的特点,将智能调度问题转换为马尔可夫决策过程,详细描述了多约束优化问题向无约束强化学习任务转换的过程;并针对固定学习率的深度确定性策略梯度(Deep Deterministic Policy Gradient, DDPG)算法存在训练效率低、容易陷入局部最优的缺陷,提出基于周期衰减学习率(Cycling Decay Learning Rate, CDLR)的改进型深度确定性策略梯度算法,优化抽蓄的实时运行策略。最后以四川省小金县某光伏电站的实际出力数据为例,验证了本文构建模型和采用方法的可行性和通用性。

上一篇:不同规模抽水蓄能下风电光电火电联合优化运行
下一篇:没有了