• 工作总结
  • 工作计划
  • 心得体会
  • 领导讲话
  • 发言稿
  • 演讲稿
  • 述职报告
  • 入党申请
  • 党建材料
  • 党课下载
  • 脱贫攻坚
  • 对照材料
  • 主题教育
  • 事迹材料
  • 谈话记录
  • 扫黑除恶
  • 实施方案
  • 自查整改
  • 调查报告
  • 公文范文
  • 思想汇报
  • 当前位置: 雅意学习网 > 文档大全 > 公文范文 > 正文

    基于强化学习的过热汽温自适应PI控制器设计

    时间:2023-06-07 15:55:08 来源:雅意学习网 本文已影响 雅意学习网手机站

    于来宝, 谢兴旺, 宋 晶, 袁 博

    (1. 中国地质大学 地球物理与空间信息学院, 湖北 武汉 430074;

    2. 武汉城市职业学院 机电学院, 湖北 武汉 430070;

    3. 华中科技大学 人工智能与自动化学院, 湖北 武汉 430074)

    PID控制因其算法简单、可靠性高以及易于实现,在实际工业生产过程控制中得到了广泛的应用.但是火电厂锅炉过热控制系统是典型的非线性、时变、大迟滞、大惯性的复杂系统,当电厂负荷发生改变或有外界干扰时,如果仍然采用固定参数的PID控制器往往难以得到理想的控制效果.针对锅炉过热汽温控制中运行工况多变、难以获得控制对象精确的数学模型以及存在干扰等问题,有学者寻求先进的控制方法以期获得满意的控制效果,如预测控制、模糊控制、智能PID控制和神经网络等方法[1-2].其中模型预测控制需要知道被控系统的模型和参数,而实际系统很难获得精确的模型参数,这限制了该方法的应用.而模糊控制中的控制规则一旦确定就不能随意改变,当被控系统结构参数发生极大突变时,模糊控制显得不是很智能,因此其控制效果也一般.神经网络能够以任意精度逼近非线性函数,具有一定的自学习能力和鲁棒性强的特点,因此其在非线性控制系统获得了应用[3-4].但是锅炉过热汽温控制系统是典型的复杂非线性时变系统,系统模型结构和参数变化较大,因此采用上述控制方法时难以获得准确的系统模型结构和参数,从而导致控制效果差强人意.近年来人工智能技术已成为推动世界科技发展的技术之一,在计算智能、认知智能与感知智能等方面具有极强的处理能力[5-8].强化学习因其仅通过智能体与外部环境互动不断优化动作,具有极强的在线自学能力,已经在电力系统、物联网以及智能建筑等方面获得应用[9].AC强化算法由actor网络和critic网络组成,其中critic网络输出评价信号来评价当前行为对未来的影响,actor网络输出控制信号作用于被控对象.

    文中拟提出一种基于AC算法的自适应PI控制器,采用径向基网络来实现actor网络和critic网络.其中actor网络的输出再加上高斯扰动项作为RL-PI控制器的比例-积分系数.RL-PI控制器不需要知道被控系统精确的模型和参数,actor网络和critic网络的权值会在线自适应更新,使得actor网络输出自适应控制信号,从而维持RL-PI控制器良好的控制效果.RL-PI控制器能够有效克服常规PI控制器难以实时调节PI系数的不足,也不需要被控系统的精确模型参数,将其应用于锅炉过热汽温控制,在正常工况、系统结构和参数发生变化等各种工况条件下,RL-PI方法具有收敛速度快,自适应能力强的特点.

    锅炉过热汽温控制系统见图1,由汽包、一级过热器、喷水减温器和二级过热器组成.喷水减温器用来调节汽温使之保持在额定温度范围内,过热器和喷水减温器配套组合能够克服各种扰动,产生符合要求的过热蒸汽并且将其送往汽轮机进行发电.

    图1 锅炉过热汽温控制系统

    在对锅炉过热汽温控制系统进行模型分析过程中,为了简化一般以喷水减温器为分界点,将过热器的控制通道分为过热汽温导前区和过热汽温滞后区,其结构见图2.

    图2 锅炉过热汽温控制通道原理图

    RBF网络是一种3层前馈式神经网络,与BP网络相比,具有结构简单、全局逼近能力强、训练速度快等优点[10-11].因此文中采用RBF网络来实现AC强化学习中的actor网络和critic网络.

    2.1 基于RBF网络的AC强化学习原理

    在AC学习中,actor网络和critic网络的输入均为外部环境的状态变量,只是它们的输出不同;
    为了简化系统的设计,提高学习效率,采用一个RBF网络同时实现actor网络的策略函数和critic网络的值函数功能,其结构见图3.

    图3 基于RBF网络的AC强化学习

    RBF网络的输入状态向量为

    x(t)=[x1(t),x2(t),x3(t)]T=
    [e(t),Δe(t),Δ2e(t)]T,

    (1)

    隐含层采用的高斯型核函数为

    (2)

    式中:μj(t)=[μj1,μj2,μj3]T为第j个节点的中心向量;
    σj为第j个节点的宽度函数;
    h为隐含层节点数.

    RBF网络的输出包括actor网络输出和critic网络输出2个部分,其计算公式分别为

    (3)

    (4)

    式中:ωai,ωci分别为隐含层第i个节点到actor网络与critic网络的权值.

    将actor网络输出kζ(t)加上高斯扰动项ηm后的结果作为PI控制器的参数,即

    (5)

    文中采用PI控制,将kd(t)设置为0.ηm的大小依赖于critic网络的输出V(t),其方差的计算公式为

    σv(t)=[1+exp(2V(t))]-1.

    (6)

    在AC算法中时序差分函数δTD的计算式为

    δTD(t)=R(t)+λV(t+1)-V(t),

    (7)

    式中:λ为折扣因子,0<λ<1.

    定义系统的性能指标函数为

    (8)

    actor网络和critic网络权值更新计算式如下:

    (9)

    ωci(t+1)=ωci(t)+αcδTDΦj(t),

    (10)

    式中:αa和αc分别为actor网络和critic网络权值学习率.RBF网络的隐含层节点中心和节点宽度更新计算式为

    (11)

    (12)

    式中:αf和αg分别为节点中心和节点宽度的学习率.

    2.2 RL-PI控制器设计

    文中所提出的RL-PI控制器原理见图4.

    图4 基于AC强化学习的自适应PI控制系统

    PI控制器采用增量式PI算法,其计算式为

    (13)

    其中x1和x2的计算式如式(1)所示.

    系统的误差、误差的一次差分和二次差分计算式分别为

    e(t)=r(t)-y(t),

    (14)

    Δe(t)=e(t)-e(t-1),

    (15)

    Δ2e(t)=e(t)-2e(t-1)+e(t-2).

    (16)

    从图4可见,AC强化学习由4个部分组成:

    1) 状态转换器,其将系统误差信号转换为actor网络和critic网络的输入信号x(t);

    2) actor网络,其对策略进行评估,网络输出kζ(t);

    3) critic网络,利用其神经网络得到值函数估计值V(t),进而获得时序差分函数δTD,由δTD来驱动actor网络和critic网络的权值、节点中心与节点宽度等的更新.δTD大于0,则以更大的几率选择相应的动作,反之亦然;

    定义系统的回报函数为

    R(t)=β1r1(t)+β2r2(t),

    (17)

    式中:r1和r2分别为误差和误差变化率的强化函数;
    β1和β2分别为它们对应的系数;

    (18)

    (19)

    式中:ε为容许误差带.

    2.3 RL-PI算法执行步骤

    1) 初始化RBF神经网络的权值、节点中心和节点宽度的学习率等参数;

    2) 获取状态向量x(t),利用式(3)和式(4)计算kζ(t)和V(t);

    4) 获取状态向量x(t+1),利用式(17)求得回报函数R(t),根据式(7)计算时序差分函数δTD;

    5) 根据式(9)-(12)更新网络权值、节点中心和节点宽度;

    6) 判断是否满足结束条件,如果为否,转到步骤2),否则控制结束.

    当锅炉过热汽温控制系统的状态发生变化时,RL-PI控制器通过在线更新RBF网络权值使得输出的控制信号随着系统状态的变化而变化.

    3.1 锅炉过热汽温控制系统的设计

    在Matlab/Simulink下搭建图5所示的锅炉过热控制系统.

    图5 基于RL-PI控制的过热汽温控制系统

    在图5中,r为过热汽温设定值;
    d为系统的干扰,主要为减温水量的自发扰动;
    y为过热汽温输出;
    e为系统误差;
    u为控制器的输出;
    AC-PI控制器和Wa1(s)分别为汽温控制系统的主、副调节器;
    Wo1(s)、Wo2(s)分别为调节对象导前区和惰性区的传递函数;
    WH1(s)、WH2(s)分别为导前汽温和过热汽温的测量单元,各环节的传递函数计算式为

    (20)

    3.2 仿真试验及结果

    为了能够反映锅炉实际的工作状态,分别开展了正常工况、增益增大、惯性增大、增益突变、惯性突变以及加扰动等6种工况下的仿真试验;
    同时为了验证文中所提出RL-PI方法的控制性能,与模糊PI控制(FU-PI)、模型预测PI控制(MPC-PI)以及常规串级PI控制作了对比研究.

    3.2.1正常工况

    令输入信号作阶跃变化,图6是正常工况下系统输出曲线图.

    图6 正常工况系统输出响应

    由图6可见,串级PI控制稳定时间为520 s,超调量为34.1%;
    而RL-PI控制、MPC-PI控制和FU-PI控制的稳定时间分别为360、380、390 s,超调量分别为16.1%、17.6%、18.4%.可见RL-PI控制的收敛速度更快.

    3.2.2惯性增大

    当锅炉运行工况改变时,其系统模型中的参数会发生改变,以惰性区的惯性增大(传递函数变为Wo2(s)=1.125/(1+35s)3)为例.图7是惯性增大时系统的输出响应.

    图7 惯性增大系统输出响应

    由图7可见,PI串级控制的超调量为48.1%,稳定时间增加到780 s,而RL-PI控制、MPC-PI控制和FU-PI控制的稳定时间分别为460、490、510 s,超调量分别为18.3%、23.6%、28.4%.可见,当锅炉控制系统惯性时,常规串级PI控制性能明显降低,而RL-PI控制效果令人满意.

    3.2.3增益增大

    当锅炉运行工况改变时,以惰性区的增益增大(传递函数变为Wo2(s)=1.825/(1+25s)3)为例.图8是增益增大时系统的输出响应.

    图8 增益增大系统输出响应

    由图8可见,当锅炉控制系统的增益增大时,到800 s时,采用常规串级PI控制系统没有稳定下来,而采用RL-PI控制、MPC-PI控制和FU-PI控制的稳定时间分别为650、760、780 s.因此RL-PI控制效果令人满意.

    3.2.4惯性突变

    为了验证RL-PI控制对系统运行工况突变的自适应学习能力,假定在1 000 s时惰性区惯性突变(传递函数变为Wo2(s)=1.125/(1+35s)3).图9是惯性突变时系统的输出响应.

    图9 惯性突变系统输出响应

    由图9可见,当系统惯性系数突变时,采用RL-PI控制时,系统的超调量为19.4%,而采用MPC-PI控制、FU-PI控制和串级PI控制的超调量分别为24.2%、27.5%和36.6%.当系统工况发生突变时,与其他3种控制方法相比,RL-PI控制效果仍然较好.

    3.2.5增益突变

    假定在1 000 s时惰性区增益突变(传递函数变为Wo2(s)=1.825/(1+25s)3).图10是增益突变时系统的输出响应.

    图10 增益突变系统输出响应

    由图10可见,当系统增益突变时,采用RL-PI控制时,系统的超调量为18.7%,串级PI控制的超调量为33.7%.可见,RL-PI控制效果仍然可以.图11为增益突变时,actor网络输出的PI控制器kp和ki更新的曲线图.

    图11 增益突变PI参数变化曲线

    由图10、11可见,在1 000 s时,系统的增益发生突变,actor网络和critic网络的权值随着系统增益参数改变而自适应在线更新,使得RL-PI控制输出自适应控制信号,提高RL-PI控制的鲁棒性.

    3.2.6加扰动

    为了验证RL-PI控制器的抗干扰能力,在1 000 s时加幅值为0.5、持续时间为30 s的阶跃扰动信号.图12是系统的输出响应,由图可见RL-PI控制仍然具有较好的抗干扰能力.

    图12 加扰动系统输出响应

    文中提出的RL-PI控制方法通过在线更新RBF网络权值系数,实现自适应控制.通过典型锅炉运行工况仿真试验表明,所提出的RL-PI控制与MPC-PI控制、FU-PI控制和串级PI控制相比,具有收敛速度快、控制精度高以及抗干扰能力强等特点.RL-PI控制可以广泛应用于复杂的非线性时变系统中,具有良好的工程应用前景.

    猜你喜欢 热汽惯性权值 600 MW亚临界机组再热汽温低原因分析及对策中阿科技论坛(中英文)(2022年7期)2022-07-29一种融合时间权值和用户行为序列的电影推荐模型成都信息工程大学学报(2022年3期)2022-07-21冲破『惯性』 看惯性中学生数理化·八年级物理人教版(2022年3期)2022-03-16港电660MW机组再热汽温优化策略家园·电力与科技(2021年3期)2021-09-10认清生活中的“惯性”中学生数理化·八年级物理人教版(2021年3期)2021-07-22二次再热塔式锅炉主汽温和再热汽温优化调整山东电力技术(2020年8期)2020-09-02基于遗传算法的模糊控制在过热汽温控制系统优化中的应用电子制作(2019年16期)2019-09-27强规划的最小期望权值求解算法∗计算机与数字工程(2018年5期)2018-05-29程序属性的检测与程序属性的分类计算机测量与控制(2018年3期)2018-03-27基于权值动量的RBM加速学习算法研究自动化学报(2017年7期)2017-04-18

    推荐访问:过热 控制器 自适应

    • 文档大全
    • 故事大全
    • 优美句子
    • 范文
    • 美文
    • 散文
    • 小说文章