首页 > 范文大全 > 正文

基于双启发动态规划的预分解窑控制器设计

开篇:润墨网以专业的文秘视角,为您筛选了一篇基于双启发动态规划的预分解窑控制器设计范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

收稿日期:2011-03-07;修回日期:2011-05-07。基金项目:安徽省自然科学基金资助项目(10040606Q64);安徽省教育厅高校省级科学研究基金资助项目(KJ2010B224);宿州学院智能信息处理实验室开放课题资助项目(2011YKF11)。

作者简介:杨宝生(1981-),男,安徽宿州人,讲师,硕士,主要研究方向:智能优化控制; 马修水(1963-),男,安徽庐江人,教授,博士生导师,博士,主要研究方向:智能检测。

文章编号:1001-9081(2011)08-02286-03doi:10.3724/SP.J.1087.2011.02286

(1.宿州学院 智能信息处理实验室,安徽 宿州234000; 2.浙江大学 宁波理工学院,浙江 宁波315100)

()

摘 要:针对水泥预分解窑熟料煅烧过程多变量、多扰动、非线性,难以建立精确的数学模型,实际生产中对工人的生产经验依赖性较强等问题,提出采用误差反向传播(BP)神经网络建立烧成系统数学模型,设计预分解窑双启发动态规划(DHP)控制器。DHP评价网络输出代价函数J关于状态量的偏导数,获得最优或者次优的控制信号,然后由动作网络输出控制信号,使系统得到期望的控制轨迹。仿真结果表明控制器响应时间较快,各参量超调量均不大,有助于实际系统的稳定运行。

关键词:双启发动态规划;神经网络;煅烧工段;控制器

中图分类号: TP273.21文献标志码:A

Design of cement calcination process controller based on

dual heuristic programming algorithm

YANG Bao-sheng1, MA Xiu-shui2

(1. Laboratory of Intelligent Information Processing, Suzhou University, Suzhou Anhui 234000, China;

2. Ningbo Institute of Technology, Zhejiang University, Ningbo Zhejiang 315100, China)

Abstract: For the multiple variables, disturbances, nonlinearity and other properties of the cement clinker kiln process, it is very difficult to establish an accurate model of the cement kiln system. It is strongly dependent on the experience of workers in the actual production. The error Back-Propagation (BP) neural network was used to establish the firing system model, and a controller was designed for the kiln based on Dual Heuristic Programming (DHP). DHP critic network output the partial derivative of cost function J with the state to obtain the optimal or sub-optimal control signal. The action network output control actions to control the system to achieve desired trajectory. The simulation results show that the controller has faster response time and less overshoot. These features contribute to the stable operation of the real system.

Key words: Dual Heuristic Programming (DHP); neural network; clinker calcination process; controller

0 引言

水泥熟料煅烧过程是一个关于传质、传热和物理化学反应的复杂的多变量、多扰动对象的过程,涉及到机械、电器、控制、压力、温度、流量和成分等多种变量。各种参数的影响都是不相同的,这些参数之间还会产生相互影响;并且,这些参数都处于不断变化之中,是否能够随时掌握它们的具体数据并且随时传送到指定位置显得非常重要[1-2]。人工神经网络被较早引入到水泥生产过程控制或预测,均有良好表现。Lin等人首先尝试将自适应动态规划(Adaptive Dynamic Programming, ADP)方法应用到分解炉温度控制,达到了其预期的稳定控制目标[3];刘唐波应用启发式动态规划(Heuristic Dynamic Programming,HDP)和执行依赖启发式动态规划(Action-dependent HDP,ADHDP)方法来控制回转窑烧成带温度,仿真控制结果较为理想[4]。分析发现,这些研究均是对烧成系统个别设备进行的局部研究,对于水泥熟料最终煅烧质量还有待分析。熟料生产稳定性直接影响水泥质量的好坏。本文采用启发式动态规划控制算法,针对预分解窑系统最大的非线性环节煅烧工段做整体优化控制,探索提高我国预分解窑生产效率的方法。

1 水泥预分解窑系统BP神经网络建模

水泥预分解窑系统主要由预热器、分解炉、回转窑和篦冷机四部分组成。图1是经过主元分析的预分解窑系统的简化原理图。以带有五级旋风预热器的预分解窑为例,整个工艺过程分成两个方向:一个是从上而下的物料流向;另一个是从下而上的烟气流向。灰色箭头表示物料流向,虚线表示气体流向,黑色表示煤粉喷入燃烧流向。实际生产中,这几个部分的位置关系是上下或倾斜放置,以使物料经过所有环节后被煅烧成水泥熟料,从篦冷机卸出。

图1 预分解窑系统简图

对现场采集到的数据进行分析,然后对预分解窑系统进行简化,获知影响系统的主要因素就是风、煤、料。因此,控制量的选取就集中在对风、煤、料的控制上。分解炉出口是系统的一个交汇点,它是系统多个状态综合指标的反映。因此,选取分解炉出口温度作为其中一个状态量。排出废气中的氧含量能够表示燃烧程度。氧含量不足说明燃烧不充分;氧含量过大表示通风量过大,空气流量大会加大热损失。适度的氧含量既能保证燃烧充分又避免过多热损耗。因此,本文选取一级旋风筒出口废气氧含量作为本文的另一个状态量。将二者稳定控制在一个合理的范围之内是所要实现的目标。鉴于前述预分解窑系统的复杂性,难以用数学模型来实现,本文采用人工神经网络(Artificial Neural Network,ANN)对预分解窑系统进行建模。基于BP神经网络的模型能够较好地描述该非线性系统的主要性能,并且具有一定泛化能力[5]。选择控制量ui(t),i1,2,…,5,表示系统操作量,即生料量、分解炉喂煤量、回转窑喂煤量、回转窑转速,旋风筒C1出口负压。表1是本文从实际生产线采集到的用来训练模型的数据(采样时间间隔为2min),数据单位t/d表示吨/天,t/h表示吨/小时,r/min表示转/分钟,kPa表示千帕。由于采集的各数据单位不一致,并且在数值上差距较大,为避免神经网络隐层权值调整过程中大数据对小数据的淹没现象,因而须对数据进行[-1,1]归一化处理。同时,归一化也是为了加快训练网络的收敛性。相反地,神经控制器输出的控制信号需要进行反归一化处理,使其恢复本来的量纲与单位。

表1 5000t/d预分解窑生产线采样数据(部分)

2 预分解窑DHP控制器设计

动态规划(Dynamic Programming, DP)是解决多阶段决策过程最优化问题的一种常用方法,它把比较复杂的问题划分成若干个阶段,通过逐段求解,最终求得全局最优解。它的核心是贝尔曼最优性原理,既可以用来求解约束条件下的函数极值问题,也可用于求解约束条件下的泛函极值问题,尤其对解决线性时间离散系统二次型性能指标最优控制问题特别有效。经典的动态规划算法尽管是解决最优化问题的一个有力工具,但在实施过程中会遇到“维数灾”问题[6],即代价函数的计算量随状态变量成指数增长,所以一般只限于解决小规模问题,从而限制了其应用范围。为了避免“维数灾”问题,一般采用近似的方法来计算代价函数,自适应动态规划就是在这样的背景下产生的。

DHP算法是高级形态的自适应动态规划方法,它用神经网络来满足修正的Bellman方程[7],主要包括评价网络(Critic)、动作网络(Action)和模型网络(Model)三个模块。图2是本文所设计的预分解窑DHP控制系统,其中Action作为控制器输出控制信号,Model为预分解窑系统模型,Critic用于评价控制效果,指导控制信号修正调整。它的评价网络输出代价函数J关于状态量的偏导数,所以具有更高的精确度,与之相应的是其计算量相应要复杂得多。它的目的是当最小化cost-to-go函数J(t)时,发现最优或者次优的控制信号u(t),以使离散时间形式的非线性系统x(k+1)f[x(k),u(k),k]到期望的控制轨迹[8]。

图2 DHP方法结构

图2中X(t)(n维)是对象在t时刻的状态。控制信号u(t)(m维)通过将X(t)输入Action产生。控制信号u(t)接着被应用到对象且对象演变到状态X(t+1),见式(1)。Critic的作用是帮助设计一个控制器(Action),Critic估计J(t)(总的效用函数)关于X(t)的梯度;λ表示这样一个梯度的缩写。1/max x模块将X(t)按比例缩放到n维状态空间Rn的[-1,+1]n区间内,即对输入参数进行归一化处理。

X(t+1)fx(X(t),u(t))(1)

对于一个无限时域问题,通过构想一个主要效用函数U(t)的方法,效用函数定义为U(t)fU(X(t),x(t)),体现出对于控制的系统中一个或多个可测变量目标性。评价函数是用来估计总的代价函数的值,在状态空间任何容易取得的点。根据这样的假设,评价是用来精确估计通过动作函数参数值所指定策略总的代价,评价函数的梯度可以用来调整策略参数,以便达成一个局部最优的参数的策略。该过程使用人工神经网络实现控制和评价函数,以及使用模糊系统作为控制器[9]。总的效用函数,即代价函数J(t),式(2)给出在时间步k时的J(t):

J(t)∑∞k0γkU(t+k)(2)

其中:γ是折扣因子,0

J(t)U(t)+γJ(t+1)(3)

该方法利用两个不同的训练循环:一个为了控制策略;一个为了评价估计。调整被控系统控制策略是用来最优化总的效用函数J(t)。因为其控制动作输出u(t),控制器训练是基于梯度的学习算法,要求估计导数。训练评价函数是基于其估计值的一致性,在整个时间域上使用式(3)来判断。对于DHP方法,评价网络估计J(t)关于系统状态的导数,也就是λi(t),通过对式(3)两边微分有:

J(t)(U(t)+γJ(t+1))(4)

得到用于评价训练的式(5):

λi(t)++γλk(t+1)・

+(5)

计算方程的右边需要一个系统动态模型,其包含来自对象控制器系统的一对Jacobian矩阵,也就是和。

控制策略使用链式规则,系统模型被更新到转换评价输出,得到的估计值:

+γ∑λi(t+1)(6)

整个过程可描述为一个同步最优化问题:基于J(t)的估计值的梯度的评价函数估计值的最优化,从评价获得的基于梯度的控制策略参数最优化。通过使用不同的策略来使得这两个最优化得到收敛。一个可行的方法是轮流进行,即最优化评价估计值和控制策略的最优化交替,也可以同时做两个过程的最优化。

动作网络是代表产生控制信号。本系统中使用的动作模块是一个三层前馈神经网络加上一个固定的比例缩放模块。神经网络有5个输入,一个带有10个symmetrical sigmoidal神经元的单隐层和2个symmetrical sigmoidal输出神经元,分别为ui(t),i1,2,…,5,表示系统控制量,即生料量、分解炉喂煤量、回转窑喂煤量、回转窑转速和旋风筒C1出口负压;xj(t),j1,2,分别表示分解炉出口温度和旋风筒C1出口废气氧含量。模型网络是一个预先训练或者在线训练的神经网络,用来近似非线性系统的动特性。本系统模型模块使用一个三层前馈神经网络,7个输入,采用系统t时刻的控制量与被控量。本系统中评价模块使用2-10-5结构。

3 DHP控制器训练

3.1 效用函数定义与各参数范围设定

在训练过程中,为了获得更快的收敛速度,效用函数定义采用二次型形式(7):

U∑xTQx+uTRu(7)

其中:Q、R为分别为n维和m维单位矩阵,x为所要达到状态变量,u为控制器输出的操作变量。控制器训练过程中预先设定状态量变化范围,见式(8),系统运行过程中超过此范围将认为控制失效。

(x1(t)-890

3.2 动作和评价网络训练策略

DHP控制器的动作和评价网络训练策略采用单阶段训练过程,所谓单阶段也就是动作和评价网络同时调整。与之对应的双阶段,是动作和评价网络的调整分别进行[10]。单阶段,动作网络和评价网络的并发训练步骤如下:

步骤1 按比例缩放X(t),将它输入到动作网络,获得u(t);

步骤2 将u(t)输入到被控对象,获得下一时刻状态X(t+1);

步骤3 按比例缩放X(t+1),将它输入到评价网络,获得λ(t+1);

步骤4 计算评价网络的期望输出λd(t);

步骤5 计算动作网络的权值变化;

步骤6 执行动作网络的权值变化;

步骤7 按比例缩放X(t),将它输入到评价网络;

步骤8 计算/执行评价网络权值变化;

步骤9 增加t并回到步骤1。

训练好的动作网络即可以作为实际生产中预分解窑控制器,用来输出控制信号。

4 DHP控制器输出结果

通过仿真实验,该控制器输出的控制信号如图3、4所示,在该控制器的控制下,系统状态指标始终处在3.1节所要求的范围内。图3是分解炉喂煤量、回转窑喂煤量调整变化曲线,图4是生料量、回转窑转速、旋风筒C1出口负压调整变化曲线,每一个时间步为采样数据的时间间隔。各控制量初期波动较大,而后伴随被控量的稳定缓慢变化。从控制结果可以看出系统响应时间较快,除废气氧含量外其余各参量超调量均不大,这有助于实际系统的稳定运行,可见DHP控制器表现出较好的控制特性。

图3 控制变量(喂煤量)变化曲线

图4 控制变量(喂料量、回转窑转速和C1出口负压)变化曲线

5 结语

本文将DHP算法应用到预分解窑系统多变量控制。预训练的模型网络被用来近似迭代被控对象。在训练过程中,可以施加统一的随机噪声到被控系统,来改进DHP控制器的表现和鲁棒性。一旦评价和动作网络权值已经收敛,训练停止,把动作网络作为被控系统的DHP神经控制器。带有预训练的模型网络的DHP控制器能够有效减轻被控系统扰动和显示出较好的控制特性。进一步地,DHP控制器对于带有无模型的、不确定的非线性系统的鲁棒特性也有很好表现。分析可以看出,用DHP方法处理预分解窑系统多变量控制是一个有效的途径,显示出实时最优控制的潜力。

参考文献:

[1] 赵应武,过伦祥,张先成,等.预分解窑水泥生产技术与操作[M].北京:中国建材工业出版社,2004:71-92.

[2] 韩文.水泥生产过程仿真培训平台开发及分解炉温度控制系统研究[D].济南:济南大学,2007.

[3] LIN XIAOFENG, ZHANG ZHIGANG, LIU DERONG. Temperature control in precalcinator with dual heuristic dynamic programming [C]// IJCNN 2007: Proceedings of the International Joint Conference on Neural Networks. Piscataway, NJ: IEEE Press, 2007: 344-349.

[4] 刘唐波.基于自适应评价方法的水泥回转窑神经控制器[D].南宁:广西大学电气工程学院,2008.

[5] 郝晓弘,段晓燕,李恒杰.基于BP神经网络的迭代学习初始控制策略研究[J].计算机应用,2009,29(4):1025-1027.

[6] LIAO XIAO-FENG, CHEN GUAN-RONG, SANCHEZC E N. Delay-dependent exponential stability analysis of delayed neural networks: An LMI approach [J]. Neural Networks, 2002, 15(7): 855-866.

[7] 李国勇,张翠平,郭红戈,等.最优控制理论及参数最优化[M].北京:国防工业出版社,2006:203-234.

[8] BAI XUERUI, YI JIANQIANG, ZHAO DONGBIN. Approximate dynamic programming for ship course control [C]// ISNN'07: Proceedings of the 4th International Symposium on Neural Networks: Advances in Neural Networks, LNCS 4491. Berlin: Springer-Verlag, 2007: 349-357.

[9] SI J, WANG Y T. On-line learning control by association and reinforcement [J]. IEEE Transactions on Neural Networks, 2001, 12(2): 264-276.

[10] YANG BAOSHENG, CAO DEGUANG. Action-dependent adaptive critic design based neurocontroller for cement precalciner kiln [J]. International Journal of Computer Network and Information Security, 2009, 1(1): 62-68.