2. 国网辽宁省电力有限公司 经济技术研究院, 辽宁 沈阳 110000
2. Economic Technology Institute, Nation State Liaoning Province Power Co., Ltd., Shenyang 110000, China.
Corresponding author: YANG Ming, E-mail: yangming20060916@126.com
博弈论考虑游戏中的个体的预测行为和实际行为,并研究它们的优化策略.零和博弈表示所有博弈方的利益之和为零或一个常数,即一方有所得,其他方必有所失.非零和博弈表示在不同策略组合自适应动态规划(adaptive dynamic programming,ADP)理论融合了动态规划、增强学习以及函数近似等方法,在处理非线性系统的最优控制问题中有着独特优势[1, 2].ADP方法已经应用到求解零和博弈问题和非零和博弈中[3, 4, 5, 6, 7, 8, 9, 10],根据是否需要内部系统模型信息,算法可分为无模型算法和有模型算法.文献[3]提出一种基于策略迭代增强学习技术的自适应控制算法解决非零和博弈问题;文献[7]采用积分RL(reinforcement learning)方法在线求解线性连续系统的非零和博弈纳什均衡解;文献[8]采用基于单网络的ADP方法来求解非线性连续系统的非零和博弈平衡点.以上文献提出的算法均需要知道系统模型信息.文献[9]提出了一种无模型策略迭代算法求解线性二次最优问题;文献[10]提出了一种无模型策略迭代算法求解零和博弈问题,其中值函数、控制策略和干扰策略同时更新.目前还没有对内部系统模型未知的非零和博弈问题的求解.
本文提出一种在线积分策略迭代算法,该算法不需要知道系统的模型信息,利用输入输出数据求解非零和博弈问题的纳什平衡解.
1 问题描述考虑一类非线性连续时间动态系统:
仿照文献[8]定义两个性能指标:
对于控制策略 u和干扰策略w ,定义值函数:
定义非零和博弈问题为
问题目标是找到满足以下不等式的纳什平衡策略 (u*,w*) :
对值函数微分得到非线性Lyapunov方程:
定义Hamilton函数: Hi( x,∇Vi,u,w)= ri( x,u,w)+( ∇Vi)T( f(x)+g(x)u+k(x)w )(i=1,2).
由得到
将式(10)代入式(9)得到两个耦合的HJ方程:
这是两个非线性偏微分方程,很难得到解析解.
2 无模型积分策略迭代算法为了分析无模型积分策略迭代(policy iteration,PI)算法,首先给出一个已知模型非零和博弈的PI算法.
算法1的步骤如下:
步骤1 给定初始稳定控制策略 u1和干扰策略w1 ,设定i=1.
步骤2(策略评价) 根据已知 ui和 wi ,通过下面的李雅普诺夫方程求解V1i和V2i:
步骤3(策略提高) 更新控制和干扰策略:
步骤4 如果‖Vji-Vji-1‖≤ε(j=1,2,ε是预设的正实数),停止算法并输出V1i,V2i;否则,设i=i+1,并转到步骤2.
可以证明[11]当i→∞时,算法1得到的Vji(j=1,2), u i, w i 分别收敛到HJ方程的最优解Vj*,最优纳什平衡策略 u*和w*.
接下来给出在线无模型积分PI算法.为了规避系统模型的信息,将探测信号e先后加入到控制策略u i和干扰策略 w i中,假设探测信号是预知的非零有界可测信号,‖e‖≤e M.
系统(1)变为
值函数V1i,V2i关于时间的导数为
利用式(11),式(12)从t到t+T积分式(14)得到
在式(15)和式(16)中没有出现 f(x),g(x)和k(x)的信息,因此得到了下面的无模型积分PI算法.
算法2的步骤如下:
步骤1 给定初始稳定控制策略 u 1和干扰策略 w 1,设定i=1.
步骤2 已知 u i,w i,e 解下面的方程求解V1i,V2i,u i+1,w i+1,
步骤3 如果‖Vji-Vji-1‖≤ε(j=1,2,ε是预设的正实数),停止算法并输出V1i,V2i;否则,设i=i+1,并转到步骤2.
在算法2中同时更新值函数、控制策略和干扰策略.
3 算法实现为了实现算法2,使用2个评价神经网络和2个执行网络用来近似值函数、控制策略和干扰策略.这里为了简化表示,记m=q=1.对式(17)和式(18), Vji( x )(j=1,2), u i+1( x ) , w i+1 (x) 可以用单层神经网络表示如下:
使用式(23)~式(26),式(17)和式(18)可以写成下面的形式:
因为式(27)和式(28)是一维方程,不能保证解的唯一性.使用最小二乘法计算参数向量:
如果 Φ ji列满秩,则:
因此采样数据K要取得足够大,Kmin=rank( Φ ij)=N1+N2(N1,N2分别对应和的维数),以保证( Φ i1( Φ i1) T)-1存在.最小二乘问题可以通过采集系统数据实时求解.
4 仿真例子为了验证算法的有效性,本文利用Matlab软件对算法2进行了仿真实验.
考虑下面的非线性系统:
性能指标(2),(3)分别定义为 Q1(x)=2 x T x,R11=R12=2 I,Q2(x)= x T x,R21=R22= I,其中 I 代表单位矩阵.
设置初始状态 x 0=[1 2]T.神经网络激活函数 φ1(x)=φ2(x)=φ3(x)=φ4(x)= [x12 x1x2 x22] T,其初始参数均设置为零.探测信号选择e=sin(t),算法在线执行,系统响应数据采集周期T=0.04,最小二乘法需要20组数据,所以 每0.8s更新一次激活函数参数.图 1表示V1的参数对更新次数的变化,图 2表示V2的参数对更新次数的变化,可以看出在3次更新以后参数基本保持不变.图 3表示在得到控制器和干扰器作用下的系统响应图.
从图 1和图 2可以看出,值函数的权重 W 很快就收敛到了稳定值.从图 3可以看出得到的控制器可以保证系统一致最终有界的.
5 结 语本文提出一种无模型积分策略迭代算法求解非零和博弈问题,通过在控制策略和干扰策略中加入已知噪声,消除算法迭代对系统信息模型的依赖.值函数、控制策略和干扰策略同时更新,加快了算法收敛速度.最后仿真算例验证了算法的有效性.
[1] | 张化光,张欣,罗艳红,等.自适应动态规划综述[J].自动化学报,2013,39(4):303-311. (Zhang Hua-guang,Zhang Xin,Luo Yan-hong ,et al.An overview of research on adaptive dynamic programming[J].ACTA Automatica Sinica,2013,39(4):303-311.)(1) |
[2] | 刘德荣,李宏亮,王鼎.基于数据的自学习优化控制:研究进展与展望[J].自动化学报,2013,39(11):1858-1870. (Liu De-rong,Li Hong-liang,Wang Ding.Data-based self-learning optimal control:research progress and prospects[J].ACTA Automatica Sinica,2013,39(11):1858-1870.)(1) |
[3] | Vamvoudakis K G, Lewis F L.Multi-player non-zero-sum games:online adaptive learning solution of coupled Hamilton-Jacobi equations[J].Automatica,2011,47(8):1556-1569.(2) |
[4] | Abu-Khalaf M, Lewis F L,Jie H.Neurodynamic programming and zero-sum games for constrained control systems[J].IEEE Transactions on Neural Networks, 2008,19(7):1243-1252.(1) |
[5] | Al-Tamimi A, Abu-Khalaf M,Lewis F L.Adaptive critic designs for discrete-time zero-sum games with application to H infinity control[J].IEEE Transactions on Systems,Man,and Cybernetics,Part B:Cybernetics,2007,37(1):240-247. (1) |
[6] | Zhang H,Wei Q,Liu D.An iterative adaptive dynamic programming method for solving a class of nonlinear zero-sum differential games[J].Automatica,2011,47(1):207-214.(1) |
[7] | Vrabie D, Lewis F.Integral reinforcement learning for online computation of feedback Nash strategies of nonzero-sum differential games[C]// 2010 49th IEEE Conference on Decision and Control(CDC).Atlanta,2010:3066-3071.(2) |
[8] | Zhang H G,Cui L L,Luo Y H.Near-optimal control for nonzero-sum differential games of continuous-time nonlinear systems using single-network ADP[J].IEEE Transactions on Cybernetics,2013,43(1):206-216.(3) |
[9] | Jiang Y,Jiang Z P.Computational adaptive optimal control for continuous-time linear systems with completely unknown dynamics[J].Automatica,2012,48(10):2699-2704.(2) |
[10] | Li H,Liu D,Wang D.Integral policy iteration for zero-sum games with completely unknown nonlinear dynamics[C]// Neural Information Processing,20th International Conference,ICONIP 2013.Berlin Heidelberg:Springer,2013:225-232.(2) |
[11] | Gajic Z,Li T Y.Simulation results for two new algorithms for solving coupled algebraic Riccati equations[C]//The Third International Symposium on Differential Games.Nice,1988.(1) |