东北大学学报:自然科学版   2015, Vol. 36 Issue (3): 318-321,326   PDF (367 KB)    
模型未知非零和博弈问题的策略迭代算法
杨明1, 罗艳红1, 王义贺2    
1. 东北大学 信息科学与工程学院, 辽宁 沈阳 110819;
2. 国网辽宁省电力有限公司 经济技术研究院, 辽宁 沈阳 110000
摘要:提出了一种在线积分策略迭代算法,用来求解内部非线性动力模型未知的双人非零和博弈问题.通过在控制策略和干扰策略中引入探测信号,从而避开了系统的模型信息,得到了一个求解非零和博弈的无模型的近似动态规划算法.该算法同步更新值函数、控制策略、扰动策略,并且最终得到收敛的策略权值.在算法实现过程中,使用4个神经网络分别近似两个值函数、控制策略和扰动策略,使用最小二乘法估计神经网络的未知参数.最后仿真结果验证了算法的有效性.
关键词自适应动态规划     非零和博弈     策略迭代     神经网络     最优控制    
Policy Iteration Algorithm for Nonzero-Sum Games with Unknown Models
YANG Ming1, LUO Yan-hong1, WANG Yi-he2    
1. School of Information Science & Engineering, Northeastern University, Shenyang 110819, China;
2. Economic Technology Institute, Nation State Liaoning Province Power Co., Ltd., Shenyang 110000, China.
Corresponding author: YANG Ming, E-mail: yangming20060916@126.com
Abstract: An online integral policy iteration algorithm was proposed to find the solution of two-player nonzero-sum differential games with completely unknown nonlinear continuous-time dynamics. Exploration signals can be added into the control and disturbance policies, rather than having to find the model information. An approximate dynamic programming (ADP) of model-free approach can be constructed, and the nonzero-sum games can be solved. The value function, control and disturbance policies simultaneously can be updated by the proposed algorithm, and converged policy weight parameters are obtained. To implement the algorithm, four neural networks are used respectively to approximate the two game value functions, the control policy and the disturbance policy. The least squares method is used to estimate the unknown parameters of the neural networks. The effectiveness of the developed scheme is demonstrated by a simulation example.
Key words: adaptive dynamic programming     nonzero-sum games     policy iteration     neural networks     optimal control    

博弈论考虑游戏中的个体的预测行为和实际行为,并研究它们的优化策略.零和博弈表示所有博弈方的利益之和为零或一个常数,即一方有所得,其他方必有所失.非零和博弈表示在不同策略组合自适应动态规划(adaptive dynamic programming,ADP)理论融合了动态规划、增强学习以及函数近似等方法,在处理非线性系统的最优控制问题中有着独特优势[1, 2].ADP方法已经应用到求解零和博弈问题和非零和博弈中[3, 4, 5, 6, 7, 8, 9, 10],根据是否需要内部系统模型信息,算法可分为无模型算法和有模型算法.文献[3]提出一种基于策略迭代增强学习技术的自适应控制算法解决非零和博弈问题;文献[7]采用积分RL(reinforcement learning)方法在线求解线性连续系统的非零和博弈纳什均衡解;文献[8]采用基于单网络的ADP方法来求解非线性连续系统的非零和博弈平衡点.以上文献提出的算法均需要知道系统模型信息.文献[9]提出了一种无模型策略迭代算法求解线性二次最优问题;文献[10]提出了一种无模型策略迭代算法求解零和博弈问题,其中值函数、控制策略和干扰策略同时更新.目前还没有对内部系统模型未知的非零和博弈问题的求解.

本文提出一种在线积分策略迭代算法,该算法不需要知道系统的模型信息,利用输入输出数据求解非零和博弈问题的纳什平衡解.

1 问题描述

考虑一类非线性连续时间动态系统:

其中: xR n是系统状态; uR m是控制输入; wR q是外部扰动输入; f(x)∈ R n; g(x)∈ R n×mk(x)∈ R n×q是内部系统模型.假设 f(x)∈ R ng(x)∈ R n×mk(x)∈ R n×q是未知的, x=0 是系统(1)的一个平衡点.

仿照文献[8]定义两个性能指标:

其中: Q1≥0;Q2≥0;R11>0;R12≥0;R21≥0;R22>0.

对于控制策略 u和干扰策略w ,定义值函数:

定义非零和博弈问题为

问题目标是找到满足以下不等式的纳什平衡策略 (u*,w*) :

对值函数微分得到非线性Lyapunov方程:

其中

定义Hamilton函数: Hi( x,∇Vi,u,w)= ri( x,u,w)+( ∇Vi)T( f(x)+g(x)u+k(x)w )(i=1,2).

得到

将式(10)代入式(9)得到两个耦合的HJ方程:

这是两个非线性偏微分方程,很难得到解析解.

2 无模型积分策略迭代算法

为了分析无模型积分策略迭代(policy iteration,PI)算法,首先给出一个已知模型非零和博弈的PI算法.

算法1的步骤如下:

步骤1 给定初始稳定控制策略 u1和干扰策略w1 ,设定i=1.

步骤2(策略评价) 根据已知 uiwi ,通过下面的李雅普诺夫方程求解V1iV2i

步骤3(策略提高) 更新控制和干扰策略:

步骤4 如果‖VjiVji-1‖≤ε(j=1,2,ε是预设的正实数),停止算法并输出V1iV2i;否则,设i=i+1,并转到步骤2.

可以证明[11]i→∞时,算法1得到的Vji(j=1,2), u iw i 分别收敛到HJ方程的最优解Vj*,最优纳什平衡策略 u*w*.

接下来给出在线无模型积分PI算法.为了规避系统模型的信息,将探测信号e先后加入到控制策略u i和干扰策略 w i中,假设探测信号是预知的非零有界可测信号,‖e‖≤e M.

系统(1)变为

值函数V1i,V2i关于时间的导数为

利用式(11),式(12)从tt+T积分式(14)得到

其中 x (t)和 x (t+T)记为 x tx t+T.

在式(15)和式(16)中没有出现 f(x),g(x)和k(x)的信息,因此得到了下面的无模型积分PI算法.

算法2的步骤如下:

步骤1 给定初始稳定控制策略 u 1和干扰策略 w 1,设定i=1.

步骤2 已知 u i,w i,e 解下面的方程求解V1i,V2i,u i+1,w i+1

步骤3 如果‖VjiVji-1‖≤ε(j=1,2,ε是预设的正实数),停止算法并输出V1iV2i;否则,设i=i+1,并转到步骤2.

在算法2中同时更新值函数、控制策略和干扰策略.

3 算法实现

为了实现算法2,使用2个评价神经网络和2个执行网络用来近似值函数、控制策略和干扰策略.这里为了简化表示,记m=q=1.对式(17)和式(18), Vji( x )(j=1,2), u i+1( x ) , w i+1 (x) 可以用单层神经网络表示如下:

其中: W ij(j=1,2,3,4)是具有适当维数的未知理想权值; φ j(j=1,2,3,4)是激活函数,采用多项式函数;εij(j=1,2,3,4)是有界神经网络近似误差.当隐藏层的神经元数量趋于无穷时,近似误差一致趋于零.因为理想的权值未知,假设评价网络和执行网络的输出为
其中是当前估计值.

使用式(23)~式(26),式(17)和式(18)可以写成下面的形式:

其中:

因为式(27)和式(28)是一维方程,不能保证解的唯一性.使用最小二乘法计算参数向量:

其中:

如果 Φ ji列满秩,则:

因此采样数据K要取得足够大,Kmin=rank( Φ ij)=N1+N2(N1N2分别对应的维数),以保证( Φ i1( Φ i1) T)-1存在.最小二乘问题可以通过采集系统数据实时求解.

4 仿真例子

为了验证算法的有效性,本文利用Matlab软件对算法2进行了仿真实验.

考虑下面的非线性系统:

其中:

性能指标(2),(3)分别定义为 Q1(x)=2 x T xR11=R12=2 IQ2(x)= x T xR21=R22= I,其中 I 代表单位矩阵.

设置初始状态 x 0=[1 2]T.神经网络激活函数 φ1(x)=φ2(x)=φ3(x)=φ4(x)= [x12 x1x2 x22] T,其初始参数均设置为零.探测信号选择e=sin(t),算法在线执行,系统响应数据采集周期T=0.04,最小二乘法需要20组数据,所以 每0.8s更新一次激活函数参数.图 1表示V1的参数对更新次数的变化,图 2表示V2的参数对更新次数的变化,可以看出在3次更新以后参数基本保持不变.图 3表示在得到控制器和干扰器作用下的系统响应图.

图1 V1参数更新 Fig. 1 V1 parameter update

图2 V2参数更新 Fig. 2 V2 parameter update

图3 系统状态响应 Fig. 3 System state response

图 1图 2可以看出,值函数的权重 W 很快就收敛到了稳定值.从图 3可以看出得到的控制器可以保证系统一致最终有界的.

5 结 语

本文提出一种无模型积分策略迭代算法求解非零和博弈问题,通过在控制策略和干扰策略中加入已知噪声,消除算法迭代对系统信息模型的依赖.值函数、控制策略和干扰策略同时更新,加快了算法收敛速度.最后仿真算例验证了算法的有效性.

参考文献
[1] 张化光,张欣,罗艳红,等.自适应动态规划综述[J].自动化学报,2013,39(4):303-311. (Zhang Hua-guang,Zhang Xin,Luo Yan-hong ,et al.An overview of research on adaptive dynamic programming[J].ACTA Automatica Sinica,2013,39(4):303-311.)(1)
[2] 刘德荣,李宏亮,王鼎.基于数据的自学习优化控制:研究进展与展望[J].自动化学报,2013,39(11):1858-1870. (Liu De-rong,Li Hong-liang,Wang Ding.Data-based self-learning optimal control:research progress and prospects[J].ACTA Automatica Sinica,2013,39(11):1858-1870.)(1)
[3] Vamvoudakis K G, Lewis F L.Multi-player non-zero-sum games:online adaptive learning solution of coupled Hamilton-Jacobi equations[J].Automatica,2011,47(8):1556-1569.(2)
[4] Abu-Khalaf M, Lewis F L,Jie H.Neurodynamic programming and zero-sum games for constrained control systems[J].IEEE Transactions on Neural Networks, 2008,19(7):1243-1252.(1)
[5] Al-Tamimi A, Abu-Khalaf M,Lewis F L.Adaptive critic designs for discrete-time zero-sum games with application to H infinity control[J].IEEE Transactions on Systems,Man,and Cybernetics,Part B:Cybernetics,2007,37(1):240-247. (1)
[6] Zhang H,Wei Q,Liu D.An iterative adaptive dynamic programming method for solving a class of nonlinear zero-sum differential games[J].Automatica,2011,47(1):207-214.(1)
[7] Vrabie D, Lewis F.Integral reinforcement learning for online computation of feedback Nash strategies of nonzero-sum differential games[C]// 2010 49th IEEE Conference on Decision and Control(CDC).Atlanta,2010:3066-3071.(2)
[8] Zhang H G,Cui L L,Luo Y H.Near-optimal control for nonzero-sum differential games of continuous-time nonlinear systems using single-network ADP[J].IEEE Transactions on Cybernetics,2013,43(1):206-216.(3)
[9] Jiang Y,Jiang Z P.Computational adaptive optimal control for continuous-time linear systems with completely unknown dynamics[J].Automatica,2012,48(10):2699-2704.(2)
[10] Li H,Liu D,Wang D.Integral policy iteration for zero-sum games with completely unknown nonlinear dynamics[C]// Neural Information Processing,20th International Conference,ICONIP 2013.Berlin Heidelberg:Springer,2013:225-232.(2)
[11] Gajic Z,Li T Y.Simulation results for two new algorithms for solving coupled algebraic Riccati equations[C]//The Third International Symposium on Differential Games.Nice,1988.(1)