2. 中国科学院 国家天文台, 北京 100012
2. National Astronomical Observatories, Chinese Academy of Sciences, Beijing 100012, China
FAST工程[1]实施至今进展顺利, 而FAST主动反射面整网变形控制策略与自适应建模[2]研究作为FAST项目的基础工作和核心难点之一也取得了一定的进展.主动反射面是500 m口径球面射电望远镜FAST创新工程的核心, 整网变形[3]过程中索网节点位置的实时、动态、精准控制[4]是保证望远镜观测效果的重要前提.对反射面变形过程中FAST节点位移预测模型的研究和探索对于工业控制领域和FAST项目的设计[5]与实施具有很好的理论意义和实践价值.
ELM神经网络又名极限学习机 (extreme learning machine, ELM) 是由Huang等[6]在2004年提出的一种单隐层前馈神经网络 (single-hidden layer feedforward neural networks, SLFNs) 的快速学习算法[7].尽管单隐层前馈神经网络的学习能力很强, 但是它也存在一定的缺陷, 就是学习速度比较慢, 无法满足一些工程研究中的要求.ELM算法的结构与单隐层前馈神经网络有些相似, 但ELM应用更为便捷, 它在训练参数的选择方面比较灵活, 而且预获得完整的网络训练模型也只需通过最小二乘的方法求出输出权值即可.Huang等证明了神经网络隐含层节点参数的随机选取[8], 在不影响网络收敛能力的前提下, 可以大大缩短网络训练的时间.ELM神经网络的训练速度与传统前馈神经网络, 如BP神经网络和SVM等相比, 提高了数百倍到数千倍, 引起了广大学者的极大兴趣.
1 极限学习机 (ELM) 算法单隐层前馈型网络[9]包含三层, 分别是输入层、隐含层和输出层.ELM算法包含以下三个步骤.
ELM算法:给定训练集D={(xi, ti)|xi∈Rn, ti∈Rm, i=1, …, N}, 激活函数g(x), L为隐含节点个数.
步骤1 随机生成隐单元的输出权值和偏置ai, bi, i=1, …, L;
步骤2 计算隐单元的输出矩阵H;
步骤3 计算出权值
其中,
(1) |
其中,
(2) |
ELM神经网络与传统的前馈神经网络相比, 其最大优点是其训练速度的优势非常明显.因为ELM神经网络的初始隐含层的参数是随机生成的, 在神经网络训练过程中参数不改变, 通过持续的迭代, 即可得出输出权值.但是ELM神经网络也有一些不足之处.不足之处体现在人工设置隐含层节点数目, 通过大量实验发现, 这种操作会在一定程度上对网络的性能造成不好的影响.
但是在实际应用中, 往往都是通过大量实验数据确定隐含层节点的数目, 如果隐含层节点数目选择过多, 在神经网络训练的过程中会出现过拟合现象, 使训练精度和测试精度不一致, 最终导致网络的鲁棒性和泛化性降低, 不能满足在实际应用中的要求.为了解决隐含层节点上述问题, 进一步提高网络的性能, 需要一种具有削减隐含层节点功能的改进ELM神经网络, 来提高网络性能的参数.
2 ELM的改进算法 2.1 基于误差最小化的ELM神经网络ELM神经网络的网络结构是由用户设定, 若设置的网络结构复杂, 会导致网络学习时间增加甚至出现过拟合等现象, 会大大降低神经网络预测的准确性, 当简单设置网络结构时, 又会导致网络的训练误差较大.现有的ELM神经网络的研究中, 在大多数情况下, 网络隐含节点数的选取也只能依赖于用户多次尝试后取经验值.针对这些问题, 很多研究人员尝试给出优化算法, 其中增长型的ELM神经网络是其中行之有效的算法.其算法不需要构建网络结构, 首先将隐含节点的个数从0开始增加, 随着隐含层节点数量的增多, 可以减小网络训练误差, 直至训练误差达到用户期望值为止.
本文尝试在增长型ELM神经网络的基础上, 引入基于误差最小化的ELM神经网络 (error minimized ELM, EM_ELM).EM_ELM神经网络算法的基本思想:①首先设置初始网络:隐含层节点数为0;或者由用户自己定义初始网络结构.②其次利用训练数据对神经网络进行训练, 得到初始输出权重值和训练误差, 通过不断地进行迭代, 来增加隐含层节点数目.③当到达一定的节点数目之后, 将其增加到网络中, 再更新整个网络的输出权重和训练误差.④通过不停地迭代增加节点数目, 直到节点数达到设置值, 或者训练误差达到设计要求为止.
2.2 EM_ELM算法步骤EM_ELM算法中, 初始网络结构由用户设定, 隐含层节点数目通过线性方式增加, EM_ELM算法的具体流程如下:给定一个具有N个不同训练样本{ (xi, ti)}i=1N的训练集, 隐含层映射函数为G (x), 隐含层的最大节点数为Lmax, 初始隐含层节点数为L0, 用户期望训练误差为U.
1) 在输入权值和阈值的取值范围内为L0个隐含层节点随机产生相应的输入权重和阈值.
2) 计算得到初始网络的输出矩阵H0:
(3) |
3) 计算初始网络的训练误差E0:
(4) |
4) 记迭代次数k=0.
5) 判断网络的剩余误差是否小于用户期望训练误差U或者网络的隐含层节点数是否达到预设的最大值, 如果是则停止迭代, 保存已经训练好的网络, 否则继续执行6).
6) 令k=k+1.
7) 根据式 (5) 计算增加更新后的隐含层节点数目:
(5) |
8) 为新增加的δLk-1个隐含层节点获得相应的输入权值向量ai和偏置bi, 由此得到新增隐含层节点的输出矩阵为δHk-1, 那么整个网络的隐含层输出矩阵Hk可以表示为Hk=[Hk-1, δHk-1].
(6) |
9) 计算整个网络的输出权值,
(7) |
(8) |
(9) |
10) 计算新增节点之后的训练误差Ek, 然后跳转到5) 继续执行,
(10) |
经过多次试验, 最终设定隐含层映射函数G (x) 为高斯函数, 初始隐含层节点数L0为10, 隐含层的最大节点数Lmax为100, 用户期望训练误差U为0.001.使用200组数据对EM_ELM神经网络进行训练, 训练耗时为3.107487s.
将EM_ELM, ELM和RBF神经网络[10]对FAST节点位移预测结果的各项性能参数列于表 1中, 明显可以看出虽然EM_ELM神经网络的训练时间较ELM有所损失, 但是仍然远优于RBF神经网络, 而在预测结果的准确性和稳定性上EM_ELM神经网络较ELM神经网络在平均绝对误差、平均相对误差和均方误差3个方面都有所提升, 更适合应用于FAST中进行节点位移的预测.
预测结果的拟合曲线如图 1和图 2所示, 预测结果的绝对误差如图 3所示.
从图 1和图 2中可以看出, EM_ELM算法的预测结果与真实位移相差不大, 达到了预期的预测精度.从图 3的误差对比可以得到, EM_ELM算法相比RBF和ELM算法, 绝对误差波动范围较小, 位移预测结果相对稳定, 有利于算法在FAST预测模型中的应用.
4 结论本文介绍了ELM神经网络的理论基础, 在此基础上对ELM算法的优缺点进行了分析.针对ELM神经网络隐含层节点数目需要人工设定, 容易出现过拟合现象从而导致网络的泛化能力降低的问题, 引出了ELM神经网络的改进方法EM_ELM算法, 并详细阐述了算法的实现过程.随后将EM_ELM算法应用到FAST节点位移的预测模型中, 并且进行了仿真实验, 最终证明了改进算法的有效性与可行性.
[1] | Qian H L, Fan F, Shen S Z. The cable-net structure supporting the reflector of FAST[J]. China Civil Engineering Journal, 2005, 38(12): 18–23. |
[2] |
朱丽春.
500米口径球面射电望远镜 (FAST) 主动反射面整网变形控制[J]. 科研信息化技术与应用, 2012, 3(4): 67–75.
( Zhu Li-chun. Control of the main active reflector of FAST[J]. E-Science Technology & Application, 2012, 3(4): 67–75. ) |
[3] | Jiang P, Wang Q M, Zhao Q. Optimization and analysis on cable net structure supporting the reflector of large radio telescope FAST[J]. Engineering Mechanics, 2013, 30(2): 400–405. |
[4] |
杜敬利, 保宏, 杨东武, 等.
索网主动反射面的形状精度调整研究[J]. 工程力学, 2012, 29(3): 212–217.
( Du Jing-li, Bao Hong, Yang Dong-wu, et al. Analysis on shape accuracy adjustment of an active cable-mesh reflector[J]. Engineering Mechanics, 2012, 29(3): 212–217. ) |
[5] |
范峰, 牛爽, 钱宏亮, 等.
FAST背架结构优化选型及单元足尺模型试验研究[J]. 建筑结构学报, 2010, 31(12): 9–16.
( Fan Feng, Niu Shuang, Qian Hong-liang, et al. Structural optimization and full-scale-model test for FAST back-structure unit[J]. Journal of Building Structures, 2010, 31(12): 9–16. ) |
[6] | Huang G B, Zhu Q Y, Siew C K.Extreme learning machine:a new learning scheme of feedforward neural networks[C]//IEEE International Conference on Neural Networks.Budapest, 2004:985-990. |
[7] | Wang Y, Tian G, Wen S. Prediction model of television program rating based on BP neural network[J]. Video Engineering, 2014, 38(6): 94–96. |
[8] | Huang G B, Zhu Q Y, Siew C K. Extreme learning machine:theory and applications[J]. Neurocomputing, 2006, 70(1/2/3): 489–501. |
[9] | Soria-Olivas E, Gomez-Sanchis J, Martin J D, et al. BELM:Bayesian extreme learning machine[J]. IEEE Transactions on Neural Networks, 2011, 22(3): 505–509. DOI:10.1109/TNN.2010.2103956 |
[10] | Gan M, Peng H, Dong X P. A hybrid algorithm to optimize RBF network architecture and parameters for nonlinear time series prediction[J]. Applied Mathematical Modelling, 2012, 36(7): 2911–2919. DOI:10.1016/j.apm.2011.09.066 |