随着TMCP工艺的广泛应用与不断创新, 作为TMCP工艺的主要组成部分控冷技术也取得快速发展.其原理为通过改变轧后冷却条件来控制碳化物和相变的析出行为, 进而改善钢板的组织性能[1], 以充分挖掘钢材潜力, 提高钢材强度, 改善其塑性和焊接性能.在这一工艺中, 最重要的环节是冷却控制过程模型的建立, 这决定了最终温度控制的稳定与否.目前国内大多数厚板线轧后控冷模型主要包括预计算模块、在线修正模块和自学习模块.在很大程度上, 中厚板终冷温度的控制精度由控冷模型中温度场模型的精准度所决定.其中, 水冷传热系数是影响温度场模型的核心参数.在实际生产中, 影响水冷传热系数的因素多且复杂, 如板材规格、化学成分、冷却水温及水流密度等, 层流冷却过程具有很强的动态随机性, 是复杂的非线性过程, 很难用精确的数学模型对水冷传热系数进行描述和控制[2].只有当温控模型具备较强的自学习能力时, 才能适应复杂的工业生产条件.对此, 只能通过建立自学习模型来优化控冷模型.国内外很多学者都致力于温控模型的优化研究, 提出了很多具有一定适应性的工业温控模型.
一些学者基于控制规则和知识推理的方法提出了模糊控制模型[3], 其对于不明确规律机理的控制具有较强的适用性, 但是模糊算法存在一些不足:过于依赖人工经验, 并且由于静态误差的存在, 会导致控制精度的大幅下降.另外还有一种基于层别划分的温控自学习模型[4], 具体做法是将冷却钢板的厚度、目标终冷温度及水温等条件参数, 按照一定规则进行分类, 相近属性的归于一类, 新的待冷却钢板根据层别划分, 参考学习已冷却钢板的历史实绩.但这种方法的局限在于受到划分的层别数量的限制:层别过细所需学习样本过多, 层别过粗会出现层别跃迁现象, 严重影响控制精度.除此以外, 一些基于实例的智能算法也运用到统计预测领域.k近邻法[5]就是一种基于实例进行分类预测的经典算法.然而, k近邻法也具有自身的局限亟待解决:一是缺乏考虑每个影响因素对冷却过程的真实影响程度; 二是随着参考因素或样本数量的增加, 会造成学习的数量成倍增长, 大大降低了计算效率.
上述自学习模型算法都有其自身的特点, 也同时存在局限性.针对目前主流自学习模型存在的问题以及现场对模型精度和稳定性提出的要求, 提出一种新的方法, 即深度学习.
1 深度神经网络研究深度学习是机器学习中新兴的研究领域, 其网络架构由多层非线性运算单元组成, 可以从大数据中挖掘有效的特征表示, 是一种从数据中挖掘有效特征的好方法, 为解决复杂非线性问题以及机理未知过程的预测和控制提供了新的途径[6].
1.1 深度神经网络关键参数的选择首先确立输出层单元.控制模型中水冷传热系数与许多物理参数有关, 如终轧温度、板材厚度、水流密度和水温等.水冷传热系数与这些物理参数之间存在着复杂的非线性关系, 很难确定它们之间的函数关系.因此, 水冷传热系数作为一个关键参数, 它的精度直接影响到终冷温度的控制精度, 所以, 将水冷传热系数作为深度神经网络的输出层单元.
其次是确立输入层单元.输入层单元主要由影响水冷传热系数的相关参数所确定, 由某中板厂数据库系统中初步采集出板材宽度、板材厚度、板材长度、化学成分等20多个影响因子组成.
采用主成分分析法对数据进行预处理, 选出11个权重较大的影响因子(包括板材厚度、w(C), w(Cr), w(Cu), w(Mn)、冷却水温度、空气温度、终轧温度、目标终冷温度、集管流量、辊速)作为神经网络的输入层参数导入神经网络模型.
选取隐含层层数、隐含层单元数、传播算法和正则化方法4个变量作为隐含层实验变量, 并采用单一变量法训练深度神经网络对水冷传热系数因子进行预报, 筛选出最优模型结构.
1.2 深度神经网络结构的建立传统神经网络模型一般都是单隐含层, 虽然单隐含层运算速度较快[7], 但运算精度不佳.而深度神经网络可分层逐级地挖掘输入数据的特征表示, 有效降低了模型所需参数数目, 并且增大了模型运算精度.因此, 将各组实验的隐含层层数设置为1~7层, 神经元数分别设置为50~300个, 以10个为公差分别进行实验.选取几个特殊组合作比较, 结果如表 1所示.
精确度(Acc)是由均方根标准误差(RMS误差)转换所得, 即
由表 1可知, 当设置隐含层为1时, 精准度最高为90.92%, 而3层时, 其精准度可以达到97.79%, 远远优于隐含层为1时.对于此模型, 隐含层数或者隐含层单元数增多的话, 其精确度的增加微乎其微, 并且计算时间会显著增长, 导致模型综合效率下降.故遵循训练时间、精确度相对最优化的条件, 确定该神经网络模型隐含层为3层, 隐含层单元数为100个.
1.3 激活函数的选择传统神经网络中多应用Sigmoid函数[8]与Tanh函数[9], 而现在神经网络用得最多的则是Relu函数或Softplus函数, 如图 1所示.
Sigmoid函数表达式为
Tanh函数表达式为
Relu激活函数表达式为
Softplus激活函数表达式为
Sigmoid函数在历史上曾一度流行, 可是由于其软饱和性, 容易产生梯度消失, 并且具有收敛缓慢的缺点, 现一般不再采用它作为激活函数.Tanh函数是Sigmoid函数的改进版, 有异曲同工之处, 但它也存在梯度饱和的问题.
近年来, Relu激活函数变得越来越受欢迎.如图 1所示, Relu函数与其平滑版本Softplus函数.从信号方面来看, Relu函数只对输入信号少部分选择性相应, 这样可以提高学习的精度, 更快更好地提取稀疏特征.Relu激活函数模型相比于Sigmoid函数主要有以下3个优点:①单侧抑制; ②相对宽阔的兴奋边界; ③稀疏激活性.由图 1可以看出, Softplus是Relu的平滑, 其照顾到了Relu模型的前两个优点, 却没有稀疏激活性.
将该4种激活函数应用于神经网络模型中, 对比其效果, 如图 2所示.
由图 2可得, Relu激活函数的模型损失达到0.068, 为最小值, 其精确度也最高, 为98.33%.从曲线可以看出激活函数为Relu时, 收敛得更快, 应用效果最佳, 模型损失最小, 故模型选择激活函数为Relu函数.
1.4 优化算法的选择对于现阶段的深度神经网络来说, 梯度下降法依然是其求最优解的基本方法.但是单纯的梯度下降法已难以满足如今复杂的神经网络, 于是在梯度下降法的基础上衍生出许多个不同的优化算法.下面简单介绍一些常用的优化算法, 并对其进行比较.
1) MBGD(批量梯度下降法)是将整个训练集分成若干个训练样本, 对用N个训练样本, 每次迭代更新采用t(1<t < N)个样本, 是最常用的训练神经网络优化方法之一.其训练时, 参数更新的动荡相对较小, 收敛过程更平稳, 减小训练难度; 但是, 大部分神经网络所面临的都是复杂且非凸的目标函数, 这也意味着优化很容易陷入局部最优的困境.
2) Momentum(动量梯度下降法)是计算梯度的指数加权平均数, 并利用该值来更新参数值,具体过程为
其中, 动量衰减参数β一般取0.9.
使用Momentum梯度下降时, 通过累加减少了抵达最小值路径上的摆动, 加快了收敛, 当前后梯度方向一致时, Momentum梯度下降能够加速学习; 前后梯度方向不一致时, Momentum梯度下降能够抑制震荡.
3) Adam优化算法(自适应矩估计)适用于很多不同的深度学习网络结构, 能计算模型各个参数的自适应学习率, 使得整个训练过程更加稳定,具体过程为
其中:学习率α需要进行调参;超参数β1被称为第一阶矩, 一般取0.9;β2被称为第二阶矩, 一般取0.999;ε一般取10-8.
4) Adagrad优化算法[10]主要思想:在进行参数更新时, 不设置特定的学习率, 在每次迭代时, 对每个参数使用不同的学习率进行优化.其效果是迭代至参数空间更平缓的方向时, 会取得更大的进步.但是该方法会导致学习率大量减少, 导致模型训练时间增长, 效率偏低.
将以上4种优化算法进行训练对比, 如图 3所示, Adam算法收敛速度最快, 仅用100步迭代即可达到0.027, 且稳定损失最小, 精确度最高, 可达到97.7%.经过比对后, 综合各个方面的优势, 模型选择Adam优化算法.
由于深度神经网络中模型参数非常多,很容易产生过拟合现象.为了防止过拟合出现, 研究者们提出了很多有效的技术.正则化是机器学习中非常重要并且非常有效的减少泛化误差的技术.本文比较常用的两个正则化技术:L2正则化与Dropout正则化[11].
L2正则化主要思想:参数约束添加L2范数惩罚项.
通过梯度下降法推导出参数优化公式为
其中, ε为学习率.相对于正常的梯度优化公式, 对权重参数w乘上一个缩减因子.
Dropout是一类通用并且计算简洁的正则化方法.简单来说, Dropout是指在深度神经网络的训练过程中, 在向前传播时, 对于某层网络单元, 按照一定的概率将其暂时从网络中丢弃, 这样可以使一个神经元的出现不依赖其他的神经元[12].
将L2正则化与Dropout正则化分别进行训练对比(图 4), 由图 4可以看出,无正则化时, 存在过拟合问题, 两损失差距过大.加入L2正则化后测试集损失为0.07, 训练集损失为0.47, 两损失差距缩小.并且相比于L2正则化, Dropout正则化应用后训练集和测试集损失差距相比于应用L2正则化要小, 说明Dropout正则化比L2正则化效果要好.当L2正则化与Dropout正则化共同使用时, 效果最好, 训练集损失为0.14, 比单独使用Dropout正则化时要大一点, 说明过拟合问题基本消失, 测试集损失为0.20, 也更接近于训练集损失, 且模型预测精确度较高.故最终选择L2正则化与Dropout正则化共用.
利用某钢厂3 500 mm中厚板线的冷却数据集, 选取5 000组数据作为训练样本, 进行模型训练, 并且将训练好的模型应用于现场系统, 进行传热系数的在线预报.采用2 000组训练样本对深度神经网络进行训练, 模型训练完成后, 将该模型应用于现场实际生产中进行在线预报, 将轧机二级传来的PDI数据作为输入层, 用于预报传热系数.
连续采集150块预报的传热系数, 与实测传热系数进行对比.具体预报所得水冷传热系数如图 5所示.经统计, 对传热系数的修正, 准确率达到96.7%.由图 5可看出, 水冷传热系数因子的预报值和实测值拟合得很好, 可看出深度神经网络模型可以很好地挖掘数据信息, 并且能对一些复杂的参数进行准确的预报, 说明深度神经网络是可靠的.
图 6为冷后钢板实测温度.由图 6可以看出, 在终轧温度波动严重的情况下, 深度学习模型在预报终冷温度时, 可过滤掉终轧温度的波动变化, 并准确预报冷却时间与设定合适的冷却规程, 以命中终冷温度, 并且冷却后板材表面温度均匀.通过两个对比可以总结出, 应用深度学习后的冷却系统抗波动性强, 鲁棒性更强.
表 2、表 3为命中率对比与部分在线应用结果.由表 2和表 3可以得出, 对于不同规格的板材, 深度神经网络可以很好地预报出传热系数, 而且对终冷温度的控制上满足工程的要求, 且误差要小于原控冷系统, 并更加稳定.在控冷指标为±20 ℃条件下命中率可达96%, 相比于传统模型命中率提升了约3个百分点.
由上述对比可得出, 经过深度神经网络模型学习的水冷传热系数相对传统的传热系数更加稳定, 模型鲁棒性更强, 尤其当冷却板材规格改变或冷却环境受到外界干扰时, 深度学习模型算法表现得更为稳定, 对终冷温度控制精度更高.
3 结论1) 针对固定输入层、输出层的模型时, 并不是层数越多、隐含层单元数越多越好.恰到好处的层数与隐含层单元数既可以保证模型精确度, 又可以减少模型训练时间.
2) 相比于传统激活函数, Relu激活函数更接近于人类脑神经处理信息的方式, 训练后的网络完全具备适度的稀疏性.既可以提高模型的运算速度, 又大大提升了模型预报准确度.
3) 相比于传统的梯度下降法, 新开发出的各个优化算法对其学习率、梯度运行方向、梯度的更新程度等进行了优化.其中Adam算法更加适用于该模型, 预报精度最高, 误差最小.
4) 该模型在经过训练后, 在线应用时对于不同规格的板材, 可以很好地预报出传热系数, 而且对终冷温度的控制上满足工程的要求, 且精度高于原控冷系统, 并更加稳定.在控冷指标为±20 ℃条件下命中率可达96%, 比传统模型命中率提高约3个百分点.并可推广至其他规格板材的轧后控冷模型中.
[1] |
田勇, 王丙兴, 袁国, 等.
基于超快冷技术的新一代中厚板轧后冷却工艺[J]. 中国冶金, 2013, 23(4): 17–20.
( Tian Yong, Wang Bing-xing, Yuan Gong, et al. New generation TMCP for plate mill based on ultra-fast cooling technology[J]. China Metallurgy, 2013, 23(4): 17–20. DOI:10.3969/j.issn.1007-0958.2013.04.007 ) |
[2] |
李栋.基于神经网络的层流冷却控制模型研究[D].沈阳, 东北大学, 2010.
( Li Dong.Study of control model of laminar cooling based on neural networks[D].Shenyang: Northeastern University, 2010. ) |
[3] |
Xie H B, Liu X H, Wang G D, et al.
Optimization and model of laminar cooling control system for hot strip mills[J]. Journal of Iron and Steel Research, 2006, 13(1): 18–22.
DOI:10.1016/S1006-706X(06)60019-8 |
[4] |
Gong D Y, Xu J Z, Peng L G, et al.
Self-learning and its application to laminar cooling model of hot rolled strip[J]. Journal of Iron and Steel Research, 2007, 14(4): 11–14.
DOI:10.1016/S1006-706X(07)60050-8 |
[5] |
Burba F, Ferraty F, Vieu P.
k-nearest neighbour method in functional nonparametric regression[J]. Journal of Nonparametric Statistics, 2009, 21(4): 453–469.
DOI:10.1080/10485250802668909 |
[6] |
刘建伟, 刘媛, 罗雄麟.
深度学习研究进展[J]. 计算机应用研究, 2014, 31(7): 1921–1930.
( Liu Jian-wei, Liu Yuan, Luo Xiong-lin. Research progress of deep learning[J]. Application Research of Computers, 2014, 31(7): 1921–1930. DOI:10.3969/j.issn.1001-3695.2014.07.001 ) |
[7] |
余滨, 李绍滋, 徐素霞, 等.
深度学习:开启大数据时代的钥匙[J]. 工程研究, 2014(3): 233–243.
( Yu Bin, Li Shao-zi, Xu Su-xia, et al. Deep learning:the key of new world[J]. Journal of Engineering Studies, 2014(3): 233–243. ) |
[8] |
Ebert T, Banfer O, Nelles O.Multilayer perception network with modified Sigmoid activation functions[C]// LNCS6319: Artificial Intelligence and Computational Intelligence.Berlin: Springer, 2010: 414-421.
|
[9] |
Kailik B, Olgac A V.
Performance analysis of various activation functions in generalized MLP architectures of neural networks[J]. International Journal of Artificial Intelligence and Expert Systems, 2010, 1(4): 111–122.
|
[10] |
Bartlett P L, Hazan E, Rakhlin A.Adaptive online gradient descent[C]//Advances in Neural Information Processing Systems 20.Vancouver, 2007: 1-15.
|
[11] |
Srivastava N, Hinton G, Krizhevsky a, et al.
Dropout:a simple way to prevent neural networks from overfitting[J]. The Journal of Machine Learning Research, 2014, 15(1): 1929–1958.
|
[12] |
Mendenhall M J.
Improving quantitative structure-activity relationship models using artificial neural networks trained with Dropout[J]. Journal of Computer-Aided Molecular Design, 2016, 30(2): 177–189.
|