2. 上海宝信软件股份有限公司 大数据事业部, 上海 201203
2. Big Data Department, Shanghai Baosight Software Co., Ltd., Shanghai 201203, China
热轧带钢产品质量是决定钢铁企业制造成本及服务水平的重要因素, 一直受到业界和学术界的关注和研究.热轧带钢产品质量指标主要包括表面质量、力学性能、尺寸精度[1].在表面缺陷检测研究方面, Ghorai等[2]开发了集成钢厂自动化视觉检测系统, 使用支持向量机智能识别热轧钢表面缺陷.在力学性能预测研究方面, Sui等[3]针对具有高维、强耦合和冗余特征的热轧工艺质量参数, 先采用Gram-Schmidt正交变换组合信息熵方法来选择特征子集, 然后采用极限学习机建立预测模型, 实现了对带钢力学性能的预测.在尺寸精度控制研究方面, Li等[4]在考虑影响轧制间隙精度的多种因素下, 提出了基于支持向量机的回归模型, 预测轧制间隙, 提高了带钢厚度控制精度.综上可见, 机器学习方法与带钢质量问题已有广泛结合, 可以应用于多种参数的预测及辅助钢铁生产过程决策等方面.在实际应用中, 关键问题在于如何根据数据特点选择匹配的机器学习方法来完成缺陷的分析与预测.
本文根据某钢铁企业热轧带钢的实际生产数据, 首先对数据进行预处理得到初始样本, 再通过特征选择对包含大量冗余、强耦合特征的高维数据进行降维, 保证模型的精度和可解释性.之后针对非平衡数据集的二分类问题, 采用改进的随机森林算法, 建立解决热轧带钢缺陷识别问题的随机森林模型.最后通过K折交叉验证来验证分类模型的精度, 并结合混淆矩阵、ROC曲线等指标评判分类结果.
1 改进的随机森林算法 1.1 数据预处理与特征提取本文针对带钢表面挂腊-辊印缺陷进行研究.原始数据包含407个生产工艺参数特征, 2 278个样本, 其中存在目标缺陷样本24个, 其余样本未发生缺陷.样本数据表明该问题属于非平衡数据集下的二分类问题.
采用多重插补法[5]对原始数据进行缺失值、异常值预处理后, 根据特征的特点依次采用后向逐步选择、群集选择与最优子集选择进行特征提取, 筛选时采用最优调整R2值与p值作为评价指标, 最终选出11个特征变量用于模型建立, 特征信息如表 1所示.
本文样本数据中包含合格品与缺陷品比例为18: 1, 这种数据的不平衡性会造成少数类难以识别, 预测结果偏向多数类, 分类器的分类精度下降.因此, 本文采用近邻消除法(neighborhood cleaning rule, NCL)[6]与合成少数类过采样技术(synthetic minority over-sampling technique, SMOTE)[7]相结合的方法来改善数据集的不平衡性.本文将NCL和SMOTE算法优点相结合, 提出NCL和SMOTE混合方法.首先设定一个数据集平衡比例, 利用NCL算法去除多数类中的噪声样本, 再用SMOTE算法人工合成少数类样本, 循环迭代直至达到数据集平衡比例后, 跳出循环.图 1是改进的NCL+SMOTE算法流程.
对于随机森林算法, 树的分裂节点选择算法会直接决定随机森林的分类效果.CART算法[8]和C4.5算法[9]都是经典且有效的分类节点选择算法, 但两者评价指标的差异会导致最后生成决策树的差异, 分类结果也就各不相同.本文提出CART与C4.5混合算法, 将信息增益与Gini系数两种评价指标相结合, 发挥两者的核心优势, 以此来提高决策树的分类精度.
混合算法评价指标mix计算公式如下:设样本训练集为D, 样本中的特征为A,
(1) |
其中:α1, α2∈[0, 1], 且两者不能同时为0或1;GainRatio(D, A)为信息增益率; Ginisplit(D)为Gini系数, 计算方法与CART和C4.5算法下给出方式相同.混合算法中拥有最小mix值的特征为当前条件下的最优分裂节点.
1.4 随机森林的特征选择决策树的分类精度[10]和树间相似度是直接影响随机森林分类效果的关键因素.在构建森林时涉及特征选择, 若要保证树的分类精度, 特征集中需包含与目标变量高度相关的特征, 起分类主导作用, 称其为高相关特征.同时需在特征集内选取一部分低相关特征保持树间差异, 提升泛化能力, 称为低相关特征.本文以互信息[11]作为评价指标来衡量特征与目标变量间的相关度.
设两个离散值变量X, Y, 它们的互信息如式(2)所示, 单位为bit.
(2) |
其中:p(x, y)是X和Y的联合概率分布; p(x)和p(y)是X和Y的边缘概率分布.当变量中属性都为连续值时, X和Y的互信息为
(3) |
在构建特征子集时, 首先利用互信息将特征集划分为高相关区和低相关区, 而后按照预设的抽取比例, 从两区域各随机抽取一部分特征构成决策树的特征子集.
1.5 改进的随机森林算法基于以上3种改进策略, 本文提出的改进随机森林算法计算流程如下.
步骤1 计算每个特征的互信息值, 而后对其进行从高到低排序.
步骤2 设定高相关和低相关特征数量比例为1: p, 再根据比例划分为高相关区与低相关区.
步骤3 设森林中有B棵决策树, 对于每一棵决策树有:
1) 按照Bagging方法从原数据集中抽取样本子集;
2) 从高相关区抽取
3) 利用样本子集和特征子集构建决策树, 并加入到森林中.
步骤4 森林构建完成.
采用排序后再分区抽取的方法, 可以同时保证树的分类精度与树间差异性, 利于提升随机森林的分类效果.
2 实验结果为了分析三种随机森林算法改进策略的有效性, 本文基于相同的预处理数据进行了3组实验.实验采用5折交叉验证法[12], 设置随机森林中树的数量为100, 结果采用敏感度、特异度、准确度、几何平均数Gmean和曲线下面积(area under curve, AUC)作为评价指标.
2.1 非平衡数据改进结果对非平衡数据集下的训练集进行平衡处理到指定比例, 根据不同的平衡比例进行了5组实验, 结果如表 2所示.
比较原始数据集, 5种不同比例的改进数据集对板坯是否产生缺陷的分类效果都有所提升.采用NCL+SMOTE算法将正负样本比例调节到1.1: 1时, 可以发现其分类效果尤其在负样本的命中率方面, 牺牲小部分敏感度换取了特异度的明显提升, Gmean值有较大提升.通过实验发现SMOTE算法可以为平衡比例的选取提供参考, 其对负样本的命中率有较大提升, 且与NCL算法相结合可以很好地减少NCL算法的时间复杂度, 提升分类效果.
2.2 决策树分裂节点算法改进结果本实验采用2.1节正负样本比例为1.1: 1的数据集作为训练集, 通过实验对比该数据集下采用C4.5,CART以及C4.5与CART相加权的方法这3种分裂树节点算法的分类效果.本文把这种通过不同权重配比寻找最优组合策略的加权方法称为ACC混合方法.该方法中的两个参数为上述两种基础方法的权重系数.为了克服随机性, 所有实验结果取100次求解后的平均值.表 3为CART,C4.5及两者混合算法实验对比与评价结果.
从表 3的结果可以看出, ACC混合算法的特异度和敏感度要高于C4.5算法与CART算法.从Gmean值也可以看出, ACC混合算法会获得更好效果.当α1=0.6, α2=0.4时算法的效果最佳, 此时两种算法的权重达到此数据集下的最佳配比.与单独使用CART和C4.5算法的分类结果比较, ACC混合算法下负样本命中率提升了8.3 %.
2.3 改进的随机森林特征选择算法结果在2.1节与2.2节给出的最优条件下, 进行随机森林特征选择改进算法实验.实验中特征的选取由随机选择变为按相关度高低分区选择, 并采用三种不同方法(Log,Sqrt和None)确定决策树所需特征数目,得到了按高低分区排序方法与未进行高低分区排序方法的对比结果, 如表 4所示.
从结果可以看出, 采用高低分区排序的特征子集选择方法的结果都明显优于未排序的随机选择结果.由于原数据集特征数为11个, 使得Log和Sqrt特征抽取方法下恰巧得到了相同结果.最终正样本命中率为96.7 %, 负样本命中率为83.3 %, 总体命中率达到96.1 %, 置信度0.92, 预测结果可信度较高.对特征进行相关度分区后, 可以保证森林内树的强度与树间差异性, 提高随机森林算法的分类效果.从图 2可以明显看出, 改进的随机森林算法有更好的ROC曲线, AUC值提升13.6 %, 相比传统随机森林算法在分类效果上有显著提高.
基于热轧带钢生产工艺实际数据, 采用改进的随机森林算法作为数据分析方法, 对热轧带钢的缺陷识别问题进行了分析, 应用本文改进的随机森林算法, 缺陷带钢的识别率得到了明显提高.实验结果表明, 本文改进的随机森林算法可以有效地解决热轧带钢产品缺陷预测问题.
本文采用随机森林算法作为基础分类算法, 优化对象为随机森林算法中的分裂节点和特征选择方法, 采用互信息来判定特征间的重要程度是一种有效的方法, 但如何结合随机森林特点, 深度优化特征子集选择过程, 选出最有效特征, 仍是提高分类精度的关键工作, 需要未来进一步研究.
[1] |
王永胜, 成泽伟, 李宏, 等.
热轧板坯表面缺陷分析[J]. 钢铁研究学报, 2002, 14(2): 75–76.
( Wang Yong-sheng, Cheng Ze-wei, Li Hong, et al. Analysis on surface defect of hot rolled slab[J]. Journal of Iron and Steel Research, 2002, 14(2): 75–76. DOI:10.3321/j.issn:1001-0963.2002.02.020 ) |
[2] |
Ghorai S, Mukherjee A, Gangdaran M, et al.
Automatic defect detection on hot-rolled flat steel products[J]. IEEE Transactions on Instrumentation and Measurement, 2013, 63(3): 612–621.
|
[3] |
Sui X Y, Lyu Z M.
Prediction of the mechanical properties of hot rolling products by using attribute reduction ELM[J]. International Journal of Advanced Manufacturing Technology, 2016, 85.
|
[4] |
Li W, Yao X L, Yu L, et al.Application of SVM regression in HAGC system[C]//The 27th Chinese Control and Decision Conference(CCDC).Qingdao, 2015: 3490-3494.
|
[5] |
Royston P.
Multiple imputation of missing value[J]. Stata Journal, 2004, 4(3): 227–241.
DOI:10.1177/1536867X0400400301 |
[6] |
Laurikkala J.
Instance-based data reduction for improved identification of difficult small classes[J]. Intelligent Data Analysis, 2002, 6(4): 311–322.
DOI:10.3233/IDA-2002-6402 |
[7] |
Chawla N V, Bowyer K W, Hall L O, et al.
SMOTE:synthetic minority over-sampling technique[J]. Journal of Artificial Intelligence Research, 2002, 16(1): 321–357.
|
[8] |
Leo B.
Classification and regression trees[M]. Monterey: Cole Publishing, 1984.
|
[9] |
Quinlan J R.
C4.5:programs for machine learning[M]. San Francisco: Morgan Kaufmann Publishers, 1994.
|
[10] |
雍凯.随机森林的特征选择和模型优化算法研究[D].哈尔滨: 哈尔滨工业大学, 2008.
( Yong Kai.Research on feature selection and model optimization of random forest[D].Harbin: Harbin Institute of Technology, 2008. ) |
[11] |
Peng H C, Long F, Ding C.
Feature selection based on mutual information:criteria of max-dependency, max-relevance, and min-redundancy[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005, 27(8): 1226–1238.
DOI:10.1109/TPAMI.2005.159 |
[12] |
Kohavi R.A study of cross-validation and bootstrap for accuracy estimation and model selection[C]// Proceedings of the Fourteenth International Joint Conference on Artificial Intelligence.Montreal, 1995: 1137-1143.
https://www.researchgate.net/publication/2352264_A_Study_of_Cross-Validation_and_Bootstrap_for_Accuracy_Estimation_and_Model_Selection |