东北大学学报:自然科学版   2015, Vol. 36 Issue (4): 527-532   PDF (398 KB)    
数据挖掘技术在全断面掘进机故障诊断中的应用
张天瑞1, 于天彪1, 赵海峰2 王宛山1    
1.东北大学 机械工程与自动化学院, 辽宁 沈阳 110819;
2.北方重工集团有限公司 全断面掘进机国家重点实验室, 辽宁 沈阳 110141
摘要:分析了全断面掘进机复杂的故障机理和运行参数,研究了将粗糙集和决策树应用到数据挖掘中的方法.以全断面掘进机刀盘的一些实时数据为例,采用MATLAB 7.0对数据进行离散化处理,结合粗糙集属性约简的算法对故障样本进行冗余属性的约简;然后,利用决策树算法对约简后的故障样本集进行规则提取,利用数据挖掘工具Clementine实现了C4.5算法和改进的C4.5算法,对其结果进行了对比分析;最后,运用VB编程对全断面掘进机采集的部分数据进行测试,结果表明该融合算法是一种快速、有效、可靠的故障检测与诊断的新途径.
关键词全断面掘进机     数据挖掘     粗糙集     决策树     融合算法    
Application of Data Mining Technology in Fault Diagnosis of Tunnel Boring Machine
ZHANG Tian-rui1, YU Tian-biao1, ZHAO Hai-feng2 WANG Wan-shan1    
1. School of Mechanical Engineering & Automation, Northeastern University, Shenyang 110819, China;
2. State Key Laboratory of Tunnel Boring Machine, Northern Heavy Industries Group Co., Ltd., Shenyang 110141, China.
Corresponding author: ZHANG Tian-rui, E-mail: tianjiangruixue@126.com
Abstract: Complex fault mechanism and operation parameters of the tunnel boring machine (TBM) were analyzed, and the method of rough set and decision tree algorithm applying to data mining was studied. Take several MATLAB 7.0 dispersed data of tunnel boring machine cutter head as an example, the redundancy attribute of fault samples was reduced by the combination with the rough set attribute reduction algorithm. The rules were extracted with the decision-making tree algorithm. The C4.5 algorithm and the improved C4.5 algorithm were implemented with the data mining tool Clementine, with the results compared. The data was tested by the VB programming. The results showed that the fusion algorithm is a rapid, effective and reliable approach for fault detection and diagnosis.
Key words: tunnel boring machine     data mining     rough set     decision tree     fusion algorithm    

故障诊断是现在机械设备中保证设备正常运行的重要功能[1].目前,故障诊断的研究方法和研究对象有很多,但将全断面掘进机作为研究对象,应用数据挖掘技术的诊断方法的研究还鲜有介绍[2].全断面掘进机的数据采集系统中储存了海量的隐藏着大量潜在规则的数据须被挖掘[3],因此,本文把数据挖掘技术引用到全断面掘进机的故障诊断中.

全断面掘进机体积庞大、结构复杂,仅依靠专家经验排查故障十分困难,因此及时排查故障、减少维修停机时间,将会产生明显的经济效益[4].有研究表明:全断面掘进机遇到故障时,技术人员需要约占总时间70 % ~90 % 的时间确定故障原因和部位,故障维修工作只占约10 % ~30 % 的时间[5];从维修成本的角度来看,预测维修成本只占事后维修成本的40 % 左右[6].

1 全断面掘进机故障分析 1.1 全断面掘进机的数据来源

全断面掘进机自带的数据采集系统可收集到包括作业数据、状态信息、工况数据、报警信息在内的大量施工数据.利用数据库访问技术读取数据采集系统中的数据,根据全断面掘进机数据采集系统采集的历史运行状态数据,对掘进机的未来运行状态进行预测与诊断.

1.2 全断面掘进机的故障分析

全断面掘进机发生故障时,从数据采集系统及故障监视系统可判断属于电气故障、液压故障还是机械故障.但是由于全断面掘进机的复杂结构而使得故障症状和原因呈多样性.全断面掘进机出现的故障及成因分析如图 1所示[7].

图1 全断面掘进机施工影响因素 Fig. 1 Influence factors of TBM construction
1.3 全断面掘进机受控对象的选择

根据全断面掘进机施工中各个系统部件的重要性和对整台机器故障造成影响程度的大小,选择主轴承、主电机、主变速箱、主机液压系统作为重点监测对象.

1.4 全断面掘进机的常见施工故障

全断面掘进机常见施工故障包括:主轴承油脂润滑系统故障、胶带输送机故障、水冷器件出现温度超高情形、除尘风机过滤效果不佳等[8].

2 故障诊断中的融合诊断 2.1 基于数据挖掘算法的故障模型

融合了粗糙集和决策树两种算法,主要是利用粗糙集强大的属性约简能力[9-10]和C4.5算法的快速分类的优点进行故障规则的挖掘[10],步骤见图 2.

图2 基于粗糙集的决策树诊断算法模型 Fig. 2 Diagnosis decision tree model based on rough set

首先,利用等宽算法对采集来的连续故障数据进行离散化处理,然后利用粗糙集理论对属性进行约简,获得最佳属性约简表;最后利用决策树算法建立故障决策树,获得最佳的故障诊断规则,把生成的这些规则储存到故障规则库中进行故障诊断,具体故障模型如图 3所示.

图3 故障诊断的基本模型 Fig. 3 Basic fault diagnosis model
2.2 基于粗糙集理论的故障特征参数选择

1) 数据预处理.数据预处理是数据挖掘过程中的重要部分[7],其流程如图 4所示.所谓连续属性的离散化,是指将数值的属性值划分成若干子区间,并以此区间代替原有的实值,从而使决策表范化.通过对掘进机的部分故障样本数据分析,本文采用等距离划分算法将故障样本信息表进行离散化.

图4 粗糙集的属性约简流程图 Fig. 4 Flow chart of rough set attributes reduction

以刀盘单元为例,在选取故障条件属性时应结合领域专家的知识,同时考虑到现场测点的布置.全断面掘进机数据采集系统保存与刀盘有关的参数,当刀盘发生故障时某些参数就会升高或降低.所以选取以下参数作为粗糙集的条件属性:a为No.2刀盘电流(A);b为No.6刀盘电流;c为土砂房间压力(上)(bar);d为土砂房间压力(下);e为土砂房间压力(左);f为土砂房间压力(右);g为注浆流量(m3/s);h为全断面掘进机总推力(kN),刀盘打滑作为决策属性.建立故障样本属性决策表,见表 1.

表1 全断面掘进机故障诊断决策表(部分) Table 1 TBM fault diagnosis decision list(portion)

利用MATLAB7.0编程,实现对此数据的离散化处理.离散化的结果为

2) 条件属性的约简.决策表属性约简的过程就是在保持信息系统分类能力不变的前提下,从决策表系统的条件属性中,去掉不必要的或对决策不重要的条件属性.采用基于可辨识矩阵的属性约简算法对上述离散结果进行决策属性约简.根据可辨识矩阵定义,得出故障数据的可辨识矩阵,见表 2.

根据可辨识矩阵建立相应的析取逻辑表达式:

将所有的析取逻辑表达式进行合取运算得:

从约简后的决策表 3可以看出,通过粗糙集的属性约简大大降低了决策表的复杂程度.

表2 全断面掘进机数据可辨识矩阵 Table 2 TBM data distinguishable matrix

表3 TBM故障样本训练集 Table 3 TBM fault sample training set
3 全断面掘进机故障识别方法实现

全断面掘进机故障诊断系统数据中蕴含了大量的信息,采用决策树可以提取出不同特征数据中存在的规律,并以规则的形式表现出来.利用这些故障诊断规则对故障数据进行状态预测,对未知数据样本的预测分类提供有力的决策支持.

3.1 C4.5算法在全断面掘进机故障诊断中的应用

采用决策树算法,对表 3的故障信息样本进行决策树分析.

由公式计算给定样本分类所需的期望信息,设S1无故障,S2有故障.

对子集的信息量计算:

属性c有4个取值,分别为0,1,2,3.

c=0时,S11=1,S21=1,

c=1时,S12=1,S22=1,

c=2时,S13=0,S23=1,

c=3时,S14=2,S24=1,

根据公式:

得到属性c的信息熵:

同理可求属性d,e,f的期望信息:

GainRatio(c)=0.072,GainRatio(d)=0.89,GainRatio(e)=0.2,GainRatio(f)=0.25.从上面的计算结果可以看出d的信息增益率最大,所以选择d的属性作为测试属性.

d=0,d=2,出现故障;d=3时,有2个正例,2个反例. 计算知e的信息增益率最大,用递归的方法重复计算,建立决策树,如图 5所示.

图5 刀盘故障决策树 Fig. 5 Cutter head fault decision-making tree
3.2 改进的C4.5算法的应用

本文主要是研究全断面掘进机的故障诊断,监测数据规模较大.如果直接利用这些公式生成理想的决策树规则,则是个庞大的计算过程.因此,利用麦克劳林公式消除公式中的对数运算,从而大大节约了决策树生成的时间.

同理可得,

由递归算法可知,改进后的C4.5算法得出的结果是不变的,运算速度却有了很大的提高.

3.3 基于Clementine的决策树算法实现

采集到的全断面掘进机的故障数据庞大,因此采用数据挖掘软件Clementine,通过建立数据流就可以完成相应的数据挖掘,省去了复杂的编程工作.以刀盘打滑故障数据库为例,把数据库中有关全断面掘进机故障信息表导入Clementine中,建立模型以得到基于粗糙集与C4.5的决策树.

从基于粗糙集与C4.5的决策树中,可得到对应的7条规则. 将这些规则存入到故障规则库中,可利用这些规则进行全断面掘进机的故障诊断.

由此可知,运用Clementine建立决策树大大减少了决策树的计算时间,而且可以直接生成规则表,提高了诊断速度.利用Clementine软件生成的故障诊断规则,可以直接生成网页形式供用户查阅.

根据决策树产生的故障规则判断故障类别,利用决策树C4.5算法建立决策树,生成故障规则,对比两种方法的不同.同样利用Clementine建立故障决策树,而生成的决策树规则没有改变.

对所建立的改进的C4.5算法与单独运用决策树C4.5算法进行对比,仿真结果表明:改进后算法的建树时间缩短了近20 % ,详见表 4.

3.4 基于属性约简的决策树预测诊断

为验证决策树生成规则的准确性,运用VB设计一个故障测试程序来进行测试.

通过采集此故障的实时数据,输入本故障测试系统,然后进入测试界面.在窗口输入相应参数,利用决策树生成故障规则得到诊断结果.利用生成的故障诊断规则,输入4组待测故障征兆样本对生成的规则进行测试,测试结果与生成的规则相匹配,可得出正确率达到98.5 % .

表4 两种算法仿真结果的对比 Table 4 Comparison of two algorithms
4 结 论

1) 以全断面掘进机刀盘的一些实时数据为例,分别采用C4.5算法和改进的C4.5算法对故障信息样本进行决策树分析,得到的结果是一致的,说明改进的C4.5算法是正确的.

2) 利用数据挖掘工具Clementine实现了C4.5数据挖掘,快速提取了故障诊断的规则;Clementine仿真结果表明,改进的C4.5算法减少了故障特征获取和诊断决策树构建工作量,提高了诊断速度.

3) 与其他算法相比,数据挖掘技术能从大量的故障案例数据中得到故障分类的规则,并将这些规则保存于故障规则库中,便于故障匹配,实现故障诊断的任务,能够大幅度提高诊断精度.

参考文献
[1] Dai Y Y,Zhao J S.Fault diagnosis of batch chemical processes using a dynamic time warping based artificial immune system[J].Industrial & Engineering Chemistry Research,2011,50:4534-4535.(1)
[2] Lee S W,Chang S H,Park K H,et al.TBM performance and development state in Korea[J].Procedia Engineering,2011,14:3170-3175.(1)
[3] 张天瑞,代沅兴,武继将,等.基于虚拟仪器的TBM状态监测系统仿真研究[J].系统仿真学报,2013,25(8):1716-1723. (Zhang Tian-rui,Dai Yuan-xing,Wu Ji-jiang,et al.Research on simulation for TBM monitoring system based on virtual instrument[J].Journal of System Simulation,2013,25(8):1716-1723.)(1)
[4] 黄克,赵炯,周奇才,等.基于多变量统计过程监控的盾构机故障诊断[J].中国工程机械学报,2012,10(2):222-227.(Huang Ke,Zhao Jiong,Zhou Qi-cai,et al.Fault diagnosis on shield machines based on multivariable statistical process monitoring[J].Chinese Journal of Construction Machinery,2012,10(2):222-227.)(1)
[5] 刘宏志.TBM及盾构机设备状态监测与故障诊断实用技术综述[J].隧道建设,2007,27(6):86-89.(Liu Hong-zhi.Practical technology for status monitoring and malfunction diagnosis of equipment of TBM and shield machines[J].Tunnel Construction,2007,27(6):86-89.)(1)
[6] 贾林.数据挖掘技术及应用的研究[D].兰州:兰州理工大学,2005.(Jia Lin.Research on data mining technology and application[D].Lanzhou:Lanzhou University of Technology,2005.)(1)
[7] 刘继清,黄金花.基于改进决策树算法的设备故障智能诊断模型[J].制造业自动化,2010,33(4):30-33.(2)
[8] 张天瑞,代沅兴,赵海峰,等.全断面掘进机关键部件特征参数预处理研究[J].中国工程机械学报,2013,11(6):474-479.(Zhang Tian-rui,Dai Yuan-xing,Zhao Hai-feng,et al.Research on preprocessing of characteristic parameters of key components of tunnel boring machine [J].Chinese Journal of Construction Machinery,2013,11(6):474-479.)(1)