东北大学学报:自然科学版   2015, Vol. 36 Issue (6): 761-764   PDF (543 KB)    
稀疏性SVDD方法在故障检测中的应用研究
王国柱1 , 刘建昌1, 李 元2    
1. 东北大学 信息科学与工程学院, 辽宁 沈阳 110819;
2. 沈阳化工大学 信息工程学院, 辽宁 沈阳 110142
摘要:在支持向量数据描述(SVDD)方法的基础上,通过研究原始正常数据分布在高维映射空间内的稀疏特性,选取前k个高维分布边缘的数据点进行SVDD建模,用于解决SVDD方法处理大样本数据的缺陷,以及建模与过程监视时间长的问题.经过理论推导和仿真分析,验证了稀疏性SVDD建模方法可以有效地提高建模以及过程检测速度;对于大样本数据可以利用筛选后的小样本进行建模,解决了SVDD方法不能很好地处理大样本数据分类的问题;同时,此方法不影响故障检测的精度.在TE过程中的应用验证了该方法的有效性.
关键词稀疏性     SVDD     稀疏性SVDD     故障检测    
An Applied Research of Sparsity SVDD Method to the Fault Detection
WANG Guo-zhu1, LIU Jian-chang1, LI Yuan2    
1. School of Information Science & Engineering, Northeastern University, Shenyang 110819,China;
2. Information Engineering School, Shenyang University of Chemical Technology, Shenyang 110142,China.
Corresponding author: WANG Guo-zhu, E-mail: wang.guo.zhu@163.com
Abstract: Fault detection based on the basic SVDD (support vector data description) method is not good at the processing of large sample data,and the modeling and process monitoring is time-consuming.The sparse characteristics of the original data in high dimension space was studied,according to which the first k high dimensional distribution edge data points were selected to carry out the SVDD modeling.Through theoretical derivation and simulation analysis,it was showed that the modeling and detection speed could be effectively improved by the proposed method,and the large sample data could be modeled by using the selected small sample,which could handle the classification problems of SVDD method on solving large sample data;meanwhile,this method did not affect the accuracy of fault detection.The effectiveness of the proposed method was illustrated by applying it to the monitoring of TE process.
Key words: sparsity     SVDD     sparsity SVDD     fault detection    

故障检测的实质可以用数据分类的问题来描述,通常数据可以分为正常(目标)样本与非正常(非目标)样本,在实际生产过程中,得到正常状态下的过程数据是很容易的,运用所获得的正常数据来对实时数据进行监视,是数据驱动故障检测的重要手段[1].SVDD方法是一种利用最小封闭球体与支持向量理论进行数据描述的方法,此方法与支持向量机类似,是一种针对小样本的学习理论[2, 3],其主要思想是通过寻找数据集合最小边缘半径的超球体,使其能够尽可能包含所有的同类数据,排除非同类数据,达到数据合理分类的目的.该方法是一种新的单值分类方法,可以运用于工业过程故障检测.因此,可以利用正常数据建立SVDD模型,求取模型控制限并对新的过程采样进行检测,实现过程监视的目的.

本文在SVDD算法的基础上,提出一种稀疏性SVDD(S-SVDD)建模方法,用于解决前者不能较好地处理大样本数据缺陷的问题.经过理论推导与仿真实验,验证了此方法可以有效地应用于工业过程故障检测.

1 SVDD方法与稀疏性理论介绍

SVDD理论上要求一个包含所有目标数据的尽可能小的球体,与SVM[4]类似,这个球体由少部分支持向量决定.对于一个有限数据集,支持向量是位于高维数据分布边缘的少量样本,SVDD[3, 5]根据结构风险最小化原理,通过求取一个尽可能少的包含奇异点数据,并且体积最小的球体来描述样本数据,即求满足一定条件的半径为R和球心为a的球体.此方法适用于处理非线性与非高斯数据[6].

1.1 支持向量数据描述(SVDD)

为建立一个非线性数据模型,SVDD方法首先通过一个非线性变换 :xF将原始正常数据 X={xiR d,i=1,2,…,n} 映射到一个高维特征空间;其次,在特征空间中寻找一个最小体积的球体并使其包含所有的高维空间数据点.SVDD求取最小超球体的实质就是求解以下最优化问题[1]

其中:a是球心;C是控制球体体积和误差的折中常数;ξi为允许范围误差的松弛变量.可以将式(1)的最小化问题转化为其对偶问题的最大化问题[1]

在式(2)中,内积可以用高斯核函数[7]来代替求解:

将式(3)代入式(2),可以得到

根据上面分析求取使L最小值情况下的最优解αi,可以表现为以下三种情况(xsv为支持向量):

αi=0,数据点在球体内;当αi=C,数据点在球体外;当0<αiC,数据点在超球体表面上.

超球体的球心a与半径R分别为[8, 9]

对于新采样的无故障数据只需满足以下条件:

1.2 数据点的稀疏性

连续过程采集到的数据点具有一定的稀疏性,并且它们之间的距离通常具有相似性,当把数据映射到高维特征空间后,数据点之间稀疏程度会更加明显.

一个高维数据点x的稀疏度定义如下:

其中:

k(x,y)为高斯核函数.

定理:样本点x的稀疏度越大,其在高维空间中距离SVDD球心的距离越远.

假设原始数据中有两个样本点x1x2,并且

由于αiαjk(xi,xj)为常数,因此

2 S-SVDD建模方法

SVDD超球体是利用在所有样本中选取的支持向量来建立的,因此在建模之前要对所有数据点进行预判断,找出支持向量.对大样本数据而言,这样会经过很多不必要的步骤,既影响建模速度,又对建模精度不利.而在实际工业过程中,数据收集量往往非常庞大,为了及时检测到系统中是否存在故障,建模以及检测时间在一定程度上起到了关键作用.本文提出的S-SVDD方法是在数据稀疏度的基础上,选择稀疏度大的局部数据(超球体外层数据)样本进行SVDD超球体建模,可以弥补SVDD方法的不足.

S-SVDD建模及检测步骤如下:首先,对训练样本集合 X={xiRd,i=1,2,…,n},根据1.2节求取各个采样时刻数据的稀疏度δ(xi);第二,选择稀疏度大的前k个采样数据,并利用这些数据建立SVDD模型,求取超球体球心、半径;第三,对于新的采样数据,根据式(7)计算其到球心的距离DnewDnewR为正常采样,否则发生故障.

3 仿真实验

TE过程由压缩机、分离器、反应器、冷凝器和汽提塔5个主要的操作单元组成,包括A~H 8种成分,过程中有41个测量变量和12个控制变量.详细描述与工艺流程参见文献[10, 11, 12].仿真实验选取22个测量变量和11个控制变量作为监测样本集,数据通过仿真软件获得.各个工况的采样间隔均为3 min,每次运行时间为48 h,仿真开始时系统处于正常状态,在8 h时引入故障.正常工况的960个样本采自过程平稳运行状态,各故障工况前160个时刻为无故障样本,后800个时刻为故障样本.TE过程共有21种故障,表 1对其中的故障f2,f4,f13,f14进行了详细的描述.为了比较两种方法的仿真结果,其参数设置见表 2.

表 1 TE过程故障描述 Table 1 Faults description of TE process

表 2两种方法的参数设置 Table 2 Parameters of two methods

首先对正常过程的960个样本进行标准化处理,使用传统SVDD方法进行建模,计算正常状态的球心a和半径R,分别对21组故障数据进行监视,找到故障发生时刻,部分检测结果如图 1所示.

图 1 SVDD方法的故障检测结果 Fig. 1 Fault detection results using SVDD method (a)—f2; (b)—f4; (c)—f13; (d)—f14.

根据原始正常数据分布在高维映射空间内的稀疏特性,选取前100个高维分布边缘的数据点进行S-SVDD建模,找到最优的球心a和半径R,并求取新的采样数据距离球心a的距离,对应检测结果见图 2.

图 2 S-SVDD方法的监视结果 Fig. 2 Fault detection results using S-SVDD method (a)—f2; (b)—f4; (c)—f13; (d)—f14.

从TE过程故障f2,f4,f13和f14的检测结果可以看出:两种方法都可以及时检测到故障以及确定故障的发生时刻,但对比二者的建模与各个故障的检测时间,S-SVDD方法有明显的改善.具体建模及检测各故障情况耗时见表 3.

表 3 对4种故障的定量分析比较 Table 3 Comparison of quantitative analysis on the four kind of faults
4 结 论

本文引入数据分布在高维映射空间内的稀疏性,并根据此特性选取前k个高维分布边缘的数据点进行S-SVDD建模,经过理论推导和仿真,验证了S-SVDD建模方法可以有效地提高建模和过程检测速度,减少冗余计算量;对样本量较大的数据集可以利用筛选后的小样本建模,在一定程度上改善了SVDD方法处理大样本数据计算耗时的问题.

参考文献
[1] 谢磊,刘雪芹,张建明,等.基于NGPP-SVDD的非高斯过程监控及其应用研究[J].自动化学报,2009,35(1):107-112.(Xie Lei,Liu Xue-qin,Zhang Jian-ming,et al.Non-Gaussian process monitoring based on NGPP-SVDD[J].Acta Automatica Sinica,2009,35(1):107-112.)(3)
[2] Vapnik V N.统计学习理论[M].北京:电子工业出版社,2004.(Vapnik V N.Statistical learning theory[M].Beijing:Electronic Industry Press,2004.)(1)
[3] Tax D,Duin R. Support vector data description[J].Machine Learning,2004,54(1):45-66.(2)
[4] Vapnik V N.The nature of statistical learning theory[M].New York:Springer-Verlag,1995.(1)
[5] Tax D.One-class classification[M].Delft:Delft University of Technology,2001:21-55.(1)
[6] Ge Z Q,Gao F,Song Z H.Batch process monitoring based on support vector data description method[J].Journal of Process Control,2011,21:949-959.(1)
[7] Saitoh S.Theory of reproducing kernels and its applications[M].Harlow:Longman Scientific & Technical,1998.(1)
[8] Asa B H,David H,Siegelmann H T,et al.Support vector clustering[J].Journal of Machine Learning Research,2001,2:125-137.(1)
[9] Wang X M,Chung F L,Wang S T.Theoretical analysis for solution of support vector data description[J]. Neural Networks,2011,24:360-369.(1)
[10] Lee J M,Yoo C K,Choi S W,et al.Nonlinear process monitoring using kernel principal component analysis[J].Chemical Engineering Science,2004,59:223-234.(1)
[11] Yu J,Qin S J.Multimode process monitoring with Bayesian inference-based finite Gaussian mixture models[J].AICHE Journal,2008,54:1811-1829.(1)
[12] Lee J,Kang B,Kang S.Integrating independent component analysis and local outlier factor for plant-wide process monitoring[J].Journal of Process Control,2011,21:1011-1021.(1)