东北大学学报:自然科学版   2016, Vol. 37 Issue (3): 387-391   PDF (388 KB)    
基于模糊聚类的绿色工艺评价样本分类方法
王宇钢1, 修世超1, 王柯元2    
1. 东北大学 机械工程与自动化学院, 辽宁 沈阳 110819;
2. 大连理工大学 电子信息与电气工程学部, 辽宁 大连 116024
摘要:针对绿色工艺评价样本具有不确定性、多维性以及量纲差异大的特点,为实现样本的合理分类,提出一种基于核的模糊可能性聚类新算法.该方法将核模糊聚类算法、可能性聚类算法和减法聚类算法相结合,以提高聚类的准确率;使用聚类有效性指标作为分类条件,自适应确定最佳分类数.仿真实验结果表明,该算法具有较好的有效性和鲁棒性,并将该算法运用在绿色工艺评价样本分类中,得到了较好的分类效果,验证了算法的实用性.
关键词核模糊聚类     可能性聚类     减法聚类     有效性指标     绿色工艺    样本分类    
Sample Classification Method for Green Process Evaluation Based on Fuzzy Clustering
WANG Yu-gang1, XIU Shi-chao1, WANG Ke-yuan2    
1. School of Mechanical Engineering & Automation, Northeastern University, Shenyang 110819, China;
2.Faculty of Electronic Information and Electrical Engineering, Dalian University of Technology, Dalian 116024, China.
Corresponding author: WANG Yu-gang, E-mail: 9932783@qq.com
Abstract: Due to the uncertainty, multidimensionality and significant difference of the evaluation samples of green process, a novel algorithm of kernel-based fuzzy possibilistic clustering was proposed in order to achieve reasonable sample classification. Kernel fuzzy clustering, possibilistic clustering and subtraction clustering were combined to improve the accuracy of clustering and cluster validity index was used as the classification condition to obtain the optimal classification number. The simulation results showed that this algorithm has good validity and robustness. When the algorithm is applied to classify the evaluation samples of green process, good classification effects are gained, which verifies its practicability.
Key words: kernel fuzzy clustering     possibilistic clustering     subtraction clustering     validity index     green process    sample classification    

随着资源环境问题的日益严峻,对制造过程绿色特性进行评价,择优确定工艺方案已成为实现绿色制造的一种重要方法.国内外学者对绿色工艺评价方法进行了大量研究,提出了一些有效的评价方法,如生命周期评价法[1]、模糊评判法[2]、层次分析法[3]等.但实际应用中,这些方法易出现评价过程繁琐、周期较长、过分依赖评价者主观判断等问题,从而导致评价结果的有效性和实用性变差.

机器学习方法具有很强的分析计算能力和泛化能力,适合处理具有复杂性和模糊性特点的系统评价问题[4],但采用机器学习方法进行绿色工艺评价的研究却鲜见报道.这主要由于要保证基于机器学习方法进行评价的效果,就需要有高质量的训练样本集.而工艺样本数据具有不确定性、多维性及量纲差异大的特点,使得训练样本的分类成为一项极其复杂的工作.

根据上述分析,提出一种基于核的模糊可能性聚类新算法(NKPFCM),应用该算法对绿色工艺评价样本实现最优分类,最终为采用机器学习方法进行绿色工艺评价提供决策支持.该算法将核模糊聚类算法、可能性聚类算法及减法聚类算法相结合,使用聚类有效性指标作为分类条件,可对样本实现自适应分类.仿真实验结果表明该算法可以实现自适应确定聚类数,且具有较好的有效性和鲁棒性.将该算法应用于绿色磨削工艺评价样本的分类,取得较好效果.

1 模糊聚类算法

模糊聚类作为数据分析和建模的主要方法已得到广泛的应用,其中主要有模糊C-均值(FCM)聚类算法、可能性模糊C-均值(PCM)聚类算法[5]、基于核的模糊C-均值(KFCM)聚类算法[6]等.但这些算法依然存在聚类数需预先设定,聚类性能依赖初始聚类中心的选取等缺陷.为克服这些缺陷,提出一种基于核的模糊可能性聚类新算法.

1.1 基于核的模糊可能性聚类算法

基于核的模糊可能性聚类算法(KPFCM)利用核函数将在输入空间中线性不可分的样本在高维特征空间线性可分,再利用可能性聚类放宽对隶属度的约束,构造新的目标函数,实现样本在高维特征空间中聚类[7, 8].

设样本集X={x1,…,xn}∈RP,通过一个非线性映射函数Φ把所有样本映射到高维特征空间F中,得到Φ(x1),Φ(x2),…,Φ(xn),最终聚类在特征空间F中进行.由核函数定义可知,在原空间的点积运算可以表示为高维样本空间中核函数K(x,y)的运算,K(x,y)=Φ(x)Φ(y),且满足Mercer条件:对称性和Carchy-Schwarz不等式.在高维特征空间中,KPFCM算法目标函数表达式为

式中:U为模糊隶属度矩阵;V为聚类中心;C为聚类个数;xk为第k个样本;vi为第i个聚类中心;uik为第k个样本属于第i类的隶属度;m>1为加权指数;‖Φ(xk)-Φ(vi)‖2表示核空间中第j个样本到第i个聚类中心的距离,可表示为

ηi是一个适合的正数,可用式(3)计算:

常见的核函数中,高斯核函数由于对噪声点敏感度低而得到广泛应用.高斯核函数表达式为

式中,σ2为常数,且K(x,x)=1. 此时,目标函数表达式(1)可改写为

式(5)达到最小值的条件为

1.2 减法聚类

减法聚类使用数据样本密度函数计算数据点密度,并把所有的数据点作为候选的聚类中心,通过比较每个数据点的密度指标来确定该点作为聚类中心的可能性.减法聚类过程如下:

1) 计算数据样本(x1,x2,…,xp)中的每个数据点xi的密度指标:

式中,ra为聚类半径,表示该点的一个邻域.选择密度指标最大的数据点作为第一个聚类中心Dc1.

2) 设Dci为数据点xci的密度指标,则每个数据点的密度指标按下式修正:

式中,rb为一个密度指标函数显著减小的邻域.

3) 在剩余的P-1个数据点中选择密度指标最大的数据点作为新的聚类中心.重复以上过程,直到DciDc1的比值小于设定阈值,聚类结束.

减法聚类的密度中心出现顺序依据密度值,最早出现的聚类中心密度值最大,且成为合适的聚类中心可能性最大.因此若聚类个数为C时,以减法聚类产生前C个聚类中心作为聚类的初始中心,可有效避免算法对初始聚类中心敏感的问题.

1.3 聚类有效性指标

聚类有效性指标可用于确定样本划分的最佳聚类数目.KPFCM算法与FCM算法一样需要预先指定聚类数目,而在对数据集空间结构不了解的情况下,预设的聚类数目很难保证为最合适的聚类数.因此,通过应用合适的聚类有效性指标选择样本划分的聚类数,可实现最合理的聚类效果.Pakhira等基于类内紧凑度和类间分离度定义的PBMF是近年来聚类性能较好的有效性指标[9],其表达式如下:

式中:vi表示第i个聚类中心;xj表示第j个数据样本;E1为由数据集确定的常数.PBMF指标值越大表示聚类效果越好. 1.4 改进后的算法

新的基于核的模糊可能聚类算法(NKPFCM)具有两层迭代,内层迭代为减法聚类与KPFCM算法的组合,通过最小化目标函数(5)实现聚类;外层迭代计算内层聚类结果的PBMF指标值,每迭代一次聚类数增加1.NKPFCM算法过程如下:

步骤1 设置参数:加权指数m,迭代终止阈值ε,高斯核函数参数σ2,由减法聚类获得最大聚类数目Cmax,并令C=2;

步骤2 初始化聚类中心,并且依据公式(7)初始化隶属度矩阵;

步骤3 根据公式(5)计算目标函数值,公式(6)更新聚类中心,公式(7)更新隶属度矩阵;

步骤4 若相邻的目标函数值变化量达到阈值ε,则算法终止,否则转步骤3.

步骤5 根据式(10)计算PBMF值,若CCmax,则C= C+1,转步骤2;否则算法结束.由PBMF最大值确定最佳聚类数和相应的样本分类结果.

2 仿真实验

分别运行FCM,KFCM和NKPFCM算法,对iris和wine数据集进行测试.其中,iris数据集包含4维样本150个,分为三类.wine数据集有13维样本178个,共分为三类,各含59,71,48个样本.实验条件为:减法聚类半径ra=rb=0.5,误差ε=0.000 01,最大迭代次数Tmax=100,m=2.0.计算机配置:英特尔酷睿2双核CPU,主频2.20 GHz,内存2.00 GB,利用MATLAB 7.0进行仿真实验.

2.1 聚类准确性

对iris数据集实验,运行NKPFCM算法得到聚类数为3时的隶属度函数分布如图 1所示,相应的聚类中心为

图 1 聚类后隶属度函数分布 Fig.1 Membership function distribution after clustering (a)—类一; (b)—类二 ; (c)—类三.

PBMF指标值随聚类数的变化如表 1所示.当聚类数为3时,PBMF有最大值,表明iris数据集的最佳聚类数为3.

表 1 Iris数据集聚类PBMF的变化 Table 1 Change of PBMF for iris data set clustering

分别运行FCM算法、KFCM算法和NKPFCM算法20次,聚类结果如表 2所示,括号外为样本典型值归类的误分数,括号内为模糊隶属度归类的误分数.从表 2可知,虽然NKPFCM算法迭代次数和运行时间有所增加,但该算法误分数明显低于另两种算法,聚类准确率更好.

表 2 Iris数据集的聚类结果 Table 2 Clustering results of iris data set

为测试高维数据集聚类效果,对wine数据集进行测试,测试结果如表 3所示.从表 3可知,NKPFCM算法对高维数据集的聚类效果依然最好.

表 3 Wine数据集的聚类结果 Table 3 Clustering results of wine data set
2.2 对噪声数据的处理

为考察样本的抗噪能力,分别对原样本集加入10%,20%,30%,40%的噪声样本后,对比KFCM算法与NKPFCM算法的抗噪能力,结果如图 2所示.

图 2 两种样本集的抗噪图 Fig.2 Anti-noise-proof features of two sample sets (a)—iris数据集; (b)—wine数据集.

图 2分析可知,两种算法的错误率相比加入噪声数据前都有所增高,但是NKPFCM算法错误率比KFCM算法的增长幅度小很多,且随着噪声数据的增加,NKPFCM算法错误增长率相比KFCM算法无大幅增加.因此,NKPFCM 算法相比KFCM 算法具有更好的鲁棒性.

3 绿色工艺评价样本集的划分

以某汽车制造企业磨削加工工艺为例,采用NKPFCM算法对绿色磨削工艺评价样本进行分类.

3.1 确定评价样本

本文选取与磨削工艺绿色度密切相关的12个指标作为样本评价指标,如表 4所示.由于评价指标具有模糊性及量纲差异大的特点,为避免专家主观判断的影响,本文采用定量分析和定性描述相结合的半定量评价方法进行量化.根据对指标影响状况描述,将评价指标分为定性指标和定量指标,对于无法计量的定性指标,由专家采用十分制打分进行量化;对于定量指标则直接采用测量值.具体的指标描述和评分方法可参见文献[10].

表 4 磨削工艺评价指标 Table 4 Grinding process evaluation indexes

磨削工艺评价样本量化后数据见表 5.

表 5 磨削工艺样本量化值 Table 5 Quantized values of grinding process samples
3.2 样本的划分 对量化数据采用式(11)进行归一化处理:
其中:xi为指标测量值;xminxmax分别为数据集中该指标最小值与最大值.利用NKPFCM算法对数据进行聚类,PBMF值的变化如表 6所示,并依据PBMF最大值确定聚类数目为3.
表 6 数据集聚类PBMF的变化 Table 6 Change of PBMF for data set clustering

聚类数设为3,KPFCM算法和NKPFCM算法的样本聚类结果如表 7所示.表 7显示样本3,7,19相对两种算法的不同分类结果,比较两种算法分类性能,NKPFCM算法的PBMF值较大,表明NKPFCM算法的聚类结果更优秀,如表 8所示.因此,采用NKPFCM算法获得的分类样本可以作为训练样本集为基于机器学习方法进行绿色工艺评价提供决策支持.

表 7 样本聚类结果 Table 7 Sample clustering results

表 8 分类性能比较 Table 8 Classification performance comparison
4 结论

1) 构造了一个新的基于核的模糊可能性聚类算法(NKPFCM),经过对iris和wine数据集的仿真测试,结果表明该算法具有较好的准确性和鲁棒性.

2) 阐述了磨削加工的绿色工艺评价样本集的生成方法,并将NKPFCM算法应用于绿色工艺评价样本的划分,获得了较好的分类效果.

3) 有效的分类样本可以对采用机器学习方法的绿色工艺评价提供决策支持,接下来还需进一步研究如何选择合适的机器学习评价方法.

参考文献
[1] Remo A P,Diogo A L,Eraldo J,et al.Dynamic system for life cycle inventory and impact assessment of manufacturing processes[C]//The 21st CIRP Conference on Life Cycle Engineering.Trondheim:Procedia CIRP,2014:531-536.(1)
[2] 王桂萍,贾亚洲,周广文.基于模糊可拓层次分析法的数控机床绿色度评价方法及应用[J]. 机械工程学报,2010,46(3):141-147. (Wang Gui-ping,Jia Ya-zhou,Zhou Guang-wen.Evaluation method and application of CNC machine tool’s green degree based on fuzzy-EAHP[J]. Journal of Mechanical Engineering,2010,46(3):141-147.)(1)
[3] Ng C Y,Chuah K B.Evaluation of design alternatives’ environmental performance using AHP and ER approaches[J]. IEEE Systems Journal,2013,8(4):1182-1189.(1)
[4] Qiao L,Rajagopalan C,Clifford G D.Ventricular fibrillation and tachycardia classification using a machine learning approach[J]. Biomedical Engineering,2014,61(6):1617-1603.(1)
[5] Yang H D,Li C S,Hu J.RFID intrusion detection with possibilistic fuzzy c-means clustering[J]. Journal of Computational Information Systems,2010,6(8):2623-2632.(1)
[6] Sadaaki M.Different objective functions in fuzzy c-means algorithms and kernel-based clustering[J]. International Journal of Fuzzy Systems,2011,13(2): 89-97.(1)
[7] Tushir M,Srivastava S.A new kernel based hybrid c-means clustering model[C]//Proceedings of 2007 IEEE International Conference on Fuzzy Systems.London:IEEE,2007:1-5.(1)
[8] Lucieer V,Lucieer A.Fuzzy clustering for seafloor classification[J]. Marine Geology,2009,264 (3/4): 230-241.(1)
[9] Pakhira M K,Bandyopadhyay S,Maulik U.Validity index for crisp and fuzzy clusters[J]. Pattern Recognition, 2004,37(3):487-501.(1)
[10] 刘飞.绿色制造的理论与技术[M]. 北京:科学出版社,2005:144-151. (Liu Fei.Theory and technology of green manufacturing[M]. Beijing:Science Press,2005:144-151.)(1)