煤炭是我国的主要能源, 在国民经济中占有重要地位.对煤炭资源进行探查、及时补充是国民经济可持续发展的保障.近年来, 随着遥感技术的快速发展, 利用遥感技术进行煤炭资源勘查成为有效方法之一.
文献[1-3]利用Landsat, SPOT卫星等多光谱数据, 在新疆、西藏、青海、四川、云南等地进行了煤炭资源勘查和预测, 发现了许多大型的煤矿床, 显示了遥感技术的优越性.Mao等[4]基于煤的可见光-近红外光谱特征建立了不同煤体遥感识别模型, 并将该模型应用于Landsat卫星数据, 结果表明该方法在分类效率和分类准确率上都有明显的优势.
另外, 随着机器学习的迅速发展, 其在光谱分类方面的应用也很多.程术希等[5]基于大白菜种子的高光谱数据, 验证了Ada-Boost算法、极限学习机、随机森林和支持向量机的判别效果.结果认为利用高光谱结合机器学习对大白菜种子进行快速无损分类识别是可行的, 为大白菜种子批量化在线监测提供一种新的方法.但是利用机器学习在不同煤种的分类上, 目前还没有相关应用.
鉴于此, 本文首先利用SVC HR-1024光谱仪测试了烟煤和褐煤的可见光-近红外光谱, 分析褐煤和烟煤的光谱特征及其差异.在此基础上, 利用MAO模型对不同煤种进行分类, 同时在机器学习方面, 分别利用随机森林法、BP神经网络法和ELM算法等方法进行分类.最后比较4种方法的分类结果, 可以根据不同应用需求选择最恰当的分类方法.
1 实验部分 1.1 样品采集烟煤和褐煤样本均来自于我国主要的产煤地区, 如山西省、陕西省、内蒙古自治区等, 样本详细情况见表 1.
在研究区的不同地点采集150个煤样本, 其中8个烟煤矿区共92个样本, 3个褐煤矿区共58个样本.
1.2 光谱测试用美国Spectra Vista公司的SVC HR-1024便携式地物光谱仪对样品进行光谱测试.该仪器质量约3 kg, 有1 024个通道, 采样的最小积分时间为3 ms.测试波段范围为350~2 500, 350~1 000, 1 000~1 850和1 850~2 500 nm的光谱分辨率分别为3.5, 9.5和6.5 nm.光谱测试时, 选择4°镜头, 每个样品重复测试2次, 取其反射率平均值[6].
由于样本数量较多, 结合烟煤和褐煤的光谱曲线, 选取部分典型样本进行光谱特征分析.图 1为选择的6个烟煤样本和4个褐煤样本光谱测试结果.
由图 1可知烟煤和褐煤的主要光谱特征:褐煤的光谱曲线在整个波段变化很大;在可见光波段(350~600 nm), 光谱区曲线变化较平缓;在红光-近红外波段(600~1 780 nm)反射率快速升高, 在近红外波段(2 000~2 500 nm)反射率缓慢降低.其中, 在1 400 nm和1 900 nm附近有明显的吸收峰, 主要是由水气和羟基引起的.
烟煤光谱曲线在整个波段反射率较低, 变化也较为平缓.在波段350~900 nm之间反射率变化平缓, 在900 nm后缓慢升高, 在2 000 nm后缓慢升高或者基本保持不变.与褐煤相同, 在1 400 nm和1 900 nm两处有水气和羟基引起的吸收峰.
两种煤光谱的主要差别:① 在900~2 500 nm(尤其在1 550~1 750 nm), 褐煤的反射率整体高于烟煤.② 在600~1 780 nm褐煤的光谱反射率快速升高斜率较大, 而烟煤在该波段范围斜率较小.③ 在近红外波段(2 000~2 500 nm)褐煤反射率下降, 而烟煤大多呈上升趋势或基本保持不变.
2 数据处理与分类 2.1 数据预处理通过数据分析发现, 由光谱仪测试的光谱曲线在350~2 500 nm之间有973个波段, 各个波段之间存在高度的相关性.采用主成分分析法(principal component analysis, PCA)消除数据之间的信息冗余.
主成分分析法是在不丢失主要光谱信息的前提下, 选择数目较少的新变量替代原来较多的变量, 从而达到对数据降维、简化模型的目的[7].为了减少有效信息的丢失, 在本次实验中, 选取前5个主成分表征原来的光谱数据信息, 可代表 99%以上的信息.前5个主成分累积贡献率如表 2所示.
对数据进行预处理后, 分别选用MAO模型法、随机森林法、BP神经网络法和ELM神经网络法进行分析对比.
Mao等[4]基于煤的可见光-近红外光谱特征建立了煤体遥感识别模型(MAO模型), 其中烟煤的识别模型为
(1) |
式中, Indc为归一化煤指数:
(2) |
其中, M4和M5分别表示Landsat卫星专题绘图仪数据的第4波段(0.76~0.90 μm)和第5波段(1.55 ~1.75 μm)的反射率.Indc的大小反映了光谱曲线在M4和M5两个波段反射率的差异.
同理, 褐煤的识别模型为
(3) |
随机森林是文献[8-9]提出的一种集成学习算法, 其实质是对决策树算法的一种改进.它是利用bootstrap重抽样的方法抽取多个样本, 并对每个样本进行决策树建模, 组合多棵决策树对结果进行预测, 并用投票的方法得出最终结果.本文选择的决策树的数目为100, 选择的特征属性值为2.
BP神经网络是一种常用的神经网络方法.该方法可以看作是对原始特征空间进行非线性变换, 产生一个新的样本空间, 使其变换后的特征线性可分, 同传统统计方法相比, 其分类器与概率分布无关.
极限学习机(extreme learning machine, ELM)算法是一种改进的神经网络算法, 该算法随机产生输入层与隐含层之间的连接权值及隐含层神经元的阈值, 在训练过程中只需设置隐含层神经元个数, 便可以获得唯一最优解[10].
3 结果与讨论本文采用10折10次交叉验证的方法检验其分类精度[11].将150个样本随机平均分成10个子样本,轮流用其中的9个子样本作为训练样本, 剩余的1个子样本作为测试样本.循环完10次后, 所有样本都被预测了1次, 将10次结果的均值作为1次10折的分类精度评价.为了能够更准确地确定其分类精度, 重复上述过程10次, 将10次10折的平均分类精度作为最终分类结果.
本文所有算法均由Matlab R2009(a)编程实现.实验所用电脑配置为CPU: Core(TM) -i3, 主频3.4 GHz, 4.00 GB内存, Win7操作系统, GPU为NVDIA GeForce GT 620.4种方法的分类准确率和分类时间如表 3所示.可知4种分类方法的运行时间和分类准确率均有所不同, 较优的为MAO模型法和随机森林分类法.分类准确率从高到低依次为随机森林法、MAO模型法、BP神经网络法和ELM算法.其中随机森林分类法的分类准确率最高, 为91.2%;从分类时间上看, 时间最短的是MAO模型法, 耗时0.74 ms, ELM神经网络和随机森林法次之, 耗时最长的是BP神经网络法, 为1 991.67 ms, 是MAO模型分类时间的2 690倍.
因此针对不同的分类需求可以选择恰当的分类方法.若进行大面积、快速分类时, 对分类时间要求较高, 应选择MAO模型法, 该方法在分类时间上有极大的优势, 同时分类准确率较高, 能达到90%;若进行小面积单一矿区分类的话, 应选择随机森林分类法较为恰当, 该方法的分类准确率最高, 且分类时间较短.
4 结论1) 烟煤和褐煤在可见光-近红外波段(特别是在900~2 500 nm范围内)光谱特征差异明显, 褐煤的光谱反射率及斜率均明显高于烟煤.
2) 针对不同煤种光谱数据,利用MAO模型法、随机森林法、BP神经网络法和ELM算法进行分类.从分类准确率和分类时间综合考虑, 较优的分类方法为MAO模型法和随机森林分类法.
3) 若针对大面积、快速分类时, 对分类时间要求较高, 应选择MAO模型法; 若是小面积单一矿区分类的话, 对分类准确率要求较高时, 选择随机森林分类法较为恰当.
[1] |
李新萍, 郝多虎, 段朋, 等.
遥感技术在新疆东部主要含煤区地址解译中的应用[J]. 水土保持研究, 2012, 19(2): 253–263.
( Li Xin-ping, Hao Duo-hu, Duan Peng, et al. Application of remote sensing technology in the main area of coal geological interpretation in eastern Xinjiang Uygur autonomous region[J]. Research of Soil and Water Conservation, 2012, 19(2): 253–263. ) |
[2] |
郭晓波, 管海晏, 吴查查.
中巴卫星遥感找煤技术研究[J]. 中国煤炭, 2012, 38(4): 29–31.
( Guo Xiao-bo, Guan Hai-yan, Wu Cha-cha. Research on CBERS remote sensing technique for coal exploration[J]. China Coal, 2012, 38(4): 29–31. ) |
[3] | Tan K L, Wan Y Q, Sun S X, et al. Prospecting for coal in China with remote sensing[J]. Journal of China University of Mining & Technology, 2008, 18(4): 0537–0545. |
[4] | Mao Y C, Ma B D, Liu S J, et al. Study and validation of a remote sensing model for coal extraction based on reflectance spectrum features[J]. Canadian Journal of Remote Sensing, 2014, 40(5): 327–335. DOI:10.1080/07038992.2014.979486 |
[5] |
程术希, 孔汶汶, 张初, 等.
高光谱与机器学习结合的大白菜种子品种鉴定[J]. 光谱学与光谱分析, 2014, 34(9): 2519–2522.
( Cheng Shu-xi, Kong Wen-wen, Zhang Chu, et al. Variety recognition of Chinese cabbage by hyperspectral imaging combined with machine learning[J]. Spectroscopy and Spectral Analysis, 2014, 34(9): 2519–2522. ) |
[6] |
宋亮, 刘善军, 虞茉莉, 等.
基于可见光-近红外和热红外光谱联合分析的煤和矸石分类方法研究[J]. 光谱学与光谱分析, 2017, 34(9): 2519–2522.
( Song Liang, Liu Shan-jun, Yu Mo-li, et al. A classification method based on the combination of visible, near-infrared and thermal infrared spectrum for coal and gangue distinguishment[J]. Spectroscopy and Spectral Analysis, 2017, 34(9): 2519–2522. ) |
[7] | Chang C W, Laird D A, Mausbach M J, et al. Near-infrared reflectance spectroscopy-principal components regression analyses of soil properties[J]. Soil Science Society of America Journal, 2001, 6(2): 480–490. |
[8] | Breiman L. Random forests[J]. Machine Learning, 2001, 45(1): 5–32. DOI:10.1023/A:1010933404324 |
[9] | Daniel R G, Wade A W, Andrew J F, et al. Predicting USCS soil classification from soil property variables using random forest[J]. Journal of Terramechanics, 2016, 65(1): 85–92. |
[10] | Huang G B, Zhu Q Y, Siew C K. Extreme learning machine:theory and applications[J]. Neurocomputing, 2006, 70: 489–501. DOI:10.1016/j.neucom.2005.12.126 |
[11] | Diamantidis N A, Karlis D, Giakoumakis E A. Unsupervised stratification of cross-validation for accuracy estimation[J]. Artificial Intelligence, 2000, 116(1): 1–4. |