2.北京矿冶研究总院 矿物加工科学与技术国家重点实验室,北京 102628;
3.中国五矿集团总公司, 北京 100010
2.State Key Laboratory of Mineral Processing, Beijing General Research Institute of Mining & Metallurgy, Beijing 102628, China;
3.China Minmetals Corporation, Beijing 100010, China
定量构效关系(quantitative structure-activity relationship,QSAR)是利用物质的结构-性质之间的关系来关联特定物化性质与分子参数的经验方法,通过建立关联模型能够有效地预测各类分子、化合物的物化性质、反应活性、生物毒性等,广泛应用于化学、生物、医药等领域.在矿物加工领域,也有浮选捕收剂QSAR研究的报道.Chen等[1]通过计算7种硫化矿捕收剂的12种物化和量化参数,建立捕收剂生物降解性的QSAR模型,其分析认为分子的电参数是影响捕收剂生物降解性的最重要因素;Natarajan等[2-3]运用拓扑化学指数、结构指数等参数,采用回归分析法建立二阶多项式回归QSAR模型预测17种芳香基羟肟酸对硫化铜锌矿的分离系数.Hu, Yang等[4-5]采用基于线性回归算法的QSAR先后研究了季铵盐捕收剂结构与其对铝土矿的浮选效率和硫酯类捕收剂结构与其对硫化铜锌矿选择性之间的关系,获得了满意的结果,然而在浮选领域有关复杂氧化矿捕收剂的浮选分离选择性研究还未曾报道.
遗传算法是非数值算法中最优秀的算法之一,在许多领域的二维定量构效关系研究中得到了广泛应用,其结果精度往往优于多元线性回归分析方法[6].本文采用基于遗传算法的QSAR方法研究13种芳烷基羟肟酸系列捕收剂的结构、物化、量化性质与其对锡石-萤石的分离选择性之间的关系,通过采用不同描述符建立羟肟酸捕收剂分离选择性的QSAR模型,从多角度对羟肟酸的选择性构效关系进行阐释,选择最佳预测模型将其用于新型羟肟酸选择性的预测,为羟肟酸捕收剂的筛选和设计提供参考和指导.
1 研究对象及方法 1.1 实验数据采集训练集和测试集的选择性指数由实验数据计算得到.具体实验条件如下:取锡石或萤石纯矿物2 g在40 mL XFG5-35挂槽式浮选机进行实验,搅拌速度1 680 r/min.加入30 mL去离子水,再加入33 g/t羧甲基纤维素(CMC)作抑制剂搅拌2 min,用HCl或NaOH溶液调节至适宜pH值后,加入100 g/t捕收剂与24 g/t 2#油,搅拌3 min后开始浮选,浮选时间4 min.所得泡沫产品和槽内产品分别烘干后称重,计算回收率.
1.2 结构优化及模型建立在Material studio7.0软件的DMol03模块中采用GGA/PW91函数对分子进行几何构型优化和量化计算,采用QSAR模块计算优化后分子的分子连接性指数、几何拓扑描述符等参数.采用遗传算法对计算描述符进行筛选并建模,参数设置如下:模型方程的最大因子数为3,种群数200,子代数5 000,变异概率为0.1.
1.3 模型验证采用训练集数据拟合的相关系数R2评估模型拟合能力;采用Rcv2来评估模型的预测能力,当Rcv2>0.6时,模型即具有可靠的预测能力,Rcv2越接近1,模型预测能力越强.用遗传算法特有的Friedman LOF(lack-of-fit)函数作为模型评价函数[7].个体的LOF得分值越小,被入选的概率越大;同时采用内部验证留一交互验证法(leave-one-out cross-validation, LOO-CV)和外部测试集验证考察模型的有效性和预测能力.
2 结果与讨论 2.1 羟肟酸选择性指数浮选分离选择性体现在对两种矿物浮选回收的差异上,在获得较高的有用矿物回收率的前提下,对脉石浮选回收率的高低可以体现捕收剂对两种矿物分离的选择性高低.因此,本文采用锡石有效回收率大于75%(戊羟肟酸捕收力弱,故选65%)时的浮选条件来浮选萤石,以“1-萤石回收率”作为捕收剂的分离选择性指数1来建立羟肟酸的选择性QSAR模型.因此,指数1越大,捕收剂的选择性越高.采用“锡石回收率/萤石回收率×100%”作为选择性指数2建立模型进行对比.经过多组条件实验探索,在最佳的浮选分离条件下获得的测试集13种羟肟酸的锡石、萤石回收率及选择性指数1和选择性指数2见表 1.
选择性指数1=1-萤石回收率;
选择性指数2=
首先采用QSAR模块中的快速分子描述符(fast descriptor)来建立模型,快速分子描述符是MS软件QSAR模块中提供的一系列能够应用于构建分子2D QSAR模型的分子性能有效参数,其计算简便快捷,并且能够提供较为准确的结构性能之间的关系模型.
采用遗传算法,实验最终获得一元、二元、三元因子的QSAR方程分别如下:
(1) |
X1:可旋转键数;
(2) |
X1 :可旋转键数,
X18 :电拓扑状态指数S_sCH3;
(3) |
X4 :油水分配系数,
X8 :Kier-Hall分子连接指数,
X24:电拓扑状态指数S_ssNH.
式中,分子中的可旋转键数是一种分子结构描述符,其与分子中直链烷基C原子数成正比,而苯环、双键及环状结构的可旋转键数则较小;电拓扑状态指数,通过计算分子中每个原子自身的拓扑环境以及和其他原子相互之间的交互电子作用两方面的信息获得;油水分配系数是分子热力学描述符,是描述分子亲水-疏水性差异的重要参数,一直被认为是影响捕收剂性能的重要参数.
计算结果表明三个QSAR方程的LOF值分别为0.039 8,0.044 9,0.069 6,而模型相关系数R2则依次为0.649,0.780,0.852,Rcv2分别为0.525,0.623,0.694.其中,一元因子方程(1)LOF值最小,具有最大入选概率,但其相关系数R2,Rcv2略低;三元因子方程(3)Rcv2系数最高,预测能力最强,但本模型训练集样品容量仅为13,模型基函数数目应小于3.因此二元因子方程(2)为快速描述符最适宜预测模型.
对二元方程进行主成分分析,可以发现可旋转键数与计算结果相关系数高达0.893,其对预测结果影响更大.由于系数为负值,故可旋转键数值越小,捕收剂选择性越大.这表明捕收剂具有苯环或环状结构,对锡石-萤石的分离效果更好;捕收剂所含的烷基直碳链越长,选择性越低.另一因子,电拓扑状态指数S_sCH3的相关系数为-0.047 9.该电性拓扑状态指数表示分子中与三个氢原子和一个单键相连的C原子的加和指数.这两种描述符因子在一定程度上体现了分子的结构特征和基团的连接方式,表明捕收剂选择性受到碳链骨架影响较大.
2.3 选择性指数1——量子化学描述符模型早期QSAR研究多采用拓扑指数来建立构效关系.随着QSAR研究的深入开展,人们开始更加注重模型的理论性,期待通过建立合理模型,从本质上揭示物质的构效关系,找到影响物质性能和活性的最关键内在因素,为研究开发新药剂提供指导.人们开始探讨用量子化学参数建立构效关系模型.采用量子化学描述符获得最佳二元因子方程(4),其中LOF值为0.043 6,R2为0.786,Rcv2为0.656.
(4) |
X11 :N原子上的Mulliken电荷,
X19 :分子表面积.
从上述方程可以看出,羟肟酸捕收剂的选择性大小与分子表面积及分子官能团羟肟基中的N原子上的Mulliken电荷有重要联系[8].对方程进行主成分分析,分子表面积与模型预测结果相关系数高达-0.940,分子表面积大小对选择性影响极大.该描述符系数为负数,表明分子表面积越大,捕收剂的选择性越小.另一方面,羟肟酸基团中N原子的Mulliken电荷与选择性相关系数为正系数0.246,表明N原子上所带负电荷越多,羟肟酸对锡石-萤石的分离选择性越低.
2.4 选择性指数1——综合模型为了进一步提高模型的可靠性以及预测能力,本节综合采用快速分子和量子化学描述符建立QSAR模型.实验最终获得了LOF值为0.0270,R2为0.868,Rcv2为0.779的二元基因方程(5)如下:
(5) |
X7 :分子弹性指数,
X85:LUMO特征值.
模型(5)的可靠性和预测能力远高于前述模型,因此选择其作为选择性指数1的最佳模型.分子弹性指数是一种Kier-Hall分子连接指数描述符,是一种分子空间结构无限弹性程度的体现.方程中其系数为负数,表明捕收剂分子中直链C原子数少,或者存在苯环、分支,均有利于该指数降低,而捕收剂的选择性增加;这与实验中芳香基和环状羟肟酸选择性整体优于长直链烷基羟肟酸的实际情况相符.
而LUMO特征值是一种基于半经验分子轨道理论的量子化学描述符.捕收剂的LUMO特征值越低,其越容易接受来自金属原子的反馈电子;而不同矿物表面的不同金属原子反馈能力有差异,因而有利于扩大捕收剂与金属原子相互作用的差异,捕收剂表现的选择性越高.对该两因子描述符进行主成分分析,可以发现两因子与预测值的相关系数分别为-0.872和-0.269.分子弹性指数与羟肟酸锡石-萤石的分离选择性的相关系数更大.
采用LOO-CV评价和检验模型,验证结果见表 2,序号后为不参与建模的分子.
通过计算,LOO-CV相关系数R2为0.785,平均预测绝对误差为0.103,可见模型稳定可靠.使用测试集对模型进行外部验证,结果如表 3所示.
模型对测试集预测的平均绝对误差为0.137,说明该模型同时具有一定的外部预测能力.但烷基羟肟酸的误差远大于芳香基羟肟酸的误差,模型整体上不利于烷基羟肟酸的预测,尤其是模型为了体现捕收剂分子的选择性差异,十碳羟肟酸预测值甚至出现了负数,这与实际不符;除去该异常点,剩下两个测试样,模型对预测集的平均绝对误差为0.095,所获得的预测模型具有较好的外部预测能力.
2.5 选择性指数2——综合模型浮选分离选择性指数具有多种表达方式,研究采用选择性指数2建立QSAR模型.由于计算过程中发现5C羟肟酸与其余数据差异较大,为模型异常点,故建模过程中除去该点,参加训练的样本容量为12.
最终获得LOF值为4.688,R2为0.796,Rcv2为0.590的最佳二元因子方程(6)如下:
(6) |
X7:分子弹性指数,
X44 : LUMO特征值.
该模型(6)具有与模型(5)相同的描述符因子,进一步证明这两因子对捕收剂的选择性影响较大.LOO-CV检验模型(6)的验证结果见表 4,通过计算,相关系数R2为0.615,绝对平均误差1.049.外部验证模型(6)对三个测试集分子的预测结果见表 5.与模型(5)的外部检验相似,十碳羟肟酸的误差较大,除去该异常点,剩下两模型的绝对平均误差为1.939.
选择性指数2的模型(6)的可靠性、预测能力及精确度均远小于选择性指数1的模型(5).这主要是由训练集中因变量的数据分布引起的,在模型建立时,训练集的数据分布会对模型预测能力造成较大影响.对两种选择性指数因变量进行单变量分析,得到选择性指数分布如图 1所示.
图 1中横坐标为羟肟酸捕收剂选择性指数均分的十个区间,纵坐标为该区间选择性指数数目所占总数据的百分比.由图 1可见,选择性指数1比选择性指数2更加接近标准正态分布,因而该指数参数更加具有统计学意义,建立的模型(5)更加合理,更能反映羟肟酸结构与选择性关系的内部规律,因此得到更好的拟合效果和预测能力.
3 结论1)以选择性指数1为因变量的最佳模型(5)相关系数R2为0.868,Rcv2为0.779.留一法交互验证相关系数R2为0.785,该模型真实有效;测试集外部验证所得模型的平均预测绝对误差为0.095,该模型也具有较好的预测能力.
2)采用选择性指数2的预测模型(6),模型相关系数R2和预测系数Rcv2分别为0.796和0.590,留一法交互验证相关系数R2为0.615,外部验证平均绝对偏差为1.939.该预测模型的可靠性及预测能力均差于选择性指数1的模型(5).这主要是由于选择性指数1比指数2数据更接近正态分布,更具有统计意义,因此模型(5)更合理.
3)羟肟酸选择性指数1预测模型(5)真实可靠,理论阐释充分,且模型的外推性较好,可应用于羟肟酸类系列螯合捕收剂的锡石-萤石分离选择性预测,能为羟肟酸系列捕收剂的筛选提供指导.
[1] | Chen S, Gong W, Mei G, et al. Quantitative structure-biodegradability relationship of sulfide mineral flotation collectors[J]. International Journal of Mineral Processing , 2011, 101 (1/2/3/4) : 112–115. (0) |
[2] | Natarajan R, Nirdosh I. Quantitative structure-activity relationship (QSAR) approach for the selection of chelating mineral collectors[J]. Minerals Engineering , 2008, 21 (12/13/14) : 1038–1043. (0) |
[3] | Natarajan R, Nirdosh I. Application of topochemical, topostructural, physicochemical and geometrical parameters to model the flotation efficiencies of N-arylhydroxamic acids[J]. International Journal of Mineral Processing , 2003, 71 (1/2/3/4) : 113–129. (0) |
[4] | Hu Y, Chen P, Sun W. Study on quantitative structure-activity relationship of quaternary ammonium salt collectors for bauxite reverse flotation[J]. Minerals Engineering , 2012, 26 : 24–33. DOI:10.1016/j.mineng.2011.10.007 (0) |
[5] | Yang F, Sun W, Hu Y. QSAR analysis of selectivity in flotation of chalcopyrite from pyrite for xanthate derivatives:xanthogen formates and thionocarbamates[J]. Minerals Engineering , 2012, 39 : 140–148. DOI:10.1016/j.mineng.2012.06.001 (0) |
[6] |
闫超群, 万辉, 管国锋.
1, 3-二取代咪唑类离子液体熔点预测[J]. 物理化学学报 , 2008, 24 (12) : 2198–2202.
( Yan Chao-qun, Wan Hui, Guan Guo-feng. Prediction of melting points for 1, 3-disubstituent imidazolium ionic liquids[J]. Acta Physico-Chimica Sinica , 2008, 24 (12) : 2198–2202. ) (0) |
[7] |
潘咏梅, 计明娟.
基于遗传算法的PTP1B抑制剂的二维定量构效关系研究[J]. 物理化学学报 , 2003, 19 (8) : 695–700.
( Pan Yong-mei, Ji Ming-juan. Application of genetic algorithms on 2D-QSAR analysis of benzofuran and benzothiophene biphenyls as PTP1B inhibitors[J]. Acta Physico-Chimica Sinica , 2003, 19 (8) : 695–700. ) (0) |
[8] | Sreenivas T, Padmanabhan N P H. Surface chemistry and flotation of cassiterite with alkyl hydroxamates[J]. Colloids and Surfaces A:Physicochemical and Engineering Aspects , 2002, 205 (1/2) : 47–59. (0) |