运用不同建模方法评估醇类lgKow及lgSw
时间:2022-03-05 09:56:17 浏览次数:次
摘要
[目的] 构建可靠的QSAR模型用于评价醇类化合物的毒性。[方法] 利用MLR、SLR和SVR 3种方法研究60种醇类化合物辛醇/水分配系数lgKow和水溶解度lgSw这两个指标与mX的相关性。[结果] 模型评估结果显示出MLR和SLR的建模能力与文献方法一样优异,SVR在具有合适核函数时其建模能力也能表现出优异的泛化推广能力。[结论] 该研究可为QSAR模型的构建提供参考。
关键词 醇;有机污染物;支持向量机;定量构效关系
中图分类号 S181.3 文献标识码 A 文章编号 0517-6611(2014)32-11470-03
The Evaluation of lgKow and lgSw of Alcohol Using Different Modeling Methods
LI Ran1,2, JIANG Peng1,2, HE Ying1,2, ZHOU Wei1,2,3* et al
(1.Hunan Provincial Key Laboratory for Biology and Control of Plant Diseases and Insect Pests, College of Plant Protection, Hunan Agricultural University, Changsha, Hunan 410128; 2. Hunan Provincial Engineering & Technology Research Center for Biopesticide and Formulation Processing, Hunan Agricultural University, Changsha, Hunan 410128; 3. Chenzhou Company of Hunan Tobacco Company, Chenzhou, Hunan 423000)
Abstract [Objective] The research aimed to establish reliable QSAR model for the toxicity evaluation of alcohol.
[Method] The correlation between mX and two measures (octanol/water partition coefficient lgKow and solubility lgSw) of 60 alcohol compounds was studied using MLR, SLR and SVR. [Result] The results showed that, similar to the literature method, MLR and SLR had the excellent modeling capabilities, and SVR with an appropriate kernel function could also exhibit excellent generalization capability.[Conclusion] This study could provide references for the construction of QSAR model.
Key words Alcohol; Organic pollutant; SVR; QSAR
随着经济的飞速发展,与化学品相关的环境问题日益突出[1]。因此,有关有机污染物的毒性风险评估显得非常重要。醇类化合物是一类重要的环境毒性污染物,在湖泊和河流中都已检测到,这类化合物在环境中的影响也是不可忽视的。由于这类化合物品种较多,完全进行试验研究相当困难。定量构效关系(Quantitative Structure Activity Relationship,QSAR)相关性研究在化学研究领域得到了非常有效的应用,近年来,又被大量地应用于环境科学中[2],在环境污染物毒性等研究方面有重要的实用价值。 QSAR建模是一种用于研究醇类化合物分子结构与毒性关系的有效方法,它有助于解释结构特征如何决定毒性[3]。有机污染物的水溶解度(lgSw)是评价有机物迁移转化和毒性的主要参数,它和正辛醇/水分配系数(lgKow)一样与土壤/沉积物吸附系数(Kow)、生物富集因子及致癌性、药物的结构变化有密切关系[4]。因此,它们是评价有机污染物环境行为的重要基本参数,传统的“摇瓶法”测定lgKow不仅费时、繁琐,而且存在很多局限性。因此,采用QSAR研究模型来对lgKow及lgSw进行预测越来越受到学者的注意。
目前,分子连接性指数(mX)法已被广泛地应用于有机物理化参数、环境参数以及生物毒性的预测中[5],通常有机物的理化性质取决于分子中疏水部分和亲水部分的共同贡献。对于疏水性物质,色散作用可能成为控制分子性质的主要因素[5];对亲水性物质,它们和溶剂之间的色散作用和非色散作用共同决定了化合物的理化行为。所以,对于疏水性物质,简单连接性指数与理化性质就存在较好的相关关系。如果化合物既有疏水性又有亲水性时,相关性则不十分理想,简单连接性指数就不能有效地反映相关关系。同时,化学毒性和相关特征之间的关系通常又是非线性的,构建线性模型从而显得不合逻辑。因此,非线性特征筛选和非线性建模的模型一定会为化合物毒性的评估提供更有用的信息。为构建可靠的QSAR模型,笔者采用非线性支持向量回归方法(Support Vector Regression,SVR)[6]。SVR是一类基于结构风险最小化原则的机器学习方法,它能克服小样本问题、过拟合、维数灾和局部极小的难题,广泛应用于非线性建模的QASR研究中[7]。该研究利用两种线性技术和一种非线性SVR技术对源自文献的60个化合物的水溶解度lgSw和辛醇/水分配系数lgKow进行QSAR研究。
1 材料与方法
1.1 数据集
根据文献报道的60个试验测定的醇类化合物辛醇/水分配系数lgKow和水溶解度lgSw,研究mX与lgSw和lgKow的相关性(表1)。为了获得统计学鲁棒的QSAR模型,笔者将数据集分成训练集(前55个化合物)和测试集(后5个化合物),比较文献的最小二乘法(Generalized Least Squares,GLS)与多元线性回归(Multiple Linear Regression,MLR)、逐步线性回归(Stepwise Multiple Linear Regression,SLR)和SVR的建模结果。训练集用来构建QSAR模型,测试集用来验证其独立预测能力。
表1 60个醇类有机污染物lgKow、lgSw和mX值[5]
醇lgKowlgSwmX
0X1X
醇lgKowlgSwmX
0X1X
1丁醇0.840-0.0267.4798.5764庚醇2.3101.39011.62515.600
2丁醇0.610-0.3907.3829.4692甲基2己醇1.8401.07011.47916.715
2甲基1丁醇0.610-0.0967.3829.0765甲基2己醇2.1901.38011.52815.968
1戊醇1.3400.5908.89310.5763甲基3己醇1.8700.98011.47916.957
3甲基1丁醇1.1400.5108.79711.0762甲基3己醇2.1901.32011.52816.201
2甲基1丁醇1.1400.4608.79711.2082,2二甲基1戊醇2.3901.52011.47916.233
2戊醇1.1400.2808.79711.4692,4二甲基1戊醇2.1901.60011.52815.707
3戊醇1.1400.2108.79711.6004,4二甲基1戊醇2.3901.55011.47915.991
3甲基2丁醇1.1400.2108.70012.0692,3二甲基2戊醇2.2700.91011.38217.532
2甲基2丁醇0.8900.2308.65012.7152,4二甲基2戊醇1.6700.93011.38217.214
2,2二甲基1丙醇1.3600.3008.65011.9913乙基3戊醇1.8700.83011.47917.200
1己醇1.8401.21010.30712.5762,2二甲基3戊醇2.2701.16011.38217.201
2己醇1.6100.87010.21113.4692,3二甲基3戊醇1.6700.84011.38217.643
3己醇1.6100.80010.21113.6002,4二甲基3戊醇2.3101.22011.43216.801
3甲基3戊醇1.3900.39010.06414.9571辛醇2.8402.35013.13616.576
2甲基2戊醇1.3900.51010.06414.7152辛醇2.8402.07013.03917.469
2甲基3戊醇1.6700.70010.11414.2012乙基1己醇2.8402.17013.03917.339
3甲基2戊醇1.6700.71010.11414.2011壬醇3.5703.00014.55018.576
2,2二甲基1丁醇1.5701.04010.06414.2332壬醇3.3602.74014.45319.469
3,3二甲基1丁醇1.5700.50010.06413.9913壬醇3.3602.66014.45319.600
2,3二甲基2丁醇1.1700.3709.96815.4004壬醇3.3602.59014.45319.600
3,3二甲基2丁醇1.1900.6409.96815.0695壬醇3.3602.49014.45319.600
2甲基1戊醇1.7801.05010.21113.2082,6-二甲基4庚醇3.1302.51014.26120.599
4甲基1戊醇1.7800.99010.21113.0761癸醇4.0103.70015.96420.576
4甲基2戊醇1.6700.81010.11413.9682十一醇4.4202.94017.28223.469
2乙基1丁醇1.7801.21010.21113.3391十二醇5.0604.80018.79224.576
环己醇1.4300.4209.30715.1621十四醇6.1104.52021.62128.576
1庚醇2.3401.81011.72114.5761十五醇6.6405.84023.03530.576
2-庚醇2.3101.55011.62515.4691十六醇7.1707.00024.44932.576
3庚醇2.3101.39011.62515.6001十八醇8.2208.40027.27836.576
1.2 描述符
该研究所用描述符来自文献(表1),其描述符由能反映结构信息的原子的点价计算来得到[5]。
1.3 模型发展
基于文献描述符,对两个因变量(lgKow和 lgSw)和两个自变量(0X和1X)分别使用SLR、MLR和SVR进行建模[6,8]。
1.4 模型评估
基于均方误差(MSE)值,核函数参数的优化采用留一法交叉验证[9-10]。模型的外部预测能力通过公式(1)和(2)的MSE和预测相关系数(R2pred)值进行评估:
MSE=∑(yi-yi)2n
(1)
R2pred=1-∑(yi-yi)2∑(yi-ytraining)2
(2)
式中,yi为测试集的试验值;
y为测试集的预测值;
n为测试集的数目;
ytraining为训练集的活性均值。
留一法是指依次从训练集中取出一个样本作为测试样本,而将剩余样本组成训练集的一种较为客观和严格的预测性能检验方法。一般认为,一个好的QSAR模型应该在独立测试时具有更低的MSE值和更高的R2pred (至少>0.6)值[9-10]。
2 结果与分析
2.1 利用MLR和SLR方法构建醇类有机污染物线性QSAR模型及其评估
文献利用最小二乘法建立起简单性连接指数mX与lgSw和lgKow两组因变量QSAR模型,分别产生两组独立预测方程(表2)。基于文献数据,该研究利用MLR和SLR两种方法进行其他线性模型构建。结果表明:MLR和SLR两种方法构建的线性模型评估值完全一致,SLR方法汰选掉任何自变量;MLR和SLR这两个线性模型预测方程和评估值与文献的GLS模型也完全一致,其R2pred值均非常高。对于研究中既定的数据,这3种线性建模方法的泛化推广能力显示出很大优势。
2.2 利用SVR方法构建醇类有机污染物非线性QSAR模型及其评估
基于文献数据,该研究进一步利用SVR进行非线性模型构建,所用核函数包括线性核函数(t=0)、多项式核函数(t=1, d=2;t=1, d=3)、径向基核函数(t=2)和双曲正切核函数(t=3)[11]。SVR建模结果表明(表3):不同的核函数产生的结果差异非常大,因此核函数寻优非常必要;对于正辛醇/水分配系数lgKow,SVR建模中的t=0、t=2和t=3结果都非常优秀,有效模型比率为60%;对于水溶解度lgSw,SVR建模中仅有t=0的模型结果非常优秀,有效模型比率仅为20%。SVR非线性建模结果支持线性核函数(t=0)为研究中既定数据的最优核函数。综合上述线性模型结果的优良表现,该研究认为文献计算出的简单性连接指数mX与lgSw和lgKow之间存在明显的线性关系,线性模型和具有合适核函数的非线性SVR模型均能很好地预测出其中的关联信息。SVR能较好地解决小样本、非线性、维数灾和局极小等实际问题,其在一些与lgSw和lgKow间存在非线性关系的描述符的建模上是否更具优势还有待进一步研究。
表2 3种线性方法预测结果比较
参数lgKow
GLS[5]MLRSLR
lgSw
GLS[5]MLRSLR
预测方程lgKow=0.5120X - 0.0951X - 2.220lgSw=0.6420X-0.1771X - 3.230
MSE0.0010.0010.0010.3570.3570.357
R2pred1.0001.0001.0000.9860.9860.986
表3 SVR方法预测结果比较
参数lgKow
t=0t=1, d=2t=1, d=3t=2t=3
lgSw
t=0t=1, d=2t=1, d=3t=2t=3
MSE0.022173.114968.1021.4440.2240.416182.054913.24422.20350.152
R2pred0.999-6.643-41.7440.9360.9900.984-5.910-33.6620.157-0.904
3 结论
该研究运用MLR、SLR、SVR 3种方法研究文献所给出的60种醇类化合物辛醇/水分配系数lgKow和水溶解度lgSw这两个指标与mX的相关性。一系列模型评估结果表明,MLR、SLR和SVR(具有合适的核函数)的建模能力与文献方法的建模能力一样优异。
参考文献
[1]
WANG H,YAN Z,LI H,et al.Progress of environmental management and risk assessment of industrial chemicals in China[J].Environ Pollut,2012,165(1):174-181.
[2] 谭显胜,袁哲明,周铁军,等.Multi-KNN-SVR组合预测在含氟化合物QSAR研究中的应用[J].高等学校化学学报,2008,29(1):95-99.
[3] LI X L,WANG Z Y,LIU H L,et al.Quantitative structure-activity relationship for prediction of the toxicity of phenols on Photobacterium phosphoreum[J].Bull Environ Contam Toxicol,2012,89:27-31.
[4] 王连生.有机污染物化学[M].北京:科学出版社,1990:3-65.
[5] 堵锡华,蔡可迎.醇、醚类有机污染物的QSAR研究[J].福州大学学报,2004,32(2):224-227.
[6] VAPNIK V N.The Nature of Statistical Learning Theory[M].New York:SpringerVerlag,1995.
[7] XIANG C S,ZHOU W,YUAN Z M,et al.A new parameters joint optimization method of chaotic time series prediction[J].Int J Phys Sci,2011,6:2565-2571.
[8] ZHOU W,DAI Z,CHEN Y,et al.Highdimensional descriptor selection and computational QSAR modeling for antitumor activity of ARC111 analogues based on support vector regression (SVR)[J].Int J Mol Sci,2012,13(1):1161-1172.
[9] 代志军,周玮,袁哲明.基于支持向量机的高维特征非线性快速筛选与肽QSAR建模[J].物理化学学报,2011,27(7):1654-1660.
[10] ZHOU W,DAI Z J,CHEN Y,et al.Computational QSAR models with high-dimensional descriptor selection improve antitumor activity design of ARC-111 analogues[J].Med Chem Sci,2013,22(1):278-286.
[11] 李巍巍,代志军,谭显胜,等.基于支持向量回归的酚类化合物QSAR建模[J].现代生物医学进展,2011(24):4857-4860.
[运用不同建模方法评估醇类lgKow及lgSw]相关文章
- 生物质压缩成型过程建模与参数优化探讨
- 基于BP算法的多层前馈网络在质差建模中的应用
- Rhino与Solidworks的建模对比以及在工业设计中的应用
- 动态经济学数学建模及稳定化控制分析
- 中医药类本科院校数学建模课程开设的探讨
- 数学建模思想融入高职数学教学的探索与实践研究
- 信息与计算科学专业《数学建模》课程建设的实践与探索
- 关于应用技术在本科院校数学建模课程教学中的探索与实践
- 大学数学教学过程中数学建模意识与方法的培养
- 基于课程间影响分析的高校新专业评估
- 计算机设备健康状态评估方法
- 年政治生态评估报告(全文)
- 抖音打造爆款的方法总结7篇
- 整体主义方法论下的企业效率效益决定及差异性衡量
- 专题党课:学习***思想方法和工作方法
- 冯契的逻辑范畴学说及其方法论意义
- 会计跨学科方法论研究
- 工程地质勘察中物探方法和钻探方法的结合应用
- 数字化时代的阅读观及方法论