资源预览内容
第1页 / 共21页
第2页 / 共21页
第3页 / 共21页
第4页 / 共21页
第5页 / 共21页
第6页 / 共21页
第7页 / 共21页
第8页 / 共21页
第9页 / 共21页
第10页 / 共21页
亲,该文档总共21页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
第一届中国第一届中国R语言言会会议应用用R进行行QSAR的的尝试 -以PAHs在根际消解效果的QSAR分析为例 马 斌 binmagmail.com浙江大学环境与资源学院 2008.121第一届中国第一届中国R语言语言会议会议关于QSAR的背景 定量构效关系定量构效关系(Quantitative Structure-Activity Relationship,简称QSAR)是指利用理论计算和统计分析工具来研究系列化合物结构与其效应之间的定量关系,即借助结构参数构建数学模型来描述化合物结构与活性之间的关系。 2马斌:R在QSAR中的应用第一届中国第一届中国R语言语言会议会议环境科学中进行QSAR的目的由于测定化合物的各种毒性需要花费大量的人力、物力和财力,人们不可能对众多化学品进行逐一测定而利用QSAR 模型即可对化学品的生物毒性和环境行为进行预测,并筛选出具有潜在危害的化学品,这在环境科学研究中无疑是一件极具意义的工作 3马斌:R在QSAR中的应用第一届中国第一届中国R语言语言会议会议R与与QSAR统计分析工具数学模型构建4马斌:R在QSAR中的应用第一届中国第一届中国R语言语言会议会议QSAR中需要的数学方法R中的各种包提供几乎所有QSAR研究需要的数学方法如果将这些方法集合为一个QSAR专用的包,无论对无论对R的发展还是的发展还是QSAR的应用都的应用都是有利的是有利的5马斌:R在QSAR中的应用第一届中国第一届中国R语言语言会议会议QSAR过程与R数据库的建立数据库的建立 参数的筛选参数的筛选 定量关系模型的构建定量关系模型的构建 模型检验模型检验 预测与预报应用预测与预报应用 1.结构参数的计算2.R的meta-analysis包1.主观筛选2.客观筛选1.多元分析2.神经网络1.交叉验证法 2.蒙特卡罗验证 1.输入未知参数6马斌:R在QSAR中的应用第一届中国第一届中国R语言语言会议会议R中包含中包含QSAR数学方法的包数学方法的包逐步回归stepPLrstepwise前进法forwardlars遗传算法rfwdmvgafitgenalg多元分析lmtestbpcadepthheplotsICSLabdsvLeaps神经网络NeuralNeuralnet偏最小二乘法GplsPlsLsplsPlsPlsgenomiPplsgplsSpls7马斌:R在QSAR中的应用第一届中国第一届中国R语言语言会议会议R是是QSAR的有力工具,但是的有力工具,但是需要的数学方法分散在大量不同的包中,就如无数的宝藏埋藏在世界各地。8马斌:R在QSAR中的应用第一届中国第一届中国R语言语言会议会议应用应用R进行进行QSAR的一个尝试的一个尝试以R进行多环芳烃(PAHs)在植物根际消解效果的QSAR分析为例子来说明R再QSAR中的应用。 9马斌:R在QSAR中的应用第一届中国第一届中国R语言语言会议会议为什么研究多环芳烃(为什么研究多环芳烃(PAHs)10马斌:R在QSAR中的应用第一届中国第一届中国R语言语言会议会议数据库的建立数据库的建立活性参数是PAHs在植物根际消解效果,采用meta-analysis中常用的效应值(effect sizes, d)表示。d=ln(E/C) 分子结构参数通过Dragon 5(Talanet)计算得到965个结构参数,包括拓扑参数和理化参数。 11马斌:R在QSAR中的应用第一届中国第一届中国R语言语言会议会议参数的筛选参数的筛选用主观选择对结构参数进行筛选,去掉所有值为恒量的参数,然后计算余下参数的相关系数矩阵,去掉相关系数大于等于0.95的两个参数中的一个。采用R极大提高筛选效率 12马斌:R在QSAR中的应用第一届中国第一届中国R语言语言会议会议R中结构参数的主观筛选(去除恒量)中结构参数的主观筛选(去除恒量)mol.structuredim.molanfor(k in 1:(dim.mol2-n) if (mol.structure1,k=mol.structurea,k)+ mol.structure-mol.structure,-k; +n-n+1;+kwrite.table(mol.structure, file=molstruc1.csv, sep=,)13马斌:R在QSAR中的应用第一届中国第一届中国R语言语言会议会议R中结构参数的主观筛选(去除高相关性参数)中结构参数的主观筛选(去除高相关性参数)cor.matrixdim.cormfor(i in 1:(dim.cor1-1)for(j in (i+1):(dim.cor2)if (cor.matrixi,j=0.95)+mol.structure-mol.structure,-i;+idim(mol.structure)write.table(cor.matrix,file=matrix.csv, sep=,)write.table(mol.structure,file=molstruc2.csv, sep=,) 14马斌:R在QSAR中的应用第一届中国第一届中国R语言语言会议会议PLS构建模型构建模型# modeling QSAR by PLSlibrary(pls)lnRdataQSAR#cross-validation the QSAR modelcrossvalRMSEPR2plot(crossval)plot(RMSEP)plot(R2)plot(QSAR, ncomp=15)16马斌:R在QSAR中的应用第一届中国第一届中国R语言语言会议会议RMSE和和R2R2RMSE17马斌:R在QSAR中的应用第一届中国第一届中国R语言语言会议会议优化预测模型优化预测模型18马斌:R在QSAR中的应用第一届中国第一届中国R语言语言会议会议用于预测和预报用于预测和预报#predict unstudied compoundperylenenew.mol-predict(QSAR, type = response, newdata = perylene)输入还没有研究资料的输入还没有研究资料的perylene的结构参数,得到效应值为的结构参数,得到效应值为-0.8619马斌:R在QSAR中的应用第一届中国第一届中国R语言语言会议会议结论与展望结论与展望R在QSAR分析中的最大特点是快捷和简便。QSAR的模型构建、验证和应用过程中都有多种方法可以选择,而这些方法目前都分布在不同的包中收集和整理各种常用的QSAR用到的方法,编写QSAR常用过程的函数,并开发出不断更新的包就尤为重要本文为R的QSAR包作出了一个开端20马斌:R在QSAR中的应用第一届中国第一届中国R语言语言会议会议致谢致谢感谢第一届R会议的所有贡献者本文的完成要感谢中国人民大学谢益辉的鼓励和杭州电子科技大学郑冰的大力帮助本文得到国家863计划(2007AA061101)、国家自然基金(40671092, 20707020)和浙江省重点科技项目(2008C13024-3)的资助 21马斌:R在QSAR中的应用
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号