基于配体的药物分子设计(二)
一、2D-QSAR的基本原理
目前,有关2D-QSAR的研究方法较多,其中以Hansch法、Free-Wilson法和MCI法最为著名,而Hansch法又最为经典,应用最为广泛。
Hansch法
1964年,Hansch C.受到Hammett L. P.和Ingold C. K.关于取代基电性和立体效应对反应速率影响的启发,以有生理活性的化合物的半数有效量为活性参数,以其电性参数、立体参数和疏水参数等作为线性回归分析的自变量,建立了数学方程,即Hansch方程。之后,与日本访问学者藤田稔夫等人对方程进行了改进,引入了指示变量、抛物线模型和双线性模型等对方程进行修正,提高了方程的预测能力,并使之成为了影响较大的2D-QSAR研究方法之一。Hansch方程有多种表达式,式(1)为较为常见的一种表达式:
(1)
请点击输入图片描述(最多18字)
(2)
请点击输入图片描述(最多18字)
式(1)中c为给定时间内产生某种生物效应的化合物浓度,如半数抑制浓度(IC50)、半数有效浓度(EC50)和半数致死浓度(LC50)等;P为化合物的脂(正辛醇)水分配系数(lipid-water partition coefficient),PH表示H原子取代母体化合物的脂水分配系数,PX表示取代基X取代H原子时的脂水分配系数;σ为Hammett取代基电子参数;Es表示Taft立体参数;a、b、c和d分别为各项参数通过回归分析得到的权重系数,k为常数。
式(2)右边的各项均不是必需项,可根据实际情况进行取舍。由于方程中的所有参数均与化合物的自由能有关,故Hansch方程也被称为线性自由能相关法(linear free energy relationship, LFER)或超热力学相关模型(extra-thermodynamic relationships model)。
Hansch法的应用,真正意义上使得人们对构效关系的认识从定性层面上升到了定量层面。成功地辅助了新药开发,如人们从萘啶酸(nalidixic acid)出发,利用Hansch法对其进行结构优化,成功得到喹诺酮类(quinolones)抗菌药物。
Free-Wilson法
同样在1964年,Free Jr. S.和Wilson J. W.利用多变量回归分析,对有机化合物结构信息与生物活性间的相关性进行了研究,建立了一种不需要化合物物化参数的方法。该方法认为一组具有相同母核的同源化合物的生物活性是其母体结构的活性贡献与各取代基活性贡献的加和,故又称为基团贡献法。虽然Free-Wilson法在药物学、化学、光谱学等研究中均有应用,但仍有大量化合物的生物活性并不具有简单的加和性,因而限制了此法的普及。此外,Free-Wilson法只能预测一系列化合物中已出现过的取代基在新化合物中的活性,并不能预测未出现过的取代基对化合物生物活性的贡献。
分子连接性指数法
MIC法是1976年由Kier L. B.和Hall L. H.提出的。该法使用拓扑学(topology)参数表征分子的化学结构。即使用各化合物分子内骨架原子的排列或连接方式来描述分子的结构性质,用多元线性回归分析将化合物结构与其生物活性联系起来。MCI作为拓扑学参数,有零阶项、一阶项、二阶项等,可有分子结构式计算获得,与有机物的毒性数据有较好的相关性。虽然MCI在反映分子立体结构方面有较大优势,但由于其缺乏明确的物理意义,应用受到了一定的限制。
2D-QSAR的统计分析与评价
2D-QSAR方程的建立一般采用多元线性回归分析,利用最小二乘法求得各个参数项的系数。对所建立的方程的评价指标主要有相关系数(r)、标准偏差(s/SD)和Fisher检验值F。一般情况下,r和F值越高,s值越低,则表明建立的方程具有较好的拟合能力。上述指标的计算公式分别如式(3)、式(4)和式(5)所示:
(3)
编辑搜图
请点击输入图片描述(最多18字)
(4)
编辑搜图
请点击输入图片描述(最多18字)
(5)
编辑搜图
请点击输入图片描述(最多18字)
上述式中,n表示样本数;k表示变量数;Acalc为生物活性的计算值;Aexp为生物活性的实测值。
上述方法分别采用了不同类型的参数研究化合物结构与生物活性间的定量关系,且各自都取得了一定的成果,但在实际应用中,建议一个有效的2D-QSAR方程应该尽量使用最佳参数。而不是仅仅局限于某一种方法,应根据具体问题具体分析。参数的选择有较大的主观性,而选择的恰当与否是决定所建立的2D-QSAR方程是否具有统计学意义及预测能力强弱的关键因素。
二、建立2D-QSAR方程的操作
建立2D-QSAR方程,首先需要获得目标化合物的生物活性数据(IC50、EC50、LC50等),并将其组成一个训练集(training set)。这部分数据可通过文献调研得到,也可以根据研究者实验室条件自行测定。值得注意的是,要是建立的2D-QSAR方程具有较为显著的统计学意义,用于构建方程的训练集应至少含有15个化合物,但最好不要超过50个化合物;且化合物之间的生物活性有足够大的差异(取负对数后,最大值与最小值之差至少为2或3),数值分布较为均匀。建立训练集后,需对训练集中各分子用于构建方程的参数或描述符进行计算。最后使用统计学软件对参数和生物活性数据进行分析拟合。若拟合结果较好,则可用于对测试集(testing set)中分子的活性预测;反之则需优化参数,再次拟合。
目前,可用于计算相关参数或描述符的软件较多,且各有特色,如:TOPIX、HyperChem、Discovery Studio、SYBYL等。这里以SYBYL为例,介绍构建2D-QSAR方程的具体步骤。
SYBYL-X是一款较为全面的药物与分子设计专业工具,提供了结构搭建、优化、比较;结构与相关数据可视化;注解、硬拷贝、以及屏幕截图等多种分子模拟工具;此外,全部的用户界面均较为友好,交互性强;为工作者节约了时间并简化了工作流程。图1给出了SYBYL-X 2.0版的操作界面。
图1 SYBYL-X 2.0的操作界面