药物设计常用的数值分析

药物设计常用的数值分析

计算机辅助药物设计(computer aided drug design, CADD)是以计算机化学为基础,通过计算机的模拟、预测药物与生物大分子靶点之间的关系,设计和优化先导化合物。换句话说,CADD实际上就是通过模拟和计算受体与配体的这种相互作用,进行先导化合物的优化与设计。CADD最为核心的两个研究对象则为靶点和药物;两个研究方向是基于受体的药物分子设计和基于配体的药物分子设计。

在药物设计过程中,会涉及到一些初步的数值分析,比如有:(1)多元线性回归,药物活性往往受到药物分子多个结构因素的影响,因此有必要进行多元回归分析,找出可能影响药效最为重要的结构因素;(2)在基于受体的药物分子设计中,可能需要证明能否用分子对接打分值大小来区分某小分子为抑制剂,如果可以用打分值来划分,那最合适的数据是什么,这都要用到Roc曲线;(3)在由一系列小分子构成的数据库中,基于计算获得的众多物化参数,将他们合理分类为是否为活性化合物。这种分类在药物设计中具有重要的统计学意义,朴素贝叶斯分类是较为常用的分类策略;(4)MATLAB计算软件在药物设计研究中计算和绘图经常会被使用。

第一节 相关和回归分析

一、相关分析的基本概念

1.函数关系

当一个或几个变量取一定的值时,另一个变量有确定值与之相对应,这种关系被称为确定性函数关系。如,某种商品销售额y与销售量x之间关系可表示为:y = px (p为单价);圆面积S与半径之间关系可表示为:S = p r2;企业的原材料消耗额y与产量x1,单位产量消耗x2,原材料价格x3之间关系可表示为:y = f(x1, x2, x3)等。

2.相关关系

变量之间保持着不确定的数量依存关系。即变量间关系不能用函数关系精确表达,一个变量的取值不能由另一个变量唯一确定,当变量x取某个值时,变量y的取值可能有几个。如,商品的消费量y与居民收入x之间的关系; 商品的消费量y与物价x之间的关系;商品销售额y与广告费支出x之间的关系;粮食亩产量y与施肥量x1 、降雨量x2、温度x3之间的关系;收入水平y与受教育程度x之间的关系等。

3.自变量和因变量

具有相关关系的某些现象可表现为因果关系。自变量:是引起某种结果变化的原因,它是可以控制、给定的值,常用x表示;因变量:是自变量变化的引起结果量,它是不确定的值,常用y表示。它们的表现形式有多种:一种原因引起一种结果;多种原因引起一种结果;还有变量之间是互为因果的关系。相关分析一般不区分原因和结果。

4.相关关系的分类

按相关的程度可分为完全相关、不完全相关和不相关。一个变量的变化完全由另一个变量所决定时,称变量间的这种关系为为完全相关关系,这种严格的依存关系实际上就是函数关系;两个变量的变化相互独立、互不影响时,称这两个变量不相关(或零相关);不完全相关指的是变量之间存在不严格的依存关系时,是现实当中相关关系的主要表现形式,是相关分析的主要研究对象。

按相关的方向可分为正相关和负相关。正相关为一个变量随着另一个变量的增加(减少)而增加(减少),即两者同向变化,如家庭收入与家庭支出之间的关系;负相关是当一个变量随着另一个变量的增加(减少)而减少(增加),即两者反向变化,如产品产量与单位成本之间的关系,单位成本会随着产量的增加而减少。

按相关的形式可分为线性相关和非线性相关。线性相关指的是变量之间的依存关系大致呈现为线性形式,即当一个变量变动一个单位时,另一个变量也按一个大致固定的增(减)量变动;非线性相关则为变量间的关系不按固定比例变化。

按研究变量的多少可分为单相关、偏相关和复相关。两个变量之间的相关,称为单相关;一个变量与两个或两个以上其他变量之间的相关,称为复相关;在复相关的研究中,假定其他变量不变,专门研究其中两个变量之间的相关关系时称其为偏相关。

留下评论

您的邮箱地址不会被公开。 必填项已用 * 标注