药物设计常用的数值分析
二、相关关系的测定
并非所有的变量之间都存在相关关系,因此需要用相关分析方法来识别和判断。相关分析就是借助于图表和分析指标对变量之间的依存关系的密切程度进行测定的过程。定性分析是依据研究者的理论知识和实践经验,对客观现象之间是否存在相关关系,以及何种关系作出判断。定量分析在定性分析的基础上,通过编制相关表、绘制相关图、计算相关系数等方法,来判断现象之间相关的方向、形态及密切程度。
1 相关图
将自变量x的数值按照从小到大的顺序,并配合因变量y的数值一一对应而平行排列的表,表=1给出了8个企业的日产量和生产费用的资料。
表1 8个企业日产量和生产费用的资料
企业编号 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
日产量 x/ t | 1.2 | 2.0 | 3.1 | 3.8 | 5.0 | 6.1 | 7.2 | 8.0 |
生产费用 y/ 万元 | 62 | 86 | 80 | 110 | 115 | 132 | 135 | 160 |
识别变量间相关关系最简单的方法是散点图法。所谓散点图法,就是将所研究变量的观察值以散点的形式绘制在相应的坐标系中,通过它们呈现出的特征,来判断变量之间是否存在相关关系,以及相关的形式、相关的方向和相关的程度等。根据表1所给资料可以做出相关的散点图,如图1所示。

图1 产品日产量和生产费用相关图
从上图可以看出,所绘制的散点图呈现出从左至右的上升趋势,它表明x与y之间存在着一定的正相关关系,即随着产品日产量的上升,生产费用也会增加。有时也可通过表格来直接观察变量之间是否存大相关关系。
2 相关系数
相关图表可反映两个变量之间的相互关系及其相关方向,但无法确切地表明两个变量之间相关的程度。统计学家卡尔·皮尔逊设计了统计指标,即相关系数。在线性条件下说明两个变量之间相关关系密切程度的统计分析指标,简称相关系数。根据总体全部数据计算的,称为总体相关系数,记为r;根据样本数据计算的,则称为样本相关系数,记为r。将反映两变量间曲线相关关系的统计指标称为非线性相关系数、非线性判定系数;将反映多元线性相关关系的统计指标称为复相关系数、复判定系数等。
注意:总体的相关系数一般不容易测定,通常只能计算样本的相关系数,并用以估算总体的相关系数。一般来说,相关系数r的取值在-1和1之间。当r>0时,表示两变量正相关,r<0时,两变量为负相关;当|r|=1时,表示两变量为完全线性相关,即为函数关系;当r=0时,表示两变量间无线性相关关系,它并不意味着X与Y之间不存在其他类型的关系;当0<|r|<1时,表示两变量存在一定程度的线性相关。且|r|越接近1,两变量间线性关系越密切;|r|越接近于0,表示两变量的线性相关越弱。通常判断的标准是: |r|<0.3称为微弱相关;0.3≤ |r|<0.5称为低度相关;0.5≤|r|<0.8称为显著相关 ;0.8≤ |r|<1称为高度相关或强相关。
3. 相关系数实例及Origin软件实现
某企业某产品产量与单位成本资料如表10-2所示,根据表信息,要求:① 做出相关图,判断相关方向和形态;② 计算相关系数,说明产量与单位成本相关关系的密切程度;③ 用Origin软件实现该计算步骤。
表2 某企业某产品产量与单位成本
月份 /月 | 1 | 2 | 3 | 4 | 5 | 6 |
产量 /千件 | 2 | 3 | 4 | 3 | 4 | 5 |
单位成本 /元 | 73 | 72 | 71 | 73 | 69 | 68 |
实现步骤为:① 打开origin软件,将月份和单位成本数据分别输入到A和B列中;② 一直按住鼠标左键选上A/B列数据,右键—plot–Scatter,得到图2所示的散点图,可以看出产品月产量和单位成本存在负相关关系,并且呈一条下滑直线;③用公式2计算相关系数,计算得到r = -0.90909,即月产品产量与单位成本之间存在高度负相关。

图2 某产品产量与单位成本的相关图
④ 在图10-2的基础上,点击菜单Analysis–Fit Linear,得到图3所示相关性计算结果。

图3 相关性拟合结果