蛋白质结构预测及全新药物设计(二)
同源建模的流程
同源建模主要有4个基本步骤:序列查找、序列比对和模板选择、构建模型、模型的优化及模型的可靠性验证。其中,序列比对是整个同源建模中的核心步骤,直接影响同源模板的选择及同源建模的结果。目前,序列比对主要有软件比对和在线服务器比对两种方法,目前主流的序列比对方法的结果基本一样。另外,在构建好蛋白质的模型后需要对结构进行优化,以平衡其内部的各种相互作用力,也使蛋白整体的能量更低。图1给出了同源建模的基本步骤的流程图。
图1 同源建模的基本步骤
同源建模的基本条件是知道某个蛋白质的氨基酸序列,前面已经提到目前大多数蛋白质的序列已经可以得到。常用的蛋白质序列数据库有全球蛋白质资源(Universal Protein Resource, UniProt)、美国国立生物技术信息中心(National Center for Biotechnology Information, NCBI)、蛋白质信息资源(PIR)、核酸序列数据库(GenBank)等。其中Uniprot是众多数据库中数据比较完善的,下面将主要介绍UniProt数据库的特点及其检索方法。
UniProt数据库是全球有关蛋白质方面信息最全面的资源库,蛋白质序列及其功能信息的资源中心。UniProt数据库是对PIR,TrEMBL和SwissProt的信息进行组合而成的。UniProt的蛋白质序列信息具有分类全、信息丰富且具有准确注释信息、广泛的交叉引用等特点。UniProt主要由三部分内容组成,分别是UniProtKB,UniRef和UniParc,三者分别偏向于不同的用途。
UniProtKB是基于知识的UniProt,通常简称为UniProt,它包含了蛋白质的功能、分类及交叉引用等主要信息。UniProtKB包含两个部分:人工注释的记录部分,主要来自于文献信息和在专家监督下进行计算机分析而得到的(UniProt-SwissProt);另一部分是直接利用计算机程序获得的记录信息,该部分没有手工注释(UniProt-TrEMBL)。UniProtKB还提供了与其它数据广泛的交叉引用,如GenBank核酸数据库、蛋白质结构数据库、蛋白质结构域和蛋白质家族数据库、翻译后加工数据库、种属特异性数据库以及疾病数据库等。正是这样广泛的交叉引用,使得UniProt数据库成为蛋白质分子生物学信息的情报中心。
UniRef是UniProt的非冗余参考数据库,它的主要功能是把紧密相关的序列信息进行组合并记录到一个记录条目中,这样可以加速序列搜索。UniRef中包含UniRef100,UniRef90和UniRef50。UniRef100是将UniProtKB中不同物种的序列信息进行交叉合并处理后的条目,相同序列及子片段记录为一条UniRef100条目,包含所有合并条目的接收号、蛋白质序列及其与已知数据库和它们档案记录相关的链接。UniRef90和UniRef50是由UniRef100开发得到的,旨在为研究者提供非冗余的序列信息,分别表示将序列相似性大于90%和50%的记录合并到一起。
UniParc是UniProt档案库(UniProt Archive),储存了所有公开发表过的蛋白质序列。考虑到蛋白质初级序列的种类繁多,并且注释信息及质量的参差不齐,于是建立了UniParc,主要收集其他数据库中的蛋白质序列,如GenBank、SwissProt、Ensemble、IPI、欧洲专利局、美国专利局和日本专利局等,对资源进行整合。UniParc的用途就是记录所有蛋白质序列的当前状态以及历史信息,其中不包含蛋白质的注释信息,但是相应的注释信息可以在UniProtKB中找到。
构建模型
目前应用最广泛的模建工具是Modeller,这是由Sali 实验室开发的一款预测最为准确的同源模建专业工具之一,主要功能包括多聚体建模、二硫键建模、杂原子建模等,并且自带一整套模建结构后的优化和分析工具。Modeller是用于同源建模构建蛋白质三级或四级结构的计算机程序。它采用一组几何的评分标准,为每个蛋白质中的原子建立一个概率密度函数。该方法需要输入建模的目标蛋白的氨基酸序列与模板蛋白的氨基酸序列的比对结果,其中模板蛋白的晶体结构是已知的。Modeller还具有一定的蛋白质loop区的从头结构预测功能,loop区即使是在同源蛋白质之间也是高度可变的,因此是同源建模算法中的难点。Modeller最初是由加利福尼亚大学的Andrej Sali编写的程序,免费提供给学术方面的用途,图形用户界面以及商业版本的版权则是由Accelrys公司所持有。
采用Discovery Studio 2.5软件(后面用DS2.5表示)中的Homology Modeling主要是基于Modeller程序。在建模过程中,Modeller程序会先提取模板的几何特性,然后使用PDF(probability density function)函数来定义蛋白结构中的键长、键角和二面角等信息。接着DS2.5会对PDF函数施加一定的约束条件,从而构建目标序列的蛋白三维结构。因此,PDF值可以直接反应DS所构建模型的优劣程度。一般而言,PDF Total Energy越小,表明模型能够更好满足DS所设定的模建约束条件,因而所构建的模型越可靠。另外,DS2.5还有DOPE值来判断模型的质量,DOPE是一种基于原子统计势能的软件,可以衡量同一分子的不同构象可信度的标准,能够帮助选择预测结构的最优模型,DOPE Score越低,认为模型越可靠。