预测蛋白质二级结构的快速方法

时间:2022-04-28 10:54:49 生物科学毕业论文 我要投稿

预测蛋白质二级结构的快速方法

  蛋白质二级结构预测方法是首先预测蛋白质的结构类型,下面是小编搜集整理的预测蛋白质二级结构的快速方法的内容,欢迎阅读参考。

  预测蛋白质二级结构的快速方法 篇1

  1、研究背景及意义

  蛋白质二级结构的预测是生物、数学与计算机交叉领域的课题,进行二级结构预测对于理解蛋白质结构与功能的关系,以及分子设计、生物制药等领域都有重要的现实。随着人类基因组计划的顺利实施,已知氨基酸序列的蛋白质数量成级数增长,目前试验手段主要依靠X射线晶体衍射与核磁共振方法测定蛋白质二级结构,但测定周期较长,导致已测定二级结构的蛋白质数量与已知氨基酸序列的蛋白质数量差距越来越大,要求有一种快速简洁而适用性强的预测蛋白质二级结构的方法。而蛋白质的氨基酸排列顺序决定了它的空间结构,空间结构体现了蛋白质的生理功能,那么就可以从已知序列和结构的蛋白质出发,挖掘出其中的关系,就可以预测出其他已知序列的蛋白质的二级结构。如果准确率达到要求则对于了解生命现象的本质,解释疾病的发生机制,诊断、治疗疾病、设计新药、通过不同生物蛋白质结构研究生物进化、利用其他生物为人类服务等都有着非常重要的意义。综上,蛋白质结构的预测对于蛋白质的研究与应用领域具有很好的推动作用。

  2、预测方法

  二级结构预测一直都是学者喜欢研究的问题,研究时间长,目前预测二级结构预测的方法已经有很多,但是在准确率上都达不到所希望的要求,因此无数的人依然为此努力着。

  (1)经验参数法。

  经验参数法是一种基于单个氨基酸残基统计的经验预测方法。通过统计分析,获得的每个残基出现于特定二级结构构象的倾向性因子,进而利用这些倾向性因子预测蛋白质的二级结构。1970年由PeterY.Chou和GeraldD.Fasman提出Chou-Fasman方法是预测蛋白质二级结构的经验方法。这种方法基于每个氨基酸在α螺旋的相对频率,测试表,和通过X射线晶体学已知的蛋白质结构。从这些频率、概率参数,可知道每个氨基酸在各个二级结构类型的外观,而这些参数是用来预测某一氨基酸序列将形成一个螺旋,一个测试链,或一个又一个蛋白质的概率的。该方法在确定正确的二级结构准确性约50-60%,这明显比现代机器学习技术的准确性要低。

  (2)GOR方法。

  GOR方法是一种基于信息论和贝叶斯统计学的方法,是统计算法中理论基础最好的。GOR将蛋白质序列当作一连串的信息值来处理,基本原理是将蛋白质的一级结构和二级结构看成一个转化过程的两个相互联系的信息;GOR方法不仅考虑被预测位置本身氨基酸残基种类的影响,而且考虑相邻残基种类对该位置构象的影响。为了避免大量的实验数据,GOR将信息函数分为多项式和的形式。

  (3)Lim方法-立体化学方法。

  氨基酸的理化性质对二级结构影响较大,在进行结构预测时考虑氨基酸残基的物理化学性质。立体化学是从三维空间揭示分子的结构和性能。手性分子是立体化学中极其重要的部分之一。同分异构在有机化学中是极为普遍的现象。立体异构是指分子中的原子或基团在空间的排列不同步产生的异构现象。利用不同氨基酸家族的性质差异来进行二级预测。

  (4)同源分析法。

  同源分析法是将待预测的片段与数据库中已知二级结构的片段进行相似性比较,利用打分矩阵计算出相似性得分,根据相似性得分以及数据库中的构象态,构建出待预测片段的二级结构。该方法对数据库中同源序列的存在非常敏感,若数据库中有相似性大于30%的序列,则预测准确率可大大上升。

  (5)BP神经网络算法。

  在生物信息学研究中,应用得最多的神经网络模型是多层前馈网络模型,这种模型使用最广泛的算法是BP算法,即反向传播算法。它属于有导师学习的算法。这种模型也叫BP神经网络。网络通过对已有氨基酸编码建立序列到结构,结构到结构的两层网络进行学习,预测的准确性上有极大的提高。

  3、方法分析

  蛋白质二级结构预测方法是首先预测蛋白质的结构类型,然后再预测二级结构。通过对各个方法的比较可以得到:

  (1)与传统经典方法相比,利用特征信息提取方法可涵盖序列统计特征、氨基酸物理化学特征、氨基酸片段位置分布三方面的信息,此方法可以较为全面地反映出蛋白质序列中有代表性的特征信息。

  (2)通过采用有效的特征挑选算法以及分类算法,既有效减少了信息的冗余,又提高了结构类预测模型的准确率。

  综上,本研究从信息学角度出发,系统地解决蛋白质信息提取、多特征信息组合及结构类预测等信息处理问题,有助于蛋白质的结构及功能研究,同时也对蛋白质序列分析、机器学习领域的发展有很大的帮助。

  (3)目前普遍使用的,考虑多条序列的方法,运用长程信息和蛋白质序列的进化信息,准确度有了比较大的提高。

  4、结语

  由上述的各种方法可以看出有很多方面的因素会影响蛋白质二级结构的预测,如目前已知的蛋白质太少,大部分处于未知阶段。

  针对目前的蛋白质数据库资源的贫乏性特点,如何选择适当的预测方法和评估准则将决定蛋白质预测的准确率的高低。因此在选择时应该多种方法综合利用,不仅包括各种预测方法的综合,而且也包括结构实验结果、序列对比结果、蛋白质结构分类预测结果等信息的综合。多个程序同时预测,综合评判得到一致结果;序列比对与二级结构预测;双重预测。对模型进行反复优化,以提高预测的准确率和实际价值。

  参考文献:

  [1]闫平凡,张长水.人工神经网络语模拟退火计算[M].北京:清华大学出版社,2000.

  [2]沈世镒,神经网络系统理论及其应用[M].科学出版社,2000.

  [3]唐媛李,春花,蛋白质二级结构的研究进展[J].现代生物医学进展,2013.

  [4]杨存荣,孙之荣,模式识别方法预测蛋白质二级结构的研究[N].清华大学学报(自然科学版),第32卷,第1期,1992.

  [5]王勇献,蛋白质二级结构预测的模型与方法研究[D].工学博士学位论文.

  预测蛋白质二级结构的快速方法 篇2

  摘要:

  基于空间约束的蛋白质结构预测方法是一种以已知结构为模板预测蛋白质结构的方法。其中,它提取了模板结构中的同源约束,结合力场中的立体化学约束,作为优化初始结构的条件,从而对初始结构进行调整,最终得到模型。本文主要综述了基于空间约束的蛋白质结构预测方法的原理,所涉及的空间约束,以及应用与软件。

  关键词:

  蛋白质结构预测;空间约束;同源模建

  近些年来,基因组计划为我们提供了大量的蛋白质序列。我们只有理解了新蛋白质的功能,基因组计划才能真正实现它的意义。为了描述,理解和操控蛋白质的功能,就必须首先确定蛋白质的结构。然而,实验方法测定蛋白质结构代价很高且费时费力。由于实验方法确定蛋白质结构存在缺陷和不足,蛋白质结构确定的速度跟不上序列测定的速度,且差距在不断扩大。因此,完全依靠实验方法确定蛋白质结构已经不能满足现实的需求[1]。上世纪70年代,人们发现蛋白质三级结构是由其一级序列决定的,这也就意味着可以从蛋白质序列中获取蛋白质三级结构的信息。这一发现为计算机预测蛋白质结构提供了理论依据。经过了40余年的发展,计算机预测蛋白质结构的技术日趋成熟。其中,同源模建方法是一种以已知结构的蛋白质为模板预测目标蛋白质结构的方法。因为一级序列的相似性越高,两个蛋白质的`三级结构的相似性也越高。

  同源模建方法是从模板序列和目标序列的比对开始的。合适的模板是同源模建得到好模型的基础。同源模建方法一般分为四个步骤:序列比对,模建结构,结构优化和结构评估[2]。

  不同的同源模建方法的区别主要体现在第二步模建目标模型上。最传统的也是使用最广泛的模建方法是刚体装配法。此方法使用从已知结构中获得的刚体结构信息组装模型。基于这类同源模建方法的程序有COMPOSER。另一类方法就是片段匹配法。片段匹配法,又称坐标重建法,是基于发现大部分的蛋白质结构片段都是聚类到大约100个结构分组中。搜索并确定其余原子坐标的方法一般是搜索所有已知结构或者是基于能量函数的构象搜索。第三类同源模建方法是基于空間约束的同源模建方法。由于这种基于约束的模建方法可以使用关于目标序列的各种不同的信息,所以它是所有同源模建方法中最有前途的[3]。

  1.基于空间约束的同源模建方法

  基于空间约束的同源模建方法通过目标序列与模板序列的比对结果,得到目标序列结构上的许多约束或者限制。这些约束通常是通过假设目标序列和模板序列上的相对应的距离和角度是相似的得到的。空间约束除了这些同源约束还包括:立体化学约束。然后使用空间约束来优化模型的初始结构,使模型结构对这些空间约束的违背最小,从而得到最终的模型结构。模型的初始结构可以通过距离几何法或真实空间优化法来实现。然后空间约束和力场数据项都被整合到一个客观函数中去。最后,在笛卡尔坐标系中当客观函数的函数值最小时,得到模型的最终结构。基于空间约束的同源模建方法的优势之一是不同来源的约束和限制都很容易被添加到同源约束中去。同样,基于空间约束的同源模建方法的进一步的发展也是因为各种约束的加入,使得这种方法更加完善。当然,好的优化算法的选择也是改善这种方法的途径[4]。

  1.1距离约束和距离几何法 最早的基于约束的蛋白质结构预测方法使用的约束一般都是距离约束,这些距离约束数据都是来自实验检测结果。PerJ Kraulis等人[5]提出了一种使用核磁共振数据确定蛋白质结构的方法,其中使用了蛋白质原子间的距离数据。Hiroshi Wako等人[6]应用距离约束法预测了牛胰蛋白酶抑制剂的三级结构。其中,他们考虑了氨基酸残基的亲疏水性,并且设定了螺旋与延伸结构和片层结构中的平均距离,合并了特定的半胱氨酸残基之间的二硫键的位置信息和五个特殊的残基对之间的确切距离信息。他们定义了一个客观函数,通过使用这一系列的距离约束数据,使客观函数最小化,从而确定目标蛋白质的最终结构。其中使用的距离约束数据都是通过对14个已知结构的蛋白质的距离数据的统计分析总结得到的。

  距离约束数据方便使用分子内部坐标表示,分子内部坐标仅仅体现保守结构特征的相对位置,而忽略分子的位置和方向。其他模建研究表明使用距离坐标系统处理分子内部结构约束问题非常有用。因为欧几里得变换群中的每一个几何特征不变量都可以用距离来表示,所以距离坐标系统可以替代笛卡尔坐标。笛卡尔坐标可以通过程序重新恢复。Havel TF等人[7]结合使用核磁共振数据和距离几何法确定了胰蛋白酶抑制剂的结构,并证明了使用该方法计算蛋白质的完整结构是可行的。使用距离几何法解决同源模建问题,就是一个确定具有同源性的蛋白质中结构相似的原子的分子内距离的过程。Andras Aszodi等人[8]设计了一种基于距离几何法的同源模建方法,这种方法能在相对较短的时间内得到大量的低分辨率的片段,它是通过一系列的嵌入折叠整个简化的模型,也就是把结构投射到逐渐减小的维度的欧几里德空间中去。

  1.2空间约束和真实空间优化法 基于空間约束的同源模建方法逐渐被人们认可,越来越多的其他类型的约束信息被添加到方法中来。这也使得这种方法越来越完善。Andrej Sali等人[9]开发了一种整合了多种空间约束的同源模建方法,其中包含的空间约束有Cα原子之间的距离约束,NO原子之间的距离约束,立体化学约束,主链二面角约束以及侧链二面角约束。这种方法的基本步骤是,首先,根据模板序列与目标序列的比对结果,从模板结构中提取相对应的同源约束,这些约束的展现形式都是概率密度函数,也就是每一个同源约束就产生一个概率密度函数;然后通过多目标函数法和共轭梯度算法来对得到的概率密度函数进行优化,得到最优解,即模型结构信息。

  Cα原子之间的距离约束,也就是约束目标蛋白质中两个不同氨基酸残基的Cα原子之间的距离的概率密度函数。这个概率密度函数也就是一个高斯分布,其中高斯分布的平均值是模板结构中对应残基的Cα原子之间的距离,标准差是通过已知结构中Cα原子之间的距离;两个比对序列的部分同源性;已知结构中这段距离两端的残基的部分溶剂亲和性;距离两端的残基离空位的平均距离四个参数根据相应的计算公式得到的。立体化学约束是根据标准力场数据对目标蛋白质中的原子位置的约束。其中涉及了原子距离,角度,二面角,所以立体化学约束函数也有很多种,比如高斯函数,余弦函数等等。构建这些约束函数所需要的参数也是来源于力场数据。蛋白质中主链骨架原子之间的键形成的二面角称为主链二面角。根据组成二面角的原子类别的不同,可以将主链二面角分为三类。其中,由于二面角位置的特殊性,第三类主链二面角的变化比较单一。正是这样,前两类二面角的变化就成了讨论主链二面角的关键。根据前两类主链二面角的变化,主链构象分为A,B,P,G,L和E六个类别。并且,每个主链二面角构象类别中的二面角分布都是一个高斯分布,这样每一个分布都可以用一个概率密度函数表示出来。在考虑目标序列中固定部位的主链构象的约束时,就使用六个类别的概率密度函数的一个加权和来表示。其中,每一个类别高斯函数的平均值,标准差和权重都是通过统计分析得到的。Andrej Sali等人[10]使用了一个含有1000个蛋白质的数据集,统计分析了不同残基类型情况下的主链二面角的类别分布,得到了每一个主链构象类别的高斯函数的平均值,标准差和权重三个参数的数据。

  1.3其他约束 同源模建方法得到的模型的可靠性很大程度上依赖于目标序列与模板序列的序列一致性。蛋白质超家族成员之间存在的结构差异不仅体现在空位区域上而且还体现在二级结构位置的移位。这就造成了同源模建方法的一个内在局限性。Saikat Chakrabarti等人[11]添加远距离模板中的保守片段作为额外的空间约束,在一定程度上改善了基于空间约束的同源模建方法的这一问题。他们使用主流的结构化片段的数据库SMoS,这个数据库整个了许多高保守结构的残基片段。他们利用了数据库中的残基片段的结构信息,将这些结构信息作为额外约束信息添加到同源模建方法中去。BooJALA V B Reddy等人[12]将二级结构信息和氨基酸长距离接触图添加到基于空间约束的蛋白质结构预测的方法中,改善了含有高比例螺旋或折叠结构的蛋白质的预测精度。

  2.软件与应用

  MODELLER是一款同源模建软件[13]。其中,使用的原理就是基于空间约束的蛋白质结构预测。简而言之,软件的输入项是模板序列与目标序列的比对结果,模板序列的结构文件和脚本文件。然后,MODELLER就能自动计算出目标序列中所有非氢原子的坐标。MODELLER软件中涉及到的空间约束包括:同源约束,立体化学约束,统计约束和其他额外添加的约束。软件没有界面交互系统,只能通过脚本进行使用。

  MODWEB是一种自动同源模建的网上服务器[14]。它接收一条以上的FASTA序列,然后在PDB数据库中搜索最可行的模板,并计算出提交的目标序列的模型。MODWEB使用的原理与MODELLER类似,只是在两个步骤进行了改进。它使用的模板搜索方法是序列结构比对,搜索使用的模板也不止一个。对于单个提交序列,MODWEB是通过邮件的形式返回结果。如果提交的序列不止一条或者包含结构时,返回的结果将被作为一个单独的数据集添加到蛋白质模型的相关数据集中。

  3.展望

  随着越来越多的蛋白质序列的三级结构被测定,同源模建的使用范围也不断扩大。其中,基于空间约束的同源模建方法是在所有同源模建方法中表现最好的方法。目前,对基于空间约束的同源模建方法的研究也越来越深入。许多额外的实验数据约束被添加到方法中来,比如,核磁共振数据,交联试验数据,荧光光谱实验数据,微电子图像重建实验数据和定点突变实验数据。实验数据约束的添加使基于空间约束的同源模建方法的预测结果更加的合理。

  总之,基于空间约束的同源模建方法具有能添加多种来源的数据约束的特点,是同源模建方法中与实验数据联系最深的方法,也意味着是最有潜力的方法。

  参考文献:

  [1] Yang Z, Jeffrey S. The protein structure prediction problem could be solved using the current PDB library[J].Proceedings of the National Academy of Sciences of the United States of America, 2005, 102(4):1029-1034.

  [2] Bino, John, Andrej, Sali. Comparative protein structure modeling by iterative alignment, model building and model assessment[J].Nucleic Acids Research, 2003, 31(14):3982-3992.

  [3] Martí-Renom M A, Stuart A C, Fiser A, et al. Comparative protein structure modeling of genes and genomes[J].Annual Review of Biophysics & Biomolecular Structure, 2000, 29(29):27-30.

  [4] Sánchez R, 07ali A. Comparative protein structure modeling as an optimization problem[J]. Journal of Molecular Structure Theochem, 1997:489-496.

  [5] Krauli P J, Jones T A. Determination of three-dimensional protein structures from nuclear magnetic resonance data using fragments of known structures[J]. Proteins Structure Function & Bioinformatics, 1987, 2(3):188-201.

  [6] Wako H, Scheraga H A. Distance-constraint approach to protein folding. I. Statistical analysis of protein conformations in terms of distances between residues[J]. Journal of Protein Chemistry, 1982, 1(1):5-45.

  [7] Havel T F, Wüthrich K. An evaluation of the combined use of nuclear magnetic resonance and distance geometry for the determination of protein conformations in solution[J]. Journal of Molecular Biology, 1985, 182(2):281-294.

  [8] András Aszódi, Robin EJ Munro, William R Taylor. Distance geometry based comparative modelling[J]. Fold Des, 1997, 2(3):S3-S6.

  [9] Andrej Sali, Blundell T L. Comparative protein modelling by satisfaction of spatial restraints[J]. Journal of Molecular Biology, 1993, 234(3):779-815.

  [10] ?Ali, Andrej, Overington J P. Derivation of rules for comparative protein modeling from a database of protein structure alignments[J]. Protein Science A Publication of the Protein Society, 1994, 3(9):1582-1596.

  [11] Chakrabarti S, John J, Sowdhamini R. Improvement of comparative modeling by the application of conserved motifs amongst distantly related proteins as additional restraints[J]. Journal of Molecular Modeling, 2004, 10(1):69-75.

  [12] Reddy B V B, Kaznessis Y N. Use of secondary structural information and C α -C α distance restraints to model protein structures with MODELLER[J]. Journal of Biosciences, 2007, 32(1 Supplement):929-936.

  [13] Eswar N, Eramian D, Webb B, et al. Protein Structure Modeling with MODELLER[M].Structural ProteomicsHumana Press, 2008:145-159.

  [14] Eswar N. Tools for comparative protein structure modeling and analysis[J]. Nucleic Acids Research, 2003, 31(13):3375-3380.

【预测蛋白质二级结构的快速方法】相关文章:

英语快速阅读的方法09-21

快速学韩语的方法09-13

快速学粤语的方法09-12

快速学会粤语的方法10-18

快速学习素描的方法09-20

钢琴快速弹奏方法09-20

女性快速健身方法10-01

街舞快速入门方法09-26

2017年二级建筑师《建筑结构》预测题及答案10-29

网站结构优化的方法08-08