蛋白质组学

蛋白质二级结构预测

首先蛋白质二级结构主要有4类:\(\alpha\)螺旋、\(\beta\)折叠、转角和环、无规则卷。 蛋白质二级结构预测的基本依据在于每一段相邻氨基酸残基具有形成一定二级结构的倾向,其主要是解决模式分类的问题,并预期达到的目标是判断每一段中心的残基是否处于\(\alpha\)螺旋、\(\beta\)折叠、转角(或其他状态)之一的二级结构态,即三态。

二级结构预测的方法分为3代:统计学方法、基于立体化学原则的物理化学方法、神经网络与人工智能。 - 其中统计学的方法主要是基于单个氨基酸统计分析,从有限的数据集中提取各个残基形成特定二级结构的倾向,以此作为二级结构预测的依据。如Chou-Fasman方法,其通过统计分析获得每个残基出现于特定二级结构构象的倾向因子,进而利用这些倾向因子预测蛋白质的二级结构。其主要步骤是扫描输入的氨基酸序列,利用一组规则(主要有\(\alpha\)螺旋规则、\(\beta\)折叠规则、转角规则和重叠规则)发现可能成为二级结构成核区域的短序列,然后对成核区域进行扩展,直到平均倾向因子小于1.0为止。 - 第二代方法是考虑氨基酸残基的物理化学性质,如疏水性、极性、侧链基团的大小等,根据残基各方面的性质及残基之间的组合预测可能的二级结构。 - 第三代方法是通过对一个蛋白质家族序列比对得到进化信息,计算个残基的保守程度,同时引入长程信息,描述其结构特征。如PHDsec算法,其基于神经网络系统进行二级结构预测。其主要步骤是将目标序列进行blastp查询swiss-prot数据库中的同源序列,过滤结果后在clustalw进行多序列比对得到进化信息,将进化信息作为神经网络的输入并进行计算,另外还采用20种氨基酸描述蛋白质序列的全局信息,根据局部序列间关系和整体蛋白质性质来预测残基二级结构。

蛋白质三级结构预测

蛋白质三级结构预测的方法主要有3类:同源建模法、折叠识别法、从头预测法。 之所以要对蛋白质三级结构进行预测,主要是是基于实验验证的蛋白质三维结构数据太少。 - 同源建模法(homology modeling)也称为比较建模法,是一种基于知识的蛋白质结构预测方法。根据对蛋白质结构数据库PDB中的蛋白质结构比较分析研究得知,任何一对蛋白质,只要序列相似度超过30%,则可以保证他们具有相似的三维结构。同源建模的主要步骤为模板搜寻、序列比对、结构保守与寻找、目标模型搭建、结构优化和评估。主要的同源建模服务器有SWISS-MODEL、EsyPred 3D、Predict Protein等。 - 折叠识别法(fold recognition)也称为穿线法,其主要对于进化上远距离的蛋白质,即使序列具有很低的相似性,但仍然可能具有相似的结构。穿线法的主要步骤为目标蛋白序列与已知的折叠进行匹配,寻找最好的的折叠结构作为建模的模板、将目标序列的“线”穿到模板的折叠结构上,计算目标序列穿到每一个已知结构中的能量,寻找能量最低的一种穿法以及对应的结构。穿线法主要使用I-TASSER,其准确性最高。 - 从头预测法,从蛋白质的一级结构出发,根据物理化学、量子化学、量子物理的基本原理,利用各种理论方法计算蛋白质序列所有可能构象的能量,然后从中找到能量最低的构象,作为蛋白质的天然构象。从头预测法主要由3部分组成:首先找到表示蛋白质几何结构的方法,如使用一个或少数几个原子代表一个氨基酸的残基;在构建能量函数及其参数,以便计算各种构象的能量,且一般通过已知结构的蛋白质进行统计分析以确定能量函数中的各个参数;构象空间搜索技术,对构象空间进行快速搜索,找到全局最小能量相对应的构象,常使用分子动力学模拟、基于蒙特卡洛模拟的构象搜索。从头预测的方法主要由Rosetta、QUARK、AlphaFold(2)。 - 混合使用,David Baker建立一个名为Robetta服务器将穿线法、同源建模识别和从头预测整合在一起,可以作为弱同源模板结构的蛋白质结构预测工具。

CASP

最新的CASP15的6大内容: - 单体蛋白和结构域建模Single Protein and Domain Modeling:与之前的CASP一样,将使用已建立的指标评估为单体蛋白质和单个蛋白质结构域建模的准确性。 - 蛋白质装配Assembly:将评估当前方法正确建模 域-域,亚基-亚基和蛋白质-蛋白质相互作用的能力。 - 准确性评估:参赛者被邀请提交多聚体复合体和亚基间界面的精度估计。 - RNA结构和复合物:将有一个预实验来评估RNA模型和蛋白质-RNA复合物建模的准确性。 - 蛋白质-配体复合物:深度学习已经在蛋白质-配体复合物预测方面产生了影响,这类预测与药物设计密切相关。 - 蛋白质构象集群(ensembles):随着深度学习方法在单一结构预测方面的成功,评估预测整体结构的方法变得越来越重要。


蛋白质组学
https://bacontesla.github.io/blog/9-蛋白质组学以及结构预测/
作者
Bacon Tesla
发布于
2023年9月4日
许可协议