介绍
蛋白质是生命的基本组成部分,研究蛋白质功能是生物学、生物化学和医学等领域的基础。要了解蛋白质如何发挥作用以及它如何与其他结构相互作用,弄清其三级(三维)结构至关重要。
传统上,蛋白质结构是通过繁琐的实验室方法确定的,包括 X 射线晶体学和核磁共振 (NMR) 光谱学。虽然这些技术无疑是准确的,但它们的成本和缺乏可扩展性导致药物开发等领域出现重大瓶颈。现代蛋白质工程师需要在几天内(而不是几个月或几年内)确定大量蛋白质结构。因此,结构预测的计算方法正迅速成为表征蛋白质结构的首选方法。
如今,一些软件算法可以根据蛋白质的氨基酸序列预测其结构,其准确度可与实验室方法相媲美。随着计算生物学的最新进展,计算机预测可以成为一种快速、廉价且可靠的蛋白质结构确定方法。
AlphaFold 2 于 2020 年推出,在一项全球客观测试中被发现是预测单链蛋白质结构的最准确算法。AlphaFold-Multimer 是 AlphaFold 2 的较新扩展,旨在预测多链蛋白质复合物(也称为“多聚体”)。这两种算法都可以在线免费访问,但对于那些希望利用它们优势的人来说,存在许多障碍。
使用软件预测蛋白质结构
无论软件多么方便用户使用,结构预测和分析工作流程都涉及数十个步骤。例如,单击按钮更改结果显示的颜色方案在技术上算作一个步骤。在本章中,我们将采用更高层次的方法,讨论此工作流程中涉及的四个“大局”步骤。
步骤 1 – 获取目标蛋白质的氨基酸序列
您可以从免费的在线数据库(例如 UniProt 或 NCBI Protein)下载您研究感兴趣的蛋白质序列。或者,您可以对生物样本中的 DNA 进行测序,然后使用软件组装读数并将共识序列转化为蛋白质序列。
第 2 步 - 选择合适的预测算法
目前已发布的结构预测算法有数百种,其中许多算法免费向公众开放。那么,如何才能选择最适合您目的的算法呢?
一个很好的起点是看看两年一度的蛋白质结构预测关键评估 (CASP) 实验的最新获奖者。(多聚体特定竞赛称为相互作用预测关键评估 (CAPRI),始于 2003 年,并于 2014 年与 CASP 合并)。这项国际竞赛是客观地对蛋白质折叠算法的准确性进行排名的方式。每两年,预测算法的开发人员都会被邀请使用他们的专有算法来预测一组蛋白质序列的三维结构。然后,CASP 的工作人员将预测的结构与实验得出的结构进行比较,这些结构在结果公布之前都不会发表。
虽然近期的 CASP 获奖者是选择单链蛋白质算法的良好起点,但需要注意的是,总体“最佳”折叠方法可能并不总是适合您的特定蛋白质的最佳方法。您可以通过使用两种或多种折叠预测方法并对结果进行比较分析来获得有价值的信息。
步骤 3 – 使用软件预测结构
结构预测算法可作为在线实用程序、可下载程序(通常需要通过命令行或终端运行)或受支持的商业软件应用程序使用。
商业应用程序提供了简化的工作流程和图形用户界面,只需很少的手动操作时间。但是,这些应用程序的成本很高。
相比之下,开源解决方案虽然免费使用,但通常需要花费大量时间学习,而且通常需要 IT 专家团队的持续参与。在大多数情况下,最终用户还必须熟练使用命令行输入复杂的指令。如果没有全面的用户指南或支持团队,使用开源软件的研究人员必须依靠论坛来获得问题的答案。掌握工作流程后,可能仍需要大量的动手时间来设置和提交每个预测。
在商业和开源蛋白质预测软件之间进行选择时,您不仅需要权衡购买价格,还需要权衡使用它们所需的培训量、实际操作时间和计算机资源。
步骤 4 – 分析预测结构
如果您想要查看和分析 PDB 数据库中已有的结构,则可以使用 RSCB 内置的三维 (3D) 结构查看器。但是,当您处理新颖的结构预测时,您将需要使用可以打开本地保存的蛋白质结构的查看器。与预测步骤一样,蛋白质结构查看器有多种商业和开源类型(PDB网站上的开源应用程序列表)。
为了节省时间和培训资源,最好使用单个应用程序来运行结构预测并查看输出模型。大多数商业蛋白质结构预测应用程序都支持查看和分析结果模型。但是,如果您使用开源预测软件,则可能需要找到、安装和掌握一个单独的应用程序来完成此分析步骤。