在蛋白质结构研究里,比较不同蛋白质结构之间的相似性是一个核心任务,尤其是在结构预测、同源建模和结构功能关系研究中。以下是一些常用到的衡量蛋白结构间相似性的指标:

  • RMSD(均方根偏差):该值是衡量两种蛋白质三维结构之间原子位置差异的标准度量。较小的 RMSD 值意味着两个结构相似度较高,RMSD 值对大分子在全局对齐时的大小和形状变化非常敏感。
  • TM-score:相较于 RMSD,TM-score 更加关注结构的全局相似性,且对于蛋白质的尺寸和形状变化具有更高的鲁棒性。TM-score 的值介于 0 到 1 之间,值越接近 1,表示两个结构越相似。

本文将介绍如何使用 US-align 对两个蛋白结构进行 align(对齐)并计算其 RMSD 及 TM-score。

US-align

US-align github page:

https://github.com/pylelab/USalign

该软件的研究团队也同样是 TM-align 的开发者。相比其他的计算工具,US-align 有以下优点:

  • 支持比对除蛋白质以外的生物大分子及其复合物(例如 DNA / RNA 等)。
  • 通过改进的计算方法从而实现高效及准确的比对过程。

下文介绍的为其本地部署的使用方式,如果你没有在本地大量运行的需求,也可以使用网页版:

https://zhanggroup.org/US-align/

安装

推荐通过 conda 安装 US-align:

1
conda install -c bioconda usalign

在安装后,可通过 USalign -h 查看是否能正常工作:

1
2
3
4
5
6
7
8
9
10
11
12
13
$ USalign -h

********************************************************************
* US-align (Version 20240730) *
* Universal Structure Alignment of Proteins and Nucleic Acids *
* Reference: C Zhang, M Shine, AM Pyle, Y Zhang. (2022) Nat Methods*
* C Zhang, AM Pyle (2022) iScience. *
* Please email comments and suggestions to [email protected] *
********************************************************************

Usage: USalign PDB1.pdb PDB2.pdb [Options]

......

参数

这里仅对其最重要的几个参数进行介绍,介绍完后将提供部分运行示例。

  • -mm:该参数为比对选项,其默认值为 0,对应两个单体结构(monomer)的比对

    • -mm 设置为 1 时,对应两个寡聚体结构(oligomer)的比对。如果结构文件中涉及到多条链,使用该参数以正常工作(如果未设置,则默认取第一条链进行比对)。
    • 其余 -mm 的设置对应的应用场景较特殊,例如 -mm 2 将单条链与寡聚体结构进行比对(适用于确定单个蛋白链在寡聚化的构象变化)、-mm 6 为半非连续比对(允许有限的重排)。
  • -ter:该参数指定比对的链数量,其默认值为 2,对应仅比对第一条链。

    • -mm 设置为 1 或 2 时,-ter 仅可选择 0 或 1。其中 0 适用于比对不对称单元,1 适用于比对生物学单元(例如血红蛋白四聚体)。这一部分的概念介绍可见此处
    • -ter 设置为 3 时可选择性地仅比对第一条链的其中一部分(将该部分标记为 'TER' 以进行识别)。

此外,US-align 也提供了批量比对的功能以及其他调整比对行为的参数,详细请通过 USalign -h 查看。本文不再对此进行更多延申。

运行示例

本文以两个 PDB 上的结构 2PGH3GOU 作为示例进行比对:

1
2
3
4
5
6
# 数据下载
wget https://files.rcsb.org/download/2PGH.cif
wget https://files.rcsb.org/download/3GOU.cif

# 比对
USalign -mm 1 -ter 1 ./2PGH.cif ./3GOU.cif -o HEMOGLOBIN
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
 ********************************************************************
* US-align (Version 20240730) *
* Universal Structure Alignment of Proteins and Nucleic Acids *
* Reference: C Zhang, M Shine, AM Pyle, Y Zhang. (2022) Nat Methods*
* C Zhang, AM Pyle (2022) iScience. *
* Please email comments and suggestions to [email protected] *
********************************************************************

Name of Structure_1: ./2PGH.cif:A:B:C:D (to be superimposed onto Structure_2)
Name of Structure_2: ./3GOU.cif:C:D:A:B
Length of Structure_1: 574 residues
Length of Structure_2: 574 residues

Aligned length= 574, RMSD= 1.03, Seq_ID=n_identical/n_aligned= 0.815
TM-score= 0.98690 (normalized by length of Structure_1: L=574, d0=8.41)
TM-score= 0.98690 (normalized by length of Structure_2: L=574, d0=8.41)
(You should use TM-score normalized by length of the reference structure)

(":" denotes residue pairs of d < 5.0 Angstrom, "." denotes other aligned residues)
VLSAADKANVKAAWGKVGGQAGAHGAEALERMFLGFPTTKTYFPHFNLSHGSDQVKAHGQKVADALTKAVGHLDDLPGALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHHPDDFNPSVHASLDKFLANVSTVLTSKYR*VHLSAEEKEAVLGLWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGDLSNADAVMGNPKVKAHGKKVLQSFSDGLKHLDNLKGTFAKLSELHCDQLHVDPENFRLLGNVIVVVLARRLGHDFNPDVQAAFQKVVAGVANALAHKYH*VLSAADKANVKAAWGKVGGQAGAHGAEALERMFLGFPTTKTYFPHFNLSHGSDQVKAHGQKVADALTKAVGHLDDLPGALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHHPDDFNPSVHASLDKFLANVSTVLTSKYR*VHLSAEEKEAVLGLWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGDLSNADAVMGNPKVKAHGKKVLQSFSDGLKHLDNLKGTFAKLSELHCDQLHVDPENFRLLGNVIVVVLARRLGHDFNPDVQAAFQKVVAGVANALAHKYH*
::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::.*:::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::.*:::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::*:::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::.*
VLSPADKTNIKSTWDKIGGHAGDYGGEALDRTFQSFPTTKTYFPHFDLSPGSAQVKAHGKKVADALTTAVAHLDDLPGALSALSDLHAYKLRVDPVNFKLLSHCLLVTLACHHPTEFTPAVHASLDKFFAAVSTVLTSKYR*VHLTAEEKSLVSGLWGKVNVDEVGGEALGRLLIVYPWTQRFFDSFGDLSTPDAVMSNAKVKAHGKKVLNSFSDGLKNLDNLKGTFAKLSELHCDKLHVDPENFKLLGNVLVCVLAHHFGKEFTPQVQAAYQKVVAGVANALAHKYH*VLSPADKTNIKSTWDKIGGHAGDYGGEALDRTFQSFPTTKTYFPHFDLSPGSAQVKAHGKKVADALTTAVAHLDDLPGALSALSDLHAYKLRVDPVNFKLLSHCLLVTLACHHPTEFTPAVHASLDKFFAAVSTVLTSKYR*VHLTAEEKSLVSGLWGKVNVDEVGGEALGRLLIVYPWTQRFFDSFGDLSTPDAVMSNAKVKAHGKKVLNSFSDGLKNLDNLKGTFAKLSELHCDKLHVDPENFKLLGNVLVCVLAHHFGKEFTPQVQAAYQKVVAGVANALAHKYH*

#Total CPU time is 1.05 seconds

在其屏幕输出中,可以看到比对的详细情况(包括计算得到的 RMSD 以及 TM-score)。该过程里你可以将屏幕输出保存到一个文件中,以便后续查看,此外你也可以通过 -outfmt 2 参数,将其转化为更简洁的形式:

1
2
3
$ USalign -mm 1 -ter 1 ./2PGH.cif ./3GOU.ci2 -outfmt 2 -o HEMOGLOBIN
#PDBchain1 PDBchain2 TM1 TM2 RMSD ID1 ID2 IDali L1 L2 Lali
./2PGH.cif:A:B:C:D ./3GOU.cif:C:D:A:B 0.9869 0.9869 1.03 0.815 0.815 0.815 574 574 574

在运行上述示例后,你可以在运行目录里看到以下新增文件:

  • HEMOGLOBIN.cif:Structure1 的晶体文件,此处各原子的坐标根据比对结果进行了修改。
  • HEMOGLOBIN_*.pml:用于输入给 PyMol 进行比对结果可视化的文件。不同的 pml 文件对应不同的可视化方式。

你可以运行以下命令安装 PyMol 并可视化比对结果:

1
2
3
4
# 安装
conda install schrodinger::pymol
# 可视化
pymol -c -d @HEMOGLOBIN_all_atm.pml -x 3000 -y 3000 -g HEMOGLOBIN_all_atm.png
红色和蓝色分别对应两个比对的结构

如果你想要输出的图片更清晰,也可以手动对 pml 文件进行调节,按照 PyMol 的命令方式对其添加抗锯齿并增大分辨率,修改相关设置后的图片示例可见此处。你也可以将两个结构加载到交互式 PyMol 应用程序中进行调节。

参考材料

  1. Zhang et al. 2022, Nat Methods: US-align: universal structure alignments of proteins, nucleic acids, and macromolecular complexes

  2. 不对称单元与晶胞,生物单元概念解析:https://www.novopro.cn/articles/201904261180.html