基因组中,某些特殊的突变过程可能会导致一小段区域内连续的突变发生。这些突变在基因组中呈现成簇分布,因此被称作 clustered mutation(本文将称其为簇突变)。研究这些突变的分布及组成有助于我们揭示导致其发生的内源性和外源性过程。该文章将主要讲述簇突变的类别并列举一些会导致特定类别的生物学原因,同时介绍该领域中的某些生物信息学工具等。

簇突变类型

簇突变类型主要被分作六类,其中五类针对碱基水平的变化,一类针对插入及缺失(InDel):

  • DSB(Doublet Base Substitutions):双碱基替换,表示这两个突变发生在相邻的碱基上。某些外源性过程例如紫外线损伤会导致双碱基替换的发生(CC>TT),此外 DNA 修复缺陷和聚合酶功能突变也会导致 DSB 发生。

  • MBS (Multiple Base Substitutions):多碱基替换,表示在很短的序列范围内发生多个碱基突变且这些突变彼此相邻。由于该簇突变的出现数量很有限,因此尚未得到全面研究。

  • Omikli:源自希腊语,意为 薄雾,也被称作 diffuse hypermutation(弥漫性超突变),表现为 IMD(Inter-Mutation Distance,突变间距)小于预期的少数几个碱基突变(两到三个)。多种外源过程可导致 Omikli 事件,内源过程则有单链错配修复等。

  • Kataegis:源自希腊语,意为 暴雨。其本质上是 Omikli 的更大规模事件。表现为 IMD 小于预期的多个碱基突变聚集在一起。当前认为大多数导致 Kataegis 的过程都归因于 AID/APOBEC 家族(Omikli 也受部分影响),与双链断裂具有一定关系。

  • Other:IMD 小于预期但是 VAF(Variant allele frequency,突变等位基因频率)不相等的一些碱基突变聚集在一起。而上述几种突变类型中,一个 clustered mutation group 里所包含的突变 VAF 都相同

    • 如果簇突变在同一个事件中发生(也可以当作在同一个细胞中发生),那么这些突变的细胞谱系树将完全相同,因此最后得到的 VAF 预期一致。不同则表明这些突变是在多次突变事件中独立发生的。Other 类型的突变可能表明其所处的基因组区域本身突变率高,所以严格意义上讲它并不算主流研究中关注的簇突变。

  • indels:IMD 小于预期的插入或缺失事件。与微卫星不稳定性有关并常见于错配修复缺陷的细胞中。

Refer: https://osf.io/qpmzw/wiki/2.%20Workflow/

簇突变的确定

一般而言,确定簇突变的步骤如下:

  1. 计算一个 IMD 阈值。
  2. 对基因组上的突变进行判断,如果存在与其距离低于 IMD 阈值的突变,则认为其是簇突变。

在一些比较久之前的文章中,IMD 的阈值是直接人为确定的。例如 Supek 等人采用了以下判断标准:

①、突变之间的距离 <= 500bp。

②、突变的类型必须相同(例如都为 C>T)且链对应(例如 C 都在正链上)。

这种划分方法虽然在一定程度上可靠,但是并不适用于所有应用场景,且不同研究采取的标准也不完全相同(例如阈值大小),导致不方便整合比较。

随着期刊对分析的可靠性要求越来越严格,现在已经有许多用于分析簇突变的生物信息学工具被开发出来,它们采用了更加严谨的策略并且保证了可再现性,例如突变特征分析领域的主流工具套件 SigProfiler 中也提供了用于分析簇突变的 SigProfilerClusters。其运行过程大致如下:

①、根据突变的上下文(周边序列)等信息,对突变的位置进行打乱重排,以模拟随机情况下的突变分布情况。

②、根据真实数据与模拟数据的突变分布计算出每个样本的 IMD 阈值。

③、根据基因组各个窗口内的突变率对 IMD 阈值进行校正。

④、根据簇突变的 VAF 等信息对其进行分类。

该团队使用该工具对 PCAWG 项目的数据进行了分析,系统阐述了各癌症类型中的簇突变景观,并发现了 APOBEC3 Kataegis 对 Extrachromosomal DNA (ecDNA) 的作用(Bergstrom et al. 2022, Nature)。

参考资料

  1. 常见的 DSB 特征及生物学成因:https://cancer.sanger.ac.uk/signatures/dbs/
  2. Clustered Mutation Signatures Reveal that Error-Prone DNA Repair Targets Mutations to Active Genes, Cell 2017
  3. Examining clustered somatic mutations with SigProfilerClusters, Bioinformatics 2022
  4. Mapping clustered mutations in cancer reveals APOBEC3 mutagenesis of ecDNA, Nature 2022