比较转录组分析(一)—— 前提及概要
关于生信分析
生信分析中会用软件很重要,但我们也应当清楚每一步做了什么以及结果里包含了什么信息,我们能够从这些结果里获得哪些生物学意义,而不是糊里糊涂地跑了一套流程了事。
所以在很多方面我们还是应当具有基础的知识储备,在跑流程的过程里也应当清楚自己在做什么,为什么。
更新日志
2022-11-14 补充了分析的流程图
2022-11-21 补充修改了部分内容
2022-12-01 补充修改了部分内容
2023-07-03 精简了内容
2024-03-04 先前 RNA-seq Pipeline 文章的网站已经失效,因此进行了一定的补充修改
所需理论知识
- 一些基本的生物学知识。
- 一些基本的统计学知识。
- 一些基本的编程知识。
事实上并不是一定要知根知底才行,很多东西是可以边分析边学的,但是最基础的一些概念也要有,这里我推荐艾伯特先生的细胞生物学精要作为生物整体框架的理解,看完以后说不定能激发个人对生物的兴趣。而关于统计学方面的知识可能就看个人需求了,但是应该至少清楚自己在分析中所使用的统计学方法的具体原理和假设,以确定自己的分析应用在了正确的场景中。
至于编程方面,主要就是 Python
和 R
,前者在数据挖掘和数据处理方面异常优秀,而后者则能帮助进行多样的统计及绘图(当然 Python
也可以,不过实现起来可能没有 R
那么方便),因此学会这俩的加分是非常多的。
补充:对于 Python
的基础入门,我推荐 Python编程:从入门到实践(第2版)。
补充:对于 R
的基础入门,我推荐 R语言实战 第二版(这里还涉及到了非常多的统计学知识,因此强烈推荐)。
比较转录组概论
什么是转录组
狭义上来说指的是生物的 mRNA 集合,这是一般我们做真核生物转录组分析时涉及到的概念。
广义上来说指的是生物所有转录产物的集合,包括但不限于 mRNA
tRNA
lncRNA
rRNA
miRNA
snRNA
等等。
而如果从广义上出发,就会出现非常多样的转录组分析,感兴趣可以移步 BGI 的研究内容介绍。
什么是比较
网上对于 “比较转录组” 的定义多倾向于分析不同物种或亚种间 mRNA 序列差异进而探索近源物种间的亲缘关系,而无参转录组上的差异表达分析则被称作 “转录组的比较” 。但其实许多涉及到基因表达分析的 paper 所指向的主题都是 Comparative transcriptome,随便举几个在 ScienceDirect 上搜的例子:
Comparative transcriptome analysis of sensory genes from the antenna and abdomen of Quadrastichus mendeli Kim
Co-expression networks regulating cotton fiber initiation generated by comparative transcriptome analysis between fiberless XZ142FLM and GhVIN1i
Comparative transcriptome analysis of differentially expressed genes in Bradysia odoriphaga Yang et Zhang (Diptera: Sciaridae) at different acute stress temperatures
而对于探索亲缘关系的转录组研究近些年也有个词在兴起,叫做系统发育转录组学(Phylotranscriptomics),不过大部分使用转录组进行系统发育分析的文章挂的关键词依然是 Phylogenomics 所以建议不要仅用前者作为关键词检索文献。
但说到底每个名词的定义终究是带有主观成分的,所以也不必掐的那么死板,重要的是心里要有个大致的概念和理解。对我来说这两种分析是可以一起做的,因此在这里我就放在一起讨论。
比较转录组的经典分析流程
一般的实验及分析流程:
湿实验
送测
干实验
- 数据质控
- 转录组组装
- 质量检测
- 注释
- 差异表达分析
- 富集分析
- 更多拓展(基因家族、进化等相关问题)
比较转录组分析能够做什么
揭示抗胁迫机制、揭示系统发育关系、揭示受选择基因…
这个只能说主要得看为了什么而做这些分析,而不是看分析后能做什么。
同时,虽然分析具有指向性,但是分析不是为了得到想要的结果,出现很多意料之外的情况也是很正常的事。
此外也不能说分析的结果如此,真相就是如此,分析的结果只能提供一个见解,而不能得到一个定论。
“Thus evolutionary achievements can be used as hints to suggest possible lines of research, but it is highly dangerous to trust them too much. It is all too easy to make mistaken inferences unless the process involved is already very well understood.“
—— Francis Crick, What Mad Pursuit: A Personal View of Scientific Discovery (1988)
后续
有个知乎老哥讲的比较转录组介绍写的很好,里面提到的很多事情值得记一记,包括为何选择转录组而不选择基因组等等问题都有介绍,大家感兴趣也可以去看一看。
如果你觉得转录组分析真的好麻烦
恰好这一段时间看到了一篇论文,讲的是他们那个团队研发了个转录组分析的平台,把一些常见的分析流程给 pipeline 化了(主要是利用了现在
Trinity
完善的 pipeline 包装)。我看了下流程还是非常正的,主要的无参转录组分析都有,一些关键参数也可根据实际需求进行相应调整,或许对于一些不是很想花费精力在软件学习上以及对计算机语言真的无感的人会很有帮助,如果感兴趣的话论文传送门在这里,网站传送门在这里。
来自
2024-03-04
补充:以上网站已失效,或许是因为作者预想中的高引用并没有出现。
本想着更新一些新的可用的 Pipeline 放上来,但是经过一番搜查找到的 Pipeline 大多都是针对有参转录组的,考虑到该文章系列的后续内容都是围绕无参转录组展开,因此这里就不再更新,建议想要寻找 Pipeline 的朋友直接从文章入手去扒代码。
当然你也可以尝试使用
snakemake
自己搭建一个 RNA-seq 数据分析的 Pipeline。不过如果 RNA-seq analysis 对你来说并不需要重复很多次,那么也不需要在这上面浪费过多的精力,只需做好代码记录和版本控制即可。来自
2024-07-06
补充:站内 Snakemake 教程请参阅文章开头传送门。
虽然这个网站上没有涉及到的功能依然有很多,但随着生信领域的迅速发展,越来越多被打包好的 Pipeline 也在不断出现,这些 Pipeline 极大程度地降低了生信分析的难度,即便是一个刚入门的人只需要稍微了解就可以跑一套完整的流程,甚至乎许多顶刊在进行分析的时候也是用的其他研究者开发好的各种参数都进行了精挑细选的 Pipeline。就拿系统发育分析来说,Phylosuite 就是一个很好的例子。
综上,如果想要在短时间内取得不错的成果(以结果为导向)的话,也可以多看几篇文章,或许就能找到一个不错的 Pipeline(也有可能研究者会把 ta 的代码开源到 github 上,这种情况可以把代码扒过来换成自己的数据运行即可),找不到也并没有什么关系,至少也能学习到相关的方法和分析思路。
当然如开篇所说,跑流程的过程里也应当清楚自己在做什么,为什么。所以即便不想花时间学习各种跑命令和数据处理的方法,也还是需要了解跑的命令中每个参数是什么意思,有什么作用。针对自己的数据设计一个合理的参数,最后得到的结果才会更加清晰准确。