比较转录组分析(二)—— 原始数据的质控与转录组组装
generatePortalLinks(2);
前言这次文涉及到的主要是原始数据的质控与转录组组装,包括一些小知识例如如何判断数据受污染。
更新日志2022-11-18 补充了在 for loop 和 while loop 中使用 & 的需警惕之处。
2022-11-21 补充修改了部分内容。
2022-12-05 更新了物种参考转录组的一些小知识。
2023-07-03 精简了内容。
原始数据的质控提醒后续所提及的测序数据皆为二代测序的双端数据。
二代测序的原理可以搜索 illumina 的下一代测序(NGS)原理介绍视频观看学习(illumina 的测序特点在于桥式扩增,其他测序公司可能略有不同但原理上是一致的,例如 BGI 的滚环扩增)。
所需要的软件有 FastQC、MultiQC、Trimmomatic、Cutadapter(可选)。
需要提前了解的:
测序数据文件中每一行所代表的意思。
123456@V350095853L2C001R0010000000/1GCCCCAACGAAACATCTTACTTGATAAGAATAAAAAACCTTAAACTT ...
比较转录组分析(一)—— 前提及概要
generatePortalLinks(1);
关于生信分析生信分析的重头当然在于使用软件,同样我们也应当清楚每一步的意义以及结果里包含了什么信息,我们能够从这些结果里获得哪些生物学意义,而不是糊里糊涂地跑了一套流程了事。
所以在很多方面我们还是应当具有基础的知识储备,在跑流程的过程里也应当清楚自己在做什么,为什么。
更新日志2022-11-14 补充了分析的流程图
2022-11-21 补充修改了部分内容
2022-12-01 补充修改了部分内容
2023-07-03 精简了内容
2024-03-04 先前 RNA-seq Pipeline 文章的网站已经失效,因此进行了一定的补充修改
所需理论知识
一些基本的生物学知识。
一些基本的统计学知识。
一些基本的编程知识。
事实上并不是一定要知根知底才行,很多东西是可以边分析边学的,但是最基础的一些概念也要有,这里我推荐艾伯特先生的细胞生物学精要作为生物整体框架的理解,看完以后说不定能激发个人对生物的兴趣。而关于统计学方面的知识可能就看个人需求了,但是应该至少清楚自己在分析中所使用的统计学方法的具体原理和假设,以确定自己的分 ...
生信导论
前言事实上在写这篇博的时候我是十分纠结的,因为我既算不上入坑生信许久的高深经验者,也不是什么发表过牛逼文章的大佬,要往最高的方向面说的话,我的含金量最高的身份也可能只是帮导师打打项目杂工的助手罢了。要说我在生信上是否已经有了一定参悟,我也没法得出个确切答案,但是我偏有信心的点是,我是一个对于生物信息学足够热忱的人(rookie)。
所以这一篇文章更多的目的还是回顾自己的所学所得所感。如果碰巧被大佬看到,也请大佬在评论区斧正错误的观点,望共勉。
什么是生信?这个问题的答案事实上也很清楚,生物信息学事实上就是一门通过分析生物信息来探索生物的学科,属于生命科学与计算机科学的交叉学科,目前来看,这门学科已经有了相当庞大的规模,事实上随便翻一篇跟生物有关的论文,里面都或多或少夹杂着生信的学问。
对于我而言,这个问题让我纠结的事实上是作为一个生信研究者,我的重点应该是生物还是计算机,亦或是两者缺一不可。这个问题,我的老板已经给了我明确的答案,也即每个实验室都有不同的重点。
就我个人经验而言,目前大部分的人学习生信都是为了去研究生物的,就像技术的研发和应用里,我们很多人是会偏向于后者,而从事前者这类 ...