比较转录组分析(三)—— 组装的质量检测与去冗余
generatePortalLinks(3);
前言前文提到怎么组装数据,这里探讨下如何判断组装质量。
讲完组装质量后,再讲一讲去冗余的概念以及为何要去冗余,去冗余的方法有哪些等。
更新日志2022.11.22 补充了在进行后续分析前给 Contig 添加物种名前缀的内容,补充了后记内容,添加了部分粗体。
2022.12.06 补充了一些内容
2023.07.03 精简了内容
组装质量评估N50 —— 评估指标计算 N50 时,首先会把组装中所有 碱基 的个数统计出来,比如 ATCG 就是四个碱基。
统计出来后,将 Contig 按照它们的长度依次排列,从长到短。
排列完以后,从最长的 Contig 开始,计算它的碱基数量并加和起来,当计算到某一条 Contig 时所加和起来的碱基数量到达了组装所有碱基数量的一半时,这一条 Contig 的长度就是 N50 的数值大小。
N50 可以反应组装的细碎程度,当其很小时,表明组装出来的 Contig 整体较短的。
想要统计这一系列组装信息可以使用 Trinity 自带的脚本进行(低版本没有):
12$ locate Trini ...
常见的一些 linux 实用命令(持续更新)
这次文涉及到的主要是我在使用 linux 系统时会常使用的命令。
该文仅作笔记用,如果某些奇思妙想能够帮助到其他人也是挺好的。
screen执行在服务器上创造一个如果不终止则将一直存在的终端,不随着关闭自己的终端而消失,而是一直存在于服务器的后台里,并执行其中运行的命令。
常用指令:
1234$ screen -R xxx # 创建并进入 xxx 终端。$ screen -r xxx # 进入已有的 xxx 终端。$ screen -d # 退出当前终端到自己的终端$ screen -ls # 浏览当前所有创建的终端,如果显示 Detached 则表示不在里面,显示 Attached 则反之。
如果要关闭所创建的终端,建议先进入这个终端看看是否还有命令正在运行,确定没有遗漏后,再在这个终端中输入 exit 退出。
df -h & htopdf -h 可以知道还剩余多少空间
htop 直观展现内存占用情况,可以根据剩余的内存合理地设置软件的相关参数。
nohupnohup 英文全称 no hang up(不挂起),用于在系统后台不挂断地运行命令,退出 ...
比较转录组分析(二)—— 原始数据的质控与转录组组装
generatePortalLinks(2);
前言这次文涉及到的主要是原始数据的质控与转录组组装,包括一些小知识例如如何判断数据受污染。
更新日志2022-11-18 补充了在 for loop 和 while loop 中使用 & 的需警惕之处。
2022-11-21 补充修改了部分内容。
2022-12-05 更新了物种参考转录组的一些小知识。
2023-07-03 精简了内容。
原始数据的质控提醒后续所提及的测序数据皆为二代测序的双端数据。
二代测序的原理可以搜索 illumina 的下一代测序(NGS)原理介绍视频观看学习(illumina 的测序特点在于桥式扩增,其他测序公司可能略有不同但原理上是一致的,例如 BGI 的滚环扩增)。
所需要的软件有 FastQC、MultiQC、Trimmomatic、Cutadapter(可选)。
需要提前了解的:
测序数据文件中每一行所代表的意思。
123456@V350095853L2C001R0010000000/1GCCCCAACGAAACATCTTACTTGATAAGAATAAAAAACCTTAAACTT ...
比较转录组分析(一)—— 前提及概要
generatePortalLinks(1);
关于生信分析生信分析中会用软件很重要,但我们也应当清楚每一步做了什么以及结果里包含了什么信息,我们能够从这些结果里获得哪些生物学意义,而不是糊里糊涂地跑了一套流程了事。
所以在很多方面我们还是应当具有基础的知识储备,在跑流程的过程里也应当清楚自己在做什么,为什么。
更新日志2022-11-14 补充了分析的流程图
2022-11-21 补充修改了部分内容
2022-12-01 补充修改了部分内容
2023-07-03 精简了内容
2024-03-04 先前 RNA-seq Pipeline 文章的网站已经失效,因此进行了一定的补充修改
所需理论知识
一些基本的生物学知识。
一些基本的统计学知识。
一些基本的编程知识。
事实上并不是一定要知根知底才行,很多东西是可以边分析边学的,但是最基础的一些概念也要有,这里我推荐艾伯特先生的细胞生物学精要作为生物整体框架的理解,看完以后说不定能激发个人对生物的兴趣。而关于统计学方面的知识可能就看个人需求了,但是应该至少清楚自己在分析中所使用的统计学方法的具体原理和假设,以确定自己的分析应用 ...
生信导论
前言该前言部分已于 2024 年 6 月更新:
点看这篇文章看的第一感觉是羞耻,第二感觉是感慨。
时间过得真的是很快的,写这篇文章的时候我还什么都没有做到。现在也算是累积了一些小成果了,一方面是博客上日均访问人数和访问次数都有了极大提升,另一方面是学术上已经在顶刊(IF=17.3)中参与了审稿返修中算是比较重要的工作。很多技能的熟练度也非两年前可比,甚至感觉一开始写这篇文章时候的自己有些傲慢。
学术路上,见的越多感觉自己不知道的也越多。只能说无止境的学习是在科研路上走下去的基础之基础,但想了想干什么事不是这样呢,所以以后也需戒骄戒躁,望诸君共勉。希望两年后再看这篇文章,我同样能感受到自己的进步。
注:以下内容整体结构未变,但根据我目前的认识进行了一些修改。
什么是生信?这个问题的答案事实上也很清楚,生物信息学事实上就是一门通过分析生物信息来探索生物的学科,属于生命科学与计算机科学的交叉学科,目前来看,这门学科已经有了相当庞大的规模,事实上随便翻一篇跟生物有关的论文,里面都或多或少夹杂着生信的学问。
目前国内生信方向的课题组一般来说可以分为两个侧重点:
①、注重上游方法开发。这些课题组一 ...