JuseKit（三） —— 串联序列、根据id提取序列、批量修改文件尾缀

更新变动及进度

已有功能的相关教程请见：Juseの软件开发

2023.06.21 完善了输出的 log 信息。

叠盾警告?：不保证这些功能和想法一定会实现，本软件解释权归属 Juse 所有，本软件能走多远具体得看 Juse 能坚持多久。

本文主要着重于这次更新新增的功能，其他模块请走这里。

可用到的场景应该比较少，但也是有些的，例如差异表达基因序列的提取等。

操作也很简单，如图：

重点如下：

当输入文件且同时文本框中有输入时，文件更优先执行。
输入的 id 应为一行一个。
当使用文本框进行提取时，文本框的内容会保存在 .exe 所在文件夹中，其中 id 保存在 tmp_id.txt，fasta 保存在 tmp_fasta.txt。输出的文件也在同一文件夹下。
当使用文件进行提取时，输出文件将和输入文件在同一路径。

这一功能在 系统发育分析 中的第一个板块。

首先介绍一下各个地方的功能：

实例演示：

一些例外的情况：

一般而言，串联需要用到的序列数量不会过多，所以运行速度会非常快，但如果数量过多，所需要的时间也会随之增加。

运行中卡死是比较正常的，但一般不会一直卡死，一直卡死说明可能未使用物种标识，导致识别到的物种数异常庞大，从而增加了内存需要。所以运行前请务必检查好这一点。

运行结束后，会在结果路径中产生以下文件：

concatenation_ortho.fasta 串联结果。
IQ_partition.txt 适用于 IQ-Tree 分区模型建树的分区信息。
sequence_con.log 串联 log，展示了各物种信息（v0.6 新增了 gap 比例），其中最后一列应当全部为 +。
gene.log 基因 log，展示了各个基因中所包含的物种（未出现的以 - 标识）及各物种的基因出现率。
- gene.log 为 v0.62 新增，目的是为了更好地观察部分物种的高 gap 率是由于 missing gene 还是由于未修剪 gap。

我会争取将这些功能慢慢完善，让它成为一个具有更广适用性的软件，希望能够帮助到某些盆友，当然我个人认为最大的可能是自娱自乐。

如果这个软件帮助到您了，您可以给它一个小小的 Star 聊表支持，或者在您汇报的时候引一下 https://github.com/JuseTiZ/JuseKit/ ，想必看着还是非常高端大气上档次的。