基因组测序>
建库测序>
人类基因组测序>
动植物基因组测序>
微生物基因组测序>
转录调控测序>
表观组测序>
单细胞测序>
空间转录组>
基因分型>
质谱分析>
蛋白组学分析>
代谢组学分析>
免疫定量>
多组学联合分析>
分子育种>
基因合成>
基因组大小预估
K-mer深度分布服从泊松分布,根据曲线获得K-mer深度期望值,用于估计基因组大小。 一般来说我们会选择K-mer分布最多的峰为主峰,主峰所对应的深度值为K-mer深度期望值。 基因组大小=K-mer总数/K-mer期望深度值。K-mer | K-mer number | K-mer Depth | Genome Size(Mbp) | Revised Genome Size (Mbp) |
---|---|---|---|---|
17 | 47,719,794,696 | 62 | 769.67 | 763.41 |
杂合度和重复率评估
在理想的数据模型中,即不存在重复序列或者杂合的情况, 一套基因组上的每个K-mer应该只出现唯一一次,也就是说,对于基因组上的所有的K-mer来说,它的频率数均为1; 而在实际样品的基因组中,会存在杂合和重复序列的情况,因此每个K-mer对应的频数不确定。 K-mer可以根据其出现的频率数来分类,基于贝叶斯模型和K-mer所有的频率数和深度属性, 可以得到并且通过迭代来修正,由此反映基因组的杂合率和重复序列的情况。GC含量分布图
横坐标表示GC含量,纵坐标表示测序深度,右方是contig覆盖深度分布,上方是GC含量分布,我们选取长度在2Kb以上的contig序列,根据其GC分布以及覆盖深度信息绘制散点图,其中红色的部分代表该散点图中点的密度比较大的部分,可以看到在红色区域部分,该物种的GC分布呈现出两部分的区域分布,两部分的重心分别在深度20左右和40左右,即对应右边的contig覆盖分布,在20位置的小峰为杂合峰,在40位置的为纯合峰。对应红色的散点图,深度在20左右的红色区域是杂合contig的GC分布区域;再看上方的GC含量分布,主峰在35的位置,和我们计算得到的基因组的GC含量基本一致,且红色的散点也分布在GC含量在35%附近,说明该基因组没有受到其他外源物种的污染。Copyright@2011-2024 All Rights Reserved 版权所有:不朽情缘 京ICP备15007085号-1