2025.1.15
第六节 基因组survey
*****原理*****
基因组学:拼接+注释(基因注释+重复序列注释)
比较基因组学分析:进化树构建、基因家族聚类,全基因组复制,共线性分析等)
1.基因组拼接前需要做什么?
基因组survey:用少量数据评价基因组大小(决定测序量和组装深度)及基因组是否存在高杂合,高重复(重复序列高、杂合度高的基因组不好组装),GC含量过高和过低的测序深度较低,导致基因组拼接结果较差。
*survey一般测序量为预估基因组大小的30-50X,二代测序;原核生物无需进行基因组survey。
截屏2025-01-15 14.14.45.png
2)Kmer分析
· Kmer分析-基因组大小
截屏2025-01-15 14.18.59.png
截屏2025-01-15 14.19.21.png
截屏2025-01-15 14.23.13.png
*例:
截屏2025-01-15 14.27.28.png
· Kmer分析-杂合度
基因组杂合指的是两套同源染色体之间的差异
[图片上传中...(截屏2025-01-15 14.33.11.png-abc1e5-1736922804361-0)]
截屏2025-01-15 14.33.11.png
*Kmer计数软件-Jellyfish;
*基于Kmer频数表估计基因组大小和杂合度-GCE(可计算出a1/2);
*估计基因组大小-GenomeScope
*模拟不同杂合率下,Kmer图的趋势变化(随着杂合率的增加,杂合峰越来越明显,甚至高于主峰,所以并不是谁高谁是主峰)
截屏2025-01-15 14.45.59.png
*并不是所有项目都用k=17(几G的基因组,17足够),基因组越大,k值越大
*****代码*****
1)软件:
生成Kmer频数表:jellyfish
基因组大小、杂合、重复估计:GenomeScope、gce