国产午夜精品无码一区二区,国产成人无码网站,日本少妇xxxx做受,欧美视频二区欧美影视,女人被躁到高潮嗷嗷叫游戏

首頁> 關于我們 >新聞中心>技術分享>新聞詳情

干貨間 | 基因組survey分析

2018-06-13


什么是基因組survey


基因組survey:即基因組大小和復雜程度的調研,基因組大小是指單倍體細胞核中的所含的DNA的總量。常用的估計基因組大小的方法有兩種:


其一是流式細胞法,該方法用DNA含量衡量不同物種基因組的大小,基因組的大小通常用“C-value”來表示,也有用pg”(皮克)單位來表示,1pg=10-12g,另外也有用堿基對來表示,例如1Mb=106bases,之間的直接換算關系是1 pg = 978 Mb或者1 Mb = 1.022 × 10-3 pg,流式細胞法是通過DNA熒光染料對分選后的細胞進行染色,然后和已知DNA含量的商品化標準品比對,得到檢測物種的DNA含量,進而通過上面的換算關系推測出基因組大小。


其二是高通量測序法,即對沒有參考基因組序列的物種,進行小片段低深度測序,以較低的成本基于K-mer分析去預估基因組的大小、雜合度及重復序列等信息。該結果可進一步指導后續的建庫策略和測序數據量,此外這次測序的數據還可用于后續基因組的拼接與拼接結果的校正。今天小編重點向大家介紹基于高通量測序的方法估計基因組大小、雜合度及重復序列。


基于K-mer評估基因組大小的原理


假設reads的長度為L,基因組大小為G,總的reads數目Nkmer長度為K,即將長度Lreads打斷成K長度kmer片段且kmer每次延伸1bp,則該條read會被打斷為L-K+1kmer,例如:當K=17reads長度L=100的時候,一共可以產生100-17+1kmer片段。


根據Lander-Waterman模型,Kdepth = N*(L-K+1)/GKnum = (L-K+1)*N (Kdepthkmer的期望深度kmer深度頻率分布遵循泊松分布,可以將深度分布曲線的峰值作為期望深度。Knum為從reads得到kmer的總數目,則基因組大小G=Knum/KdepthK的選擇和測序深度會對基因組估計大小產生影響,短片段插入庫數據深度不用過低或過高。


基因組大小估計結果解讀


了解完原理接下來我們就利用基因組survey的一款軟件Jellyfish來統計K-mer depth及頻數,統計結果用于畫K-mer分布圖及基因組特征的評估。K-mer 深度分布曲線屬于標準的泊松分布曲線,該曲線的形態受到以下幾個因素的影響:測序錯誤率、基因組的雜合度和重復序列。以一個雜合度較高的物種的 K-mer 分布圖為示例圖圖1 


圖片1.png

圖1 Kmer分布示意圖

注:最左邊的峰為測序錯誤峰;第二個峰為雜合峰,如果基因組雜合度比較低,則不會出現該峰;第三個峰為純合峰,雜合峰的峰值所在位置一般為純合峰所在位置的一半,基因組的雜合度越高,則雜合峰與純合峰的比值越大;第四個峰為重復序列峰,在純合峰值所在位置的兩倍以上,重復序列越高,重復峰所占面積越大。


測序錯誤峰:當某個堿基發生測序錯誤后,將其reads打斷成長度Kkmer后,會將錯誤的kmer數量放大,這些kmer出現頻率較低,在Depth較低時會出現較高的錯誤峰,用于評估測序錯誤率。


純合峰:c值即為公式中的Kdepth用于評估基因組大小。


雜合峰:用于評估基因組雜合度。具體解釋為:假設純合的GTAKmer中出現了a次即深度a,而雜合GTATT/A,則就會形成GTA/GAA兩種kmer,則每種對應就會平均出現a/2次即深度為a/2

Repeat region:用于評估基因組重復序列比例,若出現兩個主峰,峰高相差不大且橫坐標是2倍關系,則為高雜合或高重復。


以某動物為例,PE400文庫Hiseq平臺測105G數據量,使用軟件Jellyfish設置K=17,得到95,767,623,756kmer純合峰對應的Kmer深度為118,最終估計出基因組大小約為812MKmer分布圖見下圖2


圖片2.png

圖2 某動物Kmer分布示意圖

 

動植物基因組推出的基因組survey項目,分析內容包括:


原始數據質控;

樣本質量分析:物種污染評估;

基因組評估:基因組大小、雜合度、重復序列比例評估等。測序數據也可以在后續做基因組拼接和校正時再次利用哦。