2025-08-10

文章亮點
1.文章完成65個不同人群、130條近乎完整(T2T)的單倍型基因組組裝,顯著提升了結構變異檢測精度,填補了著絲粒、MHC、SMN1/2等復雜區域的空白。
2.組裝并分析1,246個人類著絲粒,發現α衛星陣列長度差異達30倍,7%的染色體存在“雙動粒”結構,并系統揭示Alu/L1等移動元件在著絲粒的插入模式。
3.派森諾提供泛基因組分析一站式解決方案:從樣本檢測到基因組分析,專業解析基因組的復雜差異和變化機制,助力生物學和醫學研究突破。
文章信息
文章題目:Complex genetic variation in nearly complete human genomes
中文題目:近乎完整人類基因組中的復雜遺傳變異
發表期刊:Nature
影響因子:48.5
發表時間:2025年7月
涉及組學:基因組Denovo、泛基因組分析、轉錄組測序
技術路線

摘 要
本研究對65個具有多樣性的人類基因組進行測序,構建了130個高質量的單倍型組裝,不僅閉合了92%的組裝缺口,還使39%的染色體實現了端粒到端粒的完整組裝,全面解析了復雜區域如MHC、SMN1/SMN2等和1,852個結構變異。同時,首次完整組裝并驗證了1,246個著絲粒,揭示其在α-衛星重復序列長度和移動元件插入方面存在高度變異。結合現有泛基因組參考,該成果顯著提升了短讀長數據的基因分型準確性,每個個體可檢測到約26,000個結構變異,為人類基因組多樣性研究和疾病關聯分析提供了關鍵資源。
研究背景
長讀長測序(Long-read sequencing, LRS)技術在完成首個人類基因組時發揮了關鍵作用。LRS顯著提升了結構變異(SVs,定義為長度≥50 bp的變異)的檢測靈敏度。本研究基于人類基因組結構變異聯盟(HGSVC)的最新工作,利用PacBio HiFi與Oxford Nanopore超長讀長等互補的長讀長測序技術,結合Hi-C、Strand-seq和三親本信息,在65個來自千人基因組計劃的多樣性人群中,構建幾乎無缺口的高質量染色體組裝,重點解決了以往在著絲粒和高同源段復制區域中存在的組裝難題,為全面解析人類結構變異和完善泛基因組參考奠定了基礎。
研究結果
1.130個單倍型基因組組裝
研究人員選取來自五大洲28個人群的65位個體,利用PacBio HiFi與Oxford Nanopore超長讀長測序技術,結合Strand-seq、Hi-C等輔助數據,構建了130個高質量、單倍型解析的人類基因組組裝。使用Verkko工具,實現了中位數為10條染色體的端粒到端粒(T2T)組裝,以及中位數為8條染色體的高質量scaffold組裝,顯著提升了組裝連續性和準確性,單拷貝基因的組裝完整性達99%。針對T2T-CHM13參考基因組,檢測到約18.8萬個結構變異、630萬個indel和2390萬個SNV;對GRCh38參考組也獲得了相應變異集。相比以往研究,SV檢測量提高59%,假陽性率降低55%。

圖1 65個人類基因組的組裝和變異識別
2.基因組資源挖掘
研究人員系統分析了來自130個單倍型組裝的結構變異(SVs),涵蓋移動元件插入(MEIs)、倒位、片段重復(SDs)和Y染色體變異等。共鑒定出12,919個MEIs,其中大部分全長L1插入具備潛在反轉錄轉座能力。倒位分析發現多個新倒位事件,包括與Sotos綜合征相關的大型倒位。片段重復方面,平均每個基因組含168.1 Mb的SDs,并識別出多個此前未注釋的拷貝數多態性區域,尤其在非洲人群中更為豐富。此外,我們高質量組裝了30條Y染色體,首次解析了多個Yq12區域的復雜結構。功能層面,1,535個SVs影響了985個蛋白編碼基因,其中大多數為多態性變異,部分仍保持基因功能。研究還結合Iso-Seq和Hi-C數據揭示SV對轉錄本異構性、基因表達及染色質結構的影響。

圖2 復雜區域改進的基因組資源
3.基因分型綜合參考
研究人員通過構建包含107個人類基因組的泛基因組參考圖譜,利用PanGenie工具對千人基因組計劃(1kGP)3,202個個體進行全基因組變異分型,共檢測到超過3,000萬個變異位點,包括25.7百萬SNP、5.8百萬插入缺失和47.9萬結構變異(SV)。相比既往HPRC和1kGP-HC數據集,新方法顯著提高了稀有SV檢出率(非洲個體達1,490個/基因組)。通過整合短讀長數據與單倍型定相技術,實現了中位k-mer質量值48的基因組重建,較傳統方法顯著提升。針對復雜醫學相關基因位點,采用Locityper靶向分型使單倍型預測準確率(質量值≥30)從74.6%提升至80%,其中HLA等關鍵基因分型性能改善尤為顯著。研究表明,擴大參考單倍型庫可進一步提高難測基因位點的分型精度,為疾病研究提供更可靠的基因組分析工具。

圖3 結構變異分型情況比較
4.主要組織相容性復合體(MHC)
研究人員對主要組織相容性復合體(MHC)區域進行了全面分析,注釋了130條單倍型中的HLA和非HLA基因,修正了826個不完整的HLA等位基因注釋,并發現了170個新的結構變異。研究揭示了MHC II類單倍型(如DR8和DR1)的演化機制,解析了RCCX基因簇的復雜模塊結構及其進化中的基因轉換事件,同時開發了Locityper工具將等位基因預測準確率提升至97.1%。通過泛基因組分析不僅驗證了傳統HLA-DR分組系統,還發現了潛在的細分亞類,為疾病關聯研究和精準醫療提供了重要資源。

圖4 MHC位點的結構可變區
5.SV檢測與泛基因組構建
長讀長組裝基因組顯著提升了復雜結構變異(CSV)的檢測能力,尤其是在重復序列(如串聯重復和轉座元件)中更準確地識別變異。最新的PAV工具可識別嵌套在大型重復區域中的CSV。基于T2T-CHM13參考基因組的分析顯示,平均每個基因組含72個CSV,累計識別出1,247個CSV,涵蓋128種結構特征,其中不少由串聯重復介導,如DEL-INV-DEL、INVDUP-INV-DEL等。研究人員重點解析了與大腦發育相關的NOTCH2NL和NBPF基因的三種CSV單倍型,以及與脊髓性肌萎縮癥相關的SMN1/2區域,成功組裝了101種單倍型,明確了拷貝數和功能基因。淀粉酶基因簇區域也被完全解析,共識別39種單倍型,其中H1a.1、H3r.1等四種最常見,最長的單倍型含11個AMY1拷貝。

圖5 人類基因組中復雜的結構變異
6.著絲粒研究
人類著絲粒是高度變異的基因組區域,由α-衛星DNA構成的高級重復單元(HORs)組成,長度和結構在不同個體間差異顯著。研究人員利用Verkko和hifiasm兩種算法,首次在65個基因組中高質量組裝出1,246個完整著絲粒,平均每個基因組約19.5個。研究發現α-衛星陣列在長度上差異較大,并識別出4,153種新型HOR變體和陣列結構,部分染色體上出現陣列分裂現象。通過CpG甲基化分析,所有著絲粒均存在低甲基化區域(CDR),部分染色體呈現“雙CDR”,提示可能存在雙動粒結構。此外,約30%的α-衛星陣列中含有移動元件插入(MEI),主要為L1HS和Alu,大多分布在CDR之外。個別插入可能影響CDR結構,提示其在調控動粒定位和染色質結構中可能具有功能作用。

圖6 人類著絲粒中的序列和結構情況
總 結
本研究通過對65個來自不同人群的人類基因組進行高連續性測序與組裝,構建了130條近乎完整、無間隙的單倍型基因組,首次系統解析了復雜結構變異、著絲粒α衛星陣列的多樣性、Y染色體結構、MHC區域的多態性,以及SMN1/2、AMY1/2等復雜基因座的結構特征。研究還結合泛基因組圖譜,顯著提升了短讀長測序數據在復雜區域的基因型推斷準確性,為疾病關聯研究提供了更全面的遺傳變異資源。