2025-07-30

文章信息
英文題目:Evolutionary origin of genomic structural variations in domestic yaks
中文題目:家牦牛基因組結構變異的進化起源
發表期刊: nature communications
影響因子:15.7/Q1
發表時間:2023.09.19
涉及組學:基因組組裝、泛基因組構建、SV結構變異、選擇性清除分析、SNP&SV-GWAS。
技術路線

摘 要
牦牛在進化過程中經歷了自然選擇、人類馴化和種間基因滲入。然而,這些過程各自青睞的遺傳變異此前尚未被明確區分。研究人員構建了7種可雜交牛科物種的47個基因組圖譜,通過386個個體的基因分型,成功檢測到57,432個高分辨率結構變異(SVs)在物種內部和跨物種間的分布。通過系統發育分析,研究人員明確了家養牦牛中各類SVs的進化起源。進一步發現334個與家養牦牛SVs重疊的基因可能攜帶來自野生牦牛的選擇信號,另有686個基因存在牛源滲入。近90%的家養牦牛存在牛源滲入現象。跨越KIT基因的SV滲入觸發了白色家養牦牛的培育。研究人員驗證了篩選出的分層SVs與基因表達存在顯著關聯,這有助于解釋表型變異。研究結果表明,不同來源的SVs共同促進了家養牦牛的表型多樣性。
前 言
牦牛是牛科動物,包括野生種(Bos mutus,約1.5萬頭)和家養種(Bos grunniens,約1800萬頭)。野生牦牛在500萬年前就適應了青藏高原4000-6000米的高海拔極端環境,而家牦牛主要生活在3000-5000米區域,為人類提供資源。家牦牛在進化中經歷了自然選擇、人工馴化以及與牛類的基因滲入,成為研究遺傳進化的理想模型。
研究發現,基因組結構變異(SVs)在牦牛的高海拔適應和馴化中起關鍵作用。通過構建泛基因組和超級泛基因組,研究人員分析了28個新組裝的牦牛和亞洲牛基因組,以及19個已發表的近緣物種基因組,并在386個個體中鑒定出SVs。這些變異影響基因表達,促進缺氧適應、馴化及種間基因滲入,深化了對牦牛基因組多樣性和適應性遺傳機制的理解。
研究內容
1.野生牦牛和家養牦牛的系統發育關系和泛基因組
為解析野生牦牛與家養牦牛的基因組多樣性,研究人員構建了6頭野生牦牛、15頭家養牦牛(覆蓋其完整分布范圍)、2頭低海拔亞洲水牛、4頭高海拔塔烏牛,以及1頭高海拔塔烏-水牛-牦牛雜交種(張牧牛,ZMC)的從頭全基因組測序數據(表1)。這些數據與已報道的1頭野生牦牛、14頭牛、2頭野牛、1頭歐洲野牛和1頭印度野牛基因組數據整合后,形成了牛科動物基因組數據集(表1)。為確保分析一致性,研究人員采用統一標準流程對這47個牛科基因組進行注釋(表1)。每個組裝平均鑒定出24,368個蛋白質編碼基因(表1),通過BUSCO評估顯示平均97. 4%的蛋白質編碼注釋完成度,表明基因注釋高度完整。

在這些基因組組裝中檢測到1,048,639個高置信度SNP,并以水牛基因組為外群進行系統發育分析(圖1a)。研究人員基于每個物種選取一個代表性個體,通過8,428個單拷貝核心基因構建了物種樹(圖1b)。兩棵系統發育樹與既往研究結果高度吻合3,4,但家養牦牛未形成單系聚類(圖1a)。研究人員構建了牦牛和牛的泛基因組,并為7個牛科物種構建了超級泛基因組(圖1c)。牦牛泛基因組在n = 20時總基因集接近飽和(圖1c)。核心基因家族(存在于全部22個基因組)、近核心基因家族(存在于20-21個基因組)和可變基因家族(存在于1-19個基因組)的占比分別為50.18%、10.91%和38.91%(圖1d),其中核心與近核心基因表現出更高的平均表達水平和更低的Ka/Ks比值(圖1e,f)。牛的泛基因組及7個牛科物種47個基因組的超級泛基因組也呈現類似趨勢。平均而言,家養牦牛基因組包含119個野生牦牛基因組中缺失的基因,其中56個通過基因滲入源自牛(圖1g),這些基因在疾病防御、發育和繁殖功能方面具有顯著富集特征。在構建泛基因組的基因組對比較中,每個基因組均包含123至2113個其他基因組缺失的基因(圖1h)。

圖|牛科動物系統發育及野生與家養牦牛泛基因組
2.牛圖形基因組和7個物種中386個個體的結構變異(SV)的特征
為識別結構變異(SVs),研究人員基于47個基因組構建了多組裝圖譜基因組,包含3.14 Gb序列,分布在5,449,222個節點和4,889,530條連接邊上,其中非參考節點覆蓋387.0 Mb(圖2a、b)。節點分為核心(所有基因組共有,占60.8%)、近核(存在于45-46個基因組,占17.0%)和可變(存在于≤44個基因組,占22.2%)。使用gfatools檢測到293,712個可基因分型的SVs(81.7% <500 bp,99.76% <10 kb),其中40.8%為多等位型(覆蓋76 Mb),在重復DNA區域富集。33.1%的SVs位于潛在表達調控區或編碼序列(98.2%在調控區,1.8%在CDS),12.97%的多等位型SVs影響了54.4%的參考基因。對386個樣本(覆蓋深度>6×)進行分型,獲得57,432個高質量SVs(召回率0.96)。遺傳分析顯示,多數SVs呈物種特異性分布,但牦牛與肉牛存在單倍型交換。30.6%的SVs與鄰近SNP存在強連鎖不平衡(LD R2≥0.45)。

圖2|47個新生牛基因組的圖譜基因組特征及其結構變異(SVs)在這些基因組和386個個體中的分布
3.野生牦牛特有的sv與高海拔適應有關
研究人員通過計算野牦牛與低海拔牛科動物(野牛、歐洲野牛和歐洲水牛)的固定指數(FST),識別出4830個可能經歷選擇性清除的結構變異,涉及1051個基因,這些基因在缺氧反應、血管生成等HIF-1信號通路中顯著富集(圖3a、b)。其中,EPAS1基因內含子的254 bp插入片段(與LINE1元件重疊)在野生牦牛中普遍存在,但家養牦牛頻率較低(圖3c、g)。該變異降低了啟動子活性,導致野生牦牛EPAS1表達水平低于牛類(圖3e)。此外,MB基因的155 bp缺失(MB-hap-1)增強了增強子活性(圖3d、f、h),可能與牦牛缺氧適應相關。其他候選基因(如PPARA、BCL2、EGFR、IGF1R和IL6RA)也發現重要變異,其功能有待進一步研究。

圖3 | SVs促進了牦牛的高海拔適應和馴化。
4.家牦牛中SVs的來源及白牦牛的來源
為解析家牦牛結構變異(SVs)的起源,研究人員對30頭家牦牛和青藏高原牛(QTP牛)進行系統發育分析,發現26,591個參與種間基因交流的SVs(占總SV的46.3%)。其中91.5%與轉座子元件重疊,且牛源SV滲入呈現自東向西遞減趨勢。值得注意的是,11.6%的牦牛(主要分布在青藏高原北部)未攜帶牛源SV單倍型。
基因滲入分析顯示:
11,486個SV(20.0%)與1151個牦牛向QTP牛滲入的高海拔適應基因重疊;
8,557個SV(14.9%)參與牛向牦牛的基因滲入,涉及抗病性和發育相關基因;
6,547個SV(11.4%)呈現雙向滲入模式,如EPAS1基因在高低海拔種群間的互滲。
毛色性狀研究發現:
KIT基因的串聯易位等位基因(Cs6和Cs29)從彩色側牛滲入牦牛,導致白色毛色表型;
Hi-C分析揭示白牦牛的KIT基因區呈現抑制性染色質狀態(B區室),而黑牦牛為活性態(A區室);
轉錄組和免疫組化證實白牦牛KIT表達顯著降低,與其黑色素缺失表型一致。
這些發現揭示了SVs通過改變染色質結構和基因表達,在牦牛適應性進化和表型變異中的關鍵作用。

圖4|帶有從牛體內導入的KIT基因的串聯易位SV歸功于牦牛的白色毛發顏色。
總 結
研究人員整合28個新測序基因組和已發表數據,構建了牦牛-牛泛基因組及7種牛科動物的超級泛基因組。基于386個樣本的分析揭示了重要進化變異,數據可通過牛科泛基因組數據庫(//bovpan.lzu.edu.cn)獲取。需注意的是,數據主要來自青藏高原牦牛和中國牛群,不同測序技術(如ONT和PacBio HiFi)導致重復區域覆蓋度存在差異。盡管如此,研究仍鑒定出多個與高海拔適應相關的SV,區分了家養特征和牛類基因滲入。例如,發現EPAS1、MB等新候選基因,其中EPAS1存在雙向滲入現象。此外,證實KIT基因易位SV導致牦牛毛色變異,且近90%家牦牛攜帶牛源雜交成分。這些發現對指導家牦牛育種具有重要意義。
參考文獻:Liu, X., Liu, W., Lenstra, J.A. et al. Evolutionary origin of genomic structural variations in domestic yaks. Nat Commun 14, 5617 (2023). //doi.org/10.1038/s41467-023-41220-x