国产午夜精品无码一区二区,国产成人无码网站,日本少妇xxxx做受,欧美视频二区欧美影视,女人被躁到高潮嗷嗷叫游戏

首頁> 關于我們 >新聞中心>行業資訊>新聞詳情

Nature|基于人類表觀基因組圖譜EpiMap,廣泛揭示人類疾病位點調控回路

2021-03-24

在分子水平注釋人類疾病仍然是一個挑戰,因為93%與疾病相關的突變位點位于基因組的非編碼區域,而這些區域如何調控基因的轉錄和翻譯仍然未知。為此,來自麻省理工學院的研究人員基于多個大型合作基因組圖譜項目(包括ENCODE、Roadmap Epigenomics、Genomics of Gene Regulation)的數據,提出了一個新的人類表觀基因組圖譜,命名為EpiMap(Epigenome Integration across Multiple Annotation Projects)。這項研究結果以 “Regulatory genomic circuitry of human disease loci by integrative epigenomics”為題于近日發表在Nature上。

文章發表于Nature

利用EpiMap,研究人員:

  1. 基于多個表觀遺傳修飾信號注釋了染色質狀態(chromatin states),同時結合DNA可及性注釋增強子;

  2. 將增強子分為不同的模塊(enhancer modules),并根據轉錄因子motif和GO富集結果推斷每個模塊的上游調控轉錄因子和下游遠程調控基因;

  3. 整合增強子位置,增強子和基因的遠程交互作用和GWAS SNP結果,預測SNP的靶基因和組織特異性;

  4. 將GWAS性狀劃分為“單因子”和“多因子”性狀,揭示了它們與疾病的關系;

  5. 區分了“單效”和“多效”位點,并發現得分最高的位點通常有多個驅動突變,通過不同的方式發揮“多效”功能:多個增強子和一個共同的靶基因、調控單個組織中的多個基因或多個組織中發揮功能。

研究內容與結果 

研究人員使用統一的數據處理流程分析了來自859個樣本的3,030個數據集,并另外使用算法推算出了14,952個數據集,極大地擴展了數據集的覆蓋范圍。

接著研究人員使用表觀基因組數據注釋了18中不同的染色質狀態(chromatin states),并結合其中的活躍增強子狀態與DNase-seq數據注釋了210萬個活躍的增強子區域。這些區域累積覆蓋13%的基因組區域,單個生物樣本平均覆蓋率達到了0.8%,這相對于ENCODE 2020版本增加了兩倍以上。

圖1. EpiMap資源概述,來源:Nature

研究人員在833個生物樣本中定義了基于H3K27ac的局部活性水平,并基于此將增強子分為300個增強子模塊(enhancer modules),包括290個組織特異性模塊和10個廣泛活躍的模塊。

結合表觀基因組-轉錄組的相關性以及增強子與鄰近基因的距離,研究人員預測了330萬個組織特異性的增強子-基因交互(enhancer-gene links),這在預測的交互數量上和生物學相關性上都超越了以前的方法。

研究人員預測了其中273個模塊的上游調控轉錄因子,涉及1,175個motifs,分為160個原型(archetypes),包括152個組織特異性原型和8個通用原型。組織特異性的轉錄因子motif包括:血液和免疫樣本中的GATA和SPI1;大腦和周圍神經系統中的NEUROD2和RFX4;消化組織中的KLF4;胎盤、肌衛星和上皮細胞中的TEAD3。通用的motif包括肝,腎和胰腺中的HNF1A(與NR5A2共同作用);免疫,骨骼和癌癥樣本中的AP-1(也稱為JUN)或JDP2;TEAD3在不同的組織中與不同的轉錄因子協作:MYF6(肌球蛋白),TFAP2A(胎盤)和AP-1(基質)。

Motif富集將組織分類為不同的亞組,比如心臟被劃分為胚胎心臟(NFIX和E2F1)、主動脈和動脈(SRF和PAX5)以及心腔(MEF2D和ESRRG);大腦被細分為胚胎(NFIX和NEUROD2),成人大腦(RFX2和SOX10)和星形膠質細胞(NFE2L2和JDP2);造血細胞被細分為為自然殺傷細胞(ETV2)、B細胞(NFKB2和SPIB)和多能祖細胞(GATA1和NFE2L2)。

圖2. 增強子模塊回路,來源:Nature

接下來,研究人員使用210萬個增強子注釋及其組織特異性來解釋與復雜性狀相關的GWAS位點。研究人員匯總了了一份來自803項GWAS研究的GWAS位點數據集,捕獲了70,000 多個GWAS位點。研究人員發現了17,658個顯著的性狀-組織富集,覆蓋了245個性狀中的27,000多個候選GWAS SNP。

研究人員結合表觀基因組學的注釋和增強子-基因的遠程交互作用,對疾病相關的位點產生了新的認識。例如乳腺癌GWAS富集在上皮細胞和癌細胞樣本中,其中SNP rs17356907位于靠近USP44基因的增強子內部,但與另一個基因NTN4交互,而NTN4與腫瘤發生和血管生成有關。精神分裂癥GWAS在中額葉皮質樣本中富集,其中SNP rs2007044位于一組靠近DCP1B啟動子的增強子內部,所有這些增強子都與CACNA1C交互,已知CACNA1C編碼與神經精神疾病有關的鈣通道蛋白,提示多種變異可能共同導致其失調。研究人員已經提供了一個交互式網站(//compbio.mit.edu/epimap),用于探索與500多個性狀相關的超過30,000個額外的GWAS位點。

圖3. 基于增強子活性距離的833個生物樣本的層次聚類,來源:Nature 

然后,研究人員研究了性狀-組織、性狀-性狀和組織-組織表觀基因組GWAS共富集模式,以了解它們之間復雜的相互作用。

首先,研究人員使用在每個性狀中富集的組織數量來將性狀劃分為兩類:56個“單因子”性狀(22%)在一個組織中具有最多富集(例如,心臟的QT間期、腦的受教育程度和免疫細胞的甲狀腺功能減退),而192個“多因子”性狀(79%)平均富集在五個組織類別中(例如,免疫細胞和大腦中的阿爾茨海默病;脂肪、肌肉、腎臟和消化組織中的腰臀比),其中26個“多因子”性狀(11%)平均富集在14個組織類別中(包括冠狀動脈疾病(CAD)在19個組織組中,包括肝臟、心臟、脂肪、肌肉和內分泌樣本)。

根據組織的共富集特性來區分每個GWAS性狀的“主要”組織(例如免疫細胞,肝臟,心臟,大腦和脂肪組織)與“伙伴”組織(例如,消化、肺、肌肉和上皮組織),“主要”組織和“伙伴”組織相比始終表現出更高的富集,這表明它們具有驅動作用而不是輔助作用。特定的主要-伙伴組織共同發生的頻率比預期的要高,并且揭示了它們可能在性狀上共同發揮作用,包括:肝臟與脂肪組織(膽固醇特征)、消化組織(膽結石)和血細胞(血清蛋白水平);以及脂肪組織與內皮細胞(腰臀比)、心臟組織(心房顫動)和肌肉組織(血壓)。

圖4. 性狀-性狀網絡,來源:Nature  

最后,研究人員將“多因子”性狀的SNPs劃分為組織特異性的組分。例如,339個與CAD相關的SNPs劃分為:195個富含動脈、心臟和血管形態發生的心臟增強子SNPs;171個脂質穩態的內分泌增強子SNPs;169個膽固醇和脂質代謝和轉運的肝臟增強子SNPs;軸突導向和局灶粘附中122個脂肪增強子SNPs,與脂肪組織神經支配過程一致;112個胚胎干細胞衍生的肌肉增強子SNPs,富含中隔形態發生、腔和主動脈發育。

這些分區也顯示出不一樣的協同關系。例如:心臟,肌肉和內皮細胞增強子中的CAD SNPs均與與高血壓和心房顫動相關;肝臟和內分泌增強子中的CAD SNPs與收縮壓相關;脂肪增強CAD SNP與腰臀比相關;以及肝臟,脂肪和內分泌CAD SNPs與HDL膽固醇相關。

從單個多因子性狀位點來看,既有在單個組織中富集的,也有在多個組織中富集的。一些CAD SNP位點僅與心臟增強子重疊(例如EDNRA、TCF21和ADAMTS7),一些僅與肝臟增強子重疊例如PCSK9),一些不位于任何增強子中,許多位于廣泛活躍的增強子中(例如,LDLR、APOE、SH2B3和COL4A1),這表明即使在單個SNP位點水平上也存在多種調控機制。

即使看似單一的SNP也會在其他組織里:rs17114046在肝臟中有很強的信號,同時它位于多個增強子中,并調控基因PLPP3,肝臟特異性PLPP3缺失會增加動脈粥樣硬化;然而這個SNP也同時連接到另一個肝臟產生的補體因子C8A,并通過心臟特異性和肌肉特異性的交互連接到PRKAA2。這說明單個SNP也可能具有多種功能,這一特性存在與許多高度富集的SNP中。

圖5. 多因子性狀的劃分,來源:Nature 

小結 

該研究結果證明了高通量、豐富多維、高分辨率的表觀基因組和調控回路注釋在研究基因調控、復雜性狀和疾病位點機制研究中的實用性,使得生物空間和疾病復雜性的規模、范圍和覆蓋面達到較大的程度。