隨著測序技術的進步,常規轉錄組測序憑借高通量、價格低、周期短等優勢,成為入門級組學技術,廣泛應用于農醫學研究中。而發表高級轉錄組文章的過程中,對目標基因集的挖掘和討論,往往才是重點。轉錄組數據量龐大,如何快速對目標基因集進行分析,從海量的分析結果中篩選關鍵目標基因,下面小派將對快速篩出候選基因提供以下通用性的建議和方法,您也可以結合其他篩選指標一起篩選出關鍵基因。
篩選思路
候選基因應該與老師所研究的生物學問題密切相關,并在某一生命過程中發揮核心的生物學功能、參與重要的通路。基因功能的背景信息可以來源于參考基因組注釋、基因功能數據庫(如GO、KEGG)注釋或者相關研究的文獻和綜述等,獲取可能相關的基因、GO和KEGG通路信息,然后在自己的測序結果中進行篩選。無論通過怎樣的方式進行數據篩選,人為的解讀和數據挖掘是必不可少的。
篩選方法
1、基于GO/KEGG富集分析結果
①打開GO富集結果*_download_enrichment.xls文件,在Term列中,用關鍵詞逐一篩選與您研究相關的生物學功能,通常認為pvalue小于0.05的Term達到了顯著富集程度,可以重點關注。獲得相關顯著富集的GO Term后可以在同表格里看到注釋到相關GO Term的所有差異基因信息,示例如下:
②打開KEGG通路富集結果*_KEGG_download_enrichment.xls文件,在pathway列中,用關鍵詞逐一篩選與您研究相關的通路,常認為pvalue小于0.05的通路達到了顯著富集程度,可以重點關注。獲取關注通路的富集情況后可以參照GO篩選方法,即可獲得注釋到關注通路的所有差異顯著基因的信息。以查找“cGMP-PKG signaling pathway”為例,示例如下:
注:在某些實驗處理條件下,差異表達基因可能較少,因而GO和KEGG通路富集結果較少,如果已經有關注的GO或KEGG通路,可直接從*.DESeq2.xls表中的GO列或KEGG列進行篩選,獲取候選基因信息。
2、基于GSEA分析結果
GSEA從基因集的富集角度出發,理論上更容易囊括細微但協調性的變化對生物通路的影響。我們可以基于GSEA分析結果篩選在實驗組或對照組中富集的基因集(GO條目、KEGG通路等),然后可以關注CORE ENRICHMENT(對ES值有主要貢獻的基因)。
3、縮小范圍
表達豐度:受系統噪音影響,低表達豐度基因(FPKM值<10)可能并不可靠,建議選擇表達豐度中等水平的基因進行后續研究。
差異篩選:若已有關注基因可以直接篩選查看對應基因的差異情況,若無關注基因,可根據差異倍數或者p值排序篩選極顯著且差異較大的基因作為候選基因。
基因新舊:在PubMed上查詢候選基因的相關文章數量,建議選擇較新的基因(文獻數量<100)開展深入研究,請注意同一個基因常存在多個別名。
分子大小:考慮到后續功能驗證實驗是否能開展,建議選擇0.5~2.5K大小的基因。
特殊基因:可以通過轉錄因子家族分析或者蛋白質-蛋白質相互作用(PPI)網絡分析篩選關鍵基因或者核心蛋白。
詳情請點擊:
Cytoscape軟文:
【干貨】如何使用cytoscape玩轉網絡圖?(一)
【干貨】如何使用cytoscape玩轉網絡圖?(二)
【干貨】如何使用cytoscape玩轉網絡圖?(三)
4、組合篩選
有時候我們需要在多個細胞系中探索敲除(或敲減)某基因后共同差異變化的基因,或者是過表達某基因或敲減某基因的體系中變化相反的基因,或者是動物模型或細胞模型中用藥后表達有回復的基因,亦或者是關注響應時間序列或濃度梯度變化的基因,上述目的往往需要結合兩個比較組或多個比較組的差異分析信息,以下篩選方法供參考:
(1)韋恩圖:
可以用韋恩圖篩選不同比較組(不同基因集)共同的元素和特有元素,比如共同差異表達基因、特有差異表達基因等,并將這種篩選過程和結果可視化。靈活利用韋恩圖可以通過一次篩選或多次篩選獲取我們關注的核心基因集,然后可以對核心基因集進行進一步分析。比如利用韋恩圖篩選某基因敲減組差異上調基因和過表達組差異下調基因的交集。
(2)表達模式分析:
當老師樣本為不同時間節點、濃度梯度、治療或用藥前后的這種設置時,若進行兩兩比較篩選,當樣本組較多時可能需要多次的相交篩選才能獲得目標變化趨勢的基因集。老師可以基于STEM(//www.cs.cmu.edu/~jernst/stem/)的基因表達模式聚類分析或者常規趨勢分析可以快速獲得我們關注趨勢的基因集或者哪種變化趨勢是最顯著的變化趨勢。然后針對目標基因集進一步分析即可。
(3)加權共表達網絡分析
加權基因共表達網絡分析(WGCAN,Weighted correlation network analysis)是用來描述不同樣品之間基因關聯模式的系統生物學方法,可以用來鑒定高度協同變化的基因集,并根據基因集的內連性和基因集與表型之間的關聯鑒定候補生物標記基因或治療靶點。WGCNA適用于復雜的數據模式,如果樣本數大于15,可以考慮開展WGCNA分析。
通過以上這幾種分析方式可以找到目標功能、性狀或不同實驗處理中的核心基因。
那么如何基于轉錄組測序找到下游可驗證基因,我們到這里就介紹完了,下方也繪制了我們今天講到的分析思路路線圖,有需要的老師可以收藏奧~當然,除了已經介紹過的方法外,將轉錄組數據與蛋白組/代謝組等組學數據進行聯合分析也可以進一步縮小目標基因的篩選范圍。
將多種分析方法及篩選路徑結合使用,更能提升我們篩選到的核心基因的可靠程度,降低后續實驗失敗的概率。最后再重點強調一下,無論哪種方式挑選出來的基因,都需要盡量滿足基于表達量和差異的目標基因篩選標準進行,老師們快來試試吧。