一、常見實驗問題
1. 野外取樣野外取樣無液氮、干冰等速凍如何保存?
去除葉片表面的脂化膜,剪碎葉片,存于RNA later保存液中,提取時5倍體積提取。1-2天問題不大。
2. 血液及腫瘤樣本需要做哪些特殊處理
血液和腫瘤樣本由于RNA酶含量豐富,極易造成RNA的降解,因此在活體取樣后,需要盡快放入液氮速凍或加入RNAlater防止RNA降解。
2. 做轉錄組項目時RNA中很多DNA污染,可以建庫嗎?
可以,磁珠調取的方法,不會有影響。但是蛋白污染的話會有影響,有些蛋白的存在會在后續建庫造成干擾。
3. 在做真核生物轉錄組測序時,會測到線粒體、葉綠體 RNA 嗎?
正常情況下是不會的,因為線粒體、葉綠體 RNA 不具有 polyA 尾巴的結構。
4. RNA提取是否需要DNA酶處理?
一般的RNA試劑盒會有去除的步驟,但效果不好,如果是轉錄組,我們是ployA富集(DNA不含ployA不會被富集)建庫,一般影響不大,而且上機前會有建庫的定量,對產量影響也不大。
5. 原核生物的rRNA去除效率是不是都可以達到90%以上
原核生物的rRNA去除效率取決于rRNA remove中探針的匹配率,商業化的探針雖然是廣譜性的,但是針對一些特殊的原核生物的rRNA的去除效率并不高,因此如果是一些沒有經過試劑盒驗證的原核生物,無法保證rRNA的去除效率。
6. 定量基因挑選問題
建議轉錄組測序后定量挑選基因20個左右,先結合GO和KEGG富集分析入手,找打研究方向,結合韋恩圖分析縮小差異基因范圍,最后根據基因共表達分析和蛋白互作共表達分析找出分模塊的核心基因。
驗證注意事項:需挑選差異表達倍數大的,且其中至少有一個基因表達量要大。
7. QPCR進行驗證,驗證的基因表達趨勢與測序結果中不一致
首先,我們需要確定檢驗的樣品是否是同一批次,驗證樣品的上下調關系是否與測序結果中的一致(這個需要根據測序公司具體的分析結果,比如某個基因的FC值對應的樣品寫的是T01 vs T02 ,那么T01就是對照組、T02是實驗組),若樣品不為同一批次或其上下調關系顛倒了,則勢必會導致驗證基因表達趨勢不一致的情況。
其次,我們需要查看驗證基因的表達量、樣品和實驗用的引物是否被污染,若驗證基因表達量過低,則有可能導致差異不顯著,若樣品或實驗用的引物被污染則后續結果可能也不會準確,所以我們盡量不要挑選表達量太低的基因,同時,需要保證樣品和實驗引物沒有被污染。
當以上所有情況都不存在,且結果依然不一致,這時我們需要檢查QPCR結果是否正確。如果僅一個基因驗證結果不一致,則不足以說明測序或者驗證有問題,但當我們選擇了15個基因甚至更多時,結果依然不一致時,那么我們可能需要分析測序數據的結果是否正確,同時檢查結果預期是否正確。
二、常見分析問題
1. 原核轉錄組測序是否可以做無參分析
不建議進行無參分析,是因為原核生物的mRNA一般多為順反子,直接拼接效果會很差。
2. Small RNA-seq只能捕獲到miRNA的數據么
Small RNA-seq由于其建庫的特點,可以捕獲到miRNA、piRNA和tRNA小片段,但是由于分析流程的限制,一般sRNA-seq只分析miRNA的數據。
3. lncRNA的調控作用
影響周邊和遠端基因表達(順式調控和反式調控);調控蛋白活動及定位;產生小分子RNA;對其他RNA的調控作用
4. 常規表觀修飾測序(WGBS/RRBS/CHIP-SEQ/RIP-SEQ)是否需要參考基因組
物種要求:真核生物,物種有參考基因組,至少拼接到scaffold水平;具有較為完整的注釋。
5. miRNA表達及組織異構體
在miRNA鑒定中,可能成為miRNA的reads是怎樣計算的?哪些條件會影響到mrd值?micro RNA在不同組織有異構體的存在,是如何處理的?
與 Rfam, miRbase, RepBase和 ExonIntro 序列庫進行比對,獲得 sRNA 注釋信息,以此作為預測新的 miRNA 的基礎。miRNA的鑒定是利用miRDeep2軟件進行已知及新(保守及非保守)的miRNA鑒定。miDeep2會在reads比對到基因組上的位置兩端分別延伸75、15bp進行結構預測,此軟件認為極可能與可能是miRNA的根據是通過mrd值來區分的,mrd>-10為可能,mrd>0為極可能;影響mrd值的有reads在基因組上的分布和堿基結合的自由能等;
6. 小RNA中,成熟序列相同的miRNA如何確定各自的表達量
測序時理論上得到的是miRNA成熟序列,通過比對數據庫中的miRNA成熟序列及前體序列來確定miRNA,這種情況下得到的reads沒有辦法判斷是屬于哪一個成熟序列相同的miRNA前體的,這樣的miRNA會列出所有成熟序列相同的miRNA,且在同一樣品中表達量相同;但是測序時是通過片段大小選擇來獲得測序文庫的,并不是嚴格意義上的只有miRNA成熟序列的reads,所以會有一些包含成熟序列上下游幾nt前體序列的reads,這種情況下,可以通過這部分非成熟序列的序列來判斷該reads是屬于哪一個miRNA前體,從而得到的成熟序列相同的不同miRNA在同一樣品中表達量則會不同。
7. lncRNA預測時為什么選擇含有2個及2個以上外顯子的轉錄本?
關于lncRNA預測,目前的文獻中有多種不同的篩選角度和不同的標準(比如,長度,外顯子個數,ORF長度,同已知nonconding數據庫比對,不同的預測軟件,覆蓋度,FPKM值等等),篩選條件到目前為止也并沒有一個統一的定論,有較多文獻支持選擇含有2個及2個以上外顯子的轉錄本進行篩選。
8. 差異基因篩選為什么選擇FDR?
FDR是q-value的校正值,是目前在RNA-seq中使用最普遍的公認的Benjamini-Hochberg校正方法,可參考Benjamini and Hochberg在1995年第一次提出了FDR(False Discovery Rate)的概念以及相應的多重檢驗校正方法的文章。
9.外顯子,內含子及基因間區各自的比例如何評估建庫情況?
理論上,來自成熟mRNA的reads應該比對到外顯子區。但是,由于基因組注釋水平、可變剪切導致的內含子序列保存,以及很多RNA(比如lncRNA)就來自基因間區和內含子,因此有比對到內含子和基因間區的reads。受物種等的影響外顯子所占比例不同,一般情況下外顯子區域所占比例超過70%即比較理想。
10. 多個Unigene注釋一樣,序列長度不同,相似性較低,為什么?
首先某一基因可能比較長,但無參考基因組裝出的片段即Unigene很難組裝得到全長,得到的是這個基因上的大小不等的片段,在進行比對的時候就會比對到同一個基因上,因此他們的注釋信息一致;
從序列來看Unigene基因的序列相似度不高,但是因為比對的是蛋白,所以可能他們的蛋白相似度會比較高,因此會注釋到同一基因上。
11. 無參轉錄組中同一ID下有多條序列,想得到此序列的核苷酸信息應選哪一條?
同一個ID號下面好幾條序列,這個應該是組裝過程中裝出來的轉錄本序列,來自同一個Component(具體見Trinity組裝的第二步),其ID前綴相同,后面跟著seq+數字的編號。Trinity軟件認為這些轉錄本來源于同一個基因,因此,選取其中最長的那個轉錄本的序列作為該基因的序列。
12. 差異基因分析和數據庫注釋
差異基因分析基因表達上調與下調的數目,進行差異表達基因的聚類分析和差異基因的注釋和富集分析。數據庫注釋COG:基于細菌、藻類、真核生物的系統進化關系構建-對基因產物進行直系同源分類。KOG:針對真核生物,基于基因直系同源關系,結合進化關系對基因產物進行直系同源類。Pfam:全面的蛋白結構域注釋的分類系統,每個特定結構域的蛋白序列具有一定的保守性。KEGG:系統分析基因產物在細胞中的代謝途徑以及這些基因產物功能的數據庫,整合了基因組、化學分子和生化系統等方面的數據徑查詢,對催化各步反應的酶進行全面注解,進行代謝網絡研究。包括代謝通路、藥物、疾病、基因序列以及基因組等。String:根據已知蛋白的互作關系構建蛋白互作網絡。GO:基因功能分類體系,描述生物體內基因和基因產物的功能屬性,分為分子功能MF、細胞組分CC和生物學過程BP三個大類。NR:非冗余蛋白數據庫,CDS數據翻譯過來的蛋白質數據庫。Swissprot數據庫:包含了相關文獻且經過校對的蛋白注釋信息數據庫,可信度較高。
13. 轉錄組分析常規流程
14. 差異基因分析套路
差異基因篩選,然后做注釋和富集分析,利用韋恩圖縮小差異基因范圍,篩選出在不同時期表達模式不同的基因,同時借助已有的蛋白互作關系,分析DEG蛋白間的項目作用關系,發現新的基因。
三、常見名詞問題
1. CDS和ORF
CDS是編碼蛋白質的一段序列,ORF是從起始密碼子到終止密碼子的一段序列,不是所有的讀碼框都能表達出蛋白質,CDS一定是ORF,但ORF不一定是CDS;在預測CDS的時候是先跟數據庫比對,比對上的直接提取CDS序列,比對不上的再用軟件預測。
2. Unigene N50
Unigene N50 的大小是評判轉錄組組裝效果的一個指標, 將所有 Unigene 按照從長到短的順序排列,然后從長到短依次相加,當加和達到 Unigene 庫總長度的 1/2 時的那條 Unigene長度為 Unigene N50 的長度。
3. p_value和FDR
p value:T檢驗用于判斷兩個平均數的差異是否顯著的值。q value(FDR):為經過多重校驗后的p value,能更好地控制假陽性率。
4. Read count和FPKM/RPKM
Read count:在二代測序中,每個測序反應得到的序列為一個“read”,通過統計某一個“read”在整個測序中出現的次數即為read count,可以用read count表示RNA豐度。FPKM(Fragments Per Kilobase per Million mapped reads):FPKM與RPKM代表的意義很相近,二者區別在于FPKM是以fragment數為計算單位而RPKM以reads數為計算單位。RPKM的誕生是針對早期的SE測序,FPKM則是在PE測序上對RPKM的校正。在Paired-end 測序中,一個fragment就是兩條PE reads構成的片段。由于是PE比對,理論上比SE比對更可靠。
Xi:每個轉錄本比對上的片段數;
li:每個轉錄本長度;
N:比對成功的總reads數;
RPKM(Reads Per Kilobase per Million mapped reads):以reads數為計算單位,對基因長度(基因間的比較)和總數據量(樣本間的比較)做矯正;
rg:每個轉錄本比對上的reads數;
flg:每個轉錄本的長度;
R:比對成功的總reads數;
5. 基因和轉錄本數據
定量基因表達和評估轉錄圖譜相似性只需要中等測序深度,而研究新轉錄本和可變剪切需要較深的測序深度。基因:基因差異分析和基因共表達分析轉錄本:轉錄本重構和定量:可變剪切分析二代測序技術產生的reads較短,短片段導致的信息損失需要依靠統計建模去推斷和彌補:極大似然回歸和基于回歸分析,分別基于轉錄本表達量構建混合概率模型和回歸模型,進行最優參數的計算。外顯子水平分析:外顯子的剪接百分比,常見方法有:MISO,SpliceTrap和rMATS等。MISO和SpliceTrap都構建了類似于貝葉斯框架下的模型,作為感興趣的參數,然后可以基于其后驗分布獲得貝葉斯置信區間。
6 Contig 與transcript
轉錄組測序的原始數據包含了很多的reads,通過序列的拼接,具有重疊區的reads會被組裝成更大的片段,稱之為contig。將reads比對回contig,通過paired-end reads能確定來自同一轉錄本的不同contig 以及這些contig之間的距離,將這些contig連在一起,最后得到兩端不能再延長的序列,稱之為Unigene。Transcript即轉錄本。
7. 已知micRNA、保守的micRNA以及新預測的micRNA?
已知micRNA指的是序列在miRBase數據庫中百分百的比對到該物種的序列上,如果在該物種上沒有比對上但比對上了數據庫中的其他物種上我們稱之為保守的micRNA;新預測的micRNA:通過miRDeep2軟件進行預測,有一定的read能夠比對到基因組上,并且比對位置的序列可以形成發卡結構,那么就會作為新預測的miRNA。
8. WGCNA基因共表達分析
用于識別差異表達基因的共表達模式,分析樣品間的mRNA表達的模式,將相同表達趨勢的mRNA聚類為一個模塊對特定的基因進行基因共表達網絡分析,將基因劃分為不同的模塊,探索模塊與特定表型或疾病的關聯關系,篩選關鍵基因集。
康旭禾生物提供包括動物實驗、細胞實驗、分子實驗、病理實驗、流式檢測實驗及論文翻譯、潤色、投稿輔助等相關的各項服務。
聯系方式:19379182007
公司官網:http://consurebio.com/
公司地址:江西省南昌市南昌縣小藍VR產業基地D座2樓