0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于邊合成邊測(cè)序技術(shù)的數(shù)據(jù)質(zhì)量控制

西西 ? 來(lái)源:博客園 ? 作者:SamYangBio ? 2020-11-11 10:52 ? 次閱讀

基于邊合成邊測(cè)序(Sequencing By Synthesis,SBS)技術(shù),Illumina HiSeq2500高通量測(cè)序平臺(tái)對(duì)cDNA文庫(kù)進(jìn)行測(cè)序,能夠產(chǎn)出大量的高質(zhì)量Reads,測(cè)序平臺(tái)產(chǎn)出的這些Reads或堿基稱為原始數(shù)據(jù)(Raw Data),其大部分堿基質(zhì)量打分能達(dá)到或超過(guò)Q30。Raw Data通常以FASTQ格式提供,每個(gè)測(cè)序樣品的Raw Data包括兩個(gè)FASTQ文件,分別包含所有cDNA片段兩端測(cè)定的Reads。

FASTQ格式文件示意圖如下:

FASTQ格式文件示意圖

注:FASTQ文件中通常每4行對(duì)應(yīng)一個(gè)序列單元:第一行以@開(kāi)頭,后面接著序列標(biāo)識(shí)(ID)以及其它可選的描述信息;第二行為堿基序列,即Reads;第三行以“+”開(kāi)頭,后面接著可選的描述信息;第四行為Reads每個(gè)堿基對(duì)應(yīng)的質(zhì)量打分編碼,長(zhǎng)度必須和Reads的序列長(zhǎng)度相同。

測(cè)序堿基質(zhì)量值

堿基質(zhì)量值(Quality Score或Q-score)是堿基識(shí)別(Base Calling)出錯(cuò)的概率的整數(shù)映射。通常使用的Phred堿基質(zhì)量值公式為:

公式中,P為堿基識(shí)別出錯(cuò)的概率。下表給出了堿基質(zhì)量值與堿基識(shí)別出錯(cuò)的概率的對(duì)應(yīng)關(guān)系:

表1 堿基質(zhì)量值與堿基識(shí)別出錯(cuò)的概率的對(duì)應(yīng)關(guān)系表

堿基質(zhì)量值越高表明堿基識(shí)別越可靠,堿基測(cè)錯(cuò)的可能性越小。比如,對(duì)于堿基質(zhì)量值為Q20的堿基識(shí)別,100個(gè)堿基中有1個(gè)會(huì)識(shí)別出錯(cuò);對(duì)于堿基質(zhì)量值為Q30的堿基識(shí)別,1,000個(gè)堿基中有1個(gè)會(huì)識(shí)別出錯(cuò);Q40表示10,000個(gè)堿基中才有1個(gè)會(huì)識(shí)別出錯(cuò)。

以測(cè)序循環(huán)為單位,對(duì)單個(gè)樣品所有Reads平行測(cè)序的堿基質(zhì)量值做分布圖,可以查看單個(gè)樣品各個(gè)測(cè)序循環(huán)及整體的測(cè)序質(zhì)量。

堿基質(zhì)量值分布圖

注:橫坐標(biāo)為測(cè)序堿基在Reads上的位置,縱坐標(biāo)為堿基質(zhì)量值。顏色深淺表示堿基比重,顏色越深,說(shuō)明該位置測(cè)定的堿基中為對(duì)應(yīng)質(zhì)量值的堿基所占的比重越大,反之亦然。

測(cè)序質(zhì)量控制

FASTQ文件中測(cè)序Reads需要與指定的參考基因組進(jìn)行序列比對(duì),定位cDNA片段在基因組或基因上的位置。在序列比對(duì)之前,首先需要確保這些Reads有足夠高的質(zhì)量,以保證后續(xù)分析的準(zhǔn)確。測(cè)序質(zhì)量控制方式如下:

(1) 去除測(cè)序接頭以及引物序列;

(2) 過(guò)濾低質(zhì)量值數(shù)據(jù),確保數(shù)據(jù)質(zhì)量。

經(jīng)過(guò)上述一系列的質(zhì)量控制之后得到的高質(zhì)量Reads或堿基,稱為Clean Data。Clean Data同樣以FASTQ格式提供。

測(cè)序數(shù)據(jù)產(chǎn)出統(tǒng)計(jì)

某項(xiàng)目各樣品數(shù)據(jù)產(chǎn)出統(tǒng)計(jì)見(jiàn)下表:

表2 樣品測(cè)序數(shù)據(jù)評(píng)估統(tǒng)計(jì)表

注:Samples:樣品信息單樣品名稱;ID:樣品編號(hào);Read Number:Clean Data中pair-end Reads(雙末端測(cè)序)總數(shù);Base Number:Clean Data總堿基數(shù);GC Content:Clean Data GC含量,即Clean Data中G和C兩種堿基占總堿基的百分比;%≥Q30:Clean Data質(zhì)量值大于或等于30的堿基所占的百分比。

轉(zhuǎn)錄組數(shù)據(jù)與參考基因組序列比對(duì)

獲得Clean Reads后,將其與參考基因組進(jìn)行序列比對(duì),獲取在參考基因組或基因上的位置信息,以及測(cè)序樣品特有的序列特征信息。

TopHat2是一個(gè)高效的序列比對(duì)軟件。它以高通量Reads比對(duì)軟件Bowtie為基礎(chǔ),將轉(zhuǎn)錄組測(cè)序Reads比對(duì)到基因組上,然后通過(guò)分析比對(duì)結(jié)果識(shí)別外顯子之間的剪接點(diǎn)(Splicing Junction)。這不僅為可變剪接分析提供了數(shù)據(jù)基礎(chǔ),還能夠使更多的Reads比對(duì)到參考基因組,提高了測(cè)序數(shù)據(jù)的利用率。

轉(zhuǎn)錄組測(cè)序數(shù)據(jù)中,只有比對(duì)到參考基因組上的數(shù)據(jù)才能用于后續(xù)分析。因此,將比對(duì)到指定的參考基因組上的Reads稱為Mapped Reads,對(duì)應(yīng)的數(shù)據(jù)稱為Mapped Data。

比對(duì)效率統(tǒng)計(jì)

比對(duì)效率指Mapped Reads占Clean Reads的百分比,是轉(zhuǎn)錄組數(shù)據(jù)利用率的最直接體現(xiàn)。比對(duì)效率除了受數(shù)據(jù)測(cè)序質(zhì)量影響外,還與指定的參考基因組組裝的優(yōu)劣、參考基因組與測(cè)序樣品的生物學(xué)分類關(guān)系遠(yuǎn)近(亞種)有關(guān)。因此,通過(guò)比對(duì)效率,可以評(píng)估所選參考基因組組裝是否能滿足信息分析的需求,及后期數(shù)據(jù)分析的可靠性。

各樣品測(cè)序數(shù)據(jù)與所選參考基因組的序列比對(duì)結(jié)果統(tǒng)計(jì)見(jiàn)下表:

表3 Clean Data與參考基因組比對(duì)結(jié)果統(tǒng)計(jì)表

注:ID:樣品編號(hào);Total Reads:Clean Reads數(shù)目,按單端計(jì);Mapped Reads:比對(duì)到參考基因組上的Reads數(shù)目;Mapped Ratio:比對(duì)到參考基因組上的Reads在Clean Reads中占的百分比;Uniq Mapped Reads:比對(duì)到參考基因組唯一位置的Reads數(shù)目;Uniq Mapped Ratio:比對(duì)到參考基因組唯一位置的Reads在Clean Reads中占的百分比。

比對(duì)結(jié)果作圖

將比對(duì)到不同染色體上Reads進(jìn)行位置分布統(tǒng)計(jì),繪制Mapped Reads在所選參考基因組上的覆蓋深度分布圖。

樣品T01的Mapped Reads在參考基因組部分染色體上的覆蓋深度分布圖如下:

Mapped Reads在參考基因組上的位置及覆蓋深度分布圖

注:橫坐標(biāo)為染色體位置;縱坐標(biāo)為覆蓋深度以2為底的對(duì)數(shù)值,以10kb作為區(qū)間單位長(zhǎng)度,劃分染色體成多個(gè)小窗口(Window),統(tǒng)計(jì)落在各個(gè)窗口內(nèi)的Mapped Reads作為其覆蓋深度。

理論上,來(lái)自成熟mRNA的Reads應(yīng)該比對(duì)到外顯子區(qū)。但是,由于以下原因一部分Reads會(huì)比對(duì)到內(nèi)含子區(qū)和基因間區(qū):

(1) 樣品提取時(shí)將含有Ploy(A)尾而內(nèi)含子沒(méi)有切除完全的mRNA(即mRNA前體)提出,使得來(lái)自內(nèi)含子片段的Reads比對(duì)到了內(nèi)含子區(qū);

(2) 基因組注釋錯(cuò)誤,原來(lái)為外顯子的區(qū)域注釋成了內(nèi)含子區(qū),或者相反;

(3) 基因組注釋水平低,對(duì)于使用轉(zhuǎn)錄組測(cè)序數(shù)據(jù)進(jìn)行的基因組注釋,由于轉(zhuǎn)錄組測(cè)序不能遍歷所有的時(shí)間和空間點(diǎn),使得用于注釋的轉(zhuǎn)錄組測(cè)序數(shù)據(jù)中不表達(dá)或低表達(dá)的基因剛好在該項(xiàng)目的樣品中檢測(cè)到較高豐度時(shí),來(lái)自這類基因的Reads就比對(duì)到了被注釋的基因間區(qū),這也是新基因和新轉(zhuǎn)錄本發(fā)掘的基礎(chǔ)之一;

(4) 測(cè)序樣品與參考基因組存在差異,比如測(cè)序樣品中突變形成新的轉(zhuǎn)錄組起始位點(diǎn)形成樣品特有的新基因,或者剪接位點(diǎn)差異形成新的轉(zhuǎn)錄本,這也是新轉(zhuǎn)錄本發(fā)掘的基礎(chǔ)之一。

統(tǒng)計(jì)Mapped Reads在指定的參考基因組不同區(qū)域(外顯子、內(nèi)含子和基因間區(qū))的數(shù)目,繪制基因組不同區(qū)域上各樣品Mapped Reads的分布直方圖,如下:

基因組不同區(qū)域Reads分布直方圖

注:圖中每個(gè)直方柱表示一個(gè)樣品,粉色區(qū)域?yàn)橥怙@子區(qū)、綠色區(qū)域?yàn)榛蜷g區(qū)、藍(lán)色區(qū)域?yàn)閮?nèi)含子區(qū),區(qū)域的高度表示比對(duì)到該區(qū)域的Mapped Reads在所有Mapped Reads中所占的百分比。
編輯:hfy

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • sbs
    sbs
    +關(guān)注

    關(guān)注

    0

    文章

    15

    瀏覽量

    12365
  • 質(zhì)量控制
    +關(guān)注

    關(guān)注

    0

    文章

    25

    瀏覽量

    8480
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    反饋AC/DC控制芯片中的關(guān)鍵技術(shù)

    反饋方式的AC/DC控制技術(shù)是最近10年間發(fā)展起來(lái)的新型AC/DC控制技術(shù),與傳統(tǒng)的副反饋
    發(fā)表于 03-08 11:21 ?3524次閱讀

    電源設(shè)計(jì)中的原反饋控制和副反饋控制方案分析

    在電源設(shè)計(jì)中,AC/DC方案可分為原反饋控制(PSR)方案和副反饋控制(SSR)方案。
    發(fā)表于 11-10 09:30 ?8726次閱讀

    什么是高低開(kāi)關(guān),高低開(kāi)關(guān)怎么設(shè)計(jì)?

    首先什么是高低開(kāi)關(guān)? 關(guān)于高低開(kāi)關(guān)在汽車中應(yīng)用非常廣泛,例如車燈控制、氣囊驅(qū)動(dòng)、繼電器控制等,代表性的廠家有ST、英飛凌等,高低開(kāi)關(guān)即
    的頭像 發(fā)表于 12-09 14:13 ?1.7w次閱讀
    什么是高低<b class='flag-5'>邊</b>開(kāi)關(guān),高低<b class='flag-5'>邊</b>開(kāi)關(guān)怎么設(shè)計(jì)?

    SMT車間管理與質(zhì)量控制技術(shù)(續(xù)完

    【摘要】:針對(duì)新產(chǎn)品的導(dǎo)入過(guò)程、車間現(xiàn)場(chǎng)管理及質(zhì)量控制技術(shù)進(jìn)行了全面的闡述。尤其是對(duì)新產(chǎn)品導(dǎo)入過(guò)程中的SMT生產(chǎn)線配置原則、設(shè)備選擇、車間基礎(chǔ)設(shè)施要求及生產(chǎn)現(xiàn)場(chǎng)管理和質(zhì)量控制技術(shù)等幾個(gè)
    發(fā)表于 04-24 10:10

    基于AC/DC控制芯片的原反饋技術(shù)

    反饋AC/DC控制技術(shù)是近10年發(fā)展起來(lái)的新型AC/DC控制技術(shù),與傳統(tǒng)的副反饋的光耦加
    發(fā)表于 11-21 10:59

    手機(jī)如何實(shí)現(xiàn)一充電一聽(tīng)歌(聽(tīng))呢

    ,如何實(shí)現(xiàn)一充電一聽(tīng)歌(聽(tīng))呢?因此,USB Type-C接口的轉(zhuǎn)接器應(yīng)時(shí)而生了,輕松的實(shí)現(xiàn)不同音頻插頭與音響耳機(jī)之間的相互轉(zhuǎn)換,而且一
    發(fā)表于 09-14 08:41

    學(xué)C語(yǔ)言

    學(xué)C語(yǔ)言
    發(fā)表于 03-10 11:35 ?272次下載

    有源箝位變壓器的高或低調(diào)整技術(shù)

    有源箝位變壓器的高或低調(diào)整技術(shù)
    發(fā)表于 10-14 18:13 ?39次下載
    有源箝位變壓器的高<b class='flag-5'>邊</b>或低<b class='flag-5'>邊</b>調(diào)整<b class='flag-5'>技術(shù)</b>

    基于AC/DC控制芯片的原反饋技術(shù)

    反饋AC/DC控制技術(shù)是近10年發(fā)展起來(lái)的新型AC/DC控制技術(shù),與傳統(tǒng)的副反饋的光耦加4
    發(fā)表于 11-08 10:54 ?3653次閱讀

    基于AC/DC控制芯片的原反饋技術(shù)

    反饋AC/DC控制技術(shù)是近10年發(fā)展起來(lái)的新型AC/DC控制技術(shù),與傳統(tǒng)的副反饋的光耦加4
    發(fā)表于 11-08 15:43 ?2373次閱讀
    基于AC/DC<b class='flag-5'>控制</b>芯片的原<b class='flag-5'>邊</b>反饋<b class='flag-5'>技術(shù)</b>

    基于模糊綜合評(píng)價(jià)的接質(zhì)量評(píng)價(jià)

    處理方法有多種,如:人工接、軟件輔助接、軟件自動(dòng)化接邊等。但是,接質(zhì)量評(píng)價(jià)一直以來(lái)沒(méi)有一個(gè)統(tǒng)一的標(biāo)準(zhǔn)。和接
    發(fā)表于 12-13 10:54 ?3次下載

    基于分割的社交網(wǎng)絡(luò)敏感保護(hù)技術(shù)

    的信息分配到子邊上,使得每條子只攜帶原非敏感的部分信息,從而生成具有隱私能力的匿名社交網(wǎng)絡(luò)。理論分析和仿真實(shí)驗(yàn)結(jié)果表明,相比cluster-edge和cluster-based with constraints算法,分割算
    發(fā)表于 12-26 16:35 ?0次下載

    基于網(wǎng)絡(luò)布局研究

    網(wǎng)絡(luò)布局技術(shù)是網(wǎng)絡(luò)可視化研究的重要內(nèi)容,良好的布局能夠有效地展示網(wǎng)絡(luò)的整體結(jié)構(gòu)并從中揭示出某些隱含的信息模式.為了全面地總結(jié)和分析現(xiàn)有網(wǎng)絡(luò)布局
    發(fā)表于 02-07 16:09 ?1次下載

    基于合成測(cè)序(SBS)原理的測(cè)序芯片和測(cè)序試劑盒

    ,是基因測(cè)序的最核心技術(shù)模塊。已完成全套測(cè)序試劑盒的開(kāi)發(fā),對(duì)照實(shí)驗(yàn)數(shù)據(jù)達(dá)到與Illumina 同等水平。(3)測(cè)序儀:已完成內(nèi)部測(cè)試平臺(tái)搭建
    的頭像 發(fā)表于 06-30 16:54 ?8367次閱讀

    開(kāi)關(guān)與低開(kāi)關(guān)的區(qū)分使用

    相對(duì)于外部負(fù)載,將半導(dǎo)體開(kāi)關(guān)配置在上側(cè)電路(電源側(cè))的叫作高驅(qū)動(dòng),配置在下側(cè)電路(GND側(cè))的叫作低驅(qū)動(dòng)。 【高驅(qū)動(dòng)/低驅(qū)動(dòng)】 高
    的頭像 發(fā)表于 07-05 17:05 ?4928次閱讀
    高<b class='flag-5'>邊</b>開(kāi)關(guān)與低<b class='flag-5'>邊</b>開(kāi)關(guān)的區(qū)分使用