你是否進(jìn)行過(guò)基因組測(cè)序?全世界已經(jīng)有數(shù)百萬(wàn)人進(jìn)行了基因組測(cè)序,到2025年,這一人數(shù)可達(dá)10億。
研究人員獲取的基因組數(shù)據(jù)越多,個(gè)人和公共健康的前景就越好。目前,產(chǎn)前DNA測(cè)試已可對(duì)胎兒發(fā)育異常進(jìn)行篩查。很快,患者就可以通過(guò)血液測(cè)序找到可能預(yù)示著傳染病的非人類基因。將來(lái),癌癥研究人員將能夠通過(guò)對(duì)多個(gè)組織的DNA和RNA進(jìn)行日常單細(xì)胞測(cè)序,來(lái)跟蹤疾病的進(jìn)展。
全民DNA測(cè)序?qū)⑹刮覀兏娴亓私庹麄€(gè)社會(huì)的健康狀況。這就是英國(guó)生物銀行的目標(biāo),它旨在對(duì)50萬(wàn)名志愿者的基因組進(jìn)行測(cè)序,并對(duì)他們進(jìn)行數(shù)十年的追蹤。覆蓋廣泛人口的基因組研究已經(jīng)成為一項(xiàng)日常應(yīng)用,對(duì)與特定疾病相關(guān)聯(lián)的突變進(jìn)行識(shí)別。對(duì)空氣、土壤和水中的生物體進(jìn)行定期測(cè)序?qū)⒂兄谧粉櫫餍胁?、食物病原體、毒素等。
要實(shí)現(xiàn)這樣的愿景,需要存儲(chǔ)并分析的數(shù)據(jù)量將大到難以想象。通常,一臺(tái)DNA測(cè)序儀處理一個(gè)人的整個(gè)基因組就會(huì)產(chǎn)生數(shù)十至數(shù)百千兆字節(jié)的數(shù)據(jù)。在存儲(chǔ)時(shí),數(shù)百萬(wàn)基因組累積的數(shù)據(jù)將達(dá)到數(shù)十艾字節(jié)。
這還僅是開(kāi)始。發(fā)現(xiàn)并應(yīng)用基因組數(shù)據(jù)的科學(xué)家、醫(yī)生以及其他相關(guān)人士對(duì)每個(gè)個(gè)體并不會(huì)僅僅進(jìn)行一次測(cè)序,他們還會(huì)想對(duì)多個(gè)人體組織中的多個(gè)細(xì)胞進(jìn)行反復(fù)測(cè)序。隨著測(cè)序速度的增加和其成本的下降——現(xiàn)在個(gè)人基因組測(cè)序只需要1000美元,并且還在迅速下降——他們還想對(duì)其他動(dòng)物、植物、微生物和整個(gè)生態(tài)系統(tǒng)的DNA進(jìn)行測(cè)序。此外,新應(yīng)用程序,甚至新產(chǎn)業(yè)的出現(xiàn),都會(huì)催生出更多的測(cè)序行為。
雖然現(xiàn)在很難預(yù)測(cè)基因組數(shù)據(jù)所有的未來(lái)收益,但我們已經(jīng)看到了一項(xiàng)不可避免的挑戰(zhàn):數(shù)據(jù)存儲(chǔ)量幾乎達(dá)到了令人難以置信的程度。目前,存儲(chǔ)基因組數(shù)據(jù)的成本仍然只占實(shí)驗(yàn)室總預(yù)算的一小部分。但該成本正急劇增長(zhǎng),遠(yuǎn)遠(yuǎn)超過(guò)了存儲(chǔ)硬件價(jià)格的下降。在未來(lái)5年內(nèi),存儲(chǔ)數(shù)十億人類、動(dòng)物、植物和微生物基因組的成本將達(dá)到每年數(shù)十億美元。這些數(shù)據(jù)需要保存數(shù)十年,甚至更長(zhǎng)時(shí)間。
數(shù)據(jù)壓縮顯然非常有用。生物信息學(xué)專家們已經(jīng)使用類似gzip的標(biāo)準(zhǔn)壓縮工具,將文件大小縮小到原來(lái)的1/20。一些研究者還使用了更為專業(yè)的、針對(duì)基因組數(shù)據(jù)進(jìn)行優(yōu)化的壓縮工具,但這些工具都沒(méi)有得到廣泛采用。我們兩人都從事數(shù)據(jù)壓縮算法研究,我們認(rèn)為是時(shí)候提出一種新的壓縮方案了——一種效率更高、速度更快、更適用于基因組數(shù)據(jù)獨(dú)有特性的方案。正如專用視頻和音頻壓縮對(duì)YouTube和Netflix等流媒體服務(wù)至關(guān)重要一樣,面對(duì)基因組數(shù)據(jù)爆炸,也必須利用專用的基因組數(shù)據(jù)壓縮工具才能獲取收益。
在解釋如何更好地壓縮基因組數(shù)據(jù)以前,讓我們仔細(xì)觀察一下數(shù)據(jù)本身?!盎蚪M”是指4種核苷酸堿基的序列——腺嘌呤、胞嘧啶、鳥(niǎo)嘌呤和胸腺嘧啶——它們形成了我們熟悉的DNA堿基A、C、G、T。這些核苷酸出現(xiàn)在組成人類基因組的23對(duì)染色體的A-T和C-G堿基對(duì)的堿基鏈中。這些染色體包含大約60億個(gè)核苷酸,存在于大部分人體細(xì)胞中,并且包括編碼基因、非編碼因子(如染色體末端的端粒)、調(diào)控因子和線粒體DNA。伊諾米那(Illumina)、牛津納米孔科技公司(Oxford NanoporeTechnologies)和太平洋生物科技(Pacific Biosciences)等公司的DNA測(cè)序儀能夠在數(shù)小時(shí)內(nèi)對(duì)一份DNA樣本完成一組人類基因組的自動(dòng)測(cè)序。
這些商業(yè)DNA測(cè)序儀不產(chǎn)生單個(gè)基因組長(zhǎng)度的ACGT串,而是產(chǎn)生大量的子串或“讀序”(reads)?!白x序”彼此有部分重疊,需要由序列裝配軟件重建完整的基因。通常,當(dāng)進(jìn)行全基因測(cè)序時(shí),每一段基因出現(xiàn)在不超過(guò)約100個(gè)“讀序”中。
根據(jù)所使用的測(cè)序技術(shù),一個(gè)“讀序”的長(zhǎng)度可以在大約100到10萬(wàn)個(gè)堿基對(duì)間不等,“讀序”的總數(shù)在數(shù)百萬(wàn)到數(shù)百億堿基不等。短的“讀序”可以發(fā)現(xiàn)單個(gè)堿基對(duì)的突變,長(zhǎng)的“讀序”能更好地檢測(cè)在成千上萬(wàn)個(gè)堿基對(duì)中發(fā)生的缺失或插入等復(fù)雜變異。
DNA測(cè)序是一個(gè)充滿噪聲的過(guò)程,“讀序”包含錯(cuò)誤很常見(jiàn)。因此,除了ACGT核苷酸串以外,每個(gè)“讀序”還包括質(zhì)量評(píng)分,標(biāo)明測(cè)序儀對(duì)每個(gè)DNA核苷酸的置信度。測(cè)序儀的質(zhì)量評(píng)分以對(duì)數(shù)形式表達(dá)錯(cuò)誤概率。其使用的算法是專利技術(shù),但在事后可查。如果質(zhì)量評(píng)分為20(對(duì)應(yīng)的錯(cuò)誤概率為1%),那么用戶可確認(rèn)在已知DNA序列中大約有1%的堿基對(duì)是不正確的。使用這些文件的程序依賴質(zhì)量評(píng)分來(lái)區(qū)分出測(cè)序錯(cuò)誤和突變等變化。相對(duì)于測(cè)序錯(cuò)誤,真正的突變將具有更高的平均質(zhì)量評(píng)分——也就是說(shuō),更低的錯(cuò)誤概率。
測(cè)序儀將含有核苷酸串、質(zhì)量評(píng)分以及其他一些元數(shù)據(jù)的“讀序”逐個(gè)地粘貼在一起,形成所謂的FASTQ文件。一個(gè)完整基因組的FASTQ文件通常包含數(shù)十至數(shù)百千兆字節(jié)的數(shù)據(jù)。
這些文件冗余度很高,其原因是任意兩個(gè)人的基因組幾乎都是一樣的。平均而言,每1000個(gè)核苷酸中,只有大約1個(gè)核苷酸不同,通常人們只對(duì)這些基因組差異感興趣。一些DNA測(cè)序針對(duì)特定的差異區(qū)域——例如,像23andMe這樣的DNA基因分析應(yīng)用僅查找特定的差異,刑事調(diào)查中DNA分析則會(huì)查找某些標(biāo)記重復(fù)次數(shù)的變化。
但是,如果你不知道有需要關(guān)注的區(qū)域在哪里——例如,你試圖診斷一種未知遺傳來(lái)源的疾病,那你就需要對(duì)整個(gè)基因組測(cè)序,這就意味著獲取更大量的測(cè)序數(shù)據(jù)。
重復(fù)的測(cè)序數(shù)據(jù)也是為了清除錯(cuò)誤,因此對(duì)基因組相同部分進(jìn)行多次讀取。有時(shí)單一樣本包含多種變異序列,因此你會(huì)想對(duì)其進(jìn)行重復(fù)測(cè)序來(lái)捕捉這些變異。比如檢測(cè)一個(gè)組織樣本中的癌細(xì)胞,或檢測(cè)孕婦血液中胎兒DNA的痕跡。這可能意味著要對(duì)每個(gè)DNA堿基對(duì)進(jìn)行很多次測(cè)序,通常超過(guò)100次,以識(shí)別稀有變異與常見(jiàn)變異,區(qū)分真正的差異與測(cè)序錯(cuò)誤。
━━━━
到目前為止,對(duì)DNA測(cè)序?yàn)楹螘?huì)產(chǎn)生如此多的冗余數(shù)據(jù)你應(yīng)該已有了更好的理解。事實(shí)證明,這些冗余正是數(shù)據(jù)壓縮的理想選擇。無(wú)須存儲(chǔ)同一基因組數(shù)據(jù)的多個(gè)副本,你可以只存儲(chǔ)一份副本。
為了壓縮基因組數(shù)據(jù),你可以首先將每個(gè)DNA序列“讀序”分為較小的數(shù)據(jù)塊,然后為每個(gè)數(shù)據(jù)塊分配一個(gè)數(shù)字索引。最終,所有索引構(gòu)成了一部字典,其中的條目不是單詞,而是DNA堿基對(duì)短序列。
文本壓縮器就以這種方式工作。例如,GitHub擁有一個(gè)廣泛使用的單詞列表,可用它來(lái)為每個(gè)單詞分配數(shù)字索引。因此,要將一段文本編碼為二進(jìn)制,需要將每個(gè)單詞替換為其數(shù)字索引——比如GitHub的列表中用數(shù)字64872代表單詞“compression”(壓縮)——隨后再以二進(jìn)制形式表示這些數(shù)字。為了壓縮二進(jìn)制表示,可以按單詞使用頻率對(duì)字典進(jìn)行排序,而不是按字母表順序,以便使更常用的單詞獲得更小的數(shù)字,這樣它們需要編碼的位數(shù)就更少。
另一種常見(jiàn)的策略是Lempel-Ziv算法系列,它建立一個(gè)由越來(lái)越長(zhǎng)的短語(yǔ)(而不是單詞)組成的詞典。例如,如果某個(gè)文本經(jīng)常在“基因組”后跟“數(shù)據(jù)”一詞,則會(huì)把單個(gè)的數(shù)字索引分配給短語(yǔ)“基因組數(shù)據(jù)”。
很多通用的壓縮工具,例如gzip、bzip2、臉書(shū)的Zstandard和谷歌的Brotli,都使用這兩種方法。雖然這些工具對(duì)壓縮基因組文本有效,但為特定的數(shù)據(jù)類型開(kāi)發(fā)的專用壓縮器與它們相比有更顯著的優(yōu)勢(shì)。
再看視頻流的情況。單幀視頻及其播放方向使得視頻壓縮軟件能夠預(yù)測(cè)下一幀,因此壓縮文件不包含每一幀中每個(gè)像素的數(shù)據(jù)。此外,觀眾可以容忍難以察覺(jué)的視頻信息丟失或失真,這與基于文本的數(shù)據(jù)情況不同。為了利用這一特點(diǎn),一家國(guó)際聯(lián)盟組織花費(fèi)數(shù)年制定了H.264視頻壓縮標(biāo)準(zhǔn)(如今藍(lán)光光碟、YouTube、iTunes Store、Adobe Flash Player和微軟的Silver- light便使用該標(biāo)準(zhǔn))。
研究人員同樣也在設(shè)計(jì)專用的基因組數(shù)據(jù)壓縮工具,在每個(gè)月的學(xué)術(shù)文獻(xiàn)中都涌現(xiàn)出一些新的工具。很多人使用“基于參照”的壓縮方法,它的切入點(diǎn)是以人類基因組序列作為參照。任何人類DNA短序列——由不超過(guò)100個(gè)堿基對(duì)組成的序列——很可能出現(xiàn)在該參照中的某處,哪怕有測(cè)序錯(cuò)誤和突變。因此,專用的壓縮器不列出序列中所有近100個(gè)堿基對(duì),而是僅記錄該串在參照中的開(kāi)始位置(例如“5號(hào)染色體中的第1000個(gè)堿基對(duì)”)并描述相對(duì)于參照序列的所有差異(例如“刪除第10個(gè)堿基對(duì)”)。除了壓縮軟件之外,該方法還需要用戶提供一份人類基因組的參照副本,其數(shù)據(jù)大小約為1千兆字節(jié)。
如上所述,F(xiàn)ASTQ文件不只包含DNA序列,還包含表明潛在錯(cuò)誤的質(zhì)量評(píng)分。遺憾的是,基于參照的壓縮無(wú)法用于壓縮FASTQ質(zhì)量評(píng)分,因?yàn)闆](méi)有針對(duì)質(zhì)量評(píng)分的參照序列。但是,這些工具著眼于質(zhì)量評(píng)分的模式——例如,一個(gè)低質(zhì)量得分之后很可能是另一個(gè)低質(zhì)量得分,或者DNA“讀序”開(kāi)始階段的質(zhì)量評(píng)分往往比結(jié)束階段的要高。就像對(duì)所有單詞按照使用頻率降序編碼可以壓縮文本一樣,對(duì)一組質(zhì)量評(píng)分?jǐn)?shù)據(jù)按照其預(yù)測(cè)可能性高低的順序進(jìn)行編碼,可以對(duì)該數(shù)據(jù)進(jìn)行壓縮。研究人員有時(shí)會(huì)丟棄低質(zhì)量數(shù)據(jù),而不對(duì)其進(jìn)行存儲(chǔ)和壓縮,但數(shù)據(jù)壓縮程序可能無(wú)法決定丟棄哪些數(shù)據(jù)或確定“低質(zhì)量”的閾值是多少。
━━━━
這些新的壓縮器是個(gè)良好的開(kāi)端,但它們還不完美。隨著對(duì)數(shù)據(jù)的理解不斷加深,我們壓縮數(shù)據(jù)的能力也隨之提高。數(shù)據(jù)壓縮迫使我們尋找數(shù)據(jù)中的隱性模式和冗余;當(dāng)數(shù)據(jù)壓縮深入到一定的程度時(shí),我們就會(huì)意識(shí)到我們完全理解了這些數(shù)據(jù)。如果基因組數(shù)據(jù)壓縮器能夠?qū)?shù)據(jù)中的細(xì)微模式納入考慮,那么就將能夠縮小文件大小并降低存儲(chǔ)成本。
在斯坦福大學(xué)我們自己的研究中,我們得出了一項(xiàng)有潛力的觀察結(jié)果:基因組中兩個(gè)連續(xù)DNA變異之間的距離遵從“雙冪律”分布。你可能熟悉“冪律”分布的概念,即某種結(jié)果出現(xiàn)的概率與該結(jié)果數(shù)量級(jí)的倒數(shù)(負(fù)指數(shù)冪)成正比,可能達(dá)到某個(gè)冪數(shù)。城市人口通常遵循這種分布:擁有200萬(wàn)人口的城市數(shù)量大約是擁有100萬(wàn)人口的城市數(shù)量的一半。該定律也適用于國(guó)家財(cái)富分布,20%的人口占有80%的財(cái)富(二八定律)。
雙冪律包括兩種不同的冪律,它們作用在相同類型的數(shù)據(jù)上,但覆蓋不同的范圍。例如,二八定律可以應(yīng)用于人口財(cái)富占比中的下半部分,而一九定律適用于上半部分。雙冪律可以用于描述臉書(shū)上的好友數(shù)量、電話呼叫的持續(xù)時(shí)間,以及硬盤驅(qū)動(dòng)器上的文件大小。
事實(shí)證明,通過(guò)DNA堿基對(duì)測(cè)量得出相鄰遺傳變異之間距離的直方圖看起來(lái)符合雙冪律,交叉點(diǎn)出現(xiàn)在大約1000個(gè)DNA堿基對(duì)附近(見(jiàn)本文的“雙冪律”圖表)。何種進(jìn)化過(guò)程導(dǎo)致了該種分布尚不明確,但是其存在使改進(jìn)壓縮成為可能??藙诘?香農(nóng)在信息理論的一個(gè)基本成果中指出:數(shù)據(jù)無(wú)法被壓縮到其分布的信息熵以下——信息熵是一種隨機(jī)性測(cè)度。雙冪律分布證明了現(xiàn)實(shí)基因組的隨機(jī)性比假設(shè)模型的隨機(jī)性要小,即具有較低的信息熵,模型假設(shè)基因組中每個(gè)位置出現(xiàn)變異的可能性相等。我們對(duì)這一發(fā)現(xiàn)感到興奮——這不僅是一個(gè)有趣的生物學(xué)現(xiàn)象,還暗示存在尚未開(kāi)發(fā)的更大壓縮潛能。
━━━━
今天使用的基因組數(shù)據(jù)壓縮器是無(wú)損的——也就是說(shuō),允許你逐個(gè)數(shù)位地將壓縮文件恢復(fù)至與壓縮前完全一樣。但有一種情況允許一定量的損失,不是在DNA序列中,而是在測(cè)序儀對(duì)數(shù)據(jù)的質(zhì)量評(píng)分中。雖然只有4種DNA核苷酸(A、C、G、T),但通常大約有40種可能的質(zhì)量評(píng)分,因此構(gòu)成無(wú)損壓縮的FASTQ文件中的大多數(shù)數(shù)位是質(zhì)量評(píng)分,而不是DNA序列。這種精確度是無(wú)用的,因?yàn)槭褂没蚪M數(shù)據(jù)的應(yīng)用軟件傾向于忽略質(zhì)量評(píng)分中的微小變化,或是可能完全丟棄質(zhì)量評(píng)分。當(dāng)質(zhì)量評(píng)分以有損方式壓縮時(shí),類似于尋找兩個(gè)基因組之間變化的某些任務(wù)的性能實(shí)際上得到了改善,因?yàn)橛袚p壓縮消除了質(zhì)量評(píng)分間的無(wú)關(guān)變化,有效地除去了數(shù)據(jù)中的噪聲。
我們還可以通過(guò)丟棄某些基因測(cè)序信息來(lái)節(jié)省存儲(chǔ)空間。DNA“讀序”出現(xiàn)在FASTQ文件中的確切順序?qū)﹄S后的分析來(lái)說(shuō)通常并不重要。類似識(shí)別遺傳變異等很多情形,隨機(jī)攪亂“讀序”,產(chǎn)出的結(jié)果幾乎相同。因此,你可以利用“排序的列表比未排序的列表能夠壓縮得更多”這一事實(shí),按字母表順序?qū)NA“讀序”進(jìn)行排序。文本壓縮中的類似情況是對(duì)單詞列表進(jìn)行排序,并說(shuō)明相鄰單詞之間的距離。例如,“decompressed”和“decompresses”(“解壓”的不同時(shí)態(tài))在字典中是相鄰的,它們的最后一個(gè)字母(d和s)在字母表中相隔15個(gè)字母,因此你可用整數(shù)15對(duì)第二個(gè)單詞進(jìn)行編碼。
舉例說(shuō)明該方法如何運(yùn)用在DNA上,讓我們按字母表順序?qū)π蛄蠥CGAAA、ACGAAG和 ACGAAT進(jìn)行排序。前5個(gè)字母都是一樣的,因此我們只對(duì)第6個(gè)字母之間的差異感興趣。第二個(gè)序列被編碼為整數(shù)2(因?yàn)樽詈笠粋€(gè)字母G,是核苷酸字母表ACGT中排在A之后的第2個(gè)字母),第3個(gè)序列被編碼為1(因?yàn)樗淖詈笠粋€(gè)字母T,是G之后的1個(gè)字母)。相對(duì)于按原始順序存儲(chǔ)DNA“讀序”,這種方法可以節(jié)省兩倍乃至更多的存儲(chǔ)量。
當(dāng)然,壓縮率只是壓縮工具能力的衡量標(biāo)準(zhǔn)之一。速度是另一個(gè)衡量因素。很多專用FASTQ壓縮器并行運(yùn)行,比單CPU運(yùn)行節(jié)省時(shí)間;有些壓縮器利用GPU和現(xiàn)場(chǎng)可編程門陣列處理器,這些硬件經(jīng)常用于加速視頻處理和機(jī)器學(xué)習(xí)。另一個(gè)實(shí)用的因素是能夠搜索壓縮數(shù)據(jù)。你一定不希望在只想快速搜索一段特定DNA序列時(shí),還必須先解壓整個(gè)文件。
基因組壓縮工具的選擇越來(lái)越多,此時(shí)我們需要的是標(biāo)準(zhǔn)化。就像視頻壓縮技術(shù)要等到業(yè)內(nèi)大部分人士達(dá)成一個(gè)標(biāo)準(zhǔn)才能起步一樣,基因組壓縮技術(shù)也必須形成一個(gè)標(biāo)準(zhǔn)——或至少是一組標(biāo)準(zhǔn)。
幸運(yùn)的是,基因組測(cè)序數(shù)據(jù)壓縮的標(biāo)準(zhǔn)已經(jīng)開(kāi)始制定。動(dòng)態(tài)圖像專家組(MPEG)——也就是開(kāi)發(fā)MP3音頻格式和幾項(xiàng)流行視頻格式的機(jī)構(gòu)——多年來(lái)一直在制定一項(xiàng)壓縮基因組數(shù)據(jù)的標(biāo)準(zhǔn),名為MPEG-G。該規(guī)范有望于今年晚些時(shí)候完成。該標(biāo)準(zhǔn)將隨著技術(shù)的提高而發(fā)展,就像視頻壓縮標(biāo)準(zhǔn)曾經(jīng)的方式一樣。
我們開(kāi)發(fā)高效、健全和標(biāo)準(zhǔn)化的基因組數(shù)據(jù)壓縮的速度只是一個(gè)經(jīng)濟(jì)學(xué)問(wèn)題。隨著存儲(chǔ)數(shù)據(jù)量的飆升,存儲(chǔ)成本日益高漲,降低成本才能推動(dòng)行業(yè)采用更好的壓縮方法。
現(xiàn)在,隨著序列數(shù)據(jù)總量的累積,基因研究可能處于取得意外收獲的風(fēng)口,目前,該領(lǐng)域與10年前人工智能的處境相似。最近人工智能所取得的巨大進(jìn)步在很大程度上是由大量可用的數(shù)據(jù)集所驅(qū)動(dòng)的,原先使用中等數(shù)據(jù)量表現(xiàn)不佳的深度學(xué)習(xí)算法,在使用大量數(shù)據(jù)集后,變得非常強(qiáng)大?;蜓芯咳藛T已經(jīng)開(kāi)始對(duì)他們的數(shù)據(jù)使用深度學(xué)習(xí)算法,但在取得類似收獲之前,他們不得不等待大量基因信息的累積。但有一件事是清楚的:沒(méi)有基因數(shù)據(jù)壓縮技術(shù)的重大進(jìn)步,他們就無(wú)法取得成功。
-
DNA
+關(guān)注
關(guān)注
0文章
243瀏覽量
31042 -
冗余數(shù)據(jù)
+關(guān)注
關(guān)注
0文章
4瀏覽量
1472
原文標(biāo)題:面臨挑戰(zhàn)的基因組數(shù)據(jù)壓縮技術(shù)
文章出處:【微信號(hào):IEEE_China,微信公眾號(hào):IEEE電氣電子工程師】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論