NVIDIA Parabricks 是一套加速的基因組分析應(yīng)用程序,它在加速測(cè)序比對(duì)和提高深度學(xué)習(xí)變體調(diào)用的準(zhǔn)確性方面比以往任何時(shí)候都更進(jìn)一步。該版本包括 PacBio 長(zhǎng)讀數(shù)據(jù)的新工作流程,包括加速的 Minimap2 工具和谷歌的 DeepVariant ,用于對(duì) PacBio 數(shù)據(jù)進(jìn)行完整的 GPU 端到端分析。
NVIDIA Parabricks 可以免費(fèi)使用,并提供付費(fèi)企業(yè)支持選項(xiàng)。它包含各種優(yōu)化的、基于人工智能的行業(yè)標(biāo)準(zhǔn)基因組工具,比基于 CPU 的工具提供高達(dá) 80 倍的加速,并將計(jì)算成本降低高達(dá) 50% 。與 CPU 上的約 24 小時(shí)相比,現(xiàn)在只需 16 分鐘即可分析 30 倍的全基因組,相當(dāng)于每年在一臺(tái)服務(wù)器上分析多達(dá) 30000 個(gè)全基因組。
快速查看 Parabricks v4.1 的功能
一種新的 DeepVariant 重新訓(xùn)練工具,使任何人都能為自己的數(shù)據(jù)重新訓(xùn)練或微調(diào) DeepVariation ,從而實(shí)現(xiàn)更準(zhǔn)確的變體調(diào)用(現(xiàn)已在 NGC 上提供)。
PacBio 的端到端( FastQ 到 VCF )加速工作流,將在 GitHub 、 Terra.Bio 和其他云平臺(tái)上的 Parabricks 工作流中提供。
新的加速 Minimap2 工具,用于調(diào)整 PacBio 的長(zhǎng)讀數(shù)。
用于 PacBio 數(shù)據(jù)的新加速 DeepVariant 變體調(diào)用程序,在 DGX 站[4xA100 GPU s]上運(yùn)行 30 倍全基因組,運(yùn)行時(shí)間為 8 分鐘。
與 v4.0 中的 21 分鐘和僅在 CPU – 上的約 24 小時(shí)相比, DGX A100 GPU [8xA100 GPU s]在 16 分鐘內(nèi)進(jìn)一步加速了 30 倍全基因組的短讀種系管道。
與新的 NVIDIA H100 GPU 兼容,其中包括強(qiáng)大的 DPX 指令,用于增強(qiáng)動(dòng)態(tài)編程算法,如 Smith Waterman ,用于局部序列比對(duì)。
注冊(cè)以獲得 Parabricks 4.1 release 的通知,或嘗試 prerelease DeepVariant re-training tool 。
支持長(zhǎng)讀分析
長(zhǎng)讀測(cè)序,即對(duì)明顯較長(zhǎng)的 DNA 片段進(jìn)行測(cè)序的能力,與傳統(tǒng)的短讀測(cè)序相比具有多種固有優(yōu)勢(shì)。最重要的是,這些讀數(shù)更容易被組裝到完整的基因組中。
較低水平的模糊性和比對(duì)誤差使長(zhǎng)讀測(cè)序更好地用于基因組中更具挑戰(zhàn)性的部分(例如,高度重復(fù)的區(qū)域)或組裝基因組 de novo (沒有提供參考文獻(xiàn))。
這為測(cè)序界帶來(lái)了許多改進(jìn),包括對(duì)結(jié)構(gòu)變異(大插入、缺失、反轉(zhuǎn)、重復(fù)等)有了更多的了解。結(jié)構(gòu)變異可能導(dǎo)致疾病,如盧·格里格?。?ALS )、帕金森病和心臟病。
它還最終使科學(xué)界能夠端到端地完全完成人類參考基因組,即 2022 年發(fā)布的端粒到端粒( T2T )基因組。
圖 2:Parabricks 4.1 中提供了長(zhǎng)閱讀工具和工作流程,并為 PacBio 提供了新的 Minimap2 和 FastQ 到 VCF
PacBio 是長(zhǎng)閱讀測(cè)序領(lǐng)域的杰出領(lǐng)導(dǎo)者。他們的技術(shù)產(chǎn)生長(zhǎng)達(dá) 25 千堿基的讀?。ㄏ啾戎?,每次讀取的短讀取測(cè)序< 300 堿基)。他們還通過基于循環(huán)一致性測(cè)序的 HiFi 讀取技術(shù)和基于 transformer 的深度學(xué)習(xí)模型 DeepConsensus 的分析,突破了測(cè)序準(zhǔn)確性的界限。
PacBio 的 Revio 長(zhǎng)讀測(cè)序系統(tǒng)采用 NVIDIA GPU ,每年可將這種方法擴(kuò)展到 1300 個(gè)人類全基因組。
除此之外, NVIDIA Parabricks 4.1軟件可用于 GPU -與Minimap2的加速對(duì)齊,以及與DeepVariant的PacBio模型的變體調(diào)用,為PacBio數(shù)據(jù)提供完整的端到端工作流程。
DeepVariant 使用 Parabricks 重新訓(xùn)練
DeepVariant 是一個(gè)基于 CNN 的準(zhǔn)確變體調(diào)用程序,用于短讀和長(zhǎng)讀數(shù)據(jù)的種系工作流,作為 NVIDIA Parabricks 的一部分,在 GPU 上加速。 Parabricks 4.1 包括一個(gè)框架,用于重新訓(xùn)練和微調(diào)基礎(chǔ) CNN 模型,為分析工作流程帶來(lái)更準(zhǔn)確的變體調(diào)用。
具體來(lái)說(shuō),這具有能夠?qū)⒛P臀⒄{(diào)到單個(gè)數(shù)據(jù)集并識(shí)別后續(xù)數(shù)據(jù)中產(chǎn)生的任何非隨機(jī)偽影的優(yōu)點(diǎn)。這已經(jīng)成功地應(yīng)用于測(cè)序儀級(jí)別,例如 Ultima 、 Singular 和 PacBio 都生產(chǎn)了自己的特定模型,并根據(jù)其獨(dú)特的誤差分布進(jìn)行了訓(xùn)練。
它也已應(yīng)用于項(xiàng)目級(jí)別,例如 Regeneron Genetic Center’s exome sequencing as part of the UKBioBank project 。不同的實(shí)驗(yàn)室通常使用不同版本的測(cè)序儀、濕實(shí)驗(yàn)室試劑盒和試劑,并且通常有不同的實(shí)驗(yàn)室流程。所有這些差異都可能在它們的樣本中引入微妙而獨(dú)特的人工制品。
通過使用 DeepVariant 基礎(chǔ)模型作為一個(gè)溫暖的開端,通過對(duì)少數(shù)瓶中基因組細(xì)胞系進(jìn)行測(cè)序以進(jìn)行訓(xùn)練、測(cè)試和驗(yàn)證,實(shí)施實(shí)驗(yàn)室特定的微調(diào)可以是一個(gè)相對(duì)簡(jiǎn)單的過程。
在 Regeneron 的情況下,使用單個(gè) V100 GPU 訓(xùn)練 12 小時(shí),僅在一個(gè)樣本( HG001 )上訓(xùn)練就足以看到模型收斂, 20% 的數(shù)據(jù)保留用于測(cè)試,第二個(gè)樣本( HG002 )用于驗(yàn)證。這使得相對(duì)少量的數(shù)據(jù)在準(zhǔn)確性上有了令人印象深刻的提高,例如將 INDEL 的孟德爾誤差率從 0.075 降低到 0.056 。
圖 4 。 DeepVariant 重新訓(xùn)練框架流程圖,包括使用 hap.py 進(jìn)行準(zhǔn)確性測(cè)試
-
NVIDIA
+關(guān)注
關(guān)注
14文章
4989瀏覽量
103077 -
AI
+關(guān)注
關(guān)注
87文章
30898瀏覽量
269134 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5503瀏覽量
121176
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論