0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

百度智算峰會精彩回顧:GPU 加速藥物研發(fā)與基因組學分析

NVIDIA英偉達 ? 來源:未知 ? 2022-12-29 00:00 ? 次閱讀

生命科學是前沿科技創(chuàng)新的關鍵領域。AI、云計算、大數據等互聯(lián)網技術的發(fā)展,正在為基因測序、生物醫(yī)藥、AI 與大數據應用等方面注入新動能,加速生命科學領域相關企業(yè)的智能化升級。

12 月 27 日,“2022 百度云智峰會·智算峰會”成功舉辦。NVIDIA 資深解決方案架構師翟健分享了以“GPU 加速藥物研發(fā)與基因組學分析”為題的演講,介紹了 NVIDIA 如何利用 GPU 和加速軟件推動 AI 驅動的藥物研發(fā)與基因組學分析,包括 NVIDIA 與百度智能云在賦能藥物研發(fā)、基因測序分析方面的合作。以下為內容概要。

1c5a96a0-86c8-11ed-bfe3-dac502259ad0.png

GPU 加速助力藥物研發(fā)

CLARA 是 NVIDIA 在醫(yī)療方向的 SDK 平臺,它借助于 NVIDIA 的基礎軟硬件平臺,為醫(yī)療用戶提供了醫(yī)療設備、制藥、影像、基因以及智慧醫(yī)院等五個方面的能力,從而為醫(yī)療的終端用戶,針對具體的應用場景提供完備的加速能力。

而其中的 CLARA Discovery 是 CLARA 平臺下面向藥物研發(fā)場景的重要解決方案,它基于 NVIDIA 的 AI 和 HPC 能力來輔助加速藥物研發(fā)的工作流程。目前該方案已經納入到了百度智能云賦能藥物研發(fā)的解決方案中。

1c68158c-86c8-11ed-bfe3-dac502259ad0.png

醫(yī)療領域的前期研發(fā)過程當中會涵蓋如下幾個過程:集靶點發(fā)現(xiàn)、化學分子生成、蛋白質性質結構預測、藥物分子與蛋白質進行對接打分,構建自由能 FEP 等。

整個制藥行業(yè)涉及到兩個學科,結構生物學與計算化學。而這兩個學科都涉及到傳統(tǒng)的 HPC 與新興的 AI 方法,而且 AI 的方法相較于 HPC 的方法會有比較明顯的速度上的優(yōu)勢。

目前 AI 正在顛覆整個藥物研發(fā)的過程,包括在靶點發(fā)現(xiàn)方面、虛擬篩選以及分子生成、結構預測,甚至在臨床上應用的自然語言模型,都是 AI 加速的體現(xiàn)。

AI 中 Transformer 模型正在逐漸地應用在藥物研發(fā)領域中。左邊的四張小圖來自于 MegaMolBART 與 Protrans 一系列突破性的論文,表明基于 Transformer 的預訓練模型可以有效地加速分子生成和蛋白質的結構預測。

1c78ce22-86c8-11ed-bfe3-dac502259ad0.png

右上角展示的就是 Transformer 模型的 Encoder-Decoder 的架構形式,它們可以用在諸如右下方的幾個典型領域,包括:小分子模型的生成、反應序列的預測、蛋白質結構預測、生物醫(yī)學領域的 NLP 以及圖像分析等。

NVIDIA 基于在大語言模型上的經驗,推出了 BioNeMo 的解決方案,它是一款可以在云端進行訓練和部署的服務框架,主要面向有大語言模型需求的藥物研發(fā)人員。此外,它基于 NVIDIA 的 GPU 硬件也做了很好的優(yōu)化工作,并且提供了多種預訓練模型,支持云原生的服務,極大地加速了藥物研發(fā)的工作流程。

1c83ecd0-86c8-11ed-bfe3-dac502259ad0.png

這一頁展示的是 BioNeMo 的邏輯架構,最底層的是 NVIDIA 加速的計算平臺。下面開始第二層是 NVIDIA 的大語言模型平臺 NeMo Megatron,是 BioNeMo 的快速訓練和部署的重要保證。

BioNeMo 提供了多種預訓練的 Transformer 類的模型,分別針對化學分子生成、蛋白質結構序列預測、DNA 的 embedding 等幾個方面。最終這些都服務于我們最上層中,藥物研發(fā)領域里幾個典型應用場景。

BioNeMo 的三個典型特點是:

一,它支持分子、蛋白質和核苷酸的 SMMILES 和 FASTA 的表征。

二,它含有多種預訓練模型,像我們剛才提到的 MegaMolBART 等。

三,它可以在云端部署相應的、可視化界面的服務。

這里跟大家分享一個案例,Vyasa 是一個面向藥物研發(fā)的 AI 解決方案提供商,他們在方案中整合了 BioNeMo 中的 MegaMolBART 模型,從而實現(xiàn)了終端用戶在本地和云端都可以利用 GPU 對藥物分子生成過程進行加速。也正因為如此,他們的用戶 Memorial Solan Kettering 學院采購了 NVIDIA 的 DGX 服務器用于加速這一類型的工作負載。

除了在分子生成、蛋白質結構性質預測方面,NVIDIA 提供了很好的加速優(yōu)化。在虛擬篩選和仿真的過程當中,NVIDIA 也協(xié)同了眾多的開源社區(qū)、高校,加速了傳統(tǒng) HPC 領域當中的對接、分子動力學和量子化學里的常用軟件。

1c8bfdf8-86c8-11ed-bfe3-dac502259ad0.png

這張圖中展示的就是我們在三個領域當中常用的一些軟件。這些軟件 NVIDIA 都提供了相應的 GPU 加速版本,大家可以在 NVIDIA 的 NGC 平臺(https://catalog.ngc.nvidia.com/ )進行下載。

下面展示的是分子動力學軟件 Gromacs 的 GPU 版本的性能評測??梢钥吹?,在 NVIDIA 的 A100 和 V100 GPU 上,Gromacs 都同比 CPU 獲得了極好的加速。

1c9c7e30-86c8-11ed-bfe3-dac502259ad0.png

類似的,這一頁展示的是量子化學軟件 VASP CPU-GPU 的性能對比。NVIDIA 的 V100 和 A100 GPU 同樣都獲得了極高的加速。

1ca55e1a-86c8-11ed-bfe3-dac502259ad0.png

GPU 加速突破基因測序分析瓶頸

接下來讓我們介紹一下 NVIDIA GPU 在加速基因組學方面的方案。

在今年春季的 NVIDIA GTC 大會上,來自于斯坦福大學的團隊介紹了他們如何基于 NVIDIA GPU 打破了基因測序的世界紀錄。他們將人類的基因測序縮短到了 7 小時 18 分鐘,完成了濕實驗和在計算機上的數據分析等過程。

而在基因測序方面,一般包括如下三個環(huán)節(jié):一,通過測序儀得到數據之后進行的一級分析過程,完成四分類任務;二,在計算機上完成一致性對比處理、變體識別等二級分析過程;三,最后的三級分析則是對大量的數據進行處理。而這三個過程目前都是可以用 GPU 實現(xiàn)加速的。分別可以通過 GPU 加速的 TensorFlow、PyTorch,以及 TensorRT 進行一級分析加速。通過 CLARA Parabricks 對二級分析進行加速。利用 RAPIDS、MONAI 等可以加速三級分析。

下面讓我們來介紹一下二級分析的軟件 CLARA Parabricks。CLARA Parabricks 是一款利用 GPU 加速高通量、高精度的 DNA 和 RNA 測序分析工具,主要用于人類基因組學分析、癌癥基因篩查、RNA 測序分析等。目前其中含有 60 多個工具模塊,包括基因數據的一致性比對、金標準處理和質量把控、高精度遍體識別等范疇類的多種常用工具。

這一頁展示的是 CLARA Parabricks 目前支持的工具模塊的部分內容,基本上涵蓋了主流的基因測序二級分析中的大部分工具。

1cac6b88-86c8-11ed-bfe3-dac502259ad0.png

使用 CLARA Parabricks 可以實現(xiàn)對典型的應用的加速,它是針對金標準的種系、體細胞和 RNA 的加速工具。而且目前使用 Ampere 架構的 GPU 可以實現(xiàn) 80 倍的加速,精度方面也能夠保證,且具有比較靈活的工作流程。

那么談到這里就要說一下 CLARA Parabricks 的幾大特點了。因為它是模塊化的工具,所以可以通過各種傾向性的組合,可以靈活選擇 CLARA Parabricks 當中的各種模塊。

同時剛才提到它的工作流程靈活,是因為它對主流的基因組學分析中的 workflow 管理器都支持,包括 WDL,nextflow 等。此外,它還對 Google 的 DeepVariant 1.4 版本的變體識別工具也做了很好的支持。

接下來我們來看看 Parabricks 的 benchmark??梢钥吹?,列舉的幾個模塊在 GPU 上,同比 CPU 都具有非常好的加速效果。而且在 A100 上可以最高實現(xiàn) 80 倍的加速。這一頁展示的就是分別在 2 張、4 張和 8 張 A100 上同比 CPU 實現(xiàn)加速的效果。

1cb770b4-86c8-11ed-bfe3-dac502259ad0.png

同時,在癌癥的基因篩查中,端到端的流程也可以在 GPU 上實現(xiàn)比較明顯的加速。

2022 年春季 GTC 大會上,NVIDIA 發(fā)布了 Hopper 架構的 GPU。該架構的 GPU 對于動態(tài)編程做了很好的加速,單就動態(tài)編程這一特性,Hopper 架構就比上一代的 Ampere 架構有了 7 倍的理論加速。而在基因組學分析中,動態(tài)編程技術是需要被頻繁使用到的,也因此,Hopper 架構的 GPU 可以給基因測序帶來重大的收益。

上文提到的,斯坦福大學創(chuàng)造的基因測序世界紀錄就是借助 NVIDIA CLARA Parabricks 實現(xiàn)的。

這里再跟大家分享一個案例,就是英國的 BioBank 這家公司,他們要處理 50 萬個外顯子,這些在 CPU 上需要 1 個小時才能得到結果,而 GPU 將這個過程僅僅縮短到了 5 分鐘,成本下降了 60%。

這里展示了 CLARA Parabricks 的資料參考頁,感興趣的聽眾可以登陸 CLARA Parabricks 的網頁了解更多的內容。同時,CLARA Parabricks 已經可以在百度智能云上使用了,在云上的 GPU 最佳實踐專欄中還提供了 CLARA Parabricks 的使用方式和詳盡介紹,感興趣的同學可以登陸https://cloud.baidu.com/doc/GPU/s/pl6vzliqu了解更多內容。


在加速三級分析這部分,同樣可以使用 GPU 版本的大數據處理 SDK RAPIDS。RAPIDS 是一個端到端的 GPU 加速數據科學的 SDK。它包括數據處理的 SDK cuDF,用于傳統(tǒng)機器學習的 SDK cuML,圖計算 SDK cuGraph,以及一些可視化的庫、眾多延伸的庫等?;旧?NVIDIA 非深度學習類的 GPU 加速庫都在這里了。

單個細胞的三級分析依賴于眾多的傳統(tǒng)機器學習與大數據的方法,比如回歸聚類等算法以及一些可視化的方法。右邊展示的就是針對 scRNA 序列處理的聚類,回歸與可視化端到端運行的時間??梢钥吹剑褂?GPU 可以降低整體的運行時間。

1cc5c362-86c8-11ed-bfe3-dac502259ad0.png

最后讓我們再次回顧一下這張圖,NVIDIA GPU 在一級至三級分析上都有相應的解決方案。尤其在二級分析和三級分析上,NVIDIA 提供 CLARA Parabricks 和 RAPIDS 方案,可以帶給用戶更好的性能與性價比的提升。這也是斯坦福大學利用 GPU 打破基因測序世界紀錄的根本原因。

上面提到的這些軟件,大家可以登陸 NVIDIA NGC 平臺(https://catalog.ngc.nvidia.com/ )下載相應的軟件進行體驗。


原文標題:百度智算峰會精彩回顧:GPU 加速藥物研發(fā)與基因組學分析

文章出處:【微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 英偉達
    +關注

    關注

    22

    文章

    3778

    瀏覽量

    91155

原文標題:百度智算峰會精彩回顧:GPU 加速藥物研發(fā)與基因組學分析

文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    回顧寧暢2024年精彩瞬間

    回顧2024年,在智能計算驅動產業(yè)發(fā)展時代趨勢下,寧暢以定制化與全棧全液能力,繼續(xù)發(fā)力智與液冷領域,提出了新想法、發(fā)布了新產品、達成了新標準、收獲了新榮譽,為加速千行業(yè)數智化轉型貢
    的頭像 發(fā)表于 12-31 16:43 ?321次閱讀

    百度科啟動“繁星計劃”

    近日,百度科攜手中國科協(xié)、中國科學院大學共同舉辦了史記2024·科學科100詞發(fā)布會,并在此盛會上正式啟動了“繁星計劃”。這一計劃的核心目標在于利用前沿的AI技術,包括數字人、智能體等,以及
    的頭像 發(fā)表于 12-31 10:26 ?80次閱讀

    百度正式回應進軍短劇領域

    近日,百度在線網絡技術(北京)有限公司在知識產權領域有了新的動作,據天眼查信息顯示,該公司已申請注冊“百度短劇”商標,涵蓋網站服務、科學儀器、教育娛樂等多個國際分類,目前這些商標均處于等待實質審查
    的頭像 發(fā)表于 12-17 14:19 ?188次閱讀

    NVIDIA助力百度提升數據分析效能

    在現(xiàn)代商業(yè)環(huán)境中,數據分析已然成為企業(yè)獲取成功的關鍵所在。長期以來,百度廣告數據團隊始終面臨著極為復雜的數據分析挑戰(zhàn),其需要為逾千名用戶提供在線廣告業(yè)務分析服務,而這些用戶涵蓋策略工程
    的頭像 發(fā)表于 11-20 10:06 ?209次閱讀

    NVIDIA AI正加速推進藥物研發(fā)

    在當前的醫(yī)療健康領域,AI 的重要性愈發(fā)凸顯。NVIDIA AI 正加速推進藥物研發(fā),致力于減少藥物研發(fā)時間和成本,使更多的老年患者能夠更
    的頭像 發(fā)表于 11-19 16:07 ?242次閱讀

    NVIDIA AI助力日本制藥公司推進藥物研發(fā)

    制藥公司、醫(yī)療技術公司和學術研究人員正在開發(fā)主權 AI 能力,以驅動藥物發(fā)現(xiàn)、加速基因組學和醫(yī)療設備。
    的頭像 發(fā)表于 11-19 15:40 ?295次閱讀

    百度將發(fā)布AI智能眼鏡

    近日,有知情人士透露,百度旗下的人工智能品牌小計劃在即將舉行的百度世界大會上推出一款全新的AI智能眼鏡。這款眼鏡將內置先進的人工智能助手,并配備攝像頭,為用戶提供前所未有的智能體驗。
    的頭像 發(fā)表于 11-11 14:50 ?442次閱讀

    百度市值被低估?分析師看好其長期發(fā)展?jié)摿?/a>

    近期,盡管微軟和Meta公布了超預期的財報,但市場對人工智能領域的熱情似乎有所減退。在此背景下,中概股也普遍走低,百度同樣未能幸免。然而,多位分析師對百度的長期發(fā)展?jié)摿Ρ硎究春?,認為其市值被低估。
    的頭像 發(fā)表于 11-05 11:16 ?591次閱讀

    百度舸AI計算平臺4.0震撼發(fā)布

    在2024年百度云智大會的璀璨舞臺上,百度智能云重磅推出了舸AI異構計算平臺的全新力作——4.0版本。此次升級,標志著百度在AI基礎設施領域邁出了堅實的一步,致力于為行業(yè)提供更為強大
    的頭像 發(fā)表于 09-26 14:46 ?483次閱讀

    供應商網2024年榮獲百度聯(lián)盟-創(chuàng)領風華獎

    百度聯(lián)盟大會在深圳舉行,供應商網作為優(yōu)秀合作伙伴出席峰會并榮獲百度聯(lián)盟"創(chuàng)領風華獎"。這一榮譽不僅是對供應商網在合作中卓越表現(xiàn)的高度認可,更是對我們共同努力的最好見證。
    的頭像 發(fā)表于 09-23 09:32 ?289次閱讀

    百度申請文小言商標

    近日,百度在線網絡技術(北京)有限公司在知識產權領域有了新動作。據天眼查知識產權信息顯示,百度已申請多枚“文小言”商標,這些商標將涵蓋廣告銷售、網站服務、健身器材、機械設備等多個領域。
    的頭像 發(fā)表于 06-19 09:20 ?489次閱讀

    2024百度移動生態(tài)萬象大會:百度新搜索11%內容已AI生成

    2024百度移動生態(tài)萬象大會:百度新搜索11%內容已AI生成 今天2024百度移動生態(tài)萬象大會在江蘇蘇州舉辦,特別是AI搜索與百度文心一言的相關信息被市場極度關注,我們看到,在2024
    發(fā)表于 05-30 18:58 ?417次閱讀

    百度與特斯拉探討Robotaxi合作新機遇

    在特斯拉宣布計劃使用百度地圖提供的高精度地圖之后,百度與特斯拉之間的合作再度引起關注。百度自動駕駛技術部總經理徐寶強近日透露,百度正積極考慮與特斯拉在Robotaxi(共享出租車)項目
    的頭像 發(fā)表于 05-24 10:20 ?459次閱讀

    百度沈抖沈抖正式發(fā)布新一代智能計算操作系統(tǒng)—萬源

    4月16日,Create 2024 百度AI開發(fā)者大會在深圳召開。期間,百度集團執(zhí)行副總裁、百度智能云事業(yè)群總裁沈抖正式發(fā)布新一代智能計算操作系統(tǒng)——萬源,通過對AI原生時代的智能計算平臺進行抽象與封裝設計,為用戶屏蔽掉云原生系
    的頭像 發(fā)表于 04-18 09:22 ?444次閱讀
    <b class='flag-5'>百度</b>沈抖沈抖正式發(fā)布新一代智能計算操作系統(tǒng)—萬源

    百度智能云正式發(fā)布了《百度智能云水業(yè)大模型白皮書》

    3月28日,由E20環(huán)境平臺主辦的2024(第二十二屆)水業(yè)戰(zhàn)略論壇在北京召開。會上,百度智能云正式發(fā)布了《百度智能云水業(yè)大模型白皮書》(以下簡稱《白皮書》)。
    的頭像 發(fā)表于 03-29 09:20 ?1382次閱讀
    <b class='flag-5'>百度</b>智能云正式發(fā)布了《<b class='flag-5'>百度</b>智能云水業(yè)大模型白皮書》