領(lǐng)先的制藥公司、生物技術(shù)初創(chuàng)企業(yè)和前沿生物研究人員正在使用 NVIDIA BioNeMo LLM 服務(wù)和框架來開發(fā)用于生成、預(yù)測和理解生物分子數(shù)據(jù)的 AI 應(yīng)用。
科學(xué)家們致力于探索 DNA、蛋白質(zhì)和其他生命體的“基礎(chǔ)構(gòu)建”,以期獲得全新的洞察,而今日在 NVIDIA GTC 上發(fā)布的 NVIDIA BioNeMo 框架將為其研究提供加速。
NVIDIA BioNeMo 框架用于訓(xùn)練和部署超算規(guī)模的大型生物分子語言模型,幫助科學(xué)家更好地了解疾病,并為患者找到治療方法。該大型語言模型(LLM)框架將支持化學(xué)、蛋白質(zhì)、DNA 和 RNA 數(shù)據(jù)格式。
NVIDIA BioNeMo 是 NVIDIA Clara Discovery 藥物研發(fā)框架、應(yīng)用和 AI 模型集的一部分。
正如 AI 通過 LLM 來學(xué)習(xí)如何理解人類語言,該框架也在學(xué)習(xí)生物學(xué)和化學(xué)語言。NVIDIA BioNeMo 使基于生物分子數(shù)據(jù)的大規(guī)模神經(jīng)網(wǎng)絡(luò)訓(xùn)練更為輕松,助力研究人員發(fā)現(xiàn)生物序列中的新模式并獲得新洞察。研究人員可將這些洞察與生物特性或功能乃至人類健康狀況聯(lián)系起來。
NVIDIA BioNeMo 框架使科學(xué)家能夠使用更大的數(shù)據(jù)集來訓(xùn)練大規(guī)模語言模型,打造出性能更強大的神經(jīng)網(wǎng)絡(luò)。NVIDIA 的 GPU 優(yōu)化軟件中心——NVIDIA NGC 上將提供該框架的搶先體驗。
除語言模型框架之外,NVIDIA BioNeMo 還提供一項云 API 服務(wù),該服務(wù)將支持越來越多的預(yù)訓(xùn)練 AI 模型。
BioNeMo 框架支持更大的模型
和更準(zhǔn)確的預(yù)測
如今,使用自然語言處理模型來處理生物數(shù)據(jù)的科學(xué)家一般會訓(xùn)練相對較小、需要自定義預(yù)處理的神經(jīng)網(wǎng)絡(luò)。通過 BioNeMo,科學(xué)家可將其擴(kuò)展為具有數(shù)十億參數(shù)的 LLM,捕捉分子結(jié)構(gòu)、蛋白質(zhì)溶解度等信息。
BioNeMo 是 NVIDIA NeMo Megatron 框架的擴(kuò)展,可實現(xiàn)大規(guī)模自監(jiān)督語言模型的 GPU 加速訓(xùn)練。這一針對特定領(lǐng)域的框架支持以 SMILES 化學(xué)結(jié)構(gòu)標(biāo)記表征的分子數(shù)據(jù)、以及以 FASTA 氨基酸和核酸序列字符串表征的分子數(shù)據(jù)。
OpenFold 聯(lián)盟創(chuàng)始成員、哥倫比亞大學(xué)系統(tǒng)生物學(xué)系助理教授 Mohammed AlQuraishi 表示:“該框架使整個醫(yī)療和生命科學(xué)行業(yè)的研究人員都能利用快速增長的生物和化學(xué)數(shù)據(jù)集。這樣就能更輕松地發(fā)現(xiàn)和設(shè)計出精準(zhǔn)針對疾病分子特征的治療方法?!?/p>
BioNeMo 服務(wù)提供用于化學(xué)和生物學(xué)的 LLM
NVIDIA BioNeMo LLM 服務(wù)將為希望快速掌握數(shù)字化的生物學(xué)和化學(xué)領(lǐng)域應(yīng)用的 LLM 的開發(fā)者提供四個預(yù)訓(xùn)練語言模型。這些模型針對推理進(jìn)行了優(yōu)化,并將通過 NVIDIA DGX Foundry 上運行的云端 API 提供搶先體驗。
ESM-1:這一最初由 Meta AI Labs 發(fā)布的蛋白質(zhì) LLM 能夠處理氨基酸序列,最終生成用于預(yù)測各種蛋白質(zhì)特性和功能的表征。它還提高了科學(xué)家理解蛋白質(zhì)結(jié)構(gòu)的能力。
OpenFold:這是由學(xué)術(shù)界和產(chǎn)業(yè)界共同成立的 Openfold 聯(lián)盟創(chuàng)建的 sota 蛋白質(zhì)建模工具,它將可以通過 BioNeMo 服務(wù)提供其開源 AI 工作流程。
MegaMolBART:這一基于 14 億分子訓(xùn)練而成的生成式化學(xué)模型可用于反應(yīng)預(yù)測、分子優(yōu)化和新分子的生成。
ProtT5:該模型是在慕尼黑工業(yè)大學(xué) RostLab 的帶領(lǐng)下合作開發(fā)的,NVIDIA 也是該項目的參與者之一。PortT5 將 ESM-1b 等蛋白質(zhì) LLM 的功能擴(kuò)展到序列生成。
未來,使用 BioNeMo LLM 服務(wù)的研究人員將能夠通過 fine-tuning 以及 p-tuning 等新技術(shù),在幾小時內(nèi)完成 LLM 模型的自定義,提高應(yīng)用的準(zhǔn)確性。相比原來動輒數(shù)百萬個樣本的數(shù)據(jù)集,p-tuning 訓(xùn)練方法只需要包含幾百個樣本的數(shù)據(jù)集。
初創(chuàng)企業(yè)、研究人員和制藥公司
紛紛采用 NVIDIA BioNeMo
生物技術(shù)和制藥行業(yè)的專家正在采用 NVIDIA BioNeMo,為新藥研發(fā)提供支持。
阿斯利康和 NVIDIA 使用 Cambridge-1 超級計算機開發(fā)了 BioNeMo LLM 服務(wù)中的 MegaMolBART 模型。這家全球生物制藥公司將使用 BioNeMo 框架,在涵蓋小分子和蛋白質(zhì)的數(shù)據(jù)集上訓(xùn)練一些全球最大的語言模型。該數(shù)據(jù)集日后還將涵蓋 DNA。
麻省理工學(xué)院和哈佛大學(xué)旗下博德研究所的研究人員正在與 NVIDIA 一起使用 BioNeMo 框架來開發(fā)新一代 DNA 語言模型。這些模型將被整合至 Terra 中。Terra 是一個由博德研究所、微軟和 Verily 共同開發(fā)的云平臺,生物醫(yī)學(xué)研究人員能夠通過該平臺,安全、大規(guī)模地共享、訪問和分析數(shù)據(jù)。這些 AI 模型還將被添加到 BioNeMo 服務(wù)集中。
OpenFold 聯(lián)盟計劃使用 BioNeMo 框架來推進(jìn)其 AI 模型開發(fā)工作。這些模型可根據(jù)氨基酸序列來預(yù)測分子結(jié)構(gòu),并達(dá)到接近實驗的準(zhǔn)確性。
Peptone 專注于構(gòu)建固有無序蛋白質(zhì)(缺乏穩(wěn)定 3D 結(jié)構(gòu)的蛋白質(zhì))的模型。該公司正與NVIDIA 一起使用同樣作為 BioNeMo 基礎(chǔ)的 NeMo 框架來開發(fā) ESM 模型版本。該項目計劃在 NVIDIA 的 Cambridge-1 超級計算機上運行,將推動 Peptone 的新藥研發(fā)工作。
位于芝加哥的生物技術(shù)公司 Evozyne 將工程與深度學(xué)習(xí)技術(shù)相結(jié)合,致力于設(shè)計能夠解決長期治療和可持續(xù)發(fā)展難題的新型蛋白質(zhì)。
Evozyne 聯(lián)合創(chuàng)始人兼計算主管 Andrew Ferguson 表示:“BioNeMo 框架使我們能夠在設(shè)計-構(gòu)建-測試周期內(nèi),高效利用 LLM 的力量,基于數(shù)據(jù)進(jìn)行蛋白質(zhì)設(shè)計。這將直接影響我們新型功能性蛋白的設(shè)計,并將在人類健康和可持續(xù)發(fā)展方面得以應(yīng)用?!?/p>
NVIDIA 初創(chuàng)加速計劃成員、生物技術(shù)初創(chuàng)企業(yè) Peptone 的機器學(xué)習(xí)負(fù)責(zé)人 Istvan Redl 表示:“隨著大型語言模型在蛋白質(zhì)領(lǐng)域的應(yīng)用日益廣泛,高效訓(xùn)練 LLM 并快速調(diào)整模型架構(gòu)的能力變得非常重要。我們相信 BioNeMo 框架將滿足可擴(kuò)展性和快速實驗這兩大工程方面的需求。”
審核編輯:湯梓紅
-
NVIDIA
+關(guān)注
關(guān)注
14文章
4986瀏覽量
103066 -
AI
+關(guān)注
關(guān)注
87文章
30896瀏覽量
269107 -
生物學(xué)
+關(guān)注
關(guān)注
0文章
26瀏覽量
12975
原文標(biāo)題:GTC22 | NVIDIA 將大型語言模型擴(kuò)展到生物學(xué)領(lǐng)域
文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論