NVIDIA 研究人員正在與世界各地的學(xué)術(shù)機(jī)構(gòu)合作,推進(jìn)生成式 AI、機(jī)器人和自然科學(xué)領(lǐng)域的進(jìn)步。在全球頂級(jí) AI 會(huì)議之一 NeurIPS 上,NVIDIA 將介紹其中的十幾個(gè)項(xiàng)目。
NeurIPS 大會(huì)將于太平洋時(shí)間 12 月 10 日至 16 日在新奧爾良舉行,匯集了生成式 AI、機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺等領(lǐng)域的專家。在此次大會(huì)上,NVIDIA Research 將展示一系列創(chuàng)新,包括將文本轉(zhuǎn)化為圖像、將照片轉(zhuǎn)化為 3D 化身,以及將專用機(jī)器人轉(zhuǎn)化為多功能機(jī)器的新技術(shù)。
NVIDIA 學(xué)習(xí)和感知研究副總裁 Jan Kautz 表示:“NVIDIA Research 繼續(xù)推動(dòng)該領(lǐng)域的進(jìn)步,包括將文本轉(zhuǎn)化為圖像或語音的生成式 AI 模型、更快地學(xué)習(xí)新任務(wù)的自主 AI 代理,以及計(jì)算復(fù)雜物理學(xué)的神經(jīng)網(wǎng)絡(luò)。這些項(xiàng)目通常與學(xué)術(shù)界的領(lǐng)軍人物合作完成,將有助于加速虛擬世界、模擬和自主機(jī)器的開發(fā)?!?/p>
轉(zhuǎn)換為圖像:
改進(jìn)文本到圖像擴(kuò)散模型
對(duì)于將文本轉(zhuǎn)化為逼真的圖像,擴(kuò)散模型已經(jīng)成為最流行的生成式 AI 模型。NVIDIA 的研究人員與多所大學(xué)合作了多個(gè)推進(jìn)擴(kuò)散模型發(fā)展的項(xiàng)目,并將在 NeurIPS 上進(jìn)行展示。
-
一篇口頭報(bào)告論文重點(diǎn)研究讓生成式 AI 模型更好地理解文本提示中修飾詞和主體之間的聯(lián)系。當(dāng)要求現(xiàn)有文本生成圖像模型生成一個(gè)黃色西紅柿和一個(gè)紅色檸檬時(shí),其可能會(huì)生成錯(cuò)誤的黃色檸檬和紅色西紅柿,但新新模型可以分析用戶提示詞的語法,鼓勵(lì)在主體與其修飾符之間建立聯(lián)系,從而更忠實(shí)地對(duì)文本提示詞進(jìn)行視覺描述。
了解更多信息,請(qǐng)查閱:https://neurips.cc/virtual/2023/oral/73870
-
SceneScape 是一個(gè)使用擴(kuò)散模型根據(jù)文本提示詞創(chuàng)建 3D 場(chǎng)景長視頻的新框架,其將在會(huì)議上以海報(bào)的形式進(jìn)行展示。該項(xiàng)目將文本生成圖像模型與深度預(yù)測(cè)模型相結(jié)合,有助于視頻中看似合理的場(chǎng)景在連續(xù)的幾幀中保持不變——生成美術(shù)館、鬼屋和冰雪城堡視頻。
了解更多信息,請(qǐng)查閱:https://neurips.cc/virtual/2023/poster/71859
-
另一個(gè)海報(bào)描述了如何讓文本生成圖像模型更好地生成那些通常在訓(xùn)練數(shù)據(jù)中罕見的概念。嘗試生成這樣的圖像通常會(huì)導(dǎo)致低質(zhì)量的視覺效果,不能完全匹配用戶的提示詞。新方法使用了一小組示例圖像,幫助模型識(shí)別好的種子——隨機(jī)數(shù)序列,引導(dǎo) AI 從指定的稀有類中生成圖像。
了解更多信息,請(qǐng)查閱:https://neurips.cc/virtual/2023/poster/70922
-
第三個(gè)海報(bào)展示了文本生成圖像擴(kuò)散模型如何使用不完整點(diǎn)云的文本描述來生成缺失部分,并創(chuàng)建物體的完整 3D 模型。這可能有助于完善激光雷達(dá)掃描儀和其他深度傳感器收集的點(diǎn)云數(shù)據(jù),用于機(jī)器人和自動(dòng)駕駛汽車 AI 應(yīng)用。收集的圖像通常是不完整的,因?yàn)槲矬w是從特定角度掃描的。例如,當(dāng)汽車沿街行駛時(shí),安裝在車上的激光雷達(dá)傳感器只會(huì)掃描每棟建筑的一側(cè)。
了解更多信息,請(qǐng)查閱:https://neurips.cc/virtual/2023/poster/70648
角色開發(fā):AI 化身的進(jìn)步
AI 化身結(jié)合了多個(gè)生成式 AI 模型來創(chuàng)建虛擬角色并做成動(dòng)畫、生成文本并將其轉(zhuǎn)化為語音。NeurIPS 大會(huì)上的兩個(gè) NVIDIA 海報(bào)展示了可以提高這些任務(wù)效率的新方法。
-
其中一個(gè)海報(bào)描述了一種新方法,可以將一張肖像圖轉(zhuǎn)化為 3D 頭像,同時(shí)捕捉發(fā)型和配飾等細(xì)節(jié)。不同于當(dāng)前需要多張圖像并且優(yōu)化過程需要較長時(shí)間的方法,該模型在推理過程中無需額外優(yōu)化即可實(shí)現(xiàn)高保真度的 3D 重建。這些頭像可以通過混合形狀(blendshapes)做成動(dòng)畫,混合形狀是 3D 網(wǎng)格表示,用于表示不同的面部表情。這些頭像也可以使用參考視頻剪輯做成動(dòng)畫,視頻中人的臉部表情和動(dòng)作會(huì)應(yīng)用于頭像。
了解更多信息,請(qǐng)查閱:https://neurips.cc/virtual/2023/poster/72615
-
另一個(gè)海報(bào)介紹了 NVIDIA 研究人員和大學(xué)合作者使用 P-Flow 模型來開展零樣本文本到語音合成。P-Flow 是一種生成式 AI 模型,可以在給出三秒?yún)⒖继崾镜那闆r下快速合成高質(zhì)量的個(gè)性化語音。與近期最先進(jìn)的同類模型相比,P-Flow具有更好的發(fā)音、擬人度和說話者相似度。只需一個(gè) NVIDIA A100 Tensor Core GPU,該模型就能即刻將文本轉(zhuǎn)化為語音。
了解更多信息,請(qǐng)查閱:https://pflow-demo.github.io/projects/pflow/
強(qiáng)化學(xué)習(xí)、機(jī)器人研究領(lǐng)域的突破
在強(qiáng)化學(xué)習(xí)和機(jī)器人領(lǐng)域,NVIDIA 的研究人員將帶來兩個(gè)海報(bào),著重介紹提高 AI 在不同任務(wù)和環(huán)境中的通用性的創(chuàng)新技術(shù)。
-
第一個(gè)海報(bào)提出了一個(gè)用于開發(fā)強(qiáng)化學(xué)習(xí)算法的框架,該框架可以適應(yīng)新任務(wù),同時(shí)避免常見的梯度偏差和數(shù)據(jù)低效陷阱。研究人員表明,他們的方法采用新穎的元算法,可以創(chuàng)建任何元強(qiáng)化學(xué)習(xí)模型的魯棒版本——在執(zhí)行多個(gè)基準(zhǔn)測(cè)試任務(wù)時(shí)表現(xiàn)優(yōu)秀。
了解更多信息,請(qǐng)查閱:https://neurips.cc/virtual/2023/poster/72040
-
另一個(gè)海報(bào)介紹了 NVIDIA 研究人員和大學(xué)合作者解決了機(jī)器人進(jìn)行物體操控的挑戰(zhàn)。此前,那些幫助機(jī)器人用手拾取物體并與之交互的 AI 模型可以處理特定的形狀,但難以處理訓(xùn)練數(shù)據(jù)中未出現(xiàn)過的物體。研究人員引入一個(gè)新的框架,該框架可以估計(jì)各類物體在幾何上的相似性,例如擁有相似把手的抽屜和鍋蓋,從而使該模型能夠更快地推廣到新的形狀。
了解更多信息,請(qǐng)查閱:https://neurips.cc/virtual/2023/poster/71709
推動(dòng)科學(xué)飛速發(fā)展:
AI 加速物理、氣候、醫(yī)療
在 NeurIPS 大會(huì)上,NVIDIA 研究人員還將發(fā)表涉及多個(gè)自然科學(xué)領(lǐng)域的論文,涵蓋物理模擬、氣候模型和醫(yī)療 AI。
-
為了加速大規(guī)模 3D 模擬的計(jì)算流體動(dòng)力學(xué),NVIDIA 的一個(gè)研究團(tuán)隊(duì)提出了一種神經(jīng)算子架構(gòu),該架構(gòu)在估計(jì)車輛周圍的壓力場(chǎng)時(shí)實(shí)現(xiàn)了高精度和高計(jì)算效率。這是行業(yè)標(biāo)準(zhǔn)的大規(guī)模汽車基準(zhǔn)測(cè)試中第一個(gè)基于深度學(xué)習(xí)的計(jì)算流體動(dòng)力學(xué)方法。與另一個(gè)基于 GPU 的求解器相比,該方法在單個(gè) NVIDIA Tensor Core GPU 上實(shí)現(xiàn)了 10 萬倍的加速,同時(shí)降低了錯(cuò)誤率。研究人員可以使用開源的神經(jīng)算子庫,將該模型整合到自己的應(yīng)用程序中。
了解更多信息,請(qǐng)查閱:https://neurips.cc/virtual/2023/poster/72670
-
來自大學(xué)、國家實(shí)驗(yàn)室、研究所、Allen AI 和 NVIDIA 的氣候科學(xué)家和機(jī)器學(xué)習(xí)研究人員組成了一個(gè)聯(lián)盟,合作開發(fā)了大規(guī)模數(shù)據(jù)集 ClimSim,用于物理學(xué)和基于機(jī)器學(xué)習(xí)的氣候研究。這個(gè)數(shù)據(jù)集將在 NeurIPS 大會(huì)上的口頭報(bào)告中進(jìn)行分享,其中包含多年高分辨率的全球數(shù)據(jù)。使用這些數(shù)據(jù)構(gòu)建的機(jī)器學(xué)習(xí)模擬器可以集成至目前正在使用的氣候模擬器中,以提高其保真度、準(zhǔn)確性和精度。這可以幫助科學(xué)家更好地預(yù)測(cè)風(fēng)暴和其它極端事件。
了解更多信息,請(qǐng)查閱:https://neurips.cc/virtual/2023/poster/73569
-
NVIDIA Research 的實(shí)習(xí)生制作的一個(gè)海報(bào)介紹了一種 AI 算法,可以個(gè)性化地預(yù)測(cè)藥物劑量對(duì)患者的影響。利用真實(shí)數(shù)據(jù),研究人員測(cè)試了該模型對(duì)患者接受不同劑量時(shí)的凝血情況預(yù)測(cè)。他們還分析了新算法對(duì)接受藥物治療的患者體內(nèi)抗生素萬古霉素濃度的預(yù)測(cè)。結(jié)果發(fā)現(xiàn),與以前的方法相比,新算法的預(yù)測(cè)準(zhǔn)確性顯著提高。
了解更多信息,請(qǐng)查閱:https://neurips.cc/virtual/2023/poster/71940
NVIDIA Research 由全球數(shù)百名科學(xué)家和工程師組成,團(tuán)隊(duì)專注于 AI、計(jì)算機(jī)圖形學(xué)、計(jì)算機(jī)視覺、自動(dòng)駕駛汽車、機(jī)器人學(xué)等領(lǐng)域的研究。點(diǎn)擊閱讀原文,了解更多信息。
GTC 2024 將于 2024 年 3 月 18 至 21 日在美國加州圣何塞會(huì)議中心舉行,線上大會(huì)也將同期開放。掃描下方海報(bào)二維碼,關(guān)注更多會(huì)議及活動(dòng)信息。
原文標(biāo)題:下一代神經(jīng)網(wǎng)絡(luò):NVIDIA Research 在 NeurIPS 大會(huì)上發(fā)布一系列 AI 技術(shù)進(jìn)步
文章出處:【微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
-
英偉達(dá)
+關(guān)注
關(guān)注
22文章
3783瀏覽量
91242
原文標(biāo)題:下一代神經(jīng)網(wǎng)絡(luò):NVIDIA Research 在 NeurIPS 大會(huì)上發(fā)布一系列 AI 技術(shù)進(jìn)步
文章出處:【微信號(hào):NVIDIA_China,微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論