0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA Cosmos世界基礎(chǔ)模型平臺(tái)的主要功能

NVIDIA英偉達(dá)企業(yè)解決方案 ? 來(lái)源:NVIDIA英偉達(dá)企業(yè)解決方案 ? 2025-01-15 11:03 ? 次閱讀

隨著機(jī)器人技術(shù)和自動(dòng)駕駛汽車的發(fā)展,加快物理 AI 的開發(fā)工作變得至關(guān)重要。物理 AI 使自主機(jī)器能夠感知、理解并執(zhí)行物理世界中的復(fù)雜操作,而這些系統(tǒng)的核心是世界基礎(chǔ)模型(WFM)。這種 AI 模型通過(guò)物理感知視頻仿真物理狀態(tài),使機(jī)器能夠做出準(zhǔn)確的決策并與周圍環(huán)境進(jìn)行無(wú)縫交互。

NVIDIA Cosmos 是一個(gè)幫助開發(fā)者為物理 AI 系統(tǒng)大規(guī)模構(gòu)建定制世界模型的平臺(tái)。從數(shù)據(jù)整理、訓(xùn)練到定制,它為每個(gè)開發(fā)階段提供了開放世界基礎(chǔ)模型和工具。

本文將介紹 Cosmos 及其加速物理 AI 開發(fā)的主要功能。

使用 NVIDIA Cosmos

加速世界模型開發(fā)

物理 AI 的構(gòu)建難度極大,需要進(jìn)行精確的仿真并理解和預(yù)測(cè)現(xiàn)實(shí)世界的行為。世界模型是克服這些挑戰(zhàn)的關(guān)鍵工具,它可以根據(jù)過(guò)去的觀察結(jié)果和當(dāng)前的輸入預(yù)測(cè)未來(lái)的環(huán)境狀態(tài)。這些模型使物理 AI 構(gòu)建者能夠在受控環(huán)境中仿真、訓(xùn)練和完善系統(tǒng),因此對(duì)他們價(jià)值連城。

但開發(fā)有效的世界模型需要大量數(shù)據(jù)、算力和現(xiàn)實(shí)世界測(cè)試,這可能會(huì)帶來(lái)巨大的安全風(fēng)險(xiǎn)、后勤障礙和高昂的成本。為了解決這些問(wèn)題,開發(fā)者通常會(huì)使用 3D 仿真生成的合成數(shù)據(jù)訓(xùn)練模型。雖然合成數(shù)據(jù)是一種強(qiáng)大的工具,但創(chuàng)建合成數(shù)據(jù)需要耗費(fèi)大量資源,而且可能無(wú)法準(zhǔn)確反映現(xiàn)實(shí)世界的物理特性,尤其是在復(fù)雜或邊緣場(chǎng)景中。

NVIDIA Cosmos 端到端平臺(tái)能夠加速物理 AI 系統(tǒng)世界模型的開發(fā)。Cosmos 基于 CUDA 構(gòu)建,結(jié)合了目前最先進(jìn)的世界基礎(chǔ)模型、視頻 tokenizer 和 AI 加速數(shù)據(jù)處理管線。

開發(fā)者可以通過(guò)微調(diào) Cosmos 世界基礎(chǔ)模型或從頭開始構(gòu)建新模型來(lái)加速世界模型的開發(fā)。除了 Cosmos 世界基礎(chǔ)模型,該平臺(tái)還包含:

用于高效整理視頻數(shù)據(jù)的 NVIDIA NeMo Curator

用于高效、緊湊和高保真視頻 token 化的 Cosmos Tokenizer

用于機(jī)器人和自動(dòng)駕駛應(yīng)用的預(yù)訓(xùn)練 Cosmos 世界基礎(chǔ)模型

用于模型訓(xùn)練和優(yōu)化的 NVIDIA NeMo Framework

ce13ead8-d269-11ef-9310-92fbcf53809c.jpg

圖 1 NVIDIA Cosmos 是一個(gè)加速物理 AI 開發(fā)的世界基礎(chǔ)模型開發(fā)平臺(tái),包含生成模型、數(shù)據(jù)采集器、tokenizer 和框架。

適用于物理 AI 的

預(yù)訓(xùn)練世界基礎(chǔ)模型

Cosmos 世界基礎(chǔ)模型是在 9000 萬(wàn)億個(gè) token(包括來(lái)自自動(dòng)駕駛、機(jī)器人、合成環(huán)境和其他相關(guān)領(lǐng)域的 2000 萬(wàn)小時(shí)數(shù)據(jù))上訓(xùn)練而成的預(yù)訓(xùn)練大型生成式 AI 模型。這些模型能夠創(chuàng)建逼真的環(huán)境和交互式合成視頻,為訓(xùn)練復(fù)雜的系統(tǒng)(從執(zhí)行高級(jí)動(dòng)作的人形機(jī)器人仿真到端到端自動(dòng)駕駛模型的開發(fā))提供了一個(gè)擴(kuò)展自如的基礎(chǔ)。

這些模型按架構(gòu)可分為兩種:自回歸和擴(kuò)散,并且均使用 Transformer 架構(gòu)。這種架構(gòu)擴(kuò)展自如,并且能夠有效應(yīng)對(duì)復(fù)雜的時(shí)間依賴性。

自回歸模型

Cosmos 自回歸模型專為視頻生成設(shè)計(jì),可根據(jù)輸入文本和過(guò)去的視頻幀預(yù)測(cè)下一個(gè) token。它使用了 Transformer 解碼器架構(gòu),并且對(duì)世界模型的開發(fā)作出了多項(xiàng)關(guān)鍵改進(jìn)。

3D RoPE(旋轉(zhuǎn)位置嵌入)分別對(duì)空間和時(shí)間維度進(jìn)行編碼,確保精確的視頻序列表示。

交叉注意層實(shí)現(xiàn)了文本輸入,提高了對(duì)世界生成的控制力。

QK 歸一化提高了訓(xùn)練的穩(wěn)定性。

該模型的預(yù)訓(xùn)練循序漸進(jìn),從預(yù)測(cè)一個(gè)單輸入幀的 17 個(gè)未來(lái)幀開始,擴(kuò)展到 34 個(gè)幀,最終達(dá)到 121 個(gè)幀(或 50000 個(gè) token)。通過(guò)引入文本輸入,將描述與視頻幀相結(jié)合,并使用高質(zhì)量數(shù)據(jù)對(duì)模型進(jìn)行微調(diào),最終獲得穩(wěn)健的性能。這種結(jié)構(gòu)化的方法使模型無(wú)論是否有文本輸入,都能夠生成不同長(zhǎng)度和復(fù)雜程度的視頻。

ce277fa8-d269-11ef-9310-92fbcf53809c.png

圖 2 Cosmos 自回歸模型使用 Transformer 解碼器架構(gòu),并且對(duì)世界模型的開發(fā)作出了多項(xiàng)關(guān)鍵的改進(jìn)

擴(kuò)散模型

擴(kuò)散模型由于能夠解構(gòu)訓(xùn)練數(shù)據(jù)并根據(jù)用戶輸入進(jìn)行重建,從而生成高質(zhì)量的逼真輸出,因此被普遍用于生成圖像、視頻和音頻。

擴(kuò)散模型的運(yùn)行分為兩個(gè)階段:

前向擴(kuò)散過(guò)程:通過(guò)在多個(gè)步驟中添加高斯噪聲,逐步破壞訓(xùn)練數(shù)據(jù),從而有效地將其轉(zhuǎn)化為純?cè)肼暋?/p>

反向擴(kuò)散過(guò)程:模型學(xué)會(huì)逐步逆轉(zhuǎn)噪聲,通過(guò)對(duì)損壞的輸入數(shù)據(jù)進(jìn)行去噪處理來(lái)恢復(fù)原始數(shù)據(jù)。

經(jīng)過(guò)訓(xùn)練的擴(kuò)散模型通過(guò)對(duì)隨機(jī)高斯噪聲進(jìn)行采樣并將其傳遞到所學(xué)的去噪過(guò)程來(lái)生成新數(shù)據(jù)。此外,Cosmos 擴(kuò)散模型還針對(duì)物理 AI 開發(fā)進(jìn)行了多項(xiàng)關(guān)鍵更新。

3D 補(bǔ)丁化將視頻處理成更小的補(bǔ)丁,簡(jiǎn)化了時(shí)空序列表示。

混合位置嵌入處理空間和時(shí)間維度,支持不同分辨率和幀率的視頻。

交叉注意層包含文本輸入,可根據(jù)描述更好地控制視頻生成。

借助 LoRA 實(shí)現(xiàn)的自適應(yīng)層歸一化可將模型大小減少 36%,從而減少保持高性能所需的資源。

ce3e5214-d269-11ef-9310-92fbcf53809c.png

選擇不同大小的模型滿足各種需求

開發(fā)者可根據(jù)性能、質(zhì)量和部署需求選擇以下三種大小的模型。

Nano:專為實(shí)時(shí)、低延遲推理和邊緣部署優(yōu)化。

Super:高性能基準(zhǔn)模型。

Ultra:追求最高的質(zhì)量和保真度,是蒸餾定制模型的理想選擇。

優(yōu)勢(shì)和局限性

Cosmos 世界基礎(chǔ)模型可生成低分辨率、與現(xiàn)實(shí)世界精準(zhǔn)匹配的合成視頻數(shù)據(jù),這些數(shù)據(jù)是訓(xùn)練機(jī)器人和自動(dòng)駕駛汽車系統(tǒng)的關(guān)鍵。雖然這些模型缺乏藝術(shù)感,但其輸出結(jié)果與物理世界非常接近,因此非常適合用于在物理AI模型訓(xùn)練中實(shí)現(xiàn)精確的物體恒存和逼真的場(chǎng)景。

通過(guò)護(hù)欄保障 Cosmos 基礎(chǔ)模型的

安全使用

AI 模型需要護(hù)欄保證其可靠性,包括減少幻覺(jué)、防止輸出有害內(nèi)容、保護(hù)隱私以及與 AI 標(biāo)準(zhǔn)保持一致,從而實(shí)現(xiàn)安全可控的部署。Cosmos 通過(guò)符合 NVIDIA 可信 AI 承諾的定制雙段護(hù)欄系統(tǒng),保障世界基礎(chǔ)模型的安全使用。

Cosmos Guardrails 的運(yùn)行分為兩個(gè)階段:前防護(hù)和后防護(hù)。

前防護(hù)

該階段包含兩層基于文本提示的安全措施:

關(guān)鍵詞屏蔽:攔截列表檢查器掃描提示中的不安全關(guān)鍵詞,使用詞素化檢測(cè)變體并攔截非英語(yǔ)術(shù)語(yǔ)或拼寫錯(cuò)誤。

Aegis 護(hù)欄:NVIDIA 經(jīng)過(guò)微調(diào)的 Aegis AI 內(nèi)容安全模型可檢測(cè)并阻止語(yǔ)義上不安全的提示,包括暴力、騷擾和褻瀆等類別。如果檢測(cè)到不安全的提示,就會(huì)停止視頻生成并返回錯(cuò)誤信息

后防護(hù)

后防護(hù)階段通過(guò)以下方式保障生成視頻的安全性:

視頻內(nèi)容安全分類器:該多類分類器會(huì)對(duì)視頻進(jìn)行逐幀安全評(píng)估。一旦有任何幀被標(biāo)記為不安全,整個(gè)視頻將被拒絕。

人臉模糊過(guò)濾器:使用 RetinaFace 模型對(duì)生成視頻中的所有人臉進(jìn)行模糊處理,以保護(hù)隱私并減少年齡、性別或種族偏見(jiàn)。

為了完善系統(tǒng)和覆蓋邊緣情況,NVIDIA 專家使用對(duì)抗性示例進(jìn)行了嚴(yán)格的測(cè)試,對(duì) 10000 多對(duì)提示-視頻添加了注釋。

評(píng)估 Cosmos 世界基礎(chǔ)模型的

3D 一致性和物理一致性

世界基礎(chǔ)模型能夠?yàn)槲锢?AI 應(yīng)用準(zhǔn)確、高效地仿真現(xiàn)實(shí)世界的物理特性,Cosmos 基準(zhǔn)測(cè)試在評(píng)估這一能力方面起到了至關(guān)重要的作用。目前,公開的視頻生成基準(zhǔn)測(cè)試側(cè)重于生成視頻的保真度、時(shí)間一致性和速度,而 Cosmos 基準(zhǔn)測(cè)試則增加了一個(gè)評(píng)估通用模型的新維度—— 3D 一致性和物理一致性,以便根據(jù)物理 AI 系統(tǒng)對(duì)準(zhǔn)確性的要求對(duì)視頻進(jìn)行評(píng)估。

3D 一致性

我們從一個(gè)開放數(shù)據(jù)集中整理了 500 個(gè)視頻子集,然后在這些視頻子集的靜態(tài)場(chǎng)景中對(duì) Cosmos 模型進(jìn)行了 3D 一致性測(cè)試。為避免與運(yùn)動(dòng)相關(guān)的復(fù)雜性,我們生成了描述視頻的文本提示。我們將測(cè)試結(jié)果與基準(zhǔn)生成模型 VideoLDM 進(jìn)行了比較。

使用的指標(biāo)

幾何一致性:使用 Sampson 誤差和攝像機(jī)姿態(tài)估計(jì)成功率等指標(biāo),通過(guò)極線幾何約束技術(shù)進(jìn)行評(píng)估。

視圖合成一致性:使用峰值信噪比(PSNR)、結(jié)構(gòu)相似性指數(shù)(SSIM)和學(xué)習(xí)感知圖像補(bǔ)丁相似性(LPIPS)等指標(biāo)進(jìn)行評(píng)估。這些指標(biāo)衡量的是根據(jù)插值攝像機(jī)位置合成視圖的質(zhì)量。

Sampson 誤差越低、成功率越高,說(shuō)明 3D 對(duì)齊度越高。同樣,PSNR 和 SSIM 越高、LPIPS 越低,說(shuō)明質(zhì)量越高。

ce536f82-d269-11ef-9310-92fbcf53809c.png

表 1 Cosmos 世界基礎(chǔ)模型與 VideoLDM 基本模型的 3D 一致性評(píng)估結(jié)果比較

結(jié)果

Cosmos 世界基礎(chǔ)模型在 3D 一致性方面優(yōu)于基準(zhǔn)模型(表 1),其幾何對(duì)齊度和攝像機(jī)姿勢(shì)成功率更高。這些模型合成的視圖與現(xiàn)實(shí)世界的質(zhì)量相匹配,證明了它們可以作為有效的世界仿真器。

物理對(duì)齊度

物理對(duì)齊度測(cè)試了 Cosmos 模型仿真現(xiàn)實(shí)世界物理特性(包括運(yùn)動(dòng)、重力和能量動(dòng)態(tài))的效果。我們使用 NVIDIA PhysX 和 NVIDIA Isaac Sim 設(shè)計(jì)了八個(gè)受控場(chǎng)景,以便評(píng)估虛擬環(huán)境中的重力、碰撞、扭矩、慣性等屬性。

使用的指標(biāo)

像素級(jí)指標(biāo):峰值信噪比(PSNR)衡量模型輸出的像素值與參考視頻的匹配程度。數(shù)值越高,說(shuō)明噪聲越小,準(zhǔn)確度越高。結(jié)構(gòu)相似性指數(shù)(SSIM)評(píng)估生成的幀與基準(zhǔn)真相幀在結(jié)構(gòu)、亮度和對(duì)比度方面的相似性。SSIM 值越高,視覺(jué)保真度就越高。

特征級(jí)度量:DreamSim 衡量從兩段視頻中提取的高級(jí)特征之間的相似度。該方法可評(píng)估生成內(nèi)容的語(yǔ)義一致性,側(cè)重于物體和運(yùn)動(dòng)而非單個(gè)像素。

物體級(jí)指標(biāo):IoU(Intersection-over-Union)計(jì)算視頻中預(yù)測(cè)物體區(qū)域與實(shí)際物體區(qū)域的重疊度,尤其適合用于通過(guò)仿真追蹤特定物體以確保其行為符合物理預(yù)期。

PSNR、SSIM、DreamSim 和 IoU 越高,表示物理對(duì)齊度越高。

ce64f43c-d269-11ef-9310-92fbcf53809c.jpg

表 2 在 Cosmos 世界基礎(chǔ)模型自回歸變體所支持的最大長(zhǎng)度——33 幀上根據(jù)各指標(biāo)計(jì)算出的物理對(duì)齊度結(jié)果

結(jié)果

Cosmos 世界基礎(chǔ)模型顯示出與物理定律的高度一致性(表 2),尤其是在增加調(diào)節(jié)數(shù)據(jù)的情況下。與基準(zhǔn)模型相比,在攝像機(jī)調(diào)節(jié)數(shù)據(jù)集上進(jìn)行的后訓(xùn)練使姿勢(shì)估計(jì)成功率提高了兩倍。但也發(fā)現(xiàn)了需要重點(diǎn)改進(jìn)的地方,如物體無(wú)常性(物體意外消失或出現(xiàn))和不合常理的行為(如違反重力)。

使用 Cosmos 和 NVIDIA Omniverse

為物理 AI 應(yīng)用定制模型

視頻搜索和理解:通過(guò)理解空間和時(shí)間模式簡(jiǎn)化視頻標(biāo)記和搜索,使訓(xùn)練數(shù)據(jù)的準(zhǔn)備工作更加輕松。

可控的 3D 轉(zhuǎn)真實(shí)合成數(shù)據(jù)生成:借助 NVIDIA Omniverse,開發(fā)者可以創(chuàng)建 3D 場(chǎng)景并使用 Cosmos 生成逼真的視頻??赏ㄟ^(guò) 3D 場(chǎng)景精準(zhǔn)控制生成的視頻,獲得高度定制化的合成數(shù)據(jù)集。

策略模型開發(fā)和評(píng)估:專為以行動(dòng)為條件的視頻預(yù)測(cè)而微調(diào)的世界基礎(chǔ)模型可對(duì)策略模型(將狀態(tài)映射到行動(dòng)的策略)進(jìn)行可擴(kuò)展、可重復(fù)的評(píng)估,從而減少對(duì)有風(fēng)險(xiǎn)的現(xiàn)實(shí)世界測(cè)試或復(fù)雜仿真任務(wù)的依賴,例如障礙物導(dǎo)航或物體操作。

行動(dòng)選擇預(yù)測(cè):Cosmos 為物理 AI 模型提供了評(píng)估潛在行動(dòng)結(jié)果的預(yù)測(cè)能力。

多重宇宙模擬:借助 Cosmos 和 NVIDIA Omniverse,開發(fā)者可以模擬多種未來(lái)結(jié)果,幫助 AI 模型評(píng)估和選擇實(shí)現(xiàn)目標(biāo)的最佳策略。從中受益的應(yīng)用包括預(yù)測(cè)性維護(hù)、自主決策等。

從通用模型到定制專業(yè)模型

Cosmos 引入了一種分為兩個(gè)階段的世界模型訓(xùn)練方法。

通用模型:Cosmos 世界基礎(chǔ)模型作為通用模型構(gòu)建并在廣泛的數(shù)據(jù)集上訓(xùn)練而成。所使用的數(shù)據(jù)集包括各種現(xiàn)實(shí)世界的物理和環(huán)境。這些開放式模型能夠處理從自然動(dòng)力學(xué)到機(jī)器人交互等廣泛的場(chǎng)景,為一切物理 AI 任務(wù)提供了堅(jiān)實(shí)的基礎(chǔ)。

專業(yè)模型:開發(fā)者可以使用更小但更具針對(duì)性的數(shù)據(jù)集對(duì)通用模型進(jìn)行微調(diào),以創(chuàng)建專為特定應(yīng)用(例如自動(dòng)駕駛或人形機(jī)器人)量身定制的專業(yè)模型或者生成定制的合成場(chǎng)景(例如帶有緊急車輛的夜景或高保真工業(yè)機(jī)器人環(huán)境)。與從頭開始訓(xùn)練模型相比,該微調(diào)過(guò)程大大減少了所需的數(shù)據(jù)和訓(xùn)練時(shí)間。

Cosmos 通過(guò)高效的視頻處理管線、高性能 tokenizer 和先進(jìn)的訓(xùn)練框架加快了訓(xùn)練和微調(diào)的速度,使開發(fā)者能夠滿足運(yùn)營(yíng)需求并覆蓋邊緣案例,推進(jìn)了物理 AI 的開發(fā)工作。

使用 NVIDIA NeMo Curator 加速數(shù)據(jù)處理

為了訓(xùn)練模型,需要投喂經(jīng)過(guò)整理的高質(zhì)量數(shù)據(jù),這需要耗費(fèi)大量時(shí)間和資源。NVIDIA Cosmos 包含一個(gè)由 NVIDIA NeMo Curator 驅(qū)動(dòng)并專為 NVIDIA 數(shù)據(jù)中心 GPU 優(yōu)化的數(shù)據(jù)處理和整理管線。

NVIDIA NeMo Curator 使機(jī)器人和自動(dòng)駕駛汽車開發(fā)者能夠高效處理龐大的數(shù)據(jù)集。以 2000 萬(wàn)小時(shí)的視頻為例,在NVIDIA Hopper GPU 上處理只需 40 天,在 NVIDIA Blackwell GPU 上處理只需 14 天,而使用未優(yōu)化的 CPU 管線處理則需要 3.4 年。

主要優(yōu)點(diǎn)包括:

整理速度提高了 89 倍:大幅縮短處理時(shí)間

可擴(kuò)展性:無(wú)縫處理 100 PB 以上的數(shù)據(jù)

高吞吐量:先進(jìn)的過(guò)濾、字幕添加和嵌入功能可在不影響速度的情況下確保質(zhì)量

ce81e0ec-d269-11ef-9310-92fbcf53809c.png

圖 4 Cosmos 包含可將視頻數(shù)據(jù)處理速度提高 89 倍的 NeMo Curator

使用 Cosmos Tokenizer 進(jìn)行高保真壓縮和重建

在對(duì)數(shù)據(jù)進(jìn)行整理后,需要對(duì)其進(jìn)行 token 化才能用于訓(xùn)練。token 化將復(fù)雜的數(shù)據(jù)分解為易于管理的單元,使模型能夠更加高效地處理和學(xué)習(xí)數(shù)據(jù)。

Cosmos tokenizer 簡(jiǎn)化了這一過(guò)程,在保持質(zhì)量、降低成本和復(fù)雜性的同時(shí),加快了壓縮和可視化重建的速度。用于自回歸模型的離散 tokenizer 將數(shù)據(jù)處理時(shí)間縮短了 8 倍并將數(shù)據(jù)所占空間壓縮了 16×16 倍,一次最多可處理 49 個(gè)幀。用于擴(kuò)散模型的連續(xù) tokenizer 將數(shù)據(jù)處理時(shí)間縮短了 8 倍并將數(shù)據(jù)所占空間壓縮了 8×8 倍,最多可處理 121 個(gè)幀。

使用 NVIDIA NeMo 進(jìn)行微調(diào)

開發(fā)者可以使用 NVIDIA NeMo 框架對(duì) Cosmos 世界基礎(chǔ)模型進(jìn)行微調(diào)。無(wú)論是在本地?cái)?shù)據(jù)中心還是在云端,NeMo Framework 都能加快在 GPU 驅(qū)動(dòng)的系統(tǒng)上訓(xùn)練模型的速度,幫助開發(fā)者增強(qiáng)現(xiàn)成的模型或構(gòu)建新的模型。

NeMo Framework 通過(guò)以下方式實(shí)現(xiàn)多模態(tài)數(shù)據(jù)的高效加載:

將 TB 大小的數(shù)據(jù)集分片成多個(gè)壓縮文件,以減少 IO 開銷。

確定性地保存和加載數(shù)據(jù)集,以避免重復(fù)并最大程度地減少計(jì)算浪費(fèi)。

在交換數(shù)據(jù)時(shí),使用經(jīng)過(guò)優(yōu)化的通信方式減少網(wǎng)絡(luò)帶寬。

開始使用 NVIDIA Cosmos

Cosmos 世界基礎(chǔ)模型是開放模型并且可在 NGC 和 Hugging Face 上獲得。開發(fā)者還可在 NVIDIA API 目錄上運(yùn)行 Cosmos 世界基礎(chǔ)模型。此外,API 目錄上還提供用于提高文本提示準(zhǔn)確性的 Cosmos 工具、便于未來(lái)輕松識(shí)別 AI 生成序列的內(nèi)置水印系統(tǒng)以及用于解碼增強(qiáng)現(xiàn)實(shí)應(yīng)用視頻序列的專用模型。如需了解更多信息,請(qǐng)觀看演示。

用于加速數(shù)據(jù)處理管線的 NeMo Curator 以托管服務(wù)和 SDK 的形式提供。開發(fā)者現(xiàn)在可以申請(qǐng)搶先體驗(yàn)。Cosmos tokenizer 是開放式神經(jīng)網(wǎng)絡(luò)并且可在 GitHub 和 Hugging Face 上獲得。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 機(jī)器人
    +關(guān)注

    關(guān)注

    211

    文章

    28632

    瀏覽量

    208107
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5075

    瀏覽量

    103578
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    31493

    瀏覽量

    270049

原文標(biāo)題:CES 2025 | 使用 NVIDIA Cosmos 世界基礎(chǔ)模型平臺(tái)推進(jìn)物理 AI 的開發(fā)工作

文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    請(qǐng)問(wèn)TIMx有哪些主要功能?

    TIMx簡(jiǎn)介TIMx主要功能
    發(fā)表于 11-09 08:56

    MusrLicManage的主要功能

    MusrLicManage簡(jiǎn)介MusrLicManage主要功能
    發(fā)表于 12-16 07:22

    物聯(lián)網(wǎng)平臺(tái)主要功能是什么?常見(jiàn)的物聯(lián)網(wǎng)平臺(tái)有哪些?

    物聯(lián)網(wǎng)平臺(tái)主要功能是什么?常見(jiàn)的物聯(lián)網(wǎng)平臺(tái)有哪些?
    發(fā)表于 05-17 06:47

    ECC是什么?有什么主要功能?

    ECC是什么?有什么主要功能
    發(fā)表于 06-21 07:00

    網(wǎng)卡實(shí)現(xiàn)的主要功能是什么

    從介質(zhì)訪問(wèn)控制方法的角度局域網(wǎng)可分為哪幾類?以太網(wǎng)交換機(jī)是根據(jù)什么去轉(zhuǎn)發(fā)數(shù)據(jù)幀的?網(wǎng)卡實(shí)現(xiàn)的主要功能是什么?
    發(fā)表于 10-20 06:24

    DC的主要功能或者主要作用是什么

    什么是DC?DC能接受多少種輸入格式?DC的主要功能或者主要作用是什么?如何配置DC?
    發(fā)表于 10-20 07:02

    電話伴侶的主要功能

    電話伴侶的主要功能          &n
    發(fā)表于 12-31 13:46 ?923次閱讀

    電話機(jī)的主要功能

    電話機(jī)的主要功能         
    發(fā)表于 12-31 14:37 ?1050次閱讀

    網(wǎng)絡(luò)電話的主要功能

     網(wǎng)絡(luò)電話的主要功能         
    發(fā)表于 12-31 14:53 ?736次閱讀

    bios的主要功能

    本視頻主要詳細(xì)介紹了bios的主要功能,分別是BIOS系統(tǒng)設(shè)置程序、POST上電自檢、BIOS系統(tǒng)啟動(dòng)自舉程序、硬件IO和中斷服務(wù)。
    的頭像 發(fā)表于 03-28 15:10 ?7537次閱讀

    直線導(dǎo)軌的主要功能

    直線導(dǎo)軌的主要功能
    的頭像 發(fā)表于 07-26 17:42 ?1169次閱讀
    直線導(dǎo)軌的<b class='flag-5'>主要功能</b>

    AMI網(wǎng)絡(luò)的主要功能

    電子發(fā)燒友網(wǎng)站提供《AMI網(wǎng)絡(luò)的主要功能.pdf》資料免費(fèi)下載
    發(fā)表于 11-27 11:56 ?0次下載
    AMI網(wǎng)絡(luò)的<b class='flag-5'>主要功能</b>

    NVIDIA Cosmos世界基礎(chǔ)模型平臺(tái)發(fā)布

    NVIDIA 宣布推出NVIDIA Cosmos,該平臺(tái)由先進(jìn)的生成式世界基礎(chǔ)模型、高級(jí) tok
    的頭像 發(fā)表于 01-08 10:39 ?179次閱讀

    NVIDIA發(fā)布Cosmos?平臺(tái),助力物理AI系統(tǒng)發(fā)展

    NVIDIA近日宣布推出全新的NVIDIA Cosmos?平臺(tái),該平臺(tái)專為自動(dòng)駕駛汽車(AV)和機(jī)器人等物理AI系統(tǒng)而設(shè)計(jì),旨在推動(dòng)這些領(lǐng)域
    的頭像 發(fā)表于 01-08 15:36 ?341次閱讀

    NVIDIA發(fā)布Cosmos平臺(tái),加速物理AI開發(fā)

    NVIDIA近日宣布了一項(xiàng)重大創(chuàng)新——推出NVIDIA Cosmos?平臺(tái)。該平臺(tái)集成了先進(jìn)的生成式世界
    的頭像 發(fā)表于 01-13 11:06 ?339次閱讀