0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA推出全新生成式AI模型Fugatto

NVIDIA英偉達(dá) ? 來(lái)源:NVIDIA英偉達(dá) ? 2024-11-27 11:29 ? 次閱讀

NVIDIA 開(kāi)發(fā)了一個(gè)全新的生成式 AI 模型。利用輸入的文本和音頻,該模型可以創(chuàng)作出包含任意的音樂(lè)、人聲和聲音組合的作品。

一個(gè)生成式 AI 研究團(tuán)隊(duì)創(chuàng)造了一把如同瑞士軍刀般多功能的聲音工具,支持用戶(hù)只需使用文本就能控制輸出的音頻。

雖然一些 AI 模型可以譜曲或修音,但沒(méi)有一個(gè)能在靈活性上媲美這個(gè)新模型。

根據(jù)由任意的文本和音頻文件組合所構(gòu)成的提示詞,這個(gè)名為 Fugatto(Foundational Generative Audio Transformer Opus 1 的縮寫(xiě))的模型,可以生成或轉(zhuǎn)換由任意的音樂(lè)、人聲和聲音所構(gòu)成的作品。

例如,它可以根據(jù)文本提示創(chuàng)作音樂(lè)片段、在現(xiàn)有歌曲中刪除或添加樂(lè)器、改變?nèi)寺暤目谝艋蚯榫w,甚至讓人們發(fā)出從未聽(tīng)過(guò)的聲音。

One Take Audio 公司是 NVIDIA 初創(chuàng)加速計(jì)劃的成員。該公司的聯(lián)合創(chuàng)始人、曾推出過(guò)多張白金唱片的制作人兼詞曲創(chuàng)作人 Ido Zmishlany 表示:“這太瘋狂了!聲音是我的靈感源泉,是我創(chuàng)作音樂(lè)的原動(dòng)力。我可以在錄音室里隨心所欲地創(chuàng)造出全新的聲音,這完全突破了人們的想象。”

準(zhǔn)確掌控音頻

NVIDIA 應(yīng)用音頻研究經(jīng)理 Rafael Valle 表示:“我們希望創(chuàng)建一個(gè)能夠像人類(lèi)一樣理解和創(chuàng)作聲音的模型。”Rafael Valle 是 Fugatto 背后的十幾個(gè)開(kāi)發(fā)者之一,同時(shí)也是一位管弦樂(lè)指揮家和作曲家。

Fugatto 可支持眾多音頻生成和轉(zhuǎn)換任務(wù),是首個(gè)展現(xiàn)了新能力(即各種經(jīng)過(guò)訓(xùn)練的能力相互作用所產(chǎn)生的新能力)并能夠整合自由格式指令的基礎(chǔ)性生成式 AI 模型。

Valle 說(shuō):“Fugatto 是我們邁向未來(lái)的第一步。未來(lái),音頻合成與轉(zhuǎn)換中的無(wú)監(jiān)督多任務(wù)學(xué)習(xí)將從數(shù)據(jù)和模型規(guī)模中產(chǎn)生?!?/p>

使用場(chǎng)景示例

例如,音樂(lè)制作人可以使用 Fugatto 來(lái)快速地制作歌曲原型或編輯歌曲創(chuàng)意,嘗試不同的風(fēng)格、人聲和樂(lè)器。他們還可以添加音效,提高現(xiàn)有曲目的整體音質(zhì)。

Zmishlany 說(shuō):“音樂(lè)發(fā)展史也是一部技術(shù)發(fā)展史。電吉他為我們帶來(lái)了搖滾樂(lè)。采樣器的出現(xiàn)催生了嘻哈音樂(lè)。AI 正在開(kāi)啟音樂(lè)的新篇章。這個(gè)新的音樂(lè)創(chuàng)作工具令人超級(jí)興奮?!?/p>

廣告公司可以使用 Fugatto,針對(duì)多個(gè)地區(qū)或多種情形快速地修改現(xiàn)有的營(yíng)銷(xiāo)活動(dòng)素材,在配音中采用不同的口音和情感。

通過(guò)使用說(shuō)話(huà)者所選擇的任何人聲,語(yǔ)言學(xué)習(xí)工具可以實(shí)現(xiàn)個(gè)性化。試想一下,在線(xiàn)課程以某個(gè)家庭成員或朋友的特定聲音進(jìn)行。

電子游戲開(kāi)發(fā)人員可以使用該模型來(lái)修改游戲中預(yù)先錄制的音頻資料,以適應(yīng)用戶(hù)玩游戲時(shí)不斷變化的行為?;蛘撸麄兛梢愿鶕?jù)文字說(shuō)明和可選的音頻輸入來(lái)即時(shí)地創(chuàng)建新的音頻資料。

制造令人喜悅的聲音

Valle 說(shuō)道:“在該模型中,特別讓我們引以為豪的是一個(gè)稱(chēng)之為‘鱷梨椅’的功能?!摈{梨椅是一個(gè)由針對(duì)成像的生成式 AI 模型所創(chuàng)建的新穎的視覺(jué)效果。

例如,F(xiàn)ugatto 可以讓小號(hào)發(fā)出“汪汪”的狗叫聲,或者讓薩克斯管發(fā)出“喵喵”的貓叫聲。只要用戶(hù)能描述出來(lái),該模型就能創(chuàng)造出來(lái)。

研究人員發(fā)現(xiàn),只需微調(diào)和少量歌唱數(shù)據(jù),它就可以處理未經(jīng)預(yù)訓(xùn)練的任務(wù),比如根據(jù)文本提示來(lái)生成高質(zhì)量的歌聲。

用戶(hù)獲得藝術(shù)控制權(quán)

除了這些新穎之處,F(xiàn)ugatto 還添加了多項(xiàng)功能。

在推理過(guò)程中,該模型使用一種名為 ComposableART 的技術(shù),將訓(xùn)練過(guò)程中只能單獨(dú)看到的指令組合在一起。例如,一組提示詞可以要求它用法語(yǔ)口音說(shuō)出帶有悲傷情緒的文字。

該模型能夠在指令之間插入內(nèi)容,這讓用戶(hù)能夠精細(xì)地控制文本指令。在這種情況下,用戶(hù)可以控制口音的輕重或悲傷的程度。

為該模型設(shè)計(jì)了相關(guān)功能的 AI 研究員 Rohan Badlani 表示:“我想讓用戶(hù)可以以主觀或藝術(shù)化的方式整合各種屬性,并能夠選擇他們對(duì)每個(gè)屬性的側(cè)重點(diǎn)?!?/p>

Badlani 說(shuō):“在我進(jìn)行的測(cè)試中,結(jié)果常常出人意料,讓我覺(jué)得自己有點(diǎn)像藝術(shù)家,盡管我是一名計(jì)算機(jī)專(zhuān)家?!盉adlani 擁有斯坦福大學(xué)計(jì)算機(jī)科學(xué)碩士學(xué)位,主攻人工智能。

這個(gè)模型還能生成隨著時(shí)間的推移而不斷變化的聲音,他把這種功能稱(chēng)為時(shí)間插值。例如,它可以產(chǎn)生暴雨經(jīng)過(guò)某個(gè)區(qū)域的聲音,雷聲逐漸增大,然后慢慢地消失在遠(yuǎn)方。它還能讓用戶(hù)精細(xì)地控制聲景的演變。

此外,大多數(shù)模型只能重現(xiàn)它們所接觸過(guò)的訓(xùn)練數(shù)據(jù),而 Fugatto 則不同,它讓用戶(hù)能夠創(chuàng)建從未見(jiàn)過(guò)的聲景,例如雷雨隨著黎明的來(lái)臨逐漸停歇并伴隨著鳥(niǎo)鳴聲。

內(nèi)在機(jī)理

Fugatto 是一個(gè)基礎(chǔ)性生成式 Transformer 模型,其源自該團(tuán)隊(duì)之前在諸多領(lǐng)域的研究成果,例如語(yǔ)音建模、音頻聲音編碼和音頻理解等。

模型的完整版使用了 25 億個(gè)參數(shù),并在一系列配備 32 塊 NVIDIA Hopper Tensor Core GPU 的 NVIDIA DGX 系統(tǒng)上進(jìn)行了訓(xùn)練。

Fugatto 是由一群來(lái)自印度、巴西、中國(guó)、約旦和韓國(guó)等世界各地的人員共同開(kāi)發(fā)的。他們的通力合作使 Fugatto 的多口音和多語(yǔ)言功能更加強(qiáng)大。

在開(kāi)發(fā)該模型的過(guò)程中,其中一項(xiàng)最困難的工作是生成一個(gè)混合數(shù)據(jù)集,該數(shù)據(jù)集包含了數(shù)百萬(wàn)個(gè)用于訓(xùn)練的音頻樣本。在生成數(shù)據(jù)和指令時(shí),該團(tuán)隊(duì)采用了多方面的策略,這大大地?cái)U(kuò)展了模型可執(zhí)行的任務(wù)范圍,同時(shí)實(shí)現(xiàn)了更精準(zhǔn)的性能,并且無(wú)需額外數(shù)據(jù)即可完成新任務(wù)。

這些開(kāi)發(fā)人員還仔細(xì)地研究了現(xiàn)有數(shù)據(jù)集,以揭示數(shù)據(jù)之間的新關(guān)系。整個(gè)工作持續(xù)了一年多。

Valle 提到了兩個(gè)重要時(shí)刻,它們讓團(tuán)隊(duì)意識(shí)到自己走在正確的路上。他說(shuō):“它第一次根據(jù)提示詞成功地生成音樂(lè)時(shí),我們都驚呆了。”

后來(lái),團(tuán)隊(duì)演示了 Fugatto 根據(jù)提示詞而創(chuàng)作出電子音樂(lè),其中的狗叫聲實(shí)現(xiàn)了與節(jié)拍同步。

“當(dāng)大家捧腹大笑時(shí),我的心里真的感到很溫暖。”

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5187

    瀏覽量

    105384
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3462

    瀏覽量

    49779
  • 生成式AI
    +關(guān)注

    關(guān)注

    0

    文章

    524

    瀏覽量

    677

原文標(biāo)題:世界上最靈活的聲音機(jī)器面市

文章出處:【微信號(hào):NVIDIA_China,微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 0人收藏

    評(píng)論

    相關(guān)推薦

    英偉達(dá)GTC2025亮點(diǎn) NVIDIA推出Cosmos世界基礎(chǔ)模型和物理AI數(shù)據(jù)工具的重大更新

    、Figure AI、Skild AI 是最早采用該技術(shù)的公司。 NVIDIA 宣布推出全新 NVIDI
    的頭像 發(fā)表于 03-20 19:01 ?729次閱讀

    NVIDIA Omniverse擴(kuò)展至生成物理AI領(lǐng)域

    NVIDIA近日宣布,其Omniverse?平臺(tái)再次實(shí)現(xiàn)重大突破,成功推出多個(gè)生成AI模型和藍(lán)
    的頭像 發(fā)表于 01-13 10:56 ?612次閱讀

    NVIDIA推出多個(gè)生成AI模型和藍(lán)圖

    NVIDIA 宣布推出多個(gè)生成 AI 模型和藍(lán)圖,將 NV
    的頭像 發(fā)表于 01-08 10:48 ?400次閱讀

    NVIDIA 推出高性?xún)r(jià)比的生成 AI 超級(jí)計(jì)算機(jī)

    Jetson Orin Nano Super 可將生成 AI 性能提升至1.7 倍,支持科技愛(ài)好者、開(kāi)發(fā)者和學(xué)生使用的主流模型。 ? ? NVID
    發(fā)表于 12-18 17:01 ?632次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>推出</b>高性?xún)r(jià)比的<b class='flag-5'>生成</b><b class='flag-5'>式</b> <b class='flag-5'>AI</b> 超級(jí)計(jì)算機(jī)

    NVIDIA助力Amdocs打造生成AI智能體

    正在使用NVIDIA DGX Cloud 與 NVIDIA AI Enterprise軟件開(kāi)發(fā)和交付基于商用大語(yǔ)言模型(LLM)和領(lǐng)域適配模型
    的頭像 發(fā)表于 11-19 14:48 ?674次閱讀

    NVIDIA AI助力SAP生成AI助手Joule加速發(fā)展

    在美國(guó)佛羅里達(dá)州奧蘭多舉行的 SAP Sapphire 大會(huì)上,NVIDIA 與這家企業(yè)軟件公司公布了搭載NVIDIA AI Enterprise軟件的生成
    的頭像 發(fā)表于 09-09 09:37 ?650次閱讀

    全新NVIDIA NIM微服務(wù)將生成AI引入數(shù)字環(huán)境

    生成物理 AI NIM 微服務(wù)以及 NVIDIA Metropolis 參考工作流旨在協(xié)助創(chuàng)建智能的沉浸工作環(huán)境。
    的頭像 發(fā)表于 08-02 15:20 ?757次閱讀

    NVIDIA攜手Meta推出AI服務(wù),為企業(yè)提供生成AI服務(wù)

    NVIDIA近日宣布了一項(xiàng)重大舉措,正式推出NVIDIA AI Foundry服務(wù)與NVIDIA NIM(
    的頭像 發(fā)表于 07-25 16:57 ?717次閱讀

    英偉達(dá)推出全新NVIDIA AI Foundry服務(wù)和NVIDIA NIM推理微服務(wù)

    NVIDIA 宣布推出全新 NVIDIA AI Foundry 服務(wù)和 NVIDIA NIM 推
    的頭像 發(fā)表于 07-25 09:48 ?926次閱讀

    NVIDIA AI Foundry 為全球企業(yè)打造自定義 Llama 3.1 生成 AI 模型

    Foundry 提供從數(shù)據(jù)策管、合成數(shù)據(jù)生成、微調(diào)、檢索、防護(hù)到評(píng)估的全方位生成 AI 模型服務(wù),以便部署自定義 Llama 3.1
    發(fā)表于 07-24 09:39 ?815次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>AI</b> Foundry 為全球企業(yè)打造自定義 Llama 3.1 <b class='flag-5'>生成</b><b class='flag-5'>式</b> <b class='flag-5'>AI</b> <b class='flag-5'>模型</b>

    如何用C++創(chuàng)建簡(jiǎn)單的生成AI模型

    生成AI(Generative AI)是一種人工智能技術(shù),它通過(guò)機(jī)器學(xué)習(xí)模型和深度學(xué)習(xí)技術(shù),從大量歷史數(shù)據(jù)中學(xué)習(xí)對(duì)象的特征和規(guī)律,從而能夠
    的頭像 發(fā)表于 07-05 17:53 ?1420次閱讀

    HPE 攜手 NVIDIA 推出 NVIDIA AI Computing by HPE,加速生成 AI 變革

    by HPE 包含了可持續(xù)的加速計(jì)算產(chǎn)品組合以及全生命周期服務(wù),將簡(jiǎn)化 AI 創(chuàng)造價(jià)值的過(guò)程,加速生成 AI 的發(fā)展步伐。 NVIDIA
    的頭像 發(fā)表于 06-21 14:39 ?542次閱讀

    NVIDIA推出NVIDIA AI Computing by HPE加速生成 AI 變革

    簡(jiǎn)化 AI 創(chuàng)造價(jià)值的過(guò)程,加速生成 AI 的發(fā)展步伐。 NVIDIA AI Computin
    的頭像 發(fā)表于 06-20 17:36 ?908次閱讀

    NVIDIA宣布全面推出 NVIDIA ACE 生成 AI 微服務(wù)

    采用 NVIDIA 宣布全面推出 NVIDIA ACE 生成 AI 微服務(wù),以加速新一代數(shù)字人
    的頭像 發(fā)表于 06-04 10:18 ?855次閱讀

    NVIDIA發(fā)布數(shù)字人微服務(wù),為制作生成AI數(shù)字化身鋪平未來(lái)之路

    ? ? COMPUTEX—2024年6月2日— NVIDIA宣布全面推出NVIDIA ACE生成AI
    發(fā)表于 06-03 17:43 ?216次閱讀

    電子發(fā)燒友

    中國(guó)電子工程師最喜歡的網(wǎng)站

    • 2931785位工程師會(huì)員交流學(xué)習(xí)
    • 獲取您個(gè)性化的科技前沿技術(shù)信息
    • 參加活動(dòng)獲取豐厚的禮品