0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NüWA多模態(tài)模型支持八大視覺生成與編輯任務(wù)

微軟科技 ? 來源:微軟科技 ? 作者:微軟科技 ? 2022-03-11 09:23 ? 次閱讀

小編說:“自然語言”正在越來越經(jīng)常地出現(xiàn)在我們的日常生活中。你有沒有想象過,我們有一天可以使用自然語言對(duì)視覺內(nèi)容進(jìn)行編輯?微軟亞洲研究院最新推出的多模態(tài)模型 NüWA,不僅讓視覺內(nèi)容創(chuàng)造多了一條路,甚至還讓 Windows 經(jīng)典桌面有了更多的打開方式。人類對(duì)于信息的感知有五種途徑,包括視覺、聽覺、嗅覺、觸覺和味覺,其中視覺是接受信息的最主要渠道,也是創(chuàng)造力的源泉。在推動(dòng)人工智能發(fā)展的道路上,計(jì)算機(jī)視覺已經(jīng)成為一個(gè)重要的研究領(lǐng)域,尤其是近幾年視覺創(chuàng)作類應(yīng)用的頻繁涌現(xiàn),讓創(chuàng)作變得越來越便捷,越來越多的用戶可以用這些工具制作和分享身邊的美好生活。與此同時(shí),視覺類應(yīng)用的廣泛使用也促進(jìn)了計(jì)算機(jī)視覺領(lǐng)域的研究。

然而,盡管這些工具功能強(qiáng)大,但仍有不足之處:其一,它們需要?jiǎng)?chuàng)作者手動(dòng)收集和處理視覺素材,導(dǎo)致現(xiàn)有的大規(guī)模視覺數(shù)據(jù)中所包含的視覺知識(shí)無法自動(dòng)地有效利用。其二,這些工具往往是通過圖形界面與創(chuàng)作者交互,并非自然語言指令,因此對(duì)于一些用戶來說,具有一定的技術(shù)門檻,他們需要擁有豐富的使用經(jīng)驗(yàn)。在微軟亞洲研究院看來,下一代可視化內(nèi)容創(chuàng)建工具應(yīng)該能夠利用大數(shù)據(jù)、AI 模型幫助用戶更便捷地進(jìn)行內(nèi)容創(chuàng)作,并使用自然語言作為更加友好的交互界面。

在這樣的理念下,微軟亞洲研究院在視頻生成預(yù)訓(xùn)練模型的基礎(chǔ)上進(jìn)行再創(chuàng)新,開發(fā)了多模態(tài)的 NüWA(Neural visUal World creAtion)模型。通過自然語言指令,NüWA 可以實(shí)現(xiàn)文本、圖像、視頻之間的生成、轉(zhuǎn)換和編輯,幫助視覺內(nèi)容創(chuàng)作者降低技術(shù)門檻,提高創(chuàng)造力。同時(shí),開發(fā)者也可以利用 NüWA 構(gòu)建基于 AI 的視覺內(nèi)容創(chuàng)造平臺(tái)。

支持八大視覺生成與編輯任務(wù)

NüWA 目前支持八大視覺生成和編輯任務(wù)。其中,支持圖像的四類任務(wù)包括:文本到圖像,草圖到圖像,圖像補(bǔ)全,圖像編輯;支持視頻的四類任務(wù)包括:文本到視頻,視頻草圖到視頻,視頻預(yù)測(cè),視頻編輯。下面,讓我們以 Windows 經(jīng)典桌面為例,試一下 NüWA 的幾個(gè)功能。

給定一張?jiān)紙D片;

讓 NüWA 將圖片補(bǔ)全為256x256(圖像補(bǔ)全);

讓 NüWA 在圖片的紅框位置處添加“一匹在草地上行走的馬”(圖像編輯);

讓 NüWA 將這張圖片生成為一個(gè)能“動(dòng)”起來的視頻(視頻預(yù)測(cè))。

NüWA-LIP:讓視覺編輯更精細(xì)

NüWA 模型已基本包含了視覺創(chuàng)作的核心流程,可在一定程度上輔助創(chuàng)作者提升效率,但在實(shí)際創(chuàng)作中,創(chuàng)作者還有很多多樣且高質(zhì)量的需求。為此,微軟亞洲研究院的研究員們?cè)?NüWA 的基礎(chǔ)之上更新迭代,于近日提出了 NüWA-LIP 模型,并且在視覺領(lǐng)域的典型任務(wù)——缺陷圖像修復(fù)中取得了新突破。盡管此前也有方法完成了類似的圖像修復(fù),但是模型的創(chuàng)作卻比較隨意,無法符合創(chuàng)作者的意愿,而 NüWA LIP 幾乎可以按照給定的自然語言指令修復(fù)、補(bǔ)全成人們?nèi)庋劭山邮艿膱D像。下面,讓我們直觀感受一下 NüWA-LIP 神奇的圖像修復(fù)效果。圖2給出了兩個(gè)例子。第一個(gè)例子是希望模型可以按照“Racers riding four wheelers while a crowd watches”(一群人在看摩托車手騎四輪車)來補(bǔ)全黑色區(qū)域。已有工作 GLIDE 雖然可以補(bǔ)全,但是可以看到邊界處有明顯的白線,并且補(bǔ)全的區(qū)域比較模糊。NüWA 模型使用自回歸的方式從左到右依次掃描生成,邊界處相比于 GLIDE 更加自然。但是由于在補(bǔ)全黑色區(qū)域時(shí)看不到右側(cè)的車輪,因此標(biāo)準(zhǔn)的 NüWA 模型存在補(bǔ)全邊界銜接不對(duì)的問題。NüWA-LIP 修復(fù)了 NüWA 這一不足,它會(huì)提前預(yù)看整個(gè)圖像,并創(chuàng)新地使用無損編碼技術(shù),然后再自回歸地生成,因此可以做到黑色區(qū)域邊界處銜接自然,并且補(bǔ)全區(qū)域也很清晰。

NüWA-Infinity:讓視覺創(chuàng)作趨于 “無限流”

除了圖像修復(fù)之外,微軟亞洲研究院在高分辨率、大圖像的橫向延展方面也進(jìn)行了持續(xù)研究,提出了 NüWA Infinity 模型。顧名思義,NüWA Infinity 可以根據(jù)給定的圖像生成無限連續(xù)的高清“大片”?!耙婚_始 NüWA 能夠生成、編輯的圖像和視頻的分辨率相對(duì)較低,一般是256×256分辨率的小圖。我們希望通過模型可以生成更高清的大圖,形成更大的視覺沖擊,滿足不同創(chuàng)作者的實(shí)際需求。簡(jiǎn)單來說,NüWA Infinity 會(huì)根據(jù)圖像的不同層次內(nèi)容掃描每一幀窗口,不斷渲染形成高像素、連續(xù)的大圖,”微軟亞洲研究院研究員吳晨飛介紹說。想知道 Windows 經(jīng)典桌面的右側(cè)是什么樣么?點(diǎn)擊下圖,NüWA-Infinity 為你“揭開”神秘面紗。

段楠補(bǔ)充說,“表面看 NüWA Infinity 解決了之前 NüWA 生成圖片不高清,以及視頻幀數(shù)有限的問題。但其實(shí) NüWA Infinity 從底層形成了一套生成機(jī)制,不僅可以對(duì)圖片進(jìn)行延展式的生成,也可以應(yīng)用于視頻預(yù)測(cè)創(chuàng)作,而這也是我們接下來要攻克的研究課題?!?/p>

自此,NüWA-LIP 讓機(jī)器接受語言指令自動(dòng)修圖成為了可能,而 NüWA-Infinity 則使得圖像生成質(zhì)量向高清、無限的真實(shí)世界邁進(jìn)了一大步。按照這樣的迭代創(chuàng)新步伐,未來創(chuàng)作者擁有一套趨于“無限流”的視覺創(chuàng)作輔助工具,指日可待。

段楠補(bǔ)充說,“表面看 NüWA Infinity 解決了之前 NüWA 生成圖片不高清,以及視頻幀數(shù)有限的問題。但其實(shí) NüWA Infinity 從底層形成了一套生成機(jī)制,不僅可以對(duì)圖片進(jìn)行延展式的生成,也可以應(yīng)用于視頻預(yù)測(cè)創(chuàng)作,而這也是我們接下來要攻克的研究課題?!?/p>

自此,NüWA-LIP 讓機(jī)器接受語言指令自動(dòng)修圖成為了可能,而 NüWA-Infinity 則使得圖像生成質(zhì)量向高清、無限的真實(shí)世界邁進(jìn)了一大步。按照這樣的迭代創(chuàng)新步伐,未來創(chuàng)作者擁有一套趨于“無限流”的視覺創(chuàng)作輔助工具,指日可待。

NüWA 在八大任務(wù)中的效果

NüWA 多模態(tài)模型連鎖反應(yīng):或?qū)砀唷皻⑹旨?jí)”應(yīng)用

微軟亞洲研究院高級(jí)研究員段楠表示,“NüWA 是第一個(gè)多模態(tài)預(yù)訓(xùn)練模型。我們希望 NüWA 可以實(shí)現(xiàn)真實(shí)世界的視頻生成,但在訓(xùn)練過程中模型會(huì)產(chǎn)生大量的‘中間變量’,消耗巨大的顯存、計(jì)算等資源。因此,NüWA 團(tuán)隊(duì)與系統(tǒng)組的同事們聯(lián)手協(xié)作,為 NüWA 在系統(tǒng)架構(gòu)上設(shè)置了多種并行機(jī)制,如張量并行、管道并行和數(shù)據(jù)并行,使得我們的跨模態(tài)訓(xùn)練成為可能?!?/p>

未來,隨著人工智能技術(shù)的發(fā)展,增強(qiáng)現(xiàn)實(shí)、虛擬現(xiàn)實(shí)等沉浸式的人機(jī)交互界面將會(huì)得到更廣泛的應(yīng)用,數(shù)字世界和物理世界的結(jié)合也將越來越緊密。而不同類型的多模態(tài)內(nèi)容則是拉近虛擬空間與現(xiàn)實(shí)世界的強(qiáng)力膠,因此,虛擬內(nèi)容的創(chuàng)建、編輯和交互將至關(guān)重要。NüWA 提供的視覺內(nèi)容生成和編輯技術(shù),為這些應(yīng)用提供了無限的想象空間。當(dāng)多模態(tài)技術(shù)成為未來人工智能應(yīng)用發(fā)展的方向時(shí),多模態(tài)模型將會(huì)為學(xué)習(xí)、廣告、新聞、會(huì)議、娛樂、社交網(wǎng)絡(luò)、數(shù)字人、腦機(jī)交互等領(lǐng)域帶來更多的下一代“殺手級(jí)”應(yīng)用。

原文標(biāo)題:用一句話,讓AI畫一匹馬是什么體驗(yàn)?

文章出處:【微信公眾號(hào):微軟科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7030

    瀏覽量

    89039
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    30896

    瀏覽量

    269108
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3243

    瀏覽量

    48842

原文標(biāo)題:用一句話,讓AI畫一匹馬是什么體驗(yàn)?

文章出處:【微信號(hào):mstech2014,微信公眾號(hào):微軟科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    商湯日日新模態(tài)模型權(quán)威評(píng)測(cè)第一

    剛剛,商湯科技日日新SenseNova模態(tài)模型,在權(quán)威綜合評(píng)測(cè)權(quán)威平臺(tái)OpenCompass的模態(tài)評(píng)測(cè)中取得榜單第一。
    的頭像 發(fā)表于 12-20 10:39 ?191次閱讀

    一文理解模態(tài)大語言模型——下

    /understanding-multimodal-llms ? 《一文理解模態(tài)大語言模型 - 上》介紹了什么是模態(tài)大語言
    的頭像 發(fā)表于 12-03 15:18 ?129次閱讀
    一文理解<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大語言<b class='flag-5'>模型</b>——下

    基于AX650N/AX630C部署模態(tài)模型InternVL2-1B

    InternVL2是由上海人工智能實(shí)驗(yàn)室OpenGVLab發(fā)布的一款模態(tài)模型,中文名稱為“書生·萬象”。該模型在多學(xué)科問答(MMMU)等任務(wù)
    的頭像 發(fā)表于 11-18 17:32 ?734次閱讀
    基于AX650<b class='flag-5'>N</b>/AX630C部署<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>InternVL2-1B

    高通與智譜推動(dòng)模態(tài)生成式AI體驗(yàn)的終端側(cè)部署

    此前,驍龍峰會(huì)首日,智譜與高通技術(shù)公司宣布合作將GLM-4V端側(cè)視覺模型,面向驍龍8至尊版進(jìn)行深度適配和推理優(yōu)化,支持豐富的模態(tài)交互方式
    的頭像 發(fā)表于 11-08 09:55 ?182次閱讀

    利用OpenVINO部署Qwen2模態(tài)模型

    模態(tài)模型的核心思想是將不同媒體數(shù)據(jù)(如文本、圖像、音頻和視頻等)進(jìn)行融合,通過學(xué)習(xí)不同模態(tài)之間的關(guān)聯(lián),實(shí)現(xiàn)更加智能化的信息處理。簡(jiǎn)單來說,
    的頭像 發(fā)表于 10-18 09:39 ?440次閱讀

    聆思CSK6視覺語音大模型AI開發(fā)板入門資源合集(硬件資料、大模型語音/模態(tài)交互/英語評(píng)測(cè)SDK合集)

    豐富外設(shè)配件 配套模態(tài)應(yīng)用示例,支持快速上手體驗(yàn)大模型語音交互、智能視覺等 AI 應(yīng)用 板載 DAPLINK 調(diào)試器,外接一條USB 線即
    發(fā)表于 06-18 17:33

    阿里云通義大模型助力“小愛同學(xué)”強(qiáng)化模態(tài)AI生成能力

    小米的人工智能助手“小愛同學(xué)”近期與阿里云通義大模型達(dá)成戰(zhàn)略合作,共同提升其模態(tài)AI生成能力,特別是在圖片生成與理解方面。這次合作不僅將強(qiáng)
    的頭像 發(fā)表于 05-13 09:19 ?822次閱讀

    李未可科技正式推出WAKE-AI模態(tài)AI大模型

    文本生成、語言理解、圖像識(shí)別及視頻生成模態(tài)交互能力。 ? 該大模型圍繞 GPS 軌跡+視覺+
    發(fā)表于 04-18 17:01 ?601次閱讀
    李未可科技正式推出WAKE-AI<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>AI大<b class='flag-5'>模型</b>

    NVIDIA Edify模態(tài)架構(gòu)升級(jí),引領(lǐng)視覺生成式AI新紀(jì)元

    NVIDIA近日宣布,其用于視覺生成式AI的模態(tài)架構(gòu)Edify迎來重大更新,為開發(fā)者和視覺內(nèi)容提供商帶來前所未有的新功能。其中,3D資產(chǎn)
    的頭像 發(fā)表于 03-27 10:22 ?463次閱讀

    螞蟻集團(tuán)推出20億參數(shù)模態(tài)遙感基礎(chǔ)模型SkySense

    近日,螞蟻集團(tuán)聯(lián)合武漢大學(xué)宣布成功研發(fā)出20億參數(shù)模態(tài)遙感基礎(chǔ)模型SkySense。這一創(chuàng)新模型由螞蟻集團(tuán)的AI創(chuàng)新研發(fā)部門NextEvo與武漢大學(xué)共同完成,是迄今為止國(guó)際上參數(shù)規(guī)模
    的頭像 發(fā)表于 03-04 11:22 ?820次閱讀

    螞蟻推出20億參數(shù)模態(tài)遙感模型SkySense

    據(jù)了解,負(fù)責(zé)開發(fā)的百靈團(tuán)隊(duì)利用自身擁有的19億遙感影像數(shù)據(jù)集進(jìn)行了預(yù)訓(xùn)練,從而生成了具有20.6億參數(shù)的SkySense大模型。官方稱其為全球范圍內(nèi)參數(shù)規(guī)模最大、任務(wù)覆蓋最全且識(shí)別精度最高的
    的頭像 發(fā)表于 02-28 15:53 ?674次閱讀

    機(jī)器人基于開源的模態(tài)語言視覺模型

    ByteDance Research 基于開源的模態(tài)語言視覺模型 OpenFlamingo 開發(fā)了開源、易用的 RoboFlamingo 機(jī)器人操作
    發(fā)表于 01-19 11:43 ?422次閱讀
    機(jī)器人基于開源的<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>語言<b class='flag-5'>視覺</b>大<b class='flag-5'>模型</b>

    什么是模態(tài)?模態(tài)的難題是什么?

    模態(tài)模型,通常大于100M~1B參數(shù)。具有較強(qiáng)的通用性,比如對(duì)圖片中任意物體進(jìn)行分割,或者生成任意內(nèi)容的圖片或聲音。極大降低了場(chǎng)景的定制成本。
    的頭像 發(fā)表于 01-17 10:03 ?4647次閱讀
    什么是<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>?<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>的難題是什么?

    安霸發(fā)布全新N1系列生成式AI芯片

    安霸在CES 2024上發(fā)布了全新的N1系列生成式AI芯片,這是一款專門為前端設(shè)備設(shè)計(jì)的芯片,支持本地運(yùn)行大型語言模型(LLM)應(yīng)用。其單顆SoC能夠
    的頭像 發(fā)表于 01-09 15:32 ?1377次閱讀

    安霸發(fā)布N1系列生成式AI芯片支持前端設(shè)備運(yùn)行本地LLM應(yīng)用

    單顆 SoC 支持 1 至 340 億參數(shù)的模態(tài)模型(Multi-Modal LLM)推理,實(shí)現(xiàn)前端低功耗生成式 AI。
    的頭像 發(fā)表于 01-09 15:19 ?950次閱讀