0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

生成視頻如此簡(jiǎn)單,給句提示就行,還能在線試玩

OpenCV學(xué)堂 ? 來源:機(jī)器之心 ? 2023-05-15 16:18 ? 次閱讀

動(dòng)動(dòng)嘴皮子就能生成視頻的新研究來了。

你輸入文字,讓 AI 來生成視頻,這種想法在以前只出現(xiàn)在人們的想象中,現(xiàn)在,隨著技術(shù)的發(fā)展,這種功能已經(jīng)實(shí)現(xiàn)了。 近年來,生成式人工智能計(jì)算機(jī)視覺領(lǐng)域引起巨大的關(guān)注。隨著擴(kuò)散模型的出現(xiàn),從文本 Prompt 生成高質(zhì)量圖像,即文本到圖像的合成,已經(jīng)變得非常流行和成功。 最近的研究試圖通過在視頻領(lǐng)域復(fù)用文本到圖像擴(kuò)散模型,將其成功擴(kuò)展到文本到視頻生成和編輯的任務(wù)。雖然這樣的方法取得了可喜的成果,但大部分方法需要使用大量標(biāo)記數(shù)據(jù)進(jìn)行大量訓(xùn)練,這可能對(duì)許多用戶來講太過昂貴。 為了使視頻生成更加廉價(jià),Jay Zhangjie Wu 等人去年提出的 Tune-A-Video 引入了一種機(jī)制,可以將 Stable Diffusion (SD) 模型應(yīng)用到視頻領(lǐng)域。只需要調(diào)整一個(gè)視頻,從而讓訓(xùn)練工作量大大減少。雖然這比以前的方法效率提升很多,但仍需要進(jìn)行優(yōu)化。此外,Tune-A-Video 的生成能力僅限于 text-guided 的視頻編輯應(yīng)用,而從頭開始合成視頻仍然超出了它的能力范圍。 本文中,來自 Picsart AI Resarch (PAIR) 、得克薩斯大學(xué)奧斯汀分校等機(jī)構(gòu)的研究者在 zero-shot 以及無需訓(xùn)練的情況下,在文本到視頻合成的新問題方向上向前邁進(jìn)了一步,即無需任何優(yōu)化或微調(diào)的情況下根據(jù)文本提示生成視頻。

f0e90fc6-f19b-11ed-90ce-dac502259ad0.png

論文地址:https://arxiv.org/pdf/2303.13439.pdf

項(xiàng)目地址:https://github.com/Picsart-AI-Research/Text2Video-Zero

試用地址:https://huggingface.co/spaces/PAIR/Text2Video-Zero

下面我們看看效果如何。例如一只熊貓?jiān)跊_浪;一只熊在時(shí)代廣場(chǎng)上跳舞:

f0f857ce-f19b-11ed-90ce-dac502259ad0.gif

該研究還能根據(jù)目標(biāo)生成動(dòng)作:

f10abcca-f19b-11ed-90ce-dac502259ad0.gif

此外,還能進(jìn)行邊緣檢測(cè)

f1240784-f19b-11ed-90ce-dac502259ad0.gif

本文提出的方法的一個(gè)關(guān)鍵概念是修改預(yù)訓(xùn)練的文本到圖像模型(例如 Stable Diffusion),通過時(shí)間一致的生成來豐富它。通過建立在已經(jīng)訓(xùn)練好的文本到圖像模型的基礎(chǔ)上,本文的方法利用它們出色的圖像生成質(zhì)量,增強(qiáng)了它們?cè)谝曨l領(lǐng)域的適用性,而無需進(jìn)行額外的訓(xùn)練。 為了加強(qiáng)時(shí)間一致性,本文提出兩個(gè)創(chuàng)新修改:(1)首先用運(yùn)動(dòng)信息豐富生成幀的潛在編碼,以保持全局場(chǎng)景和背景時(shí)間一致;(2) 然后使用跨幀注意力機(jī)制來保留整個(gè)序列中前景對(duì)象的上下文、外觀和身份。實(shí)驗(yàn)表明,這些簡(jiǎn)單的修改可以生成高質(zhì)量和時(shí)間一致的視頻(如圖 1 所示)。

f16d8a26-f19b-11ed-90ce-dac502259ad0.png

盡管其他人的工作是在大規(guī)模視頻數(shù)據(jù)上進(jìn)行訓(xùn)練,但本文的方法實(shí)現(xiàn)了相似甚至有時(shí)更好的性能(如圖 8、9 所示)。

f184bf3e-f19b-11ed-90ce-dac502259ad0.png

f1900fb0-f19b-11ed-90ce-dac502259ad0.png

本文的方法不僅限于文本到視頻的合成,還適用于有條件的(見圖 6、5)和專門的視頻生成(見圖 7),以及 instruction-guided 的視頻編輯,可以稱其為由 Instruct-Pix2Pix 驅(qū)動(dòng)的 Video Instruct-Pix2Pix(見圖 9)。

f19f8dbe-f19b-11ed-90ce-dac502259ad0.png

f1b278ca-f19b-11ed-90ce-dac502259ad0.png

f1b995b0-f19b-11ed-90ce-dac502259ad0.png

方法簡(jiǎn)介 在這篇論文中,本文利用 Stable Diffusion (SD)的文本到圖像合成能力來處理 zero-shot 情況下文本到視頻的任務(wù)。由于需要生成視頻而不是圖像,SD 應(yīng)該在潛在代碼序列上進(jìn)行操作。樸素的方法是從標(biāo)準(zhǔn)高斯分布獨(dú)立采樣 m 個(gè)潛在代碼,即f1c32a76-f19b-11ed-90ce-dac502259ad0.png?N (0, I) ,并應(yīng)用 DDIM 采樣以獲得相應(yīng)的張量f1ca8104-f19b-11ed-90ce-dac502259ad0.png,其中 k = 1,…,m,然后解碼以獲得生成的視頻序列f1d2f190-f19b-11ed-90ce-dac502259ad0.png

f1de30e6-f19b-11ed-90ce-dac502259ad0.png

。然而,如圖 10 的第一行所示,這會(huì)導(dǎo)致完全隨機(jī)的圖像生成,僅共享f1e6ee70-f19b-11ed-90ce-dac502259ad0.png所描述的語義,而不具有物體外觀或運(yùn)動(dòng)的一致性。 ?

f1ebfde8-f19b-11ed-90ce-dac502259ad0.png

為了解決這個(gè)問題,本文建議采用以下兩種方法:(i)在潛在編碼f1f3d0c2-f19b-11ed-90ce-dac502259ad0.png之間引入運(yùn)動(dòng)動(dòng)態(tài),以保持全局場(chǎng)景的時(shí)間一致性;(ii)使用跨幀注意力機(jī)制來保留前景對(duì)象的外觀和身份。下面詳細(xì)描述了本文使用的方法的每個(gè)組成部分,該方法的概述可以在圖 2 中找到。 ?

f1fbca70-f19b-11ed-90ce-dac502259ad0.png

注意,為了簡(jiǎn)化符號(hào),本文將整個(gè)潛在代碼序列表示為:f20eb2e8-f19b-11ed-90ce-dac502259ad0.png。 ?實(shí)驗(yàn)?定性結(jié)果? Text2Video-Zero 的所有應(yīng)用都表明它成功生成了視頻,其中全局場(chǎng)景和背景具有時(shí)間一致性,前景對(duì)象的上下文、外觀和身份在整個(gè)序列中得到了保持。 ? 在文本轉(zhuǎn)視頻的情況下,可以觀察到它生成與文本提示良好對(duì)齊的高質(zhì)量視頻(見圖 3)。例如,繪制的熊貓可以自然地在街上行走。同樣,使用額外的邊緣或姿勢(shì)指導(dǎo) (見圖 5、圖 6 和圖 7),生成了與 Prompt 和指導(dǎo)相匹配的高質(zhì)量視頻,顯示出良好的時(shí)間一致性和身份保持。 ?

f21ad00a-f19b-11ed-90ce-dac502259ad0.png

在 Video Instruct-Pix2Pix(見圖 1)的情況下,生成的視頻相對(duì)于輸入視頻具有高保真,同時(shí)嚴(yán)格遵循指令。 與 Baseline 比較 本文將其方法與兩個(gè)公開可用的 baseline 進(jìn)行比較:CogVideo 和 Tune-A-Video。由于 CogVideo 是一種文本到視頻的方法,本文在純文本引導(dǎo)的視頻合成場(chǎng)景中與它進(jìn)行了比較;使用 Video Instruct-Pix2Pix 與 Tune-A-Video 進(jìn)行比較。 為了進(jìn)行定量對(duì)比,本文使用 CLIP 分?jǐn)?shù)對(duì)模型評(píng)估,CLIP 分?jǐn)?shù)表示視頻文本對(duì)齊程度。通過隨機(jī)獲取 CogVideo 生成的 25 個(gè)視頻,并根據(jù)本文的方法使用相同的提示合成相應(yīng)的視頻。本文的方法和 CogVideo 的 CLIP 分?jǐn)?shù)分別為 31.19 和 29.63。因此,本文的方法略優(yōu)于 CogVideo,盡管后者有 94 億個(gè)參數(shù)并且需要對(duì)視頻進(jìn)行大規(guī)模訓(xùn)練。 圖 8 展示了本文提出的方法的幾個(gè)結(jié)果,并提供了與 CogVideo 的定性比較。這兩種方法在整個(gè)序列中都顯示出良好的時(shí)間一致性,保留了對(duì)象的身份以及背景。本文的方法顯示出更好的文本 - 視頻對(duì)齊能力。例如,本文的方法在圖 8 (b) 中正確生成了一個(gè)人在陽光下騎自行車的視頻,而 CogVideo 將背景設(shè)置為月光。同樣在圖 8 (a) 中,本文的方法正確地顯示了一個(gè)人在雪地里奔跑,而 CogVideo 生成的視頻中雪地和奔跑的人是看不清楚的。 Video Instruct-Pix2Pix 的定性結(jié)果以及與 per-frame Instruct-Pix2Pix 和 Tune-AVideo 在視覺上的比較如圖 9 所示。雖然 Instruct-Pix2Pix 每幀顯示出良好的編輯性能,但它缺乏時(shí)間一致性。這在描繪滑雪者的視頻中尤其明顯,視頻中的雪和天空使用不同的樣式和顏色繪制。使用 Video Instruct-Pix2Pix 方法解決了這些問題,從而在整個(gè)序列中實(shí)現(xiàn)了時(shí)間上一致的視頻編輯。 雖然 Tune-A-Video 創(chuàng)建了時(shí)間一致的視頻生成,但與本文的方法相比,它與指令指導(dǎo)的一致性較差,難以創(chuàng)建本地編輯,并丟失了輸入序列的細(xì)節(jié)。當(dāng)看到圖 9 左側(cè)中描繪的舞者視頻的編輯時(shí),這一點(diǎn)變得顯而易見。與 Tune-A-Video 相比,本文的方法將整件衣服畫得更亮,同時(shí)更好地保留了背景,例如舞者身后的墻幾乎保持不變。Tune-A-Video 繪制了一堵經(jīng)過嚴(yán)重變形的墻。此外,本文的方法更忠實(shí)于輸入細(xì)節(jié),例如,與 Tune-A-Video 相比,Video Instruction-Pix2Pix 使用所提供的姿勢(shì)繪制舞者(圖 9 左),并顯示輸入視頻中出現(xiàn)的所有滑雪人員(如圖 9 右側(cè)的最后一幀所示)。Tune-A-Video 的所有上述弱點(diǎn)也可以在圖 23、24 中觀察到。

f22d75ca-f19b-11ed-90ce-dac502259ad0.png

f239bf56-f19b-11ed-90ce-dac502259ad0.png

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1088

    瀏覽量

    40515
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3279

    瀏覽量

    48976
  • 計(jì)算機(jī)視覺
    +關(guān)注

    關(guān)注

    8

    文章

    1699

    瀏覽量

    46052

原文標(biāo)題:生成視頻如此簡(jiǎn)單,給句提示就行,還能在線試玩

文章出處:【微信號(hào):CVSCHOOL,微信公眾號(hào):OpenCV學(xué)堂】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    高清端在線視頻聊天插件軟件平臺(tái)

    聊天記錄。可以方便快捷地將信息保存下來?!ひ纛l視頻: MSQ能在進(jìn)行文字交流的同時(shí)進(jìn)行視頻與音頻交流,·文件傳輸: 通過MSQ還能進(jìn)行實(shí)時(shí)文件傳輸,并且支持?jǐn)帱c(diǎn)續(xù)傳?!ぬ摂M
    發(fā)表于 12-16 11:02

    [轉(zhuǎn)載]【試玩】Android系統(tǒng)(安兔兔跑分 和 播放視頻

    [轉(zhuǎn)載]【試玩】Android系統(tǒng)(安兔兔跑分 和 播放視頻)轉(zhuǎn)自lemaker團(tuán)隊(duì)oliver 版權(quán)保護(hù)1. 首先來張燒錄好的Android系統(tǒng)截圖吧,有木有很炫酷~2用安兔兔跑了一下分3.插上
    發(fā)表于 08-09 20:45

    視頻】如何調(diào)試LabVIEW生成的EXE程序

    1.txt拷貝到和EXE相同目錄下。這時(shí),“怪事”發(fā)生了。彈出了錯(cuò)誤。提示文件路徑問題。。。 新手可能要問了。為什么源代碼可以,exe不可以? 這里大家解釋一下,你不該用 那個(gè) 獲取當(dāng)前vi路徑 很多
    發(fā)表于 06-21 10:29

    【MiCO分享貼】MiCOKit-3288開箱試玩

    上電,通過app設(shè)置wifi連接密碼 等一會(huì)就連上了 點(diǎn)LED圖標(biāo)進(jìn)入LED控制界面 可以調(diào)節(jié)顏色,亮度,效果還不錯(cuò) 再來個(gè)試玩視頻http://v.youku.com/v_show/id_XMTI5MTkzMzE4NA==.html
    發(fā)表于 09-10 09:03

    求大神幾個(gè)VHDL寫的基于NIOS II IP核源碼,簡(jiǎn)單就行

    求大神幾個(gè)VHDL寫的基于NIOS IIIP核源碼,簡(jiǎn)單就行,比如IIC AD什么的,多謝
    發(fā)表于 04-11 21:19

    vivado在線調(diào)試

    DSP的CCS軟件在線調(diào)試,不僅能觀察數(shù)據(jù),還能在線修改參數(shù)值,我想問一下vivado在線調(diào)試有這個(gè)功能嗎,我看見debug好像只能在線觀察,我想把bit文件下載到板上,我不僅要觀察,
    發(fā)表于 12-20 14:03

    labview生成安裝包不能在win7上運(yùn)行?

    奇怪不知道為什么labview2020生成安裝包,分明設(shè)置的win7 sp1以上可以使用但是實(shí)際安裝的時(shí)候卻提示這個(gè)上周導(dǎo)出的安裝包還能在win7上用,那時(shí)候安裝包大小大概160m,現(xiàn)在莫名其妙變成了200多m,我也沒更新系統(tǒng)軟
    發(fā)表于 09-18 10:51

    人工智能在視頻應(yīng)用中的實(shí)踐探索,涉及編解碼器、超分辨率等

    人工智能熱度很高,但泡沫也很大。人工智能在視頻領(lǐng)域的應(yīng)用已經(jīng)走入尋常人的生活,人臉識(shí)別、視頻自動(dòng)摳像技術(shù)已經(jīng)比較成熟。此外,人工智能還能視頻
    的頭像 發(fā)表于 01-18 13:56 ?9048次閱讀
    人工智<b class='flag-5'>能在</b><b class='flag-5'>視頻</b>應(yīng)用中的實(shí)踐探索,涉及編解碼器、超分辨率等

    值得收藏!10種在線免費(fèi)壓縮視頻的絕佳方案

    在線壓縮視頻文件不僅不受設(shè)備限制,而且操作非常簡(jiǎn)單。在線壓縮工具無需下載或安裝即可直接通過瀏覽器工作。但是,在線工具在很多方面都有其局限性,
    的頭像 發(fā)表于 11-06 09:03 ?2.7w次閱讀

    Vyond推出首款基于提示的腳本和視頻創(chuàng)建器

    VyondGo 是一款新的腳本和視頻創(chuàng)建應(yīng)用程序,將集成到Vyond的人工智能視頻創(chuàng)建平臺(tái)中。借助易于使用、基于提示的界面,用戶可以根據(jù)幾個(gè)簡(jiǎn)單
    的頭像 發(fā)表于 07-12 10:32 ?821次閱讀

    配電系統(tǒng)智能在線監(jiān)測(cè)

    配電系統(tǒng)智能在線監(jiān)測(cè)是指采用先進(jìn)的傳感器、通信、物聯(lián)網(wǎng)、人工智能等技術(shù),對(duì)配電系統(tǒng)的設(shè)備(如變壓器、斷路器、配電線路等)和電力運(yùn)行狀態(tài)(如電壓、電流、功率因數(shù)、溫度、濕度等)進(jìn)行實(shí)時(shí)監(jiān)測(cè)和預(yù)警。配電
    的頭像 發(fā)表于 09-28 13:58 ?2995次閱讀
    配電系統(tǒng)智<b class='flag-5'>能在線</b>監(jiān)測(cè)

    文生視頻Pika 1.0爆火!一生成視頻,普通人也能當(dāng)“導(dǎo)演”

    幾乎不需要任何門檻,用戶只需要輸入一話,就可以生成想要的各種風(fēng)格的視頻,并通過簡(jiǎn)單的描述,更改視頻中的形象和風(fēng)格。 ? Pika labs
    的頭像 發(fā)表于 12-01 01:08 ?3829次閱讀
    文生<b class='flag-5'>視頻</b>Pika 1.0爆火!一<b class='flag-5'>句</b>話<b class='flag-5'>生成</b><b class='flag-5'>視頻</b>,普通人也能當(dāng)“導(dǎo)演”

    openai發(fā)布首個(gè)視頻生成模型sora

    美國(guó)當(dāng)?shù)貢r(shí)間2024年2月15日 ,OpenAI正式發(fā)布文生視頻模型Sora ,并發(fā)布了48個(gè)文生視頻案例和技術(shù)報(bào)告 ,正式入局視頻生成領(lǐng)域 。Sora能夠根據(jù)提示
    的頭像 發(fā)表于 02-21 16:45 ?1317次閱讀

    生成式人工智能在教育中的應(yīng)用

    生成式人工智能在教育中的應(yīng)用日益廣泛,為教育領(lǐng)域帶來了諸多變革和創(chuàng)新。以下是對(duì)生成式人工智能在教育中的幾個(gè)主要應(yīng)用方面的詳細(xì)闡述:
    的頭像 發(fā)表于 09-16 16:07 ?1273次閱讀

    OpenAI開放Sora視頻生成模型

    升級(jí),準(zhǔn)備迎接廣大用戶的深入探索與廣泛應(yīng)用。 據(jù)官方公告介紹,Sora Turbo作為Sora的升級(jí)版本,具備強(qiáng)大的視頻生成能力。它能夠根據(jù)用戶的文本提示,快速創(chuàng)建出最長(zhǎng)達(dá)20秒的高清視頻片段。更令人驚喜的是,Sora Turb
    的頭像 發(fā)表于 12-10 11:16 ?357次閱讀