亚洲国产在线精品国自产拍,亚欧乱色熟女一区二区

從文本生成圖像，再到給視頻加特效，下一個 AIGC 爆發(fā)點要出現(xiàn)了嗎？

相信很多人已經(jīng)領(lǐng)會過生成式 AI 技術(shù)的魅力，特別是在經(jīng)歷了 2022 年的 AIGC 爆發(fā)之后。以 Stable Diffusion 為代表的文本到圖像生成技術(shù)一度風(fēng)靡全球，無數(shù)用戶涌入，借助 AI 之筆表達自己的藝術(shù)想象……

相比于圖像編輯，視頻編輯是一個更具有挑戰(zhàn)性的議題，它需要合成新的動作，而不僅僅是修改視覺外觀，此外還需要保持時間上的一致性。

在這條賽道上探索的公司也不少。前段時間，谷歌發(fā)布的 Dreamix 以將文本條件視頻擴散模型（video diffusion model, VDM）應(yīng)用于視頻編輯。

近日，曾參與創(chuàng)建 Stable Diffusion 的 Runway 公司推出了一個新的人工智能模型「Gen-1」，該模型通過應(yīng)用文本 prompt 或參考圖像指定的任何風(fēng)格，可將現(xiàn)有視頻轉(zhuǎn)化為新視頻。

論文鏈接：https://arxiv.org/pdf/2302.03011

項目主頁：https://research.runwayml.com/gen1

2021 年，Runway 與慕尼黑大學(xué)的研究人員合作，建立了 Stable Diffusion 的第一個版本。隨后英國的一家初創(chuàng)公司 Stability AI 介入，資助了在更多數(shù)據(jù)上訓(xùn)練模型所需的計算費用。2022 年，Stability AI 將 Stable Diffusion 納入主流，將其從一個研究項目轉(zhuǎn)變?yōu)橐粋€全球現(xiàn)象。

Runway 表示，希望 Gen-1 能像 Stable Diffusion 在圖像上所做的那樣為視頻服務(wù)。

「我們已經(jīng)看到圖像生成模型的大爆炸，」Runway 首席執(zhí)行官兼聯(lián)合創(chuàng)始人 Cristóbal Valenzuela 說?！肝艺娴南嘈?，2023 年將是視頻之年?！?/p>

具體來說，Gen-1 支持幾種編輯模式：

1、風(fēng)格化。將任何圖像或 prompt 的風(fēng)格轉(zhuǎn)移到視頻的每一幀。

2、故事板。將模型變成完全風(fēng)格化和動畫的渲染。

3、遮罩。分離視頻中的主題并使用簡單的文本 prompt 對其進行修改。

4、渲染。通過應(yīng)用輸入圖像或 prompt，將無紋理渲染變成逼真的輸出。

5、定制化。通過自定義模型以獲得更高保真度的結(jié)果，釋放 Gen-1 的全部功能。

在該公司官方網(wǎng)站上發(fā)布的 demo 中，展示了 Gen-1 如何絲滑地更改視頻風(fēng)格，來看幾個示例。

比如將「街道上的人」變成「粘土木偶」，只需要一行 prompt：

或者將「堆放在桌上的書」變成「夜晚的城市景觀」：

從「雪地上的奔跑」到「月球漫步」：

年輕女孩，竟然秒變古代先哲：

論文細節(jié)

視覺特效和視頻編輯在當(dāng)代媒體領(lǐng)域無處不在。隨著以視頻為中心的平臺的普及，對更直觀、性能更強的視頻編輯工具的需求也在增加。然而，由于視頻數(shù)據(jù)的時間性，在這種格式下的編輯仍然是復(fù)雜和耗時的。最先進的機器學(xué)習(xí)模型在改善編輯過程方面顯示出了巨大的前景，但很多方法不得不在時間一致性和空間細節(jié)之間取得平衡。

由于引入了在大規(guī)模數(shù)據(jù)集上訓(xùn)練的擴散模型，用于圖像合成的生成方法最近在質(zhì)量和受歡迎程度上經(jīng)歷了一個快速增長階段。一些文本條件模型，如 DALL-E 2 和 Stable Diffusion，使新手只需輸入一個文本 prompt 就能生成詳細的圖像。潛在擴散模型提供了有效的方法，通過在感知壓縮的空間中進行合成來生成圖像。

在本論文中，研究者提出了一個可控的結(jié)構(gòu)和內(nèi)容感知的視頻擴散模型，該模型是在未加字幕的視頻和配對的文本 - 圖像數(shù)據(jù)的大規(guī)模數(shù)據(jù)集上訓(xùn)練的。研究者選擇用單目深度估計來表征結(jié)構(gòu)，用預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)預(yù)測的嵌入來表征內(nèi)容。

該方法在其生成過程中提供了幾種強大的控制模式：首先，與圖像合成模型類似，研究者訓(xùn)練模型使推斷出的視頻內(nèi)容，如其外觀或風(fēng)格，與用戶提供的圖像或文本 prompt 相匹配（圖 1）。其次，受擴散過程的啟發(fā)，研究者對結(jié)構(gòu)表征應(yīng)用了一個信息掩蔽過程，以便能夠選擇模型對給定結(jié)構(gòu)的支持程度。最后，研究者通過一個自定義的指導(dǎo)方法來調(diào)整推理過程，該方法受到無分類指導(dǎo)的啟發(fā)，以實現(xiàn)對生成片段的時間一致性的控制。

總體來說，本研究的亮點如下：

通過在預(yù)訓(xùn)練圖像模型中引入時間層，并在圖像和視頻上進行聯(lián)合訓(xùn)練，將潛在擴散模型擴展到了視頻生成領(lǐng)域；

提出了一個結(jié)構(gòu)和內(nèi)容感知的模型，在樣本圖像或文本的指導(dǎo)下修改視頻。編輯工作完全是在推理時間內(nèi)進行的，不需要額外對每個視頻進行訓(xùn)練或預(yù)處理；

展示了對時間、內(nèi)容和結(jié)構(gòu)一致性的完全控制。該研究首次表明，對圖像和視頻數(shù)據(jù)的聯(lián)合訓(xùn)練能夠讓推理時間控制時間的一致性。對于結(jié)構(gòu)的一致性，在表征中不同的細節(jié)水平上進行訓(xùn)練，可以在推理過程中選擇所需的設(shè)置；

在一項用戶研究中，本文的方法比其他幾種方法更受歡迎；

通過對一小部分圖像進行微調(diào)，可以進一步定制訓(xùn)練過的模型，以生成更準(zhǔn)確的特定主體的視頻。

方法

就研究目的而言，從內(nèi)容和結(jié)構(gòu)的角度來考慮一個視頻將是有幫助的。對于結(jié)構(gòu)，此處指的是描述其幾何和動態(tài)的特征，比如主體的形狀和位置，以及它們的時間變化。對于內(nèi)容，此處將其定義為描述視頻的外觀和語義的特征，比如物體的顏色和風(fēng)格以及場景的照明。Gen-1 模型的目標(biāo)是編輯視頻的內(nèi)容，同時保留其結(jié)構(gòu)。

為了實現(xiàn)這一目標(biāo)，研究者學(xué)習(xí)了視頻 x 的生成模型 p (x|s, c)，其條件是結(jié)構(gòu)表征（用 s 表示）和內(nèi)容表征（用 c 表示）。他們從輸入視頻推斷出形狀表征 s，并根據(jù)描述編輯的文本 prompt c 對其進行修改。首先，描述了對生成模型的實現(xiàn)，作為一個條件潛在的視頻擴散模型，然后，描述了對形狀和內(nèi)容表征的選擇。最后，討論了模型的優(yōu)化過程。

模型結(jié)構(gòu)如圖 2 所示。

實驗

為了評估該方法，研究者采用了 DAVIS 的視頻和各種素材。為了自動創(chuàng)建編輯 prompt，研究者首先運行了一個字幕模型來獲得原始視頻內(nèi)容的描述，然后使用 GPT-3 來生成編輯 prompt。

定性研究

如圖 5 所示，結(jié)果證明，本文的方法在一些不同的輸入上表現(xiàn)良好。

用戶研究

研究者還使用 Amazon Mechanical Turk（AMT）對 35 個有代表性的視頻編輯 prompt 的評估集進行了用戶研究。對于每個樣本，均要求 5 個注解者在基線方法和本文方法之間對比對視頻編輯 prompt 的忠實度（「哪個視頻更好地代表了所提供的編輯過的字幕？」），然后以隨機順序呈現(xiàn)，并使用多數(shù)票來決定最終結(jié)果。

結(jié)果如圖 7 所示：

定量評估

圖 6 展示了每個模型使用本文框架一致性和 prompt 一致性指標(biāo)的結(jié)果。本文模型在這兩方面的表現(xiàn)都傾向于超越基線模型（即，在圖的右上角位置較高）。研究者還注意到，在基線模型中增加強度參數(shù)會有輕微的 tradeoff：更大的強度縮放意味著更高的 prompt 一致性，代價是更低的框架一致性。同時他們還觀察到，增加結(jié)構(gòu)縮放會導(dǎo)致更高的 prompt 一致性，因為內(nèi)容變得不再由輸入結(jié)構(gòu)決定。

定制化

圖 10 展示了一個具有不同數(shù)量的定制步驟和不同水平的結(jié)構(gòu)依附性 ts 的例子。研究者觀察到，定制化提高了對人物風(fēng)格和外觀的保真度，因此，盡管使用具有不同特征的人物的驅(qū)動視頻，但結(jié)合較高的 ts 值，還是可以實現(xiàn)精確的動畫效果。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

模型

模型

+關(guān)注

關(guān)注
1

文章
3418

瀏覽量
49482
圖像生成

圖像生成

+關(guān)注

關(guān)注
0

文章
23

瀏覽量
6934

原文標(biāo)題：Stable Diffusion公司新作Gen-1：基于擴散模型的視頻合成新模型，加特效杠杠的！

文章出處：【微信號：CVer，微信公眾號：CVer】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

基于擴散模型的圖像生成過程

近年來，擴散模型在文本到圖像生成方面取得了巨大的成功，實現(xiàn)了更高圖像生成質(zhì)量，提高了推理性能，也可以激發(fā)擴展創(chuàng)作靈感。不過僅憑文本來控制圖像的生成往往得不到想要的結(jié)果，比如具體的人物姿勢、面部表情

發(fā)表于 07-17 11:00 ?3026次閱讀

基于<b class='flag-5'>擴散</b><b class='flag-5'>模型</b>的圖像生成過程

如何在PyTorch中使用擴散模型生成圖像

除了頂尖的圖像質(zhì)量，擴散模型還帶來了許多其他好處，包括不需要對抗性訓(xùn)練。對抗訓(xùn)練的困難是有據(jù)可查的。在訓(xùn)練效率的話題上，擴散模型還具有可伸縮性和并行性的額外好處。

發(fā)表于 11-22 15:51 ?590次閱讀

如何在PyTorch中使用<b class='flag-5'>擴散</b><b class='flag-5'>模型</b>生成圖像

諧波加噪聲激勵模型的語音合成算法

傳統(tǒng)基于隱馬爾科夫模型（ HMM）的語音合成算法使用高斯白噪聲和脈沖串來表示清濁音的激勵信號，合成的語音較為嘈雜。為提高合成音質(zhì)，基于諧波加

發(fā)表于 03-20 10:39 ?1次下載

擴散模型在視頻領(lǐng)域表現(xiàn)如何？

在視頻生成領(lǐng)域，研究的一個重要里程碑是生成時間相干的高保真視頻。來自谷歌的研究者通過提出一個視頻生成擴散模型來實現(xiàn)這一里程碑，顯示出非常有希

發(fā)表于 04-13 10:04 ?1789次閱讀

如何改進和加速擴散模型采樣的方法1

　　盡管擴散模型實現(xiàn)了較高的樣本質(zhì)量和多樣性，但不幸的是，它們在采樣速度方面存在不足。這限制了擴散模型在實際應(yīng)用中的廣泛采用，并導(dǎo)致了從這些模型

發(fā)表于 05-07 14:25 ?2491次閱讀

如何改進和加速擴散模型采樣的方法2

　　事實上，擴散模型已經(jīng)在深層生成性學(xué)習(xí)方面取得了重大進展。我們預(yù)計，它們可能會在圖像和視頻處理、 3D 內(nèi)容生成和數(shù)字藝術(shù)以及語音和語言建模等領(lǐng)域得到實際應(yīng)用。它們還將用于藥物發(fā)現(xiàn)和材料設(shè)計等領(lǐng)域，以及其他各種重要應(yīng)用。我們認(rèn)

發(fā)表于 05-07 14:38 ?3416次閱讀

蒸餾無分類器指導(dǎo)擴散模型的方法

去噪擴散概率模型（DDPM）在圖像生成、音頻合成、分子生成和似然估計領(lǐng)域都已經(jīng)實現(xiàn)了 SOTA 性能。同時無分類器（classifier-free）指導(dǎo)進一步提升了擴散

發(fā)表于 10-13 10:35 ?1318次閱讀

英偉達發(fā)布視頻AI大模型論文，自動駕駛是其潛在應(yīng)用領(lǐng)域

電子發(fā)燒友網(wǎng)報道（文/李彎彎）近日，英偉達與慕尼黑大學(xué)等院校的研究人員聯(lián)合發(fā)布了一篇有關(guān)視頻潛在擴散模型（VideoLDM，Latent Diffusion Model）的論文，該模型

發(fā)表于 04-23 00:02 ?4895次閱讀

基于文本到圖像模型的可控文本到視頻生成

1. 論文信息 2. 引言 ? 大規(guī)模擴散模型在文本到圖像合成方面取得了巨大的突破，并在創(chuàng)意應(yīng)用方面取得了成功。一些工作試圖在視頻領(lǐng)域復(fù)制這個成功，即在野外世界建模高維復(fù)雜

發(fā)表于 06-14 10:39 ?1080次閱讀

如何加速生成2 PyTorch擴散模型

加速生成2 PyTorch擴散模型

發(fā)表于 09-04 16:09 ?1205次閱讀

基于DiAD擴散模型的多類異常檢測工作

現(xiàn)有的基于計算機視覺的工業(yè)異常檢測技術(shù)包括基于特征的、基于重構(gòu)的和基于合成的技術(shù)。最近，擴散模型因其強大的生成能力而聞名，因此本文作者希望通過擴散模

發(fā)表于 01-08 14:55 ?1713次閱讀

谷歌推出AI擴散模型Lumiere

近日，谷歌研究院重磅推出全新AI擴散模型Lumiere，這款模型基于谷歌自主研發(fā)的“Space-Time U-Net”基礎(chǔ)架構(gòu)，旨在實現(xiàn)視頻生成的一次性完成，同時保證

發(fā)表于 02-04 13:49 ?1162次閱讀

谷歌模型合成軟件有哪些

谷歌模型合成軟件通常指的是谷歌提供的用于創(chuàng)建、修改和共享3D模型的軟件。目前，谷歌推出的模型合成軟件中最知名的是Google SketchU

發(fā)表于 02-29 18:20 ?1546次閱讀

擴散模型的理論基礎(chǔ)

擴散模型的迅速崛起是過去幾年機器學(xué)習(xí)領(lǐng)域最大的發(fā)展之一。在這本簡單易懂的指南中，學(xué)習(xí)你需要知道的關(guān)于擴散模型的一切。

發(fā)表于 10-28 09:30 ?874次閱讀

基于移動自回歸的時序擴散預(yù)測模型

在人工智能領(lǐng)域，目前有很多工作采用自回歸方法來模擬或是替代擴散模型，其中視覺自回歸建模（Visual AutoRegressive modeling，簡稱 VAR）就是其中的典型代表，該工作利用自

發(fā)表于 01-03 14:05 ?295次閱讀