0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌推出能一次生成完整視頻的擴(kuò)散模型

微云疏影 ? 來(lái)源:綜合整理 ? 作者:綜合整理 ? 2024-01-29 11:14 ? 次閱讀

谷歌研究院近日發(fā)布了一款名為L(zhǎng)umiere的文生視頻擴(kuò)散模型,基于自家研發(fā)的Space-Time U-Net基礎(chǔ)架構(gòu),獨(dú)立生成具有高效、完整且動(dòng)作連貫性的視頻效果。

公司指出,當(dāng)前眾多文生視頻模型普遍存在無(wú)法生成長(zhǎng)時(shí)、高品質(zhì)及動(dòng)作連貫的問(wèn)題。這些模型往往采用“分段生成視頻”策略,即先生成少量關(guān)鍵幀,再借助時(shí)間超級(jí)分辨率(TSM)技術(shù)生成其間的視頻文件。盡管此策略可減緩RAM負(fù)擔(dān),但難以生成理想的連續(xù)視頻效果。

針對(duì)此問(wèn)題,谷歌的Lumiere模型創(chuàng)新地引入了新型Space-Time U-Net基礎(chǔ)架構(gòu),這種架構(gòu)能在空間和時(shí)間兩個(gè)維度同時(shí)降低信號(hào)采樣率,使其具備更高的計(jì)算效率,進(jìn)而實(shí)現(xiàn)生成更具持續(xù)性、動(dòng)作連貫的視頻效果。

此外,開(kāi)發(fā)者們特別說(shuō)明,Lumiere每次可生成80幀視頻(在16FPS模式下相當(dāng)于5秒視頻,或在24FPS模式下為約3.34秒視頻)。盡管這一時(shí)光貌似短暫,然而他們強(qiáng)調(diào),事實(shí)上,這段5秒視頻所包含的鏡頭時(shí)長(zhǎng)已超出大多數(shù)媒體作品中單一鏡頭的平均時(shí)長(zhǎng)。

除運(yùn)用架構(gòu)創(chuàng)新以外,作為AI構(gòu)建基礎(chǔ)的預(yù)訓(xùn)練文生圖像模型也得到了谷歌團(tuán)隊(duì)的特別關(guān)注。該模型首次生成簡(jiǎn)單像素草稿作為視頻分幀,然后借助空間超分辨率(SRM)模型,逐步提高分幀分辨率,同時(shí)引入通用生成框架Multi-Diffusion以增強(qiáng)模型穩(wěn)定性,從而確保最終輸出的視頻效果一致且連續(xù)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6178

    瀏覽量

    105700
  • RAM
    RAM
    +關(guān)注

    關(guān)注

    8

    文章

    1369

    瀏覽量

    114826
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    31317

    瀏覽量

    269660
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3279

    瀏覽量

    48978
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    阿里云通義萬(wàn)相2.1視頻生成模型震撼發(fā)布

    近日,阿里云旗下的通義萬(wàn)相迎來(lái)了重要升級(jí),正式推出了全新的萬(wàn)相2.1視頻生成模型。這創(chuàng)新成果標(biāo)志著阿里云在視頻生成技術(shù)領(lǐng)域的又
    的頭像 發(fā)表于 01-13 10:00 ?126次閱讀

    借助谷歌Gemini和Imagen模型生成高質(zhì)量圖像

    在快速發(fā)展的生成式 AI 領(lǐng)域,結(jié)合不同模型的優(yōu)勢(shì)可以帶來(lái)顯著的成果。通過(guò)利用谷歌的 Gemini 模型來(lái)制作詳細(xì)且富有創(chuàng)意的提示,然后使用 Imagen 3
    的頭像 發(fā)表于 01-03 10:38 ?375次閱讀
    借助<b class='flag-5'>谷歌</b>Gemini和Imagen<b class='flag-5'>模型</b><b class='flag-5'>生成</b>高質(zhì)量圖像

    OpenAI暫不推出Sora視頻生成模型API

    OpenAI近日宣布,目前暫無(wú)推出視頻生成模型Sora的應(yīng)用程序接口(API)的計(jì)劃。Sora模型能夠基于文本和圖像生成
    的頭像 發(fā)表于 12-20 14:23 ?172次閱讀

    OpenAI推出AI視頻生成模型Sora

    近日,備受期待的OpenAI再次推出了其創(chuàng)新之作——AI視頻生成模型Sora。這新品的發(fā)布,無(wú)疑為AI技術(shù)注入了新的活力。 據(jù)悉,Sora與OpenAI旗下的AI工具DALL-E有著
    的頭像 發(fā)表于 12-12 09:40 ?225次閱讀

    火山引擎推出豆包·視頻生成模型

    在近期舉辦的2024火山引擎AI創(chuàng)新巡展上,火山引擎總裁譚待隆重推出了豆包·視頻生成模型,這舉措標(biāo)志著火山引擎在視頻內(nèi)容
    的頭像 發(fā)表于 09-25 14:11 ?328次閱讀

    鴻蒙OS開(kāi)發(fā):【一次開(kāi)發(fā),多端部署】(視頻應(yīng)用)

    提供了“一次開(kāi)發(fā),多端部署”的系統(tǒng)能力,讓開(kāi)發(fā)者可以基于一次開(kāi)發(fā),快速構(gòu)建不同類型終端上的應(yīng)用,降低開(kāi)發(fā)成本,提高開(kāi)發(fā)效率。
    的頭像 發(fā)表于 05-25 16:29 ?4575次閱讀
    鴻蒙OS開(kāi)發(fā):【<b class='flag-5'>一次</b>開(kāi)發(fā),多端部署】(<b class='flag-5'>視頻</b>應(yīng)用)

    谷歌發(fā)布全新視頻生成模型Veo與Imagen文生圖模型

    谷歌近日宣布了兩項(xiàng)重大技術(shù)進(jìn)展,首先是視頻生成模型Veo的正式推出。這款先進(jìn)的模型能夠支持生成質(zhì)
    的頭像 發(fā)表于 05-16 10:46 ?417次閱讀

    HarmonyOS開(kāi)發(fā)案例:【一次開(kāi)發(fā),多端部署(視頻應(yīng)用)】

    提供了“一次開(kāi)發(fā),多端部署”的系統(tǒng)能力,讓開(kāi)發(fā)者可以基于一次開(kāi)發(fā),快速構(gòu)建不同類型終端上的應(yīng)用,降低開(kāi)發(fā)成本,提高開(kāi)發(fā)效率。
    的頭像 發(fā)表于 05-11 15:41 ?1529次閱讀
    HarmonyOS開(kāi)發(fā)案例:【<b class='flag-5'>一次</b>開(kāi)發(fā),多端部署(<b class='flag-5'>視頻</b>應(yīng)用)】

    谷歌推出模型提升天氣預(yù)報(bào)準(zhǔn)確性

    谷歌公司在天氣預(yù)報(bào)領(lǐng)域邁出了重要步,宣布推出名為“可擴(kuò)展集成包絡(luò)擴(kuò)散采樣器”(SEEDS)的新型AI模型。這
    的頭像 發(fā)表于 05-06 11:31 ?601次閱讀

    sora模型中國(guó)可以使用嗎 sora模型是哪個(gè)公司

    。 Sora是擴(kuò)散模型,具備從噪聲中生成完整視頻的能力,它
    的頭像 發(fā)表于 02-22 16:52 ?3359次閱讀

    OpenAI 在 AI 生成視頻領(lǐng)域扔出枚“王炸”,視頻生成模型“Sora”

    ABSTRACT摘要2月16日凌晨,也就是中國(guó)大年初七,OpenAI在AI生成視頻領(lǐng)域扔出枚“王炸”,宣布推出全新的生成式人工智能
    的頭像 發(fā)表于 02-22 08:25 ?412次閱讀
    OpenAI 在 AI <b class='flag-5'>生成</b><b class='flag-5'>視頻</b>領(lǐng)域扔出<b class='flag-5'>一</b>枚“王炸”,<b class='flag-5'>視頻生成</b><b class='flag-5'>模型</b>“Sora”

    sora如何使用 sora是什么軟件

    Sora是擴(kuò)散模型,具備從噪聲中生成完整視頻的能力,它
    的頭像 發(fā)表于 02-21 17:20 ?2351次閱讀

    OpenAI發(fā)布文生視頻模型Sora,引領(lǐng)AI視頻生成新紀(jì)元

    在人工智能(AI)領(lǐng)域掀起新輪革命浪潮的,正是OpenAI最新推出的文生視頻模型——Sora。這款被業(yè)界廣泛贊譽(yù)的模型,以其“逼真”和“
    的頭像 發(fā)表于 02-19 11:03 ?988次閱讀

    OpenAI發(fā)布首個(gè)視頻生成模型Sora

    OpenAI近日宣布推出其全新的文本到視頻生成模型——Sora。這突破性的技術(shù)將視頻創(chuàng)作帶入了
    的頭像 發(fā)表于 02-18 10:07 ?1094次閱讀

    谷歌推出AI擴(kuò)散模型Lumiere

    近日,谷歌研究院重磅推出全新AI擴(kuò)散模型Lumiere,這款模型基于谷歌自主研發(fā)的“Space-
    的頭像 發(fā)表于 02-04 13:49 ?1069次閱讀