0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

南開大學(xué)和字節(jié)跳動聯(lián)合開發(fā)一款StoryDiffusion模型

冬至配餃子 ? 來源:網(wǎng)絡(luò)整理 ? 作者:網(wǎng)絡(luò)整理 ? 2024-05-07 14:46 ? 次閱讀

近日,南開大學(xué)和字節(jié)跳動聯(lián)合開發(fā)的 StoryDiffusion 模型解決了擴散模型生成連貫圖像與視頻的難題。其核心在于“一致自注意力”機制,強化圖像間一致性,無需額外訓(xùn)練即可提升現(xiàn)有文本到圖像模型的表現(xiàn)。加之“語義運動預(yù)測器”,利用語義空間預(yù)測圖像序列間的流暢變換,尤其在長視頻生成中展現(xiàn)了前所未有的穩(wěn)定性與主體一致性。此框架使基于文本的復(fù)雜故事視覺化成為可能,不僅在角色與場景細節(jié)一致性上超越 IP-Adapter 等工具,還能精準匹配文本描述。

南開大學(xué)和字節(jié)跳動聯(lián)合開發(fā)的StoryDiffusion模型是一種新的機器學(xué)習(xí)技術(shù),主要用于生成具有長距離相關(guān)性的圖像和視頻。以下是該模型的一些主要特點:

1.一致性自注意力(Consistent Self-Attention):該模型通過一種新的自注意力計算方法,在生成圖像時建立批內(nèi)圖像之間的聯(lián)系,以保持人物的一致性。這種機制無需訓(xùn)練即可生成主題一致的圖像,解決了在一系列生成的圖像中保持內(nèi)容一致性的挑戰(zhàn),尤其是對于包含復(fù)雜主題和細節(jié)的圖像。

2.語義運動預(yù)測器(Semantic Motion Predictor):為了將這種方法擴展到長視頻生成,StoryDiffusion引入了語義運動預(yù)測器,將圖像編碼到語義空間,并預(yù)測語義空間中的運動,以生成視頻。這種基于語義空間的運動預(yù)測比僅基于潛在空間的預(yù)測更加穩(wěn)定。

3.兩階段長視頻生成方法:通過Consistent self-attention機制生成的圖像可以順利過渡為視頻,實現(xiàn)兩階段長視頻生成方法。結(jié)合這兩個部分,可以生成常長且高質(zhì)量的AIGC視頻。

4.用戶交互性:用戶可以通過提供一系列用戶輸入的條件圖像,使用Image-to-Video模型生成視頻。此外,用戶還可以通過Jupyter notebook或本地adio demo來生成漫畫。

5.應(yīng)用范圍:StoryDiffusion的應(yīng)用范圍廣泛,包括漫畫生成、圖像轉(zhuǎn)視頻等多種場景。

StoryDiffusion模型利用了一種稱為StoryGAN的生成模型,該模型可以根據(jù)輸入的故事情節(jié)和場景描述生成相關(guān)的圖像和視頻。這項技術(shù)有助于解決傳統(tǒng)圖像和視頻生成技術(shù)中的局限性,使得生成的圖像和視頻更加自然和連貫。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機器學(xué)習(xí)
    +關(guān)注

    關(guān)注

    66

    文章

    8418

    瀏覽量

    132657
  • 字節(jié)跳動
    +關(guān)注

    關(guān)注

    0

    文章

    318

    瀏覽量

    8933
收藏 人收藏

    評論

    相關(guān)推薦

    字節(jié)跳動否認與中興通訊合作傳聞

    模型已經(jīng)與多個手機品牌建立了合作關(guān)系,但并未涉及與中興通訊在智能手機領(lǐng)域的合作。同時,字節(jié)跳動還強調(diào),目前并不存在與中興通訊關(guān)于芯片合作的具體計劃。這澄清使得市場上對于兩家企業(yè)可能
    的頭像 發(fā)表于 12-18 10:08 ?337次閱讀

    字節(jié)跳動自研視頻生成模型Seaweed開放

    近日,字節(jié)跳動旗下的AI內(nèi)容平臺即夢AI傳來新消息,宣布自研的視頻生成模型Seaweed即日起正式面向平臺用戶開放使用。這舉措標志著字節(jié)
    的頭像 發(fā)表于 11-11 14:31 ?254次閱讀

    字節(jié)跳動計劃在歐洲設(shè)立AI研發(fā)中心

    字節(jié)跳動正積極布局歐洲市場,計劃在該地區(qū)設(shè)立AI研發(fā)中心。據(jù)知情人士透露,字節(jié)跳動已開始在歐洲尋找LLM(Large Language Model,大語言
    的頭像 發(fā)表于 10-28 11:04 ?598次閱讀

    字節(jié)跳動與清華AIR成立聯(lián)合研究中心

    近日,清華大學(xué)智能產(chǎn)業(yè)研究院(AIR)與字節(jié)跳動共同宣布成立“可擴展大模型智能技術(shù)聯(lián)合研究中心”(SIA Lab),并在清華
    的頭像 發(fā)表于 10-12 15:24 ?393次閱讀

    TINA-TI 9與TINA8對同個電路圖仿真結(jié)果不同是怎么回事?

    TINA-TI-9中的電路圖及AC仿真結(jié)果如下: TINA-8中的電路圖及仿真結(jié)果如下: 電路圖源自《模擬電路基礎(chǔ)》P419頁碼, PID放大器 ,作者:秦世才、賈香鸞;南開大學(xué)出版社。
    發(fā)表于 09-25 06:03

    字節(jié)跳動發(fā)布豆包MarsCo智能開發(fā)工具

    在數(shù)字時代的浪潮中,編程已成為推動科技進步和創(chuàng)新的核心動力。為了助力國內(nèi)開發(fā)者更高效、智能地進行編程工作,字節(jié)跳動公司近日發(fā)布了全新的智能開發(fā)工具——豆包 MarsCode。這款工具基
    的頭像 發(fā)表于 07-01 15:03 ?712次閱讀

    字節(jié)跳動攜手博通開發(fā)5nm AI處理器,保障高端芯片供應(yīng)

    在科技領(lǐng)域,芯片作為“現(xiàn)代工業(yè)的糧食”,其重要性不言而喻。近日,據(jù)路透社報道,全球知名的互聯(lián)網(wǎng)公司字節(jié)跳動正在與美國芯片巨頭博通公司合作,共同開發(fā)一款5納米制程的AI處理器。這
    的頭像 發(fā)表于 06-24 16:16 ?1052次閱讀

    南開大學(xué)攜手華為發(fā)布“人工智能賦能人才培養(yǎng)行動計劃”

    為進步推動人工智能與教育的深度融合,促進教育變革創(chuàng)新,培養(yǎng)智能時代公能兼?zhèn)涞母邔哟蝿?chuàng)新型人才,南開大學(xué)依托自身優(yōu)勢,緊緊圍繞立德樹人根本任務(wù),制定推出涵蓋教育教學(xué)、技術(shù)設(shè)施、管理服務(wù)三個篇章的“人工智能賦能人才培養(yǎng)行動計劃”(以下簡稱“行動計劃”)。
    的頭像 發(fā)表于 05-22 11:51 ?665次閱讀
    <b class='flag-5'>南開大學(xué)</b>攜手華為發(fā)布“人工智能賦能人才培養(yǎng)行動計劃”

    火山引擎與南開大學(xué)深化合作簽約,攜手共建“AI+教育”新生態(tài)

    近日,在2024春季火山引擎FORCE原動力大會實體產(chǎn)業(yè)及教科研專場上,南開大學(xué)與火山引擎成功舉辦了深度合作簽約儀式。此次合作標志著雙方將攜手共筑“AI+教育”的新篇章,共同推動教育行業(yè)數(shù)字化轉(zhuǎn)型。
    的頭像 發(fā)表于 05-20 11:16 ?613次閱讀

    字節(jié)跳動豆包大模型全面開啟對外服務(wù)

    近日,字節(jié)跳動在2024年春季火山引擎Force原動力大會上宣布,其自主研發(fā)的豆包大模型正式開啟對外服務(wù)。這模型家族涵蓋了多個細分領(lǐng)域,
    的頭像 發(fā)表于 05-16 09:29 ?507次閱讀

    字節(jié)跳動發(fā)布豆包大模型

    在近日舉行的火山引擎原動力大會上,字節(jié)跳動公司正式發(fā)布了其強大的豆包大模型。據(jù)火山引擎總裁譚待透露,這款大模型展現(xiàn)了驚人的數(shù)據(jù)處理能力,目前日均處理文本量高達1200億Tokens,并
    的頭像 發(fā)表于 05-15 11:26 ?735次閱讀

    南開大學(xué)OpenHarmony技術(shù)俱樂部揭牌成立

    3月7日,由OpenAtom OpenHarmony(以下簡稱“OpenHarmony”)項目群技術(shù)指導(dǎo)委員會與南開大學(xué)共同舉辦的“南開大學(xué)OpenHarmony技術(shù)俱樂部成立大會”在津南校區(qū)綜合
    的頭像 發(fā)表于 03-08 08:37 ?406次閱讀
    <b class='flag-5'>南開大學(xué)</b>OpenHarmony技術(shù)俱樂部揭牌成立

    字節(jié)跳動辟謠推出中文版Sora 期待國產(chǎn)Sora大模型

    字節(jié)跳動辟謠推出中文版Sora 期待國產(chǎn)Sora大模型 “文成視頻大模型”的熱度持續(xù)火爆,大家都在期待國產(chǎn)的大模型面世??萍季揞^
    的頭像 發(fā)表于 02-21 17:29 ?862次閱讀

    字節(jié)跳動澄清未推出中文版Sora

    近日,有傳聞稱字節(jié)跳動在Sora文生視頻模型發(fā)布之前,已經(jīng)推出了一款名為Boximator的顛覆性視頻模型。傳聞還指出,這款
    的頭像 發(fā)表于 02-20 13:58 ?686次閱讀

    字節(jié)跳動推出一款顛覆性視頻模型—Boximator

    在 Sora 引爆文生視頻賽道之前,國內(nèi)的字節(jié)跳動也推出了一款顛覆性視頻模型——Boximator。
    的頭像 發(fā)表于 02-20 13:44 ?1115次閱讀
    <b class='flag-5'>字節(jié)</b><b class='flag-5'>跳動</b>推出<b class='flag-5'>一款</b>顛覆性視頻<b class='flag-5'>模型</b>—Boximator