欧美激情视频在线播放全球共享,亚洲精品无码不卡av

訓練方法與推理策略

性能評測體系

現(xiàn)存挑戰(zhàn)與未來方向

綜述的完整目錄如下：

多模態(tài)的 Tokenization

我們認為多模態(tài)的 Tokenization 是 MMNTP 的基石和最重要的部分，它將各種模態(tài)的信息（如圖像、視頻和音頻片段）分解為最小的單元序列（Token），以便 Transformer 結構為基礎的 NTP 模型學習。

Tokenization 方法可以分為離散（Discrete Tokenization）和連續(xù)（Continuous Tokenization）兩種。離散標記化通過量化將原始信息映射到有限的離散空間，而連續(xù)標記化則不涉及量化，保留了數(shù)據(jù)的連續(xù)性質(zhì)。下面的圖給出了兩種方式的示意圖。

2.1 Tokenizer 訓練方法

本節(jié)針對圖片，視頻，音頻領域的 Tokenization 訓練方法進行了詳細的梳理和比較。首先總結了幾種常見的訓練方法，例如對比學習，自編碼器等，以及這些方法在不同模態(tài)上的應用與針對不同模態(tài)特點的改進，并按照不同的訓練方法歸納整理了不同類型的 Tokenizers，如下表所示：

我們以表示能力（representation）和重建能力（reconstruction）為基點，重點討論了 Tokenizers 在訓練時存在的挑戰(zhàn)，例如離散型編碼器存在的編碼表塌陷，信息損失的問題以及一些改進措施例如 FSQ，LFQ 等方案，以及以 CLIP 為代表的連續(xù)型編碼器中主要存在的語義對齊，編碼效率，以及對于不同模態(tài)的數(shù)據(jù)，大家提出了哪些針對性的改進措施。

MMNTP 模型

MMNTP 模型一般結構如上圖所示，它主要由骨干模型（一般是一個 Transformer 模型），以及不同模態(tài)的 Tokenizer 與 De-Tokenizer 組成。Tokenizer將不同模態(tài)的信息轉換為 Token 序列，De-Tokenizer 則將 Token 序列轉換為原始模態(tài)的信息。

如上圖所示，我們將 MMNTP 模型進一步分為兩類，組合式（Compositional）和統(tǒng)一（Unified）式。組合模型依賴于強大的外部編碼器例如 CLIP 和解碼器例如 SD3 來理解和生成多模態(tài)信息，而統(tǒng)一模型則使用輕量級的編碼器和解碼器例如 VQVAE，將大部分理解和生成任務交給骨干模型。本文對這兩種模型結構進行了詳細討論，并比較了它們的優(yōu)缺點。

對于不同的多模態(tài)任務來說，MMNTP 模型可以以一種統(tǒng)一的方式處理不同任務，區(qū)別之處在于不同任務的輸入輸出不同。上圖以圖片模態(tài)為例子，列出來了同一個 MMNTP 模型結構如何進行圖片理解例如 VQA，圖片生成，以及基于文字指令的圖片編輯任務。

只需要替換輸入輸出的組合形式，同一個模型架構就可以完成不同的任務，這體現(xiàn)了 MMNTP 模型在多模態(tài)任務上的統(tǒng)一性。本文針對圖片，視頻，音頻模態(tài)的 MMNTP 模型進行了詳細的討論，并根據(jù)結構類型進行了梳理，如下表所示。

訓練范式

4.1 訓練任務的類型

一旦將不同模態(tài)的內(nèi)容轉化為序列化的標 Tokens，就可以使用統(tǒng)一的骨 MMNTP 模型來訓練，以解決各種理解和生成任務。

本文將訓練任務按照生成的 Token 類型不同分為兩類，離散 Token 預測和連續(xù) Token 預測。二者的區(qū)別在于預測的 token 是離散的還是連續(xù)的，這會對應不同的訓練任務，以及特殊的輸出頭的結構。

例如多模態(tài)理解任務往往以語言作為輸出，則需要使用語言模型頭作為輸出頭，進行離散 Token 預測。如果將 Diffusion 模型和 NTP 模型結合，則需要使用 Diffusion 模型頭作為輸出頭，進行連續(xù) Token 預測。

4.2 訓練階段

和語言模型類似，MMNTP 模型的訓練也可以分為三個階段，如上圖所示，分別是模態(tài)對齊預訓練，指令微調(diào)和偏好學習。

這里的預訓練階段，通常指的是在多模態(tài)數(shù)據(jù)-文本對數(shù)據(jù)上進行預訓練，以將不同模態(tài)的信息對齊到語言空間。指令微調(diào)階段是針對不同的下游任務，例如理解和生成類任務，用標注好的數(shù)據(jù)進行訓練。偏好學習在 MMNTP 模型中的研究剛剛起步，主要將模型的輸出和人類的偏好進行對齊。

本文詳細這三個階段的相關研究工作，并根據(jù)任務類型進行了歸納整理。

4.3 測試時的Prompt工程

Prompt 工程是提升 LLM 模型效果的重要手段，在 MMNTP 模型中，借助了 LLM 繼基座模型的能力，Prompt 工程同樣重要。本文對 MMNTP 模型中的 Prompt 工程進行了詳細的討論，如上圖所示，分為多模態(tài)的上下文學習（Multimodal In-Context Learning）和多模態(tài)思維鏈（Multimodal Chain-of-Thought）兩種方法。

如上圖所示，多模態(tài)的上下文學習指的是在輸入中加入多模態(tài)任務的例子，以幫助模型更好地理解任務。多模態(tài)思維鏈則是指在輸入中加入一些思維鏈的提示，例如“感知”，“推理過程”等，以促使模型更好地進行多模態(tài)推理。我們將這些方法進行整理，如下表所示。

訓練數(shù)據(jù)集與性能評測

在綜述中，我們還對 MMNTP 模型的訓練數(shù)據(jù)集進行了詳細的討論，包括數(shù)據(jù)集的構建，數(shù)據(jù)集的規(guī)模，以及數(shù)據(jù)集的多樣性。同時，我們也比較了 NTP 模型和非 NTP 模型在多模態(tài)任務上的表現(xiàn)，如上圖所示，在大規(guī)模理解任務例如 VQAv2，MMMU上，NTP 模型表現(xiàn)全面優(yōu)于非 NTP 模型。

在生成任務評測數(shù)據(jù)例如 Imagenet，GenEval，我們觀察到 NTP 模型在和純 Diffusion 取得了不相上下的效果，甚至在某些任務上表現(xiàn)更好，這展示了 NTP 模型在統(tǒng)一不同多模態(tài)任務上的潛力。

存在的挑戰(zhàn)

本文提出了四個目前尚未解決的挑戰(zhàn)，主要源于 MMNTP 訓練范式。這些挑戰(zhàn)包括：

如何更好地利用無監(jiān)督的多模態(tài)數(shù)據(jù)來擴展 MMNTP 模型

克服多模態(tài)干擾并增強協(xié)同作用

提高 MMNTP 模型的訓練和推理效率

將 MMNTP 作為更廣闊任務的通用接口。

這些挑戰(zhàn)的解決對于 MMNTP 范式實現(xiàn)多模態(tài)智能的發(fā)展至關重要。

阅读全文

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

編碼器

編碼器

+關注

關注
45

文章
3734

瀏覽量
136238
NTP

NTP

+關注

關注
1

文章
202

瀏覽量
14203

原文標題：2025年Next Token Prediction范式會統(tǒng)一多模態(tài)嗎？

文章出處：【微信號：tyutcsplab，微信公眾號：智能感知與物聯(lián)網(wǎng)技術研究所】歡迎添加關注！文章轉載請注明出處。

采用可更新且具區(qū)分度錨點的多模態(tài)運動預測研究

在自動駕駛領域，運動預測 (Motion Prediction) 是一個重要任務，它有助于場景理解和安全決策。該任務利用歷史狀態(tài)和道路地圖來預測目標智能體的未來軌跡。其主要挑戰(zhàn)來自未來行為的多

發(fā)表于 04-01 10:32 ?134次閱讀

2025年星閃技術應用巡回研討會-深圳站火熱報名中

2025年星閃技術應用巡回研討會-深圳站火熱報名中，感興趣的可以關注【國際星閃聯(lián)盟】微信公眾號了解活動信息。

發(fā)表于 03-25 10:17

商湯“日日新”融合大模型登頂大語言與多模態(tài)雙榜單

據(jù)弗若斯特沙利文(Frost & Sullivan, 簡稱“沙利文”)聯(lián)合頭豹研究院發(fā)布的《2025年中國大模型年度評測》結果顯示：在語言和多模態(tài)核心能力測評中，商湯“日日新”融合大模

發(fā)表于 03-18 10:35 ?343次閱讀

?多模態(tài)交互技術解析

多模態(tài)交互多模態(tài)交互（ Multimodal Interaction ）是指通過多種感官通道（如視覺、聽覺、觸覺等）或多種交互方式（如語音、手勢、觸控、眼動等）與計算機系統(tǒng)進行自然、

發(fā)表于 03-17 15:12 ?563次閱讀

泰凌微電子亮相2025年德國紐倫堡嵌入式展覽會

2025年3月11日至13日，全球規(guī)模最大的嵌入式系統(tǒng)專業(yè)展覽會——2025年嵌入式世界紐倫堡展覽會

發(fā)表于 03-13 09:06 ?443次閱讀

耐能即將亮相2025年美國西部國際安防展覽會

全球領先的全棧邊緣人工智能解決方案提供商耐能（Kneron）今日宣布，將攜最新一代可重構NPU技術、生成式AI（GEN-AI）應用及多場景圖像處理方案，重磅亮相2025年美國西部國際安

發(fā)表于 03-12 16:25 ?346次閱讀

電子發(fā)燒友社區(qū)2025年春節(jié)放假通知！

。再次感謝大家的支持與理解，祝愿各位工程師在新的一年里，靈感迸發(fā)，項目順利，技術更上一層樓！電子發(fā)燒友團隊敬上 2025年1月

發(fā)表于 01-22 13:42

體驗MiniCPM-V 2.6 多模態(tài)能力

多模態(tài)組網(wǎng)

jf_23871869
發(fā)布于 :2025年01月20日 13:40:48

商湯日日新多模態(tài)大模型權威評測第一

剛剛，商湯科技日日新SenseNova多模態(tài)大模型，在權威綜合評測權威平臺OpenCompass的多模態(tài)評測中取得榜單第一。

發(fā)表于 12-20 10:39 ?597次閱讀

2025電子設計與制造技術研討會

案例分享。如此多的技術干貨，不容錯過！活動主題： “2025 電子設計與制造技術研討會”&“探索前沿科技，共話創(chuàng)新未來” 參與人員： 1. 電子行業(yè)的工程師、技術人員、研發(fā)人員等專業(yè)人士

發(fā)表于 12-18 10:23

一文理解多模態(tài)大語言模型——下

/understanding-multimodal-llms ? 《一文理解多模態(tài)大語言模型 - 上》介紹了什么是多模態(tài)大語言模型，以及構建

發(fā)表于 12-03 15:18 ?410次閱讀

一文理解多模態(tài)大語言模型——上

/understanding-multimodal-llms 在過去幾個月中， OpenVINO? 架構師 Yury閱讀了眾多有關多模態(tài)大語言模型的論文和博客，在此基礎上，推薦了一篇解讀多

發(fā)表于 12-02 18:29 ?809次閱讀

利用OpenVINO部署Qwen2多模態(tài)模型

多模態(tài)大模型的核心思想是將不同媒體數(shù)據(jù)（如文本、圖像、音頻和視頻等）進行融合，通過學習不同模態(tài)之間的關聯(lián)，實現(xiàn)更加智能化的信息處理。簡單來說，多模態(tài)

發(fā)表于 10-18 09:39 ?823次閱讀

云知聲推出山海多模態(tài)大模型

在人工智能技術的浩瀚星海中，多模態(tài)交互技術正成為引領未來的新航標。繼OpenAI的GPT-4o掀起滔天巨浪后，云知聲以創(chuàng)新之姿，推出了其匠心獨運的山海多模態(tài)大模型，正式宣告“Her時代

發(fā)表于 08-27 15:20 ?504次閱讀

統(tǒng)一多云管理平臺怎么用?

　統(tǒng)一多云管理平臺的使用主要涉及資源納管、費用控制和智能運維等方面。統(tǒng)一多云管理平臺是一種能夠同時管理多種公有云、私有云以及傳統(tǒng)IT環(huán)境的資源，并實現(xiàn)自動化和服務化交付的工具。它為企業(yè)提供了強大

發(fā)表于 08-14 11:28 ?356次閱讀

搜索歷史

2025年Next Token Prediction范式會統(tǒng)一多模態(tài)嗎

評論

采用可更新且具區(qū)分度錨點的多模態(tài)運動預測研究

2025年星閃技術應用巡回研討會-深圳站火熱報名中

商湯“日日新”融合大模型登頂大語言與多模態(tài)雙榜單

?多模態(tài)交互技術解析

泰凌微電子亮相2025年德國紐倫堡嵌入式展覽會

耐能即將亮相2025年美國西部國際安防展覽會

電子發(fā)燒友社區(qū)2025年春節(jié)放假通知！

體驗MiniCPM-V 2.6 多模態(tài)能力

商湯日日新多模態(tài)大模型權威評測第一

2025電子設計與制造技術研討會

一文理解多模態(tài)大語言模型——下

一文理解多模態(tài)大語言模型——上

利用OpenVINO部署Qwen2多模態(tài)模型

云知聲推出山海多模態(tài)大模型

統(tǒng)一多云管理平臺怎么用?

電子發(fā)燒友