0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

中文多模態(tài)對(duì)話數(shù)據(jù)集

jf_78858299 ? 來(lái)源:NLP工作站 ? 作者:NLP工作站 ? 2023-02-22 11:03 ? 次閱讀

寫在前面

早起刷arxiv,刷到一篇中文多模態(tài)對(duì)話數(shù)據(jù)集,分享給大家,全名為《TikTalk: A Multi-Modal Dialogue Dataset for Real-World Chitchat》,即一個(gè)真實(shí)閑聊多模態(tài)數(shù)據(jù)集,共包括38703個(gè)視頻和相應(yīng)367670個(gè)對(duì)話。

paper: https://arxiv.org/pdf/2301.05880.pdf
github: https://github.com/RUC-AIMind/TikTalk

介紹

隨著大量預(yù)訓(xùn)練語(yǔ)言模型在文本對(duì)話任務(wù)中的出色表現(xiàn),以及多模態(tài)的發(fā)展,在對(duì)話中引入多模態(tài)信息已經(jīng)引起了大量學(xué)者的關(guān)注。目前已經(jīng)提出了各種各樣的多模態(tài)對(duì)話數(shù)據(jù)集,主要來(lái)自電影、電視劇、社交媒體平臺(tái)等,但這些數(shù)據(jù)與真實(shí)世界的日常聊天對(duì)話之間還是存在一些差距。

  • 對(duì)話形式過(guò)于同質(zhì)化。 視頻中的現(xiàn)場(chǎng)評(píng)論缺乏明確背景,更偏向于評(píng)論,并充斥著重復(fù)的數(shù)據(jù)用來(lái)活躍氣氛。而從影視劇中提取出來(lái)的對(duì)話內(nèi)容或解說(shuō)員根據(jù)指定圖片提出的對(duì)話內(nèi)容,都不是現(xiàn)實(shí)對(duì)話場(chǎng)景中自然生成的聊天,而是為了推動(dòng)情節(jié)發(fā)展設(shè)計(jì)的一些人物臺(tái)詞或高度依賴形象。
  • 缺乏對(duì)話的時(shí)間順序。 現(xiàn)實(shí)世界的多模態(tài)對(duì)話場(chǎng)景可能包含具有時(shí)間順序的不同上下文,而目前大多數(shù)數(shù)據(jù)集中的靜態(tài)圖片所能提供的信息有限,限制了對(duì)話參與者在主題方面的多樣性。并且不同的語(yǔ)言語(yǔ)境中存在著獨(dú)特的表達(dá)方式和流行文化,很難進(jìn)行翻譯或遷移到其他語(yǔ)言。

圖片因此,該論文提出了具有獨(dú)特特色的中文多模態(tài)對(duì)話數(shù)據(jù)集-TikTalk。TikTalk是基于視頻的真實(shí)世界人類聊天語(yǔ)料庫(kù),是開(kāi)放域的,并由用戶自發(fā)生成非故意創(chuàng)建的數(shù)據(jù)集。其中,與圖像、音頻和外部知識(shí)相關(guān)的回復(fù)占比分別為42%、10%和34%,如圖1(a)所示,聊天源于視頻內(nèi)容,圖1(b)中的“其他表演”和舞蹈分析需要一些外部知識(shí),圖1(c)中的對(duì)話建立在音頻內(nèi)容之上。圖片最后采用排名、相關(guān)性和多樣性三種度量指標(biāo)對(duì)現(xiàn)有生成模型進(jìn)行分析,發(fā)現(xiàn)模型與人類表現(xiàn)仍有很大差距,在TikTalk數(shù)據(jù)集上有相當(dāng)大的改進(jìn)空間。

TikTalk Dataset

TikTalk數(shù)據(jù)集從抖音上采集,其抖音擁有超過(guò)25個(gè)大類的視頻,如教育、美食、游戲、旅游、娛樂(lè)等。每個(gè)視頻都有作者提供的標(biāo)題和用戶的評(píng)論。用戶可以在視頻和一級(jí)評(píng)論下進(jìn)行進(jìn)一步的討論,這接近于現(xiàn)實(shí)世界面對(duì)面的多模態(tài)聊天場(chǎng)景。

Data Construction

該論文收集了2021年在抖音上發(fā)布的視頻,以及標(biāo)題、評(píng)論和回復(fù)。為了保護(hù)隱私,沒(méi)有抓取任何用戶信息。由于視頻基數(shù)大,視頻質(zhì)量良莠不齊,大部分視頻只有一級(jí)評(píng)論,無(wú)法構(gòu)成對(duì)話語(yǔ)料庫(kù)。由于視頻高贊、評(píng)論高贊表示用戶評(píng)分高,因此在爬取數(shù)據(jù)時(shí)通過(guò)點(diǎn)贊數(shù)過(guò)濾低質(zhì)量的視頻和評(píng)論。

數(shù)據(jù)清理時(shí),用正則表達(dá)式過(guò)濾掉句子中無(wú)用的內(nèi)容,例如:“@某人”、重復(fù)的詞語(yǔ)、以及一些不道德的言論等;此外,評(píng)論中帶有的表情符號(hào),通??梢员砻饔脩舻那榫w,因此,從對(duì)話中提取它們,并作為附加信息。

Data Statistics

該論文共爬取153340個(gè)視頻,最終獲取38703個(gè)視頻和367670個(gè)對(duì)話來(lái)構(gòu)建TikTalk數(shù)據(jù)集。將訓(xùn)練集、驗(yàn)證集和測(cè)試集按照35703、1000和2000進(jìn)行劃分,詳細(xì)統(tǒng)計(jì)數(shù)據(jù)見(jiàn)表2。圖片可以看出,視頻平均長(zhǎng)度為34.03s,提供了豐富的視頻和音頻信息;每段對(duì)話的平均輪數(shù)為2.25,由于對(duì)話的文本上下文較短,回復(fù)更有可能來(lái)自視頻或外部知識(shí)。

Data Analysis

TikTalk數(shù)據(jù)集有如下幾個(gè)特征:

  • 高度自發(fā)和自由 ,對(duì)話是由用戶觀看視頻后發(fā)起,沒(méi)有任何的預(yù)先的意圖及指導(dǎo),類似于現(xiàn)實(shí)世界中的日常閑聊。
  • 多種模式 ,對(duì)話上下文包括相關(guān)的圖像、音頻和文本,提供了更多樣化的信息來(lái)源,同時(shí)也對(duì)聊天場(chǎng)景進(jìn)行了更多的限制,提高了回答的可信度標(biāo)準(zhǔn)。
  • 開(kāi)放領(lǐng)域的 ,由于社交平臺(tái)是開(kāi)放域的,討論話題也十分豐富。

觀察數(shù)據(jù)發(fā)現(xiàn),對(duì)話回復(fù)中經(jīng)常包含與上下文信息相關(guān)的詞語(yǔ),例如:圖1(a)中的“it”為視頻中的“海鷗”,圖1(c)中討論了音頻描述的故事,圖1(b)中的回復(fù)中為上下文觀點(diǎn),并分析了視頻外的其他節(jié)目,與個(gè)人經(jīng)驗(yàn)及常識(shí)相關(guān)。因此,該論文分析了數(shù)據(jù)及中數(shù)據(jù)與各種信息相關(guān)的響應(yīng)占比,包括視頻中的視覺(jué)內(nèi)容和音頻內(nèi)容、文本內(nèi)容及隱形的外部知識(shí)。采用眾包的方式進(jìn)行數(shù)據(jù)標(biāo)注,并選擇另外其他三個(gè)具有代表性的對(duì)話數(shù)據(jù)集(每個(gè)數(shù)據(jù)集隨機(jī)選取300個(gè)樣本)進(jìn)行對(duì)比。

從回復(fù)中提取名詞和代詞,要求標(biāo)注人員判斷這些詞語(yǔ)或完整的回復(fù)是否是指:(1)視頻上下文;(2)音頻上下文;(3)文本上下文;(4)隱藏外部知識(shí);(5)其他。并且,回復(fù)可以涉及多種模式的信息。

四種數(shù)據(jù)的比較如圖2(a)所示。TikTalk數(shù)據(jù)除去文本上下文和外部知識(shí)后,信息源占比最高,表示視頻中的圖像和音頻可以提供更多的信息。來(lái)自外部知識(shí)的回復(fù)比例最高(約33%,說(shuō)明),說(shuō)明多模態(tài)上下文更豐富時(shí),會(huì)引入更多與當(dāng)前對(duì)話相關(guān)的新信息。圖片進(jìn)一步探究IGC和TikTalk之間的差異,研究當(dāng)對(duì)話輪數(shù)數(shù)增加時(shí),IGC和TikTalk對(duì)不同上下文的依賴性,如圖2(b)和(c)所示。IGC數(shù)據(jù)集中圖像與對(duì)話的比例顯著下降,而TikTalk數(shù)據(jù)集中沒(méi)有這種趨勢(shì)??赡苁且?yàn)镮GC的每個(gè)對(duì)話中只使用一個(gè)圖像,隨著時(shí)間的推移,可用的信息越來(lái)越少。

Experiments

采用三個(gè)自動(dòng)指標(biāo)(相關(guān)性、排序、多樣性),從多個(gè)角度評(píng)估模型在TikTalk上的性能,

  • 相關(guān)性 :針對(duì)模型生成的回復(fù),與5個(gè)金標(biāo)準(zhǔn)計(jì)算BLEU-2、BLEU-4 、Meteor、Rouge-L和CIDEr。
  • 排序 :每段對(duì)話構(gòu)建一個(gè)100個(gè)樣本的候選集,其中包括5個(gè)金標(biāo)準(zhǔn)和95個(gè)隨機(jī)選擇的錯(cuò)誤回復(fù)。在推理階段,模型根據(jù)生成每個(gè)回復(fù)的對(duì)數(shù)似然分?jǐn)?shù)降序?qū)蜻x集進(jìn)行排序。計(jì)算Recall@K和Mean Rank。
  • 多樣性 :計(jì)算回復(fù)的Dist-1和Dist-2指標(biāo)。

從不同的任務(wù)和設(shè)置中評(píng)估一些最先進(jìn)的對(duì)話模型,包括:Livebot、DialoGPT、Maria、Maria-Audio、Maria-C3KG等。為了適應(yīng)TikTalk的特點(diǎn),在現(xiàn)有的基于圖像的對(duì)話模型中引入音頻和外部知識(shí)作為輸入,并分別對(duì)模型的性能進(jìn)行評(píng)估。

實(shí)驗(yàn)結(jié)果如表3所示,可以看出TikTalk與以前的任務(wù)和數(shù)據(jù)集有很大不同,需要更強(qiáng)大的多模態(tài)對(duì)話模型。圖片從測(cè)試集和上述基線模型生成結(jié)果中選擇了一些數(shù)據(jù)示例,對(duì)比結(jié)果如圖3所示。由于視頻場(chǎng)景和用戶個(gè)性的多樣性,TikTalk數(shù)據(jù)集需要復(fù)雜的理解和推理能力。雖然部分基線偶爾可以產(chǎn)生一些合理的響應(yīng),但它們遠(yuǎn)遠(yuǎn)不能滿足現(xiàn)實(shí)世界多模式對(duì)話的期望。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1208

    瀏覽量

    24701
  • 自然語(yǔ)言
    +關(guān)注

    關(guān)注

    1

    文章

    288

    瀏覽量

    13350
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    lABCIWQmultyWindows模態(tài)窗口2010

    lABCIWQmultyWindows模態(tài)窗口2010。
    發(fā)表于 05-17 17:47 ?0次下載

    文化場(chǎng)景下的模態(tài)情感識(shí)別

    學(xué)習(xí)的特征,并通過(guò)多模態(tài)融合方法結(jié)合不同的模態(tài)。比較不同單模態(tài)特征和模態(tài)特征融合的情感識(shí)別性能.我們?cè)贑HEAVD
    發(fā)表于 12-18 14:47 ?0次下載

    關(guān)于模態(tài)機(jī)器學(xué)習(xí)綜述論文

    因此,當(dāng)研究問(wèn)題或數(shù)據(jù)包括多個(gè)這樣的模態(tài)時(shí),其特征在于模態(tài)。 本文主要關(guān)注但不僅僅關(guān)注三種形式:自然語(yǔ)言既可以是書面的,也可以是口頭的;
    的頭像 發(fā)表于 01-21 13:38 ?8816次閱讀

    2021 OPPO開(kāi)發(fā)者大會(huì):終端對(duì)話式智能助手

    2021 OPPO開(kāi)發(fā)者大會(huì):終端對(duì)話式智能助手 2021 OPPO開(kāi)發(fā)者大會(huì)上介紹了終端、模態(tài)對(duì)
    的頭像 發(fā)表于 10-27 11:38 ?1320次閱讀
    2021 OPPO開(kāi)發(fā)者大會(huì):<b class='flag-5'>多</b>終端<b class='flag-5'>對(duì)話</b>式智能助手

    DocumentAI的模型、任務(wù)和基準(zhǔn)數(shù)據(jù)

    隨著最近幾年模態(tài)大火的,越來(lái)越多的任務(wù)都被推陳出新為模態(tài)版本。譬如,傳統(tǒng)對(duì)話任務(wù),推出了考慮視覺(jué)信息的
    的頭像 發(fā)表于 08-22 09:55 ?1845次閱讀

    一個(gè)真實(shí)閑聊模態(tài)數(shù)據(jù)TikTalk

    隨著大量預(yù)訓(xùn)練語(yǔ)言模型在文本對(duì)話任務(wù)中的出色表現(xiàn),以及模態(tài)的發(fā)展,在對(duì)話中引入模態(tài)信息已經(jīng)引
    的頭像 發(fā)表于 02-09 09:31 ?1851次閱讀

    基于Alpaca派生的對(duì)話數(shù)據(jù)

    ChatAlpaca數(shù)據(jù)包含10,000個(gè)對(duì)話組,共計(jì)95,558條對(duì)話語(yǔ)句。每個(gè)對(duì)話組的第一輪對(duì)話
    發(fā)表于 04-14 14:54 ?4009次閱讀

    模態(tài)GPT:國(guó)內(nèi)發(fā)布一款可以在線使用的模態(tài)聊天機(jī)器人!

    基于開(kāi)源模態(tài)模型 OpenFlamingo,作者使用公開(kāi)數(shù)據(jù)創(chuàng)建了各種視覺(jué)指令數(shù)據(jù),包括視覺(jué)問(wèn)答、圖像字幕、視覺(jué)推理、文本 OCR 和視
    的頭像 發(fā)表于 05-12 09:55 ?1204次閱讀
    <b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>GPT:國(guó)內(nèi)發(fā)布一款可以在線使用的<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>聊天機(jī)器人!

    模態(tài)上下文指令調(diào)優(yōu)數(shù)據(jù)MIMIC-IT

    然而,一個(gè)理想的 AI 對(duì)話助手應(yīng)該能夠解決涉及多種模態(tài)的任務(wù)。這需要獲得一個(gè)多樣化和高質(zhì)量的模式指令跟隨數(shù)據(jù)。比如,LLaVAInst
    的頭像 發(fā)表于 06-12 16:36 ?742次閱讀
    <b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>上下文指令調(diào)優(yōu)<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>集</b>MIMIC-IT

    VisCPM:邁向多語(yǔ)言模態(tài)大模型時(shí)代

    可以大致分為兩類: 1. 在圖生文(image-to-text generation)方面,以 GPT-4 為代表的模態(tài)大模型,可以面向圖像進(jìn)行開(kāi)放域對(duì)話和深度推理; 2. 在文生圖
    的頭像 發(fā)表于 07-10 10:05 ?718次閱讀
    VisCPM:邁向多語(yǔ)言<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大模型時(shí)代

    全球首個(gè)面向網(wǎng)聯(lián)智能車的通信與模態(tài)感知數(shù)據(jù)發(fā)布

    7月2日,2023中國(guó)智能車大會(huì)暨國(guó)家智能車發(fā)展論壇在廣州南沙盛大開(kāi)幕。會(huì)上重磅發(fā)布全球首個(gè)面向網(wǎng)聯(lián)智能車的包含車和多路端的通信與模態(tài)感知數(shù)據(jù)
    的頭像 發(fā)表于 07-13 15:20 ?770次閱讀

    更強(qiáng)更通用:智源「悟道3.0」Emu模態(tài)大模型開(kāi)源,在模態(tài)序列中「補(bǔ)全一切」

    熱度。Flamingo 具備強(qiáng)大的模態(tài)上下文少樣本學(xué)習(xí)能力。 Flamingo 走的技術(shù)路線是將大語(yǔ)言模型與一個(gè)預(yù)訓(xùn)練視覺(jué)編碼器結(jié)合,并插入可學(xué)習(xí)的層來(lái)捕捉跨模態(tài)依賴,其采用圖文對(duì)、圖文交錯(cuò)文檔、視頻文本對(duì)組成的
    的頭像 發(fā)表于 07-16 20:45 ?724次閱讀
    更強(qiáng)更通用:智源「悟道3.0」Emu<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大模型開(kāi)源,在<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>序列中「補(bǔ)全一切」

    人工智能領(lǐng)域模態(tài)的概念和應(yīng)用場(chǎng)景

    隨著人工智能技術(shù)的不斷發(fā)展,模態(tài)成為了一個(gè)備受關(guān)注的研究方向。模態(tài)技術(shù)旨在將不同類型的數(shù)據(jù)和信息進(jìn)行融合,以實(shí)現(xiàn)更加準(zhǔn)確、高效的人工智能
    的頭像 發(fā)表于 12-15 14:28 ?9865次閱讀

    從Google模態(tài)大模型看后續(xù)大模型應(yīng)該具備哪些能力

    前段時(shí)間Google推出Gemini模態(tài)大模型,展示了不凡的對(duì)話能力和模態(tài)能力,其表現(xiàn)究竟如何呢?
    的頭像 發(fā)表于 12-28 11:19 ?1274次閱讀
    從Google<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大模型看后續(xù)大模型應(yīng)該具備哪些能力

    利用OpenVINO部署Qwen2模態(tài)模型

    模態(tài)大模型的核心思想是將不同媒體數(shù)據(jù)(如文本、圖像、音頻和視頻等)進(jìn)行融合,通過(guò)學(xué)習(xí)不同模態(tài)之間的關(guān)聯(lián),實(shí)現(xiàn)更加智能化的信息處理。簡(jiǎn)單來(lái)說(shuō),
    的頭像 發(fā)表于 10-18 09:39 ?440次閱讀