多模式視覺(jué)語(yǔ)言模型依賴(lài)大量數(shù)據(jù)集來(lái)對(duì)圖像和文本之間的關(guān)系進(jìn)行建模。一般來(lái)說(shuō),這些數(shù)據(jù)集有兩種創(chuàng)建方法:手動(dòng)為圖像添加文字說(shuō)明,或抓取網(wǎng)頁(yè)并提取替代文本 (alt-text)作為文字說(shuō)明。雖然前一種方法更利于產(chǎn)生更高質(zhì)量的數(shù)據(jù),但高強(qiáng)度的人工注釋過(guò)程限制了可創(chuàng)建的數(shù)據(jù)量。另一方面,雖然自動(dòng)提取方法可以產(chǎn)生更大的數(shù)據(jù)集,但卻需要通過(guò)啟發(fā)式算法以及仔細(xì)過(guò)濾來(lái)確保數(shù)據(jù)質(zhì)量,或者擴(kuò)展模型來(lái)保證強(qiáng)大性能?,F(xiàn)有數(shù)據(jù)集的另一個(gè)缺點(diǎn)是極少涉及非英語(yǔ)語(yǔ)言。這不禁讓我們產(chǎn)生疑問(wèn):我們能否突破這些限制,創(chuàng)建包含各種內(nèi)容的高質(zhì)量、大規(guī)模、多語(yǔ)言數(shù)據(jù)集?
圖像和文本之間的關(guān)系
https://ai.googleblog.com/2014/11/a-picture-is-worth-thousand-coherent.html
確保數(shù)據(jù)質(zhì)量
https://ai.googleblog.com/2018/09/conceptual-captions-new-dataset-and.html
對(duì)此,我們推出了基于維基百科的圖像文本 (WIT) 數(shù)據(jù)集。這是一個(gè)大型多模式數(shù)據(jù)集,通過(guò)從維基百科文章和 Wikimedia 圖像鏈接中提取與圖像相關(guān)的多種不同文本選擇集創(chuàng)建而成。在創(chuàng)建過(guò)程中會(huì)執(zhí)行嚴(yán)格的過(guò)濾環(huán)節(jié),以便僅保留高質(zhì)量的圖像文本集。
基于維基百科的圖像文本 (WIT) 數(shù)據(jù)集
https://github.com/google-research-datasets/wit
如我們?cè)?SIGIR 2021 上發(fā)布的“WIT:適用于多模式、多語(yǔ)言機(jī)器學(xué)習(xí)的基于維基百科的圖像文本數(shù)據(jù)集 (WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning)”中詳細(xì)說(shuō)明的那樣,該過(guò)程產(chǎn)生一個(gè)包含 3750 萬(wàn)個(gè)實(shí)體豐富的圖像文本示例精選集,其中涵蓋 1150 萬(wàn)張獨(dú)特的圖像,跨越 108 種語(yǔ)言。大家可憑知識(shí)共享許可下載并使用 WIT 數(shù)據(jù)集。此外,我們也很高興地宣布,我們將與 Wikimedia Research 以及其他外部協(xié)作者攜手在 Kaggle 舉辦 WIT 數(shù)據(jù)集的競(jìng)賽。
數(shù)據(jù)集 |
圖像 數(shù)量 |
文本 |
上下文 文本 |
語(yǔ)言數(shù)量 |
Flickr30K | 32K | 158K | - | < 8 |
SBU Captions | 1M | 1M | - | 1 |
MS-COCO | 330K | 1.5M | - |
< 4;7 (僅限測(cè)試) |
CC-3M | 3.3M | 3.3M | - | 1 |
CC-12M | 12M | 12M | - | 1 |
WIT | 11.5M | 37.5M | ~119M | 108 |
相比以往數(shù)據(jù)集,WIT 的語(yǔ)言更多,規(guī)模更大
WIT 數(shù)據(jù)集的獨(dú)特優(yōu)勢(shì)包括:
1. 大規(guī)模:WIT 是公開(kāi)提供的最大的圖像文本示例多模式數(shù)據(jù)集。
2.多語(yǔ)言:WIT 擁有 108 種語(yǔ)言,是其他數(shù)據(jù)集的十倍或以上。
3.上下文信息:與典型的多模式數(shù)據(jù)集(每個(gè)圖像只有一個(gè)文字說(shuō)明)不同,WIT 包含許多頁(yè)面級(jí)和部分級(jí)上下文信息。
4.現(xiàn)實(shí)世界實(shí)體:維基百科是一個(gè)覆蓋廣泛的知識(shí)庫(kù),其豐富的現(xiàn)實(shí)世界實(shí)體可以在 WIT 中得以體現(xiàn)。
5.具有挑戰(zhàn)性的測(cè)試集:在我們最近獲得 EMNLP 接受的研究中,所有最先進(jìn)的模型在 WIT 上表現(xiàn)出的性能都明顯低于傳統(tǒng)評(píng)估集,例如平均召回率 (recall)下降約 30 點(diǎn)。
最近獲得 EMNLP 接受的研究
https://arxiv.org/abs/2109.05125
數(shù)據(jù)集的創(chuàng)建過(guò)程
WIT 的主要目標(biāo)是在不犧牲質(zhì)量和概念覆蓋面的情況下創(chuàng)建大型數(shù)據(jù)集。因此,我們選擇利用當(dāng)今最大的在線(xiàn)百科全書(shū):維基百科。
就可用信息的深度而言,我們以維基百科上的“Half Dome”(加州約塞米蒂?lài)?guó)家公園)頁(yè)面為例如下所示,文章為圖像提供了許多有趣的文本說(shuō)明和相關(guān)的上下文信息,如頁(yè)面標(biāo)題、主要頁(yè)面描述以及其他上下文信息和元數(shù)據(jù)。
我們首先選擇包含圖像的維基百科頁(yè)面,然后提取各種圖像文本關(guān)聯(lián)內(nèi)容和周?chē)纳舷挛摹檫M(jìn)一步優(yōu)化數(shù)據(jù),我們執(zhí)行嚴(yán)格的過(guò)濾環(huán)節(jié)來(lái)確保數(shù)據(jù)質(zhì)量。過(guò)濾過(guò)程包含:
●
基于文本的過(guò)濾,以確保文字說(shuō)明的可用性、長(zhǎng)度和質(zhì)量(例如通過(guò)刪除通用默認(rèn)填充文本);
●
基于圖像的過(guò)濾,以確保每個(gè)圖像都具有特定的大小且擁有允許的許可;
●
基于圖像和文本實(shí)體的過(guò)濾,以確保適合研究(例如排除仇恨類(lèi)言論)。
接著我們進(jìn)一步對(duì)圖像文字說(shuō)明集隨機(jī)抽樣,由真人進(jìn)行校對(duì)評(píng)估,他們中絕大多數(shù)人都認(rèn)可一個(gè)結(jié)論:98% 樣本其圖像與文字說(shuō)明一致。
高度語(yǔ)言多樣性
WIT 擁有 108 種語(yǔ)言的數(shù)據(jù),是首個(gè)大規(guī)模、多語(yǔ)言、多模式數(shù)據(jù)集。
圖像文本集數(shù)量 |
獨(dú)特語(yǔ)言 數(shù)量 |
圖像數(shù)量 |
獨(dú)特語(yǔ)言 數(shù)量 |
> 1M | 9 | > 1M | 6 |
500K - 1M | 10 | 500K - 1M | 12 |
100K - 500K | 36 | 100K - 500K | 35 |
50K - 100K | 15 | 50K - 100K | 17 |
14K - 50K | 38 | 13K - 50K | 38 |
WIT:跨語(yǔ)言覆蓋統(tǒng)計(jì)信息
首個(gè)上下文圖像文字?jǐn)?shù)據(jù)集
大多數(shù)多模式數(shù)據(jù)集僅為給定圖像提供單個(gè)文本說(shuō)明(或類(lèi)似文字說(shuō)明的多個(gè)版本)。WIT 是首個(gè)提供上下文信息的數(shù)據(jù)集, 可以幫助研究人員就上下文對(duì)圖像文字說(shuō)明以及圖像選擇的影響進(jìn)行建模。
具體而言,可能有助于研究的 WIT 關(guān)鍵文本字段包括:
●
文本說(shuō)明:WIT 提供三種不同的圖像文字說(shuō)明,包括(可能受上下文影響的)“參考描述”、(可能不受上下文影響的)“屬性描述”,以及“替代文本描述”。
●
上下文信息:包括頁(yè)面標(biāo)題、頁(yè)面描述、網(wǎng)址和有關(guān)維基百科部分的局部上下文(包括部分標(biāo)題和文本)。
如下所示,WIT 在以下不同字段具有廣泛的覆蓋。
WIT 圖像 文字字段 |
訓(xùn)練 | Val | 測(cè)試 | 合計(jì)/獨(dú)特 |
行/元組 | 37.1M | 261.8K | 210.7K | 37.6M |
獨(dú)特的圖像 | 11.4M | 58K | 57K | 11.5M |
參考描述 | 16.9M | 150K | 104K | 17.2M/16.7M |
屬性描述 | 34.8M | 193K | 200K | 35.2M/10.9M |
替代文本 | 5.3M | 29K | 29K | 5.4M/5.3M |
上下文文本 | - | - | - | 119.8M |
WIT 的關(guān)鍵字段兼有文本說(shuō)明和上下文信息
高質(zhì)量訓(xùn)練集與
具有挑戰(zhàn)性的評(píng)估基準(zhǔn)
維基百科廣泛覆蓋各種概念,這意味著 WIT 評(píng)估集作為評(píng)估基準(zhǔn)非常具有挑戰(zhàn)性,即使對(duì)于最先進(jìn)的模型而言也是如此。在圖像文本檢索方面,我們發(fā)現(xiàn)傳統(tǒng)數(shù)據(jù)集的平均召回分?jǐn)?shù) (mean recall scores)為 80 秒,而對(duì)于 WIT 測(cè)試集而言,資源豐富的語(yǔ)言為 40 秒,資源不足的語(yǔ)言為 30 秒。我們希望這可以轉(zhuǎn)而幫助研究人員構(gòu)建更強(qiáng)大、更穩(wěn)健的模型。
WIT 數(shù)據(jù)集與 Wikimedia 和
Kaggle 攜手開(kāi)展競(jìng)賽
此外,非常高興地宣布,我們將攜手 Wikimedia Research 以及一些外部協(xié)作者共同組織 WIT 測(cè)試集的競(jìng)賽。競(jìng)賽將在 Kaggle 舉辦,競(jìng)賽任務(wù)為圖像文本檢索。我們將給定一組圖像和文本說(shuō)明,而參賽者的任務(wù)是為每個(gè)圖像檢索適當(dāng)?shù)奈淖终f(shuō)明。
為促進(jìn)該領(lǐng)域的研究,維基百科為大部分訓(xùn)練和測(cè)試數(shù)據(jù)集提供了 300 像素分辨率的圖像和基于 Resnet-50 的圖像嵌入向量。除 WIT 數(shù)據(jù)集以外,Kaggle 還將托管所有圖像數(shù)據(jù),并提供 Colab notebooks。此外,參賽者屆時(shí)可訪(fǎng)問(wèn) Kaggle 論壇,以便分享代碼和開(kāi)展協(xié)作。任何對(duì)多模態(tài)感興趣的人都可以借此輕松開(kāi)始并運(yùn)行實(shí)驗(yàn)。我們很高興并且期待各位參賽者可以在 Kaggle 平臺(tái),通過(guò) WIT 數(shù)據(jù)集和維基百科圖像為我們帶來(lái)精彩表現(xiàn)。
結(jié)論
我們相信 WIT 數(shù)據(jù)集將幫助研究人員構(gòu)建更好的多模態(tài)多語(yǔ)言模型,并識(shí)別更好的學(xué)習(xí)和表征技術(shù),最終借助視覺(jué)語(yǔ)言數(shù)據(jù)在現(xiàn)實(shí)世界任務(wù)中優(yōu)化機(jī)器學(xué)習(xí)模型。如有任何問(wèn)題,請(qǐng)聯(lián)系 wit-dataset@google.com。我們非常愿意傾聽(tīng)您如何使用 WIT 數(shù)據(jù)集。
責(zé)任編輯:haq
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7101瀏覽量
89266 -
模型
+關(guān)注
關(guān)注
1文章
3277瀏覽量
48963 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8428瀏覽量
132830
原文標(biāo)題:基于維基百科的圖像文本數(shù)據(jù)集 (WIT)
文章出處:【微信號(hào):tensorflowers,微信公眾號(hào):Tensorflowers】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論