久久―日本道色综合久久,精品国产91在线网址,《国产精品岛国久久久久

多模式視覺(jué)語(yǔ)言模型依賴(lài)大量數(shù)據(jù)集來(lái)對(duì)圖像和文本之間的關(guān)系進(jìn)行建模。一般來(lái)說(shuō)，這些數(shù)據(jù)集有兩種創(chuàng)建方法：手動(dòng)為圖像添加文字說(shuō)明，或抓取網(wǎng)頁(yè)并提取替代文本 (alt-text)作為文字說(shuō)明。雖然前一種方法更利于產(chǎn)生更高質(zhì)量的數(shù)據(jù)，但高強(qiáng)度的人工注釋過(guò)程限制了可創(chuàng)建的數(shù)據(jù)量。另一方面，雖然自動(dòng)提取方法可以產(chǎn)生更大的數(shù)據(jù)集，但卻需要通過(guò)啟發(fā)式算法以及仔細(xì)過(guò)濾來(lái)確保數(shù)據(jù)質(zhì)量，或者擴(kuò)展模型來(lái)保證強(qiáng)大性能?，F(xiàn)有數(shù)據(jù)集的另一個(gè)缺點(diǎn)是極少涉及非英語(yǔ)語(yǔ)言。這不禁讓我們產(chǎn)生疑問(wèn)：我們能否突破這些限制，創(chuàng)建包含各種內(nèi)容的高質(zhì)量、大規(guī)模、多語(yǔ)言數(shù)據(jù)集？

圖像和文本之間的關(guān)系

https://ai.googleblog.com/2014/11/a-picture-is-worth-thousand-coherent.html

確保數(shù)據(jù)質(zhì)量

https://ai.googleblog.com/2018/09/conceptual-captions-new-dataset-and.html

對(duì)此，我們推出了基于維基百科的圖像文本 (WIT) 數(shù)據(jù)集。這是一個(gè)大型多模式數(shù)據(jù)集，通過(guò)從維基百科文章和 Wikimedia 圖像鏈接中提取與圖像相關(guān)的多種不同文本選擇集創(chuàng)建而成。在創(chuàng)建過(guò)程中會(huì)執(zhí)行嚴(yán)格的過(guò)濾環(huán)節(jié)，以便僅保留高質(zhì)量的圖像文本集。

基于維基百科的圖像文本 (WIT) 數(shù)據(jù)集

https://github.com/google-research-datasets/wit

如我們?cè)?SIGIR 2021 上發(fā)布的“WIT：適用于多模式、多語(yǔ)言機(jī)器學(xué)習(xí)的基于維基百科的圖像文本數(shù)據(jù)集 (WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning)”中詳細(xì)說(shuō)明的那樣，該過(guò)程產(chǎn)生一個(gè)包含 3750 萬(wàn)個(gè)實(shí)體豐富的圖像文本示例精選集，其中涵蓋 1150 萬(wàn)張獨(dú)特的圖像，跨越 108 種語(yǔ)言。大家可憑知識(shí)共享許可下載并使用 WIT 數(shù)據(jù)集。此外，我們也很高興地宣布，我們將與 Wikimedia Research 以及其他外部協(xié)作者攜手在 Kaggle 舉辦 WIT 數(shù)據(jù)集的競(jìng)賽。

數(shù)據(jù)集	圖像數(shù)量	文本	上下文文本	語(yǔ)言數(shù)量
Flickr30K	32K	158K	-	< 8
SBU Captions	1M	1M	-	1
MS-COCO	330K	1.5M	-	< 4；7 （僅限測(cè)試）
CC-3M	3.3M	3.3M	-	1
CC-12M	12M	12M	-	1
WIT	11.5M	37.5M	~119M	108

相比以往數(shù)據(jù)集，WIT 的語(yǔ)言更多，規(guī)模更大

WIT 數(shù)據(jù)集的獨(dú)特優(yōu)勢(shì)包括：

1. 大規(guī)模：WIT 是公開(kāi)提供的最大的圖像文本示例多模式數(shù)據(jù)集。

2.多語(yǔ)言：WIT 擁有 108 種語(yǔ)言，是其他數(shù)據(jù)集的十倍或以上。

3.上下文信息：與典型的多模式數(shù)據(jù)集（每個(gè)圖像只有一個(gè)文字說(shuō)明）不同，WIT 包含許多頁(yè)面級(jí)和部分級(jí)上下文信息。

4.現(xiàn)實(shí)世界實(shí)體：維基百科是一個(gè)覆蓋廣泛的知識(shí)庫(kù)，其豐富的現(xiàn)實(shí)世界實(shí)體可以在 WIT 中得以體現(xiàn)。

5.具有挑戰(zhàn)性的測(cè)試集：在我們最近獲得 EMNLP 接受的研究中，所有最先進(jìn)的模型在 WIT 上表現(xiàn)出的性能都明顯低于傳統(tǒng)評(píng)估集，例如平均召回率 (recall)下降約 30 點(diǎn)。

最近獲得 EMNLP 接受的研究

https://arxiv.org/abs/2109.05125

數(shù)據(jù)集的創(chuàng)建過(guò)程

WIT 的主要目標(biāo)是在不犧牲質(zhì)量和概念覆蓋面的情況下創(chuàng)建大型數(shù)據(jù)集。因此，我們選擇利用當(dāng)今最大的在線(xiàn)百科全書(shū)：維基百科。

就可用信息的深度而言，我們以維基百科上的“Half Dome”（加州約塞米蒂?lài)?guó)家公園）頁(yè)面為例如下所示，文章為圖像提供了許多有趣的文本說(shuō)明和相關(guān)的上下文信息，如頁(yè)面標(biāo)題、主要頁(yè)面描述以及其他上下文信息和元數(shù)據(jù)。

我們首先選擇包含圖像的維基百科頁(yè)面，然后提取各種圖像文本關(guān)聯(lián)內(nèi)容和周?chē)纳舷挛摹檫M(jìn)一步優(yōu)化數(shù)據(jù)，我們執(zhí)行嚴(yán)格的過(guò)濾環(huán)節(jié)來(lái)確保數(shù)據(jù)質(zhì)量。過(guò)濾過(guò)程包含：

●

基于文本的過(guò)濾，以確保文字說(shuō)明的可用性、長(zhǎng)度和質(zhì)量（例如通過(guò)刪除通用默認(rèn)填充文本）；

●

基于圖像的過(guò)濾，以確保每個(gè)圖像都具有特定的大小且擁有允許的許可；

●

基于圖像和文本實(shí)體的過(guò)濾，以確保適合研究（例如排除仇恨類(lèi)言論）。

接著我們進(jìn)一步對(duì)圖像文字說(shuō)明集隨機(jī)抽樣，由真人進(jìn)行校對(duì)評(píng)估，他們中絕大多數(shù)人都認(rèn)可一個(gè)結(jié)論：98% 樣本其圖像與文字說(shuō)明一致。

高度語(yǔ)言多樣性

WIT 擁有 108 種語(yǔ)言的數(shù)據(jù)，是首個(gè)大規(guī)模、多語(yǔ)言、多模式數(shù)據(jù)集。

圖像文本集數(shù)量	獨(dú)特語(yǔ)言數(shù)量	圖像數(shù)量	獨(dú)特語(yǔ)言數(shù)量
> 1M	9	> 1M	6
500K - 1M	10	500K - 1M	12
100K - 500K	36	100K - 500K	35
50K - 100K	15	50K - 100K	17
14K - 50K	38	13K - 50K	38

WIT：跨語(yǔ)言覆蓋統(tǒng)計(jì)信息

首個(gè)上下文圖像文字?jǐn)?shù)據(jù)集

大多數(shù)多模式數(shù)據(jù)集僅為給定圖像提供單個(gè)文本說(shuō)明（或類(lèi)似文字說(shuō)明的多個(gè)版本）。WIT 是首個(gè)提供上下文信息的數(shù)據(jù)集，可以幫助研究人員就上下文對(duì)圖像文字說(shuō)明以及圖像選擇的影響進(jìn)行建模。

具體而言，可能有助于研究的 WIT 關(guān)鍵文本字段包括：

●

文本說(shuō)明：WIT 提供三種不同的圖像文字說(shuō)明，包括（可能受上下文影響的）“參考描述”、（可能不受上下文影響的）“屬性描述”，以及“替代文本描述”。

●

上下文信息：包括頁(yè)面標(biāo)題、頁(yè)面描述、網(wǎng)址和有關(guān)維基百科部分的局部上下文（包括部分標(biāo)題和文本）。

如下所示，WIT 在以下不同字段具有廣泛的覆蓋。

WIT 圖像文字字段	訓(xùn)練	Val	測(cè)試	合計(jì)/獨(dú)特
行/元組	37.1M	261.8K	210.7K	37.6M
獨(dú)特的圖像	11.4M	58K	57K	11.5M
參考描述	16.9M	150K	104K	17.2M/16.7M
屬性描述	34.8M	193K	200K	35.2M/10.9M
替代文本	5.3M	29K	29K	5.4M/5.3M
上下文文本	-	-	-	119.8M

WIT 的關(guān)鍵字段兼有文本說(shuō)明和上下文信息

高質(zhì)量訓(xùn)練集與

具有挑戰(zhàn)性的評(píng)估基準(zhǔn)

維基百科廣泛覆蓋各種概念，這意味著 WIT 評(píng)估集作為評(píng)估基準(zhǔn)非常具有挑戰(zhàn)性，即使對(duì)于最先進(jìn)的模型而言也是如此。在圖像文本檢索方面，我們發(fā)現(xiàn)傳統(tǒng)數(shù)據(jù)集的平均召回分?jǐn)?shù) (mean recall scores)為 80 秒，而對(duì)于 WIT 測(cè)試集而言，資源豐富的語(yǔ)言為 40 秒，資源不足的語(yǔ)言為 30 秒。我們希望這可以轉(zhuǎn)而幫助研究人員構(gòu)建更強(qiáng)大、更穩(wěn)健的模型。

WIT 數(shù)據(jù)集與 Wikimedia 和

Kaggle 攜手開(kāi)展競(jìng)賽

此外，非常高興地宣布，我們將攜手 Wikimedia Research 以及一些外部協(xié)作者共同組織 WIT 測(cè)試集的競(jìng)賽。競(jìng)賽將在 Kaggle 舉辦，競(jìng)賽任務(wù)為圖像文本檢索。我們將給定一組圖像和文本說(shuō)明，而參賽者的任務(wù)是為每個(gè)圖像檢索適當(dāng)?shù)奈淖终f(shuō)明。

為促進(jìn)該領(lǐng)域的研究，維基百科為大部分訓(xùn)練和測(cè)試數(shù)據(jù)集提供了 300 像素分辨率的圖像和基于 Resnet-50 的圖像嵌入向量。除 WIT 數(shù)據(jù)集以外，Kaggle 還將托管所有圖像數(shù)據(jù)，并提供 Colab notebooks。此外，參賽者屆時(shí)可訪(fǎng)問(wèn) Kaggle 論壇，以便分享代碼和開(kāi)展協(xié)作。任何對(duì)多模態(tài)感興趣的人都可以借此輕松開(kāi)始并運(yùn)行實(shí)驗(yàn)。我們很高興并且期待各位參賽者可以在 Kaggle 平臺(tái)，通過(guò) WIT 數(shù)據(jù)集和維基百科圖像為我們帶來(lái)精彩表現(xiàn)。

結(jié)論

我們相信 WIT 數(shù)據(jù)集將幫助研究人員構(gòu)建更好的多模態(tài)多語(yǔ)言模型，并識(shí)別更好的學(xué)習(xí)和表征技術(shù)，最終借助視覺(jué)語(yǔ)言數(shù)據(jù)在現(xiàn)實(shí)世界任務(wù)中優(yōu)化機(jī)器學(xué)習(xí)模型。如有任何問(wèn)題，請(qǐng)聯(lián)系 wit-dataset@google.com。我們非常愿意傾聽(tīng)您如何使用 WIT 數(shù)據(jù)集。

責(zé)任編輯：haq

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

數(shù)據(jù)

數(shù)據(jù)

+關(guān)注

關(guān)注
8

文章
7101

瀏覽量
89266
模型

模型

+關(guān)注

關(guān)注
1

文章
3277

瀏覽量
48963
機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8428

瀏覽量
132830

原文標(biāo)題：基于維基百科的圖像文本數(shù)據(jù)集 (WIT)

文章出處：【微信號(hào)：tensorflowers，微信公眾號(hào)：Tensorflowers】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

借助谷歌Gemini和Imagen模型生成高質(zhì)量圖像

在快速發(fā)展的生成式 AI 領(lǐng)域，結(jié)合不同模型的優(yōu)勢(shì)可以帶來(lái)顯著的成果。通過(guò)利用谷歌的 Gemini 模型來(lái)制作詳細(xì)且富有創(chuàng)意的提示，然后使用 Imagen 3 模型根據(jù)這些提示生成高質(zhì)量的圖像，您可

發(fā)表于 01-03 10:38 ?368次閱讀

借助谷歌Gemini和Imagen模型生成<b class='flag-5'>高質(zhì)量</b>圖像

ChatGPT 的多語(yǔ)言支持特點(diǎn)

）技術(shù)迎來(lái)了巨大的挑戰(zhàn)和機(jī)遇。ChatGPT，作為一個(gè)領(lǐng)先的語(yǔ)言模型，其多語(yǔ)言支持的特點(diǎn)成為了它在眾多應(yīng)用場(chǎng)景中不可或缺的優(yōu)勢(shì)。 1. 多語(yǔ)言理解能力 ChatGPT 的多語(yǔ)言支持首先

發(fā)表于 10-25 17:30 ?838次閱讀

科大訊飛發(fā)布訊飛星火4.0 Turbo大模型及星火多語(yǔ)言大模型

，科大訊飛以其一貫的創(chuàng)新精神，開(kāi)創(chuàng)性地發(fā)布了星火多語(yǔ)言大模型。這一創(chuàng)新之舉不僅進(jìn)一步鞏固了科大訊飛在中文和英文處理領(lǐng)域的領(lǐng)先地位，更將語(yǔ)言的支持范圍大幅擴(kuò)展，涵蓋了俄語(yǔ)、日語(yǔ)、阿拉伯語(yǔ)、韓語(yǔ)、法語(yǔ)、西班牙語(yǔ)、葡萄牙語(yǔ)以及

發(fā)表于 10-24 13:58 ?417次閱讀

中興通訊引領(lǐng)5G-A高質(zhì)量發(fā)展新紀(jì)元

中國(guó)5G商用5周年之際，以“智聯(lián)未來(lái) 無(wú)限可能”為主題的2024移動(dòng)通信高質(zhì)量發(fā)展論壇在北京舉辦。本屆論壇系統(tǒng)呈現(xiàn)總結(jié)我國(guó)移動(dòng)通信，特別是5G產(chǎn)業(yè)自身高質(zhì)量發(fā)展和引領(lǐng)數(shù)字經(jīng)濟(jì)高質(zhì)量發(fā)展的成果和經(jīng)驗(yàn)，展望5G-A、6G協(xié)同創(chuàng)新發(fā)展

發(fā)表于 10-15 10:32 ?533次閱讀