0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何創(chuàng)建高質(zhì)量、大規(guī)模、多語(yǔ)言的數(shù)據(jù)集

Tensorflowers ? 來(lái)源:TensorFlow ? 作者:TensorFlow ? 2021-10-29 10:22 ? 次閱讀

多模式視覺(jué)語(yǔ)言模型依賴(lài)大量數(shù)據(jù)集來(lái)對(duì)圖像和文本之間的關(guān)系進(jìn)行建模。一般來(lái)說(shuō),這些數(shù)據(jù)集有兩種創(chuàng)建方法:手動(dòng)為圖像添加文字說(shuō)明,或抓取網(wǎng)頁(yè)并提取替代文本 (alt-text)作為文字說(shuō)明。雖然前一種方法更利于產(chǎn)生更高質(zhì)量的數(shù)據(jù),但高強(qiáng)度的人工注釋過(guò)程限制了可創(chuàng)建的數(shù)據(jù)量。另一方面,雖然自動(dòng)提取方法可以產(chǎn)生更大的數(shù)據(jù)集,但卻需要通過(guò)啟發(fā)式算法以及仔細(xì)過(guò)濾來(lái)確保數(shù)據(jù)質(zhì)量,或者擴(kuò)展模型來(lái)保證強(qiáng)大性能?,F(xiàn)有數(shù)據(jù)集的另一個(gè)缺點(diǎn)是極少涉及非英語(yǔ)語(yǔ)言。這不禁讓我們產(chǎn)生疑問(wèn):我們能否突破這些限制,創(chuàng)建包含各種內(nèi)容的高質(zhì)量、大規(guī)模、多語(yǔ)言數(shù)據(jù)集?

圖像和文本之間的關(guān)系

https://ai.googleblog.com/2014/11/a-picture-is-worth-thousand-coherent.html

確保數(shù)據(jù)質(zhì)量

https://ai.googleblog.com/2018/09/conceptual-captions-new-dataset-and.html

對(duì)此,我們推出了基于維基百科的圖像文本 (WIT) 數(shù)據(jù)集。這是一個(gè)大型多模式數(shù)據(jù)集,通過(guò)從維基百科文章和 Wikimedia 圖像鏈接中提取與圖像相關(guān)的多種不同文本選擇集創(chuàng)建而成。在創(chuàng)建過(guò)程中會(huì)執(zhí)行嚴(yán)格的過(guò)濾環(huán)節(jié),以便僅保留高質(zhì)量的圖像文本集。

基于維基百科的圖像文本 (WIT) 數(shù)據(jù)集

https://github.com/google-research-datasets/wit

如我們?cè)?SIGIR 2021 上發(fā)布的“WIT:適用于多模式、多語(yǔ)言機(jī)器學(xué)習(xí)的基于維基百科的圖像文本數(shù)據(jù)集 (WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning)”中詳細(xì)說(shuō)明的那樣,該過(guò)程產(chǎn)生一個(gè)包含 3750 萬(wàn)個(gè)實(shí)體豐富的圖像文本示例精選集,其中涵蓋 1150 萬(wàn)張獨(dú)特的圖像,跨越 108 種語(yǔ)言。大家可憑知識(shí)共享許可下載并使用 WIT 數(shù)據(jù)集。此外,我們也很高興地宣布,我們將與 Wikimedia Research 以及其他外部協(xié)作者攜手在 Kaggle 舉辦 WIT 數(shù)據(jù)集的競(jìng)賽。

數(shù)據(jù)集 圖像
數(shù)量
文本 上下文
文本
語(yǔ)言數(shù)量
Flickr30K 32K 158K - < 8
SBU Captions 1M 1M - 1
MS-COCO 330K 1.5M - < 4;7
(僅限測(cè)試)
CC-3M 3.3M 3.3M - 1
CC-12M 12M 12M - 1
WIT 11.5M 37.5M ~119M 108

相比以往數(shù)據(jù)集,WIT 的語(yǔ)言更多,規(guī)模更大

WIT 數(shù)據(jù)集的獨(dú)特優(yōu)勢(shì)包括:

1. 大規(guī)模:WIT 是公開(kāi)提供的最大的圖像文本示例多模式數(shù)據(jù)集。

2.多語(yǔ)言:WIT 擁有 108 種語(yǔ)言,是其他數(shù)據(jù)集的十倍或以上。

3.上下文信息:與典型的多模式數(shù)據(jù)集(每個(gè)圖像只有一個(gè)文字說(shuō)明)不同,WIT 包含許多頁(yè)面級(jí)和部分級(jí)上下文信息。

4.現(xiàn)實(shí)世界實(shí)體:維基百科是一個(gè)覆蓋廣泛的知識(shí)庫(kù),其豐富的現(xiàn)實(shí)世界實(shí)體可以在 WIT 中得以體現(xiàn)。

5.具有挑戰(zhàn)性的測(cè)試集:在我們最近獲得 EMNLP 接受的研究中,所有最先進(jìn)的模型在 WIT 上表現(xiàn)出的性能都明顯低于傳統(tǒng)評(píng)估集,例如平均召回率 (recall)下降約 30 點(diǎn)。

最近獲得 EMNLP 接受的研究

https://arxiv.org/abs/2109.05125

數(shù)據(jù)集的創(chuàng)建過(guò)程

WIT 的主要目標(biāo)是在不犧牲質(zhì)量和概念覆蓋面的情況下創(chuàng)建大型數(shù)據(jù)集。因此,我們選擇利用當(dāng)今最大的在線(xiàn)百科全書(shū):維基百科。

就可用信息的深度而言,我們以維基百科上的“Half Dome”(加州約塞米蒂?lài)?guó)家公園)頁(yè)面為例如下所示,文章為圖像提供了許多有趣的文本說(shuō)明和相關(guān)的上下文信息,如頁(yè)面標(biāo)題、主要頁(yè)面描述以及其他上下文信息和元數(shù)據(jù)。

我們首先選擇包含圖像的維基百科頁(yè)面,然后提取各種圖像文本關(guān)聯(lián)內(nèi)容和周?chē)纳舷挛摹檫M(jìn)一步優(yōu)化數(shù)據(jù),我們執(zhí)行嚴(yán)格的過(guò)濾環(huán)節(jié)來(lái)確保數(shù)據(jù)質(zhì)量。過(guò)濾過(guò)程包含:

基于文本的過(guò)濾,以確保文字說(shuō)明的可用性、長(zhǎng)度和質(zhì)量(例如通過(guò)刪除通用默認(rèn)填充文本);

基于圖像的過(guò)濾,以確保每個(gè)圖像都具有特定的大小且擁有允許的許可;

基于圖像和文本實(shí)體的過(guò)濾,以確保適合研究(例如排除仇恨類(lèi)言論)。

接著我們進(jìn)一步對(duì)圖像文字說(shuō)明集隨機(jī)抽樣,由真人進(jìn)行校對(duì)評(píng)估,他們中絕大多數(shù)人都認(rèn)可一個(gè)結(jié)論:98% 樣本其圖像與文字說(shuō)明一致。

高度語(yǔ)言多樣性

WIT 擁有 108 種語(yǔ)言的數(shù)據(jù),是首個(gè)大規(guī)模、多語(yǔ)言、多模式數(shù)據(jù)集。

圖像文本集數(shù)量 獨(dú)特語(yǔ)言
數(shù)量
圖像數(shù)量 獨(dú)特語(yǔ)言
數(shù)量
> 1M 9 > 1M 6
500K - 1M 10 500K - 1M 12
100K - 500K 36 100K - 500K 35
50K - 100K 15 50K - 100K 17
14K - 50K 38 13K - 50K 38

WIT:跨語(yǔ)言覆蓋統(tǒng)計(jì)信息

首個(gè)上下文圖像文字?jǐn)?shù)據(jù)集

大多數(shù)多模式數(shù)據(jù)集僅為給定圖像提供單個(gè)文本說(shuō)明(或類(lèi)似文字說(shuō)明的多個(gè)版本)。WIT 是首個(gè)提供上下文信息的數(shù)據(jù)集, 可以幫助研究人員就上下文對(duì)圖像文字說(shuō)明以及圖像選擇的影響進(jìn)行建模。

具體而言,可能有助于研究的 WIT 關(guān)鍵文本字段包括:

文本說(shuō)明:WIT 提供三種不同的圖像文字說(shuō)明,包括(可能受上下文影響的)“參考描述”、(可能不受上下文影響的)“屬性描述”,以及“替代文本描述”。

上下文信息:包括頁(yè)面標(biāo)題、頁(yè)面描述、網(wǎng)址和有關(guān)維基百科部分的局部上下文(包括部分標(biāo)題和文本)。

如下所示,WIT 在以下不同字段具有廣泛的覆蓋。

WIT 圖像
文字字段
訓(xùn)練 Val 測(cè)試 合計(jì)/獨(dú)特
行/元組 37.1M 261.8K 210.7K 37.6M
獨(dú)特的圖像 11.4M 58K 57K 11.5M
參考描述 16.9M 150K 104K 17.2M/16.7M
屬性描述 34.8M 193K 200K 35.2M/10.9M
替代文本 5.3M 29K 29K 5.4M/5.3M
上下文文本 - - - 119.8M

WIT 的關(guān)鍵字段兼有文本說(shuō)明和上下文信息

高質(zhì)量訓(xùn)練集與

具有挑戰(zhàn)性的評(píng)估基準(zhǔn)

維基百科廣泛覆蓋各種概念,這意味著 WIT 評(píng)估集作為評(píng)估基準(zhǔn)非常具有挑戰(zhàn)性,即使對(duì)于最先進(jìn)的模型而言也是如此。在圖像文本檢索方面,我們發(fā)現(xiàn)傳統(tǒng)數(shù)據(jù)集的平均召回分?jǐn)?shù) (mean recall scores)為 80 秒,而對(duì)于 WIT 測(cè)試集而言,資源豐富的語(yǔ)言為 40 秒,資源不足的語(yǔ)言為 30 秒。我們希望這可以轉(zhuǎn)而幫助研究人員構(gòu)建更強(qiáng)大、更穩(wěn)健的模型。

WIT 數(shù)據(jù)集與 Wikimedia 和

Kaggle 攜手開(kāi)展競(jìng)賽

此外,非常高興地宣布,我們將攜手 Wikimedia Research 以及一些外部協(xié)作者共同組織 WIT 測(cè)試集的競(jìng)賽。競(jìng)賽將在 Kaggle 舉辦,競(jìng)賽任務(wù)為圖像文本檢索。我們將給定一組圖像和文本說(shuō)明,而參賽者的任務(wù)是為每個(gè)圖像檢索適當(dāng)?shù)奈淖终f(shuō)明。

為促進(jìn)該領(lǐng)域的研究,維基百科為大部分訓(xùn)練和測(cè)試數(shù)據(jù)集提供了 300 像素分辨率的圖像和基于 Resnet-50 的圖像嵌入向量。除 WIT 數(shù)據(jù)集以外,Kaggle 還將托管所有圖像數(shù)據(jù),并提供 Colab notebooks。此外,參賽者屆時(shí)可訪(fǎng)問(wèn) Kaggle 論壇,以便分享代碼和開(kāi)展協(xié)作。任何對(duì)多模態(tài)感興趣的人都可以借此輕松開(kāi)始并運(yùn)行實(shí)驗(yàn)。我們很高興并且期待各位參賽者可以在 Kaggle 平臺(tái),通過(guò) WIT 數(shù)據(jù)集和維基百科圖像為我們帶來(lái)精彩表現(xiàn)。

結(jié)論

我們相信 WIT 數(shù)據(jù)集將幫助研究人員構(gòu)建更好的多模態(tài)多語(yǔ)言模型,并識(shí)別更好的學(xué)習(xí)和表征技術(shù),最終借助視覺(jué)語(yǔ)言數(shù)據(jù)在現(xiàn)實(shí)世界任務(wù)中優(yōu)化機(jī)器學(xué)習(xí)模型。如有任何問(wèn)題,請(qǐng)聯(lián)系 wit-dataset@google.com。我們非常愿意傾聽(tīng)您如何使用 WIT 數(shù)據(jù)集。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7101

    瀏覽量

    89266
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3277

    瀏覽量

    48963
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8428

    瀏覽量

    132830

原文標(biāo)題:基于維基百科的圖像文本數(shù)據(jù)集 (WIT)

文章出處:【微信號(hào):tensorflowers,微信公眾號(hào):Tensorflowers】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    借助谷歌Gemini和Imagen模型生成高質(zhì)量圖像

    在快速發(fā)展的生成式 AI 領(lǐng)域,結(jié)合不同模型的優(yōu)勢(shì)可以帶來(lái)顯著的成果。通過(guò)利用谷歌的 Gemini 模型來(lái)制作詳細(xì)且富有創(chuàng)意的提示,然后使用 Imagen 3 模型根據(jù)這些提示生成高質(zhì)量的圖像,您可
    的頭像 發(fā)表于 01-03 10:38 ?368次閱讀
    借助谷歌Gemini和Imagen模型生成<b class='flag-5'>高質(zhì)量</b>圖像

    ChatGPT 的多語(yǔ)言支持特點(diǎn)

    )技術(shù)迎來(lái)了巨大的挑戰(zhàn)和機(jī)遇。ChatGPT,作為一個(gè)領(lǐng)先的語(yǔ)言模型,其多語(yǔ)言支持的特點(diǎn)成為了它在眾多應(yīng)用場(chǎng)景中不可或缺的優(yōu)勢(shì)。 1. 多語(yǔ)言理解能力 ChatGPT 的多語(yǔ)言支持首先
    的頭像 發(fā)表于 10-25 17:30 ?838次閱讀

    科大訊飛發(fā)布訊飛星火4.0 Turbo大模型及星火多語(yǔ)言大模型

    ,科大訊飛以其一貫的創(chuàng)新精神,開(kāi)創(chuàng)性地發(fā)布了星火多語(yǔ)言大模型。這一創(chuàng)新之舉不僅進(jìn)一步鞏固了科大訊飛在中文和英文處理領(lǐng)域的領(lǐng)先地位,更將語(yǔ)言的支持范圍大幅擴(kuò)展,涵蓋了俄語(yǔ)、日語(yǔ)、阿拉伯語(yǔ)、韓語(yǔ)、法語(yǔ)、西班牙語(yǔ)、葡萄牙語(yǔ)以及
    的頭像 發(fā)表于 10-24 13:58 ?417次閱讀

    中興通訊引領(lǐng)5G-A高質(zhì)量發(fā)展新紀(jì)元

    中國(guó)5G商用5周年之際,以“智聯(lián)未來(lái) 無(wú)限可能”為主題的2024移動(dòng)通信高質(zhì)量發(fā)展論壇在北京舉辦。本屆論壇系統(tǒng)呈現(xiàn)總結(jié)我國(guó)移動(dòng)通信,特別是5G產(chǎn)業(yè)自身高質(zhì)量發(fā)展和引領(lǐng)數(shù)字經(jīng)濟(jì)高質(zhì)量發(fā)展的成果和經(jīng)驗(yàn),展望5G-A、6G協(xié)同創(chuàng)新發(fā)展
    的頭像 發(fā)表于 10-15 10:32 ?533次閱讀

    TVP5147高質(zhì)量、單芯片數(shù)字視頻解碼器數(shù)據(jù)

    電子發(fā)燒友網(wǎng)站提供《TVP5147高質(zhì)量、單芯片數(shù)字視頻解碼器數(shù)據(jù)表.pdf》資料免費(fèi)下載
    發(fā)表于 07-09 11:34 ?0次下載
    TVP5147<b class='flag-5'>高質(zhì)量</b>、單芯片數(shù)字視頻解碼器<b class='flag-5'>數(shù)據(jù)</b>表

    TVP5146高質(zhì)量、單芯片數(shù)字視頻解碼器數(shù)據(jù)

    電子發(fā)燒友網(wǎng)站提供《TVP5146高質(zhì)量、單芯片數(shù)字視頻解碼器數(shù)據(jù)表.pdf》資料免費(fèi)下載
    發(fā)表于 07-04 10:00 ?0次下載
    TVP5146<b class='flag-5'>高質(zhì)量</b>、單芯片數(shù)字視頻解碼器<b class='flag-5'>數(shù)據(jù)</b>表

    OpenHarmony開(kāi)發(fā)技術(shù):【國(guó)際化】實(shí)例

    ArkUI開(kāi)發(fā)框架對(duì)多語(yǔ)言的支持比較友好,只需要在?`resources`?目錄下創(chuàng)建對(duì)應(yīng)國(guó)家的文件夾,名稱(chēng)對(duì)國(guó)家簡(jiǎn)碼,例如中國(guó)為?`zh`?,則在?`resources`?下創(chuàng)建?`zh`?文件夾,然后在?`zh`?文件下
    的頭像 發(fā)表于 04-11 09:40 ?419次閱讀
    OpenHarmony開(kāi)發(fā)技術(shù):【國(guó)際化】實(shí)例

    這個(gè)多語(yǔ)言包 怎么搜不到

    大家好,這個(gè)多語(yǔ)言包怎么搜不到 seven language lib 誰(shuí)有離線(xiàn)包不 感謝分享,
    發(fā)表于 03-24 10:06

    云知聲入選中國(guó)信通院《數(shù)字醫(yī)療產(chǎn)品及服務(wù)高質(zhì)量發(fā)展全景圖》

    3月15日,中國(guó)人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟醫(yī)學(xué)人工智能委員會(huì)2024年第一次工作會(huì)在??谡匍_(kāi),會(huì)上發(fā)布首批《數(shù)字醫(yī)療產(chǎn)品及服務(wù)高質(zhì)量發(fā)展全景圖》與《數(shù)字醫(yī)療產(chǎn)品及服務(wù)高質(zhì)量發(fā)展案例》,憑借在智慧醫(yī)療領(lǐng)域
    的頭像 發(fā)表于 03-15 19:23 ?2183次閱讀

    北斗芯片產(chǎn)業(yè)的高質(zhì)量發(fā)展之路

    高質(zhì)量發(fā)展是全面建設(shè)社會(huì)主義現(xiàn)代化國(guó)家的首要任務(wù)”,二十大報(bào)告中對(duì)高質(zhì)量發(fā)展有著明確的論斷和要求。在2023年的全國(guó)兩會(huì)中還指出,加快實(shí)現(xiàn)高水平科技自立自強(qiáng),是推動(dòng)高質(zhì)量發(fā)展的必由之路。中國(guó)衛(wèi)星
    的頭像 發(fā)表于 03-15 14:03 ?416次閱讀
    北斗芯片產(chǎn)業(yè)的<b class='flag-5'>高質(zhì)量</b>發(fā)展之路

    名單公布!【書(shū)籍評(píng)測(cè)活動(dòng)NO.30】大規(guī)模語(yǔ)言模型:從理論到實(shí)踐

    參數(shù)的訓(xùn)練。這一階段的難點(diǎn)在于如何構(gòu)建訓(xùn)練數(shù)據(jù),以及如何高效地進(jìn)行分布式訓(xùn)練。 有監(jiān)督微調(diào)階段利用少量高質(zhì)量數(shù)據(jù),其中包含用戶(hù)輸入的提示詞和對(duì)應(yīng)的理想輸出結(jié)果。提示詞可以是問(wèn)題、閑
    發(fā)表于 03-11 15:16

    語(yǔ)言模型(LLMs)如何處理多語(yǔ)言輸入問(wèn)題

    研究者們提出了一個(gè)框架來(lái)描述LLMs在處理多語(yǔ)言輸入時(shí)的內(nèi)部處理過(guò)程,并探討了模型中是否存在特定于語(yǔ)言的神經(jīng)元。
    發(fā)表于 03-07 14:44 ?654次閱讀
    大<b class='flag-5'>語(yǔ)言</b>模型(LLMs)如何處理<b class='flag-5'>多語(yǔ)言</b>輸入問(wèn)題

    穩(wěn)中創(chuàng)新?產(chǎn)業(yè)升級(jí)?高質(zhì)量發(fā)展 | 聯(lián)誠(chéng)發(fā)高質(zhì)量發(fā)展工作推進(jìn)會(huì)議召開(kāi)

    2月21日下午,聯(lián)誠(chéng)發(fā)LCF以“穩(wěn)中創(chuàng)新?產(chǎn)業(yè)升級(jí)?高質(zhì)量發(fā)展”為主題的企業(yè)高質(zhì)量發(fā)展工作推進(jìn)大會(huì)在聯(lián)誠(chéng)發(fā)深圳總部隆重召開(kāi)。擂起奮進(jìn)催征的戰(zhàn)鼓,爭(zhēng)分奪秒搶抓寶貴春光,明確企業(yè)重點(diǎn)目標(biāo)任務(wù),全力以赴
    的頭像 發(fā)表于 02-22 11:33 ?486次閱讀
    穩(wěn)中創(chuàng)新?產(chǎn)業(yè)升級(jí)?<b class='flag-5'>高質(zhì)量</b>發(fā)展 | 聯(lián)誠(chéng)發(fā)<b class='flag-5'>高質(zhì)量</b>發(fā)展工作推進(jìn)會(huì)議召開(kāi)

    捷易科技出席廣東省韶關(guān)市高質(zhì)量發(fā)展大會(huì)

    ABSTRACT摘要2月19日,2024年韶關(guān)市高質(zhì)量發(fā)展招商大會(huì)在韶關(guān)舉行,來(lái)自政府、科技、企業(yè)各界專(zhuān)家代表共同探討韶關(guān)高質(zhì)量發(fā)展。捷易科技總經(jīng)理韓運(yùn)恒出席大會(huì)。JAEALOT2024年2月19日
    的頭像 發(fā)表于 02-22 08:25 ?509次閱讀
    捷易科技出席廣東省韶關(guān)市<b class='flag-5'>高質(zhì)量</b>發(fā)展大會(huì)

    為工業(yè) 4.0 工廠(chǎng)的大規(guī)模定制、高質(zhì)量和可持續(xù)運(yùn)營(yíng)提供支持

    作者:Jeff Shepard 投稿人:DigiKey 北美編輯 對(duì)于工業(yè) 4.0 自動(dòng)化制造系統(tǒng)的設(shè)計(jì)人員來(lái)說(shuō),利用高質(zhì)量和可持續(xù)的生產(chǎn)流程來(lái)支持大規(guī)模定制可能具有一定挑戰(zhàn)性。他們需要在各種有線(xiàn)
    的頭像 發(fā)表于 02-13 14:31 ?690次閱讀
    為工業(yè) 4.0 工廠(chǎng)的<b class='flag-5'>大規(guī)模</b>定制、<b class='flag-5'>高質(zhì)量</b>和可持續(xù)運(yùn)營(yíng)提供支持