久久国内精品视频,久久久久久无码中文,插插无码视频大全不卡网站

本文提出了一種適用于任意數(shù)據(jù)模態(tài)的自監(jiān)督學(xué)習(xí)數(shù)據(jù)增強(qiáng)技術(shù)。

自監(jiān)督學(xué)習(xí)算法在自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)等領(lǐng)域取得了重大進(jìn)展。這些自監(jiān)督學(xué)習(xí)算法盡管在概念上是通用的，但是在具體操作上是基于特定的數(shù)據(jù)模態(tài)的。這意味著需要為不同的數(shù)據(jù)模態(tài)開(kāi)發(fā)不同的自監(jiān)督學(xué)習(xí)算法。為此，本文提出了一種通用的數(shù)據(jù)增強(qiáng)技術(shù)，可以應(yīng)用于任意數(shù)據(jù)模態(tài)。相較于已有的通用的自監(jiān)督學(xué)習(xí)，該方法能夠取得明顯的性能提升，同時(shí)能夠代替一系列為特定模態(tài)設(shè)計(jì)的復(fù)雜的數(shù)據(jù)增強(qiáng)方式并取得與之類似的性能。

論文地址：https://arxiv.org/abs/2212.08663

代碼：https://github.com/microsoft/random_quantize

簡(jiǎn)介當(dāng)前 Siamese 表征學(xué)習(xí) / 對(duì)比學(xué)習(xí)需要利用數(shù)據(jù)增強(qiáng)技術(shù)來(lái)構(gòu)建同一個(gè)數(shù)據(jù)的不同樣本，并將其輸入兩個(gè)并行的網(wǎng)絡(luò)結(jié)構(gòu)，從而產(chǎn)生足夠強(qiáng)的監(jiān)督信號(hào)。然而這些數(shù)據(jù)增強(qiáng)技術(shù)往往非常依賴于模態(tài)特定的先驗(yàn)知識(shí)，通常需要手動(dòng)設(shè)計(jì)或者搜索適用于當(dāng)前模態(tài)的最佳組合。除了耗時(shí)耗力外，找到的最優(yōu)數(shù)據(jù)增強(qiáng)方式也極難遷移到別的領(lǐng)域。例如，常見(jiàn)的針對(duì)于自然 RGB 圖像的顏色抖動(dòng)（color jittering）無(wú)法應(yīng)用于除了自然圖像以外的其他數(shù)據(jù)模態(tài)。

一般性地，輸入數(shù)據(jù)可以被表征為由序列維度（sequential）和通道維度（channel）組成的二維向量。其中序列維度通常是模態(tài)相關(guān)的，例如圖像上的空間維度、語(yǔ)音的時(shí)間維度以及語(yǔ)言的句法維度。而通道維度是模態(tài)無(wú)關(guān)的。在自監(jiān)督學(xué)習(xí)中，masked modeling ［1］或者以 masking 作為數(shù)據(jù)增強(qiáng) ［2］已經(jīng)成為一種有效的學(xué)習(xí)方式。然而這些操作都作用于序列維度。為了能夠廣泛應(yīng)用于不同數(shù)據(jù)模態(tài)，本文提出一種作用于通道維度的數(shù)據(jù)增強(qiáng)手段：隨機(jī)量化（randomized quantization）。每個(gè)通道中的數(shù)據(jù)通過(guò)非均勻量化器進(jìn)行動(dòng)態(tài)量化，量化值是從隨機(jī)劃分的區(qū)間中隨機(jī)采樣的。通過(guò)這種方式，落在同一個(gè)區(qū)間內(nèi)原始輸入的信息差被刪除，同時(shí)不同區(qū)間數(shù)據(jù)的相對(duì)大小被保留，從而達(dá)到 masking 的效果。

該方法在各種不同數(shù)據(jù)模態(tài)上超過(guò)了已有任意模態(tài)自監(jiān)督學(xué)習(xí)方法，包括自然圖像、3D 點(diǎn)云、語(yǔ)音、文本、傳感器數(shù)據(jù)、醫(yī)療圖像等。在多種預(yù)訓(xùn)練學(xué)習(xí)任務(wù)中，例如對(duì)比學(xué)習(xí)（例如 MoCo-v3）和自蒸餾自監(jiān)督學(xué)習(xí)（例如 BYOL）都學(xué)到了比已有方法更優(yōu)的特征。該方法還經(jīng)過(guò)驗(yàn)證，適用于不同的骨干網(wǎng)絡(luò)結(jié)構(gòu)，例如 CNN 和 Transformer。

方法

量化（Quantization）指的是利用一組離散的數(shù)值表征連續(xù)數(shù)據(jù)，以便于數(shù)據(jù)的高效存儲(chǔ)、運(yùn)算以及傳輸。然而，一般的量化操作的目標(biāo)是在不損失精確度的前提下壓縮數(shù)據(jù)，因而該過(guò)程是確定性的，而且是設(shè)計(jì)為與原數(shù)據(jù)盡量接近的。這就限制了其作為增強(qiáng)手段的強(qiáng)度和輸出的數(shù)據(jù)豐富程度。

本文提出一種隨機(jī)量化操作（randomized quantization），將輸入的每個(gè) channel 數(shù)據(jù)獨(dú)立劃分為多個(gè)互不重疊的隨機(jī)區(qū)間（

），并將落在各個(gè)區(qū)間內(nèi)的原始輸入映射到從該區(qū)間內(nèi)隨機(jī)采樣的一個(gè)常數(shù)。

隨機(jī)量化作為自監(jiān)督學(xué)習(xí)任務(wù)中 masking 通道維度數(shù)據(jù)的能力取決于以下三個(gè)方面的設(shè)計(jì)：1）隨機(jī)劃分?jǐn)?shù)值區(qū)間；2）隨機(jī)采樣輸出值以及 3）劃分的數(shù)值區(qū)間個(gè)數(shù)。

具體而言，隨機(jī)的過(guò)程帶來(lái)了更加豐富的樣本，同一個(gè)數(shù)據(jù)每次執(zhí)行隨機(jī)量化操作都可以生成不同的數(shù)據(jù)樣本。同時(shí)，隨機(jī)的過(guò)程也帶來(lái)對(duì)原始數(shù)據(jù)更大的增強(qiáng)力度，例如隨機(jī)劃分出大的數(shù)據(jù)區(qū)間，或者當(dāng)映射點(diǎn)偏離區(qū)間中值點(diǎn)時(shí)，都可以導(dǎo)致落在該區(qū)間的原始輸入和輸出之間的更大差異。

除此之外，也可以非常容易地通過(guò)適當(dāng)減少劃分區(qū)間的個(gè)數(shù)，提高增強(qiáng)力度。這樣，當(dāng)應(yīng)用于 Siamese 表征學(xué)習(xí)的時(shí)候，兩個(gè)網(wǎng)絡(luò)分支就可以見(jiàn)到有足夠信息差異的輸入數(shù)據(jù)，從而構(gòu)建足夠強(qiáng)的學(xué)習(xí)信號(hào)，幫助到特征學(xué)習(xí)。下圖可視化了不同數(shù)據(jù)模態(tài)在使用了該數(shù)據(jù)增強(qiáng)方式之后的效果：

實(shí)驗(yàn)結(jié)果

模態(tài) 1：圖像

本文在 ImageNet-1K 數(shù)據(jù)集上評(píng)估了 randomized quantization 應(yīng)用于 MoCo-v3 和 BYOL 的效果，評(píng)測(cè)指標(biāo)為 linear evaluation。當(dāng)作為唯一的數(shù)據(jù)增強(qiáng)方式單獨(dú)使用的時(shí)候，即將本文的 augmentation 應(yīng)用于原始圖像的 center crop，以及和常見(jiàn)的 random resized crop（RRC）配合使用的時(shí)候，該方法都取得了比已有通用自監(jiān)督學(xué)習(xí)方法更好的效果。

相比于已有的針對(duì)圖像數(shù)據(jù)開(kāi)發(fā)的數(shù)據(jù)增強(qiáng)方式，例如 color jittering （CJ），本文的方法有著明顯的性能優(yōu)勢(shì)。同時(shí)，該方法也可以取代 MoCo-v3/BYOL 中一系列復(fù)雜的數(shù)據(jù)增強(qiáng)方式（Full），包括顏色抖動(dòng)（color jittering）、隨機(jī)灰度化（gray scale）、隨機(jī)高斯模糊（Gaussian blur）、隨機(jī)曝光（solarization），并達(dá)到與復(fù)雜數(shù)據(jù)增強(qiáng)方式類似的效果。

模態(tài) 2：3D 點(diǎn)云

本文還在 ModelNet40 數(shù)據(jù)集的分類任務(wù)和 ShapeNet Part 數(shù)據(jù)集的分割任務(wù)上驗(yàn)證了 randomized quantization 相對(duì)于已有自監(jiān)督工作的優(yōu)越性。尤其在下游訓(xùn)練集數(shù)據(jù)量較少的情況下，本文的方法顯著超過(guò)已有點(diǎn)云自監(jiān)督算法。

模態(tài) 3：語(yǔ)音

在語(yǔ)音數(shù)據(jù)集上本文的方法也取得了比已有自監(jiān)督學(xué)習(xí)方法更優(yōu)的性能。本文在六個(gè)下游數(shù)據(jù)集上驗(yàn)證了該方法的優(yōu)越性，其中在最難的數(shù)據(jù)集 VoxCeleb1 上（包含最多且遠(yuǎn)超其他數(shù)據(jù)集的類別個(gè)數(shù)），本文方法取得了顯著的性能提升（5.6 個(gè)點(diǎn)）。

模態(tài) 4：DABS

DABS 是一個(gè)模態(tài)通用自監(jiān)督學(xué)習(xí)的基準(zhǔn)，涵蓋了多種模態(tài)數(shù)據(jù)，包括自然圖像、文本、語(yǔ)音、傳感器數(shù)據(jù)、醫(yī)學(xué)圖像、圖文等。在 DABS 涵蓋的多種不同模態(tài)數(shù)據(jù)上，我們的方法也優(yōu)于已有的任意模態(tài)自監(jiān)督學(xué)習(xí)方式。

阅读全文

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

計(jì)算機(jī)視覺(jué)

計(jì)算機(jī)視覺(jué)

+關(guān)注

關(guān)注
8

文章
1704

瀏覽量
46412
自然語(yǔ)言處理

自然語(yǔ)言處理

+關(guān)注

關(guān)注
1

文章
624

瀏覽量
13880

原文標(biāo)題：ICCV 2023?|?通用數(shù)據(jù)增強(qiáng)技術(shù)！適用于任意數(shù)據(jù)模態(tài)的隨機(jī)量化

文章出處：【微信號(hào)：CVer，微信公眾號(hào)：CVer】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

適用于任意數(shù)據(jù)模態(tài)的自監(jiān)督學(xué)習(xí)數(shù)據(jù)增強(qiáng)技術(shù)

本文提出了一種適用于任意數(shù)據(jù)模態(tài)的自監(jiān)督學(xué)習(xí)數(shù)據(jù)增強(qiáng)技術(shù)

發(fā)表于 09-04 10:07 ?1280次閱讀

是否可以輸入隨機(jī)數(shù)據(jù)集來(lái)生成INT8訓(xùn)練后量化模型？

無(wú)法確定是否可以輸入隨機(jī)數(shù)據(jù)集來(lái)生成 INT8 訓(xùn)練后量化模型。

發(fā)表于 03-06 06:45

請(qǐng)問(wèn)KCL適用于封閉面，這個(gè)封閉面可以自己任意畫的嗎？

請(qǐng)問(wèn)KCL適用于封閉面，這個(gè)封閉面可以自己任意畫的嗎？只要是閉合的都可以嗎？

發(fā)表于 06-10 07:51

適用于Linux的通用庫(kù)

`適用于Linux的通用庫(kù) (適用于Linux的UL)UL for Linux是一個(gè)易于使用的開(kāi)源庫(kù)，其結(jié)構(gòu)類似于MCC的Windows產(chǎn)品（UL庫(kù)）。它支持大多數(shù)流行的MCC USB設(shè)備，并附帶

發(fā)表于 08-31 14:02

易飛揚(yáng)發(fā)布通用液冷光模塊技術(shù)適用于任何規(guī)模和速率的液冷數(shù)據(jù)中心

[中國(guó)，深圳，2021年7月29日]易飛揚(yáng)宣布完成對(duì)于浸沒(méi)型液冷光模塊的技術(shù)研究。該研究成果適用于易飛揚(yáng)研發(fā)的所有數(shù)據(jù)中心光模塊產(chǎn)品，可以為客戶的浸沒(méi)式液冷數(shù)據(jù)中心提供高可靠性和高性價(jià)

發(fā)表于 07-29 10:07

適用于STM32芯片的開(kāi)發(fā)教程

安富萊的論壇上也有很多有關(guān)單片機(jī)方面的有用的資料，大家可以參考。本文不僅適用于STM32芯片的開(kāi)發(fā)，也適用于其它芯片。正文學(xué)習(xí)一款新的芯片，需要大家從官方獲取兩方面的資料，一個(gè)是相關(guān)的技術(shù)文檔，比如參數(shù)手冊(cè)、

發(fā)表于 12-09 06:54

適用于所有atmega328p項(xiàng)目的通用板

描述適用于所有 atmega328p 項(xiàng)目的通用板這個(gè)項(xiàng)目在我們的現(xiàn)實(shí)世界中有很多用途，它用于水位控制器，基于gsm的項(xiàng)目，7段接口，遠(yuǎn)程控制，可連接Nrf24l01模塊和許多其他傳感器

發(fā)表于 08-29 07:43

詳解各種圖像數(shù)據(jù)增強(qiáng)技術(shù)

機(jī)器學(xué)習(xí)或深度學(xué)習(xí)模型的訓(xùn)練的目標(biāo)是成為“通用”模型。這就需要模型沒(méi)有過(guò)度擬合訓(xùn)練數(shù)據(jù)集，或者換句話說(shuō)，我們的模型對(duì)看不見(jiàn)的數(shù)據(jù)有很好的了解。數(shù)據(jù)增

發(fā)表于 10-26 16:29

USB標(biāo)準(zhǔn)適用于哪些應(yīng)用

USB標(biāo)準(zhǔn)適用于哪些應(yīng)用通用串行總線 (USB) 外設(shè)接口已廣泛應(yīng)用于所有個(gè)人計(jì)算平臺(tái)及眾多工業(yè)和基礎(chǔ)設(shè)施平臺(tái)。不過(guò)，與此同時(shí)，人們對(duì)適用于給

發(fā)表于 04-19 14:31 ?1888次閱讀

一種適用于任意余數(shù)基的高性能后向轉(zhuǎn)換結(jié)構(gòu)_楊鵬

一種適用于任意余數(shù)基的高性能后向轉(zhuǎn)換結(jié)構(gòu)_楊鵬

發(fā)表于 01-07 22:23 ?0次下載

一種適用于SoC的瞬態(tài)增強(qiáng)型線性穩(wěn)壓器_張琪

一種適用于SoC的瞬態(tài)增強(qiáng)型線性穩(wěn)壓器_張琪

發(fā)表于 01-07 22:23 ?0次下載

AN4148 適用于 FPS 應(yīng)用的聲音降噪技術(shù)

AN4148 適用于 FPS 應(yīng)用的聲音降噪技術(shù)

發(fā)表于 09-07 17:03 ?9次下載

適用于圖書推薦的數(shù)據(jù)挖掘模型

針對(duì)傳統(tǒng)推薦算法精準(zhǔn)度不高的問(wèn)題，在潛在狄利克雷分布（ LDA）主題挖掘模型的基礎(chǔ)上提出了一種新的適用于圖書推薦（BR）的數(shù)據(jù)挖掘模型-BR_LDA模型。通過(guò)對(duì)目標(biāo)借閱者的歷史借閱數(shù)據(jù)與其他圖書

發(fā)表于 01-04 15:18 ?0次下載

AD2011：低成本，適用于OEM應(yīng)用的3.5位DPM過(guò)時(shí)數(shù)據(jù)表

AD2011：低成本，適用于OEM應(yīng)用的3.5位DPM過(guò)時(shí)數(shù)據(jù)表

發(fā)表于 05-14 13:13 ?11次下載

用于任意排列多相機(jī)的通用視覺(jué)里程計(jì)系統(tǒng)

如何讓多相機(jī)視覺(jué)SLAM系統(tǒng)更易于部署且對(duì)環(huán)境更具魯棒性？本文提出了一種適用于任意排列多相機(jī)的通用視覺(jué)里程計(jì)系統(tǒng)。在KITTI-360和MultiCamData數(shù)據(jù)集上驗(yàn)證了該方法對(duì)于

發(fā)表于 12-13 11:22 ?563次閱讀