數(shù)據(jù)的數(shù)量和變化對(duì)于大多數(shù) ML 模型(例如深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型)的性能非常重要。因此,神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練需要一個(gè)非常大的數(shù)據(jù)集。只有它才能達(dá)到生產(chǎn)就緒模型中預(yù)期的精度。
假設(shè)您有少量可用的數(shù)據(jù)集,不足以訓(xùn)練模型,并且您不知道如何生成具有所需數(shù)據(jù)變體的足夠數(shù)據(jù)集。這正是“數(shù)據(jù)增強(qiáng)”有助于實(shí)現(xiàn)的目標(biāo)。
什么是數(shù)據(jù)增強(qiáng)?
數(shù)據(jù)增強(qiáng)是一種通過(guò)向現(xiàn)有數(shù)據(jù)集添加某些變體并將其添加到原始數(shù)據(jù)集以生成“略微修改和乘法”數(shù)據(jù)來(lái)人為增加數(shù)據(jù)集體積的技術(shù)。您可以獲取數(shù)據(jù)集中的所有可用樣本,并以不同的方式對(duì)其進(jìn)行多次修改,以獲得更大的數(shù)據(jù)集。
數(shù)據(jù)集在模型訓(xùn)練中的重要性
機(jī)器學(xué)習(xí)管道的第一階段是生成或獲取用于訓(xùn)練機(jī)器學(xué)習(xí)模型所需的數(shù)據(jù)集。機(jī)器學(xué)習(xí)模型足夠智能,可以識(shí)別訓(xùn)練的對(duì)象。但是,如果他們不是培訓(xùn)的一部分,他們就不那么聰明,無(wú)法處理不同的場(chǎng)景。
例如,如果訓(xùn)練模型時(shí)所有訓(xùn)練圖像僅在一個(gè)特定方向上對(duì)齊,則它可能無(wú)法識(shí)別水平和/或垂直翻轉(zhuǎn)圖像中的對(duì)象。這樣做的原因是它產(chǎn)生的特征與它在訓(xùn)練期間學(xué)習(xí)的特征不同,即使它們屬于同一個(gè)對(duì)象。
在大多數(shù)情況下,高質(zhì)量數(shù)據(jù)的可用性始終是一個(gè)大問(wèn)題。它可能少量可用,也可能根本不可用。在這種情況下,收集足以達(dá)到所需精度的數(shù)據(jù)集將是一個(gè)挑戰(zhàn)。如果數(shù)據(jù)集的數(shù)量不足或變化程度不高,則可能導(dǎo)致擬合不足或過(guò)度擬合。
為什么數(shù)據(jù)增強(qiáng)很重要?
在機(jī)器學(xué)習(xí)模型中,收集和標(biāo)記數(shù)據(jù)是一個(gè)繁瑣且成本高昂的過(guò)程。數(shù)據(jù)增強(qiáng)可以轉(zhuǎn)換為數(shù)據(jù)集,幫助組織降低運(yùn)營(yíng)成本。同時(shí),它解決了數(shù)據(jù)集大小有限和數(shù)據(jù)變化有限的問(wèn)題。這提高了模型在各種方案中的整體性能。
它是如何工作的?
根據(jù)數(shù)據(jù)集的類型,可以使用不同的數(shù)據(jù)增強(qiáng)技術(shù)。有許多數(shù)據(jù)增強(qiáng)技術(shù)可用于圖像/視頻、音頻和文本數(shù)據(jù)。我們將詳細(xì)探討圖像/視頻數(shù)據(jù)增強(qiáng)方法。
圖像/視頻中的數(shù)據(jù)增強(qiáng)技術(shù)
圖像/視頻將 RGB 信息存儲(chǔ)在 2D 數(shù)組中。主要的數(shù)據(jù)增強(qiáng)技術(shù)可能是改變圖像的方向、改變圖像的分辨率/大小以及改變 RGB(像素)值。
這些選項(xiàng)的不同組合可以導(dǎo)致更多的增強(qiáng)方法。imgaug庫(kù)提供了許多不同的圖像數(shù)據(jù)增強(qiáng)選項(xiàng),如下所示。
算術(shù):-此類操作更改整個(gè)圖像或其某些部分的像素值。加法和乘法選項(xiàng)將像素值相加和相乘一個(gè)隨機(jī)數(shù)(在預(yù)定義范圍內(nèi)生成)。對(duì)于所有像素,此數(shù)字可能相同,對(duì)于相鄰像素,此數(shù)字可能不同。有一些選項(xiàng)可以將隨機(jī)像素或像素簇設(shè)置為常量值。類似的選項(xiàng)是為整個(gè)圖像添加某些噪點(diǎn)。此外,還可以反轉(zhuǎn)像素值
藝術(shù)的:-此類別提供了將圖像樣式轉(zhuǎn)換為卡通圖像的選項(xiàng)
模糊:-此類別提供了不同的選項(xiàng)來(lái)模糊圖像內(nèi)容??赡艿倪x項(xiàng)是GaussianBlur,AverageBlur,MedianBlur,BilateralBlur,MotionBlur,MeanShiftBlur
顏色:-此類操作針對(duì)色彩空間、亮度、色調(diào)和飽和度。色彩空間選項(xiàng)的一個(gè)示例是將 RGB 轉(zhuǎn)換為 HSV,然后將隨機(jī)值(每個(gè)圖像均勻采樣)添加到 Hue 通道,并轉(zhuǎn)換回 RGB。有一些選項(xiàng)可以對(duì)亮度、飽和度和色調(diào)執(zhí)行加法和乘法運(yùn)算。
反差:-此類操作專用于對(duì)比度處理??捎眠x項(xiàng)包括伽馬對(duì)比度、Sigmoid 對(duì)比度、對(duì)數(shù)對(duì)比度、線性對(duì)比度
卷 積:-顧名思義,此類操作與具有預(yù)定義矩陣值的卷積圖像有關(guān)。它提供了更改清晰度、添加浮雕效果和檢測(cè)圖像邊緣的選項(xiàng)
空翻:-這是一個(gè)廣泛使用的選項(xiàng),它具有水平和/或垂直翻轉(zhuǎn)圖像的選項(xiàng)
幾何:-此類操作可以縮放圖像(如放大和縮小),移動(dòng)圖像(水平和/或垂直)并向圖像的另一端添加填充,以及旋轉(zhuǎn)圖像
Imgcorruptlike:-此類選項(xiàng)會(huì)向圖像添加不同的噪點(diǎn),例如高斯噪點(diǎn)、散粒噪點(diǎn)、脈沖噪點(diǎn)、散斑噪點(diǎn)。它還提供不同的圖像模糊選項(xiàng),如高斯模糊、玻璃模糊、散焦模糊、運(yùn)動(dòng)模糊、縮放模糊。此外,還可以應(yīng)用霧、霜、雪和飛濺效果
大?。?此類別的選項(xiàng)執(zhí)行與圖像大小相關(guān)的操作??梢愿鶕?jù)特定的高度和寬度或調(diào)整大小的百分比調(diào)整圖像大小。圖像的裁剪和填充可以應(yīng)用于圖像的特定大小
圖像數(shù)據(jù)增強(qiáng)通過(guò)生成所需級(jí)別的數(shù)據(jù)集,無(wú)疑提高了模型的準(zhǔn)確性。
審核編輯:郭婷
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4776瀏覽量
100945 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8428瀏覽量
132832 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5510瀏覽量
121334
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論