0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

使用Node.js在深度學(xué)習(xí)中做圖片預(yù)處理

倩倩 ? 來源:lq ? 作者: SandaG ? 2019-09-20 15:40 ? 次閱讀

背景

最近在做一個(gè)和對(duì)象識(shí)別相關(guān)的項(xiàng)目,由于團(tuán)隊(duì)內(nèi)技術(shù)棧偏向 JavaScript ,在已經(jīng)用 PythonTensorflow 搭建好了對(duì)象識(shí)別服務(wù)器后,為了不再增加團(tuán)隊(duì)成員維護(hù)成本,所以盡可能將訓(xùn)練和識(shí)別之外的任務(wù)交給 Node.js 來做,今天要講到的圖片預(yù)處理就是其中之一。

這里對(duì)還不了解深度學(xué)習(xí)的人就幾個(gè)概念做個(gè)簡(jiǎn)單的解釋。

對(duì)象識(shí)別:對(duì)象識(shí)別可理解為計(jì)算機(jī)在一張圖片中發(fā)現(xiàn)某個(gè)或某些指定的物體,比如找到里面所有的狗。

訓(xùn)練:計(jì)算機(jī)學(xué)會(huì)對(duì)象識(shí)別這個(gè)本領(lǐng)就像人類學(xué)會(huì)說話一樣,需要不斷地練習(xí),深度學(xué)習(xí)中管這個(gè)過程叫做 “訓(xùn)練”。

訓(xùn)練集:人類學(xué)會(huì)說話需要看別人怎么說,聽別人的聲音等等,這些能夠讓自己學(xué)會(huì)說話的信息在深度學(xué)習(xí)中稱為訓(xùn)練集,只不過對(duì)象識(shí)別中需要的訓(xùn)練集只有圖片。

做圖片預(yù)處理的目的是為了解決對(duì)象識(shí)別中訓(xùn)練集不足的問題。當(dāng)對(duì)象識(shí)別應(yīng)用于某個(gè)專用領(lǐng)域的時(shí)候,就會(huì)遇到這個(gè)問題。如果你是識(shí)別一只狗,這樣的圖片一大把,而且有人已經(jīng)訓(xùn)練好了,并且可以提供服務(wù)給大家使用了。如果你是識(shí)別團(tuán)隊(duì)內(nèi)的文化衫,這樣的圖片就太少了,費(fèi)了老半天勁拍 100 張,這樣的數(shù)據(jù)量依然少得可憐。要知道網(wǎng)上那些成熟的 AI 服務(wù),訓(xùn)練集隨隨便便就成千上萬,甚至以億為單位。當(dāng)然,專用領(lǐng)域一般需求也比較簡(jiǎn)單,需要識(shí)別出來的東西種類不多,特征也比較明顯,但是仍然會(huì)希望訓(xùn)練集越大越好,這時(shí)候就可以對(duì)所擁有的圖片做一些處理,來生成新的圖片,從而擴(kuò)充當(dāng)前的訓(xùn)練集,這個(gè)過程就叫圖片預(yù)處理了。

常見的圖片預(yù)處理方式有以下幾種:

旋轉(zhuǎn) 。由于旋轉(zhuǎn)的角度可以是任意值,所以需要隨機(jī)生成一些角度來旋轉(zhuǎn),這又稱為隨機(jī)旋轉(zhuǎn)。

翻轉(zhuǎn) 。相當(dāng)于在圖片旁邊放面鏡子,新圖片就是鏡子內(nèi)的圖片,一般有水平翻轉(zhuǎn)和豎直翻轉(zhuǎn)兩種。

調(diào)節(jié)亮度 。調(diào)節(jié)過手機(jī)的亮度就能體會(huì)這個(gè)意思。

調(diào)節(jié)飽和度 。調(diào)節(jié)過傳統(tǒng)電視就能體會(huì)到這個(gè)意思,飽和度越高,色彩顯示越鮮艷,反之給人一種冷色的感覺。

調(diào)節(jié)色相 。這個(gè)相當(dāng)于給整個(gè)圖片變顏色一樣,想象一下以前調(diào)出來的綠色電視。

調(diào)節(jié)對(duì)比度 。這個(gè)會(huì)讓圖片亮的地方更亮,暗的地方更暗。也可以想象一下電視上的對(duì)比度調(diào)節(jié),不得不說電視機(jī)啟蒙了這些專業(yè)名詞。

上述每項(xiàng)操作都需要視場(chǎng)景而選擇,目前適用于我們團(tuán)隊(duì)的處理方式主要也就是上面這些。還有一些白化、Gamma 處理等操作,由于不是那么直觀,有興趣的人可以自己去了解。

安裝

gm

gm 是一個(gè)圖片處理的 npm 庫,性能在 Node.js 庫中應(yīng)該算佼佼者了,它底層默認(rèn)使用的是 GraphicsMagick ,所以你需要先安裝 GraphicsMagick ,在 Mac 系統(tǒng)中直接用 Homebrew

安裝:

brew install graphicsmagick

其他系統(tǒng)的安裝方式可以直接 前往官網(wǎng) 查看。

如果你需要在圖片上添加文字,還需要安裝 ghostscript ,在 Mac 上可以用

brew install ghostscript

安裝。由于本文沒涉及到這一個(gè)功能,所以可以不用安裝。

同時(shí),需要將 gm 安裝在你的項(xiàng)目下:

npm i gm -S

預(yù)處理

為了直觀,我選了一張圖片作為預(yù)處理對(duì)象:

另外,在本文的示例代碼中,每種預(yù)處理方法的函數(shù)名都是參照 Tensorflow 中 Image

模塊的同名方法而定,更多處理圖片的方法可以 前往 Tensorflow 文檔官網(wǎng) 自行查看,同時(shí)去 gm 官方文檔 中尋找相同作用的方法。

翻轉(zhuǎn)

沿 Y 軸翻轉(zhuǎn)用到了 gm 的 .flip

方法:

import gm from ‘gm’;/*** 沿 Y 軸翻轉(zhuǎn),即上下顛倒 * @param inputPath 輸入的圖像文件路徑 * @param outputPath 輸出的圖像文件路徑 * @param callback 處理后的回調(diào)函數(shù) */function flip(inputPath, outputPath, callback) { gm(inputPath) .flip() .write(outputPath, callback);}

翻轉(zhuǎn)后的效果如下圖所示:

沿 X 軸翻轉(zhuǎn)用到了 gm 的 .flop 方法:

import gm from ‘gm’;/*** 沿 X 軸翻轉(zhuǎn),即上下顛倒 * @param inputPath 輸入的圖像文件路徑 * @param outputPath 輸出的圖像文件路徑 * @param callback 處理后的回調(diào)函數(shù) */function flop(inputPath, outputPath, callback) { gm(inputPath) .flop() .write(outputPath, callback);}

翻轉(zhuǎn)后的效果如下圖所示:

你還可以把 .flip 和 .flop 組合起來使用,形成對(duì)角線翻轉(zhuǎn)的效果:

如果把原圖看成一個(gè)前端組件,即一個(gè)購物按鈕組,里面每個(gè)按鈕的背景可以自定義,按鈕里面由文字、分隔線、文字三種元素組成,那么上面翻轉(zhuǎn)后的圖片是可以看成同一個(gè)組件的,即可以拿來作為訓(xùn)練集。

有時(shí)候,翻轉(zhuǎn)帶來的效果并不是自己想要的,可能翻轉(zhuǎn)后,和原來的圖片就不應(yīng)該視作同一個(gè)東西了,這時(shí)候這種方法就有局限性了。

調(diào)整亮度

相比之后,調(diào)整亮度就顯得更加普適了,無論是什么圖片,調(diào)整亮度后,里面的東西依然還是原來的那個(gè)東西。

調(diào)整亮度用到了 gm 的 .modulate 方法:

/*** 調(diào)整亮度 * @param inputPath 輸入的圖像文件路徑 * @param outputPath 輸出的圖像文件路徑 * @param brightness 圖像亮度的值,基準(zhǔn)值是 100,比 100 高則是增加亮度,比 100 低則是減少亮度 * @param callback 處理后的回調(diào)函數(shù) */function adjustBrightness(inputPath, outputPath, brightness, callback) {gm(inputPath) .modulate(brightness, 100, 100) .write(outputPath, callback);}

.modulate 方法是一個(gè)多功能的方法,可以同時(shí)調(diào)整圖片的亮度、飽和度和色相三種特性,這三種特性分別對(duì)應(yīng)著該方法的三個(gè)參數(shù),這里只調(diào)整亮度,所以只改變第一個(gè)參數(shù)(比 100 高則是增加亮度,比 100 低則是減少亮度),其他保持 100 基準(zhǔn)值不變。

我把亮度從 0 - 200 的圖片都生成了出來,并進(jìn)行了對(duì)比,選出了一個(gè)亮度處理較為合適的區(qū)間??梢钥纯?0 - 200 之間相鄰亮度相差為 10 的圖片之間的差別( 提示:每張圖片的左上角標(biāo)識(shí)出了該圖片的亮度):

可以看到亮度為 60 以下的圖片,都太暗了,細(xì)節(jié)不夠明顯,亮度為 150 以上的圖片,都太亮了,也是細(xì)節(jié)不夠明顯。而經(jīng)過多張圖片綜合對(duì)比之后,我認(rèn)為 [60, 140] 這個(gè)區(qū)間的圖片質(zhì)量比較好,與原圖相比不會(huì)丟失太多細(xì)節(jié)。

再來看看亮度為 50 和 60 的兩張圖片,其實(shí)看起來像是一張圖片一樣,不符合訓(xùn)練集多樣性的原則,更何況是相鄰亮度相差為 1 的兩張圖片。所以最終決定作為訓(xùn)練集的相鄰兩張圖片亮度差為 20,這樣差異就比較明顯,比如亮度為 80 和亮度為 100 的兩張圖片。

最終,調(diào)節(jié)亮度產(chǎn)生的新圖片將會(huì)是 4 張。 從亮度為 60 的圖片開始,每增加 20 亮度就選出來加入訓(xùn)練集,直到亮度為 140 的圖片,其中亮度為 100 的圖片不算。

調(diào)節(jié)飽和度

調(diào)節(jié)飽和度也是用 .modulate 方法,只不過是調(diào)節(jié)第二個(gè)參數(shù):

/*** 調(diào)整飽和度 * @param inputPath 輸入的圖像文件路徑 * @param outputPath 輸出的圖像文件路徑 * @param saturation 圖像飽和度的值,基準(zhǔn)值是 100,比 100 高則是增加飽和度,比 100 低則是減少飽和度 * @param callback 處理后的回調(diào)函數(shù) */function adjustSaturation(inputPath, outputPath, saturation, callback) {gm(inputPath) .modulate(100, saturation, 100) .write(outputPath, callback);}

同樣按調(diào)節(jié)亮度的方法來確定飽和度的范圍以及訓(xùn)練集中相鄰兩張圖片的飽和度相差多少??梢钥纯聪噜忥柡投认嗖顬?10 的圖片之間的差別( 提示:每張圖片的左上角標(biāo)識(shí)出了該圖片的飽和度):

調(diào)節(jié)飽和度的產(chǎn)生的圖片細(xì)節(jié)沒有丟,大多都能夠用作訓(xùn)練集中的圖片,與亮度一樣,飽和度相差 20 的兩張圖片差異性明顯。另外,飽和度大于 140 的時(shí)候,圖片改變就不明顯了。 所以調(diào)節(jié)飽和度產(chǎn)生的新圖片將會(huì)是 6 張。從飽和度為 0 的圖片開始,每增加 20 飽和度就選出來加入訓(xùn)練集,直到飽和度為 140 的圖片,其中飽和度為 100 的圖片不算。

調(diào)節(jié)色相

調(diào)節(jié)色相的方法在此場(chǎng)景下是最有用的方法,產(chǎn)生的訓(xùn)練集最多,率先來看下色相相鄰為 10 的圖片之間的差距吧( 提示:每張圖片的左上角標(biāo)識(shí)出了該圖片的色相):

幾乎每個(gè)圖片都能作為新的訓(xùn)練集,由于色相調(diào)節(jié)范圍只能在 0 - 200 之間, 所以從色相為 0 的圖片開始,每增加 10 色相就選出來加入訓(xùn)練集,直到色相為 190 的圖片,其中色相為 100 的圖片不算。 這樣就能夠產(chǎn)生 20 張圖片作為訓(xùn)練集。

至于調(diào)節(jié)色相的代碼則和亮度、飽和度一樣,只是改變了第三個(gè)參數(shù):

/*** 調(diào)整色相 * @param inputPath 輸入的圖像文件路徑 * @param outputPath 輸出的圖像文件路徑 * @param hue 圖像色相的值,基準(zhǔn)值是 100,比 100 高則是增加色相,比 100 低則是減少色相 * @param callback 處理后的回調(diào)函數(shù) */function adjustHue(inputPath, outputPath, hue, callback) { gm(inputPath) .modulate(100, 100, hue).write(outputPath, callback);}

調(diào)節(jié)色相并不是萬能的,只是適用于這個(gè)場(chǎng)景,當(dāng)然,我們團(tuán)隊(duì)的需求都是類似這個(gè)場(chǎng)景的。但是,如果你要訓(xùn)練識(shí)別梨的人工智能,告訴它有個(gè)藍(lán)色的梨顯然是不合適的。

調(diào)節(jié)對(duì)比度

調(diào)整對(duì)比度用到了 gm 的 .contrast 方法:

/*** 調(diào)整對(duì)比度 * @param inputPath 輸入的圖像文件路徑 * @param outputPath 輸出的圖像文件路徑 * @param multiplier 調(diào)節(jié)對(duì)比度的因子,默認(rèn)是 0,可以為負(fù)值,n 表示增加 n 次對(duì)比度,-n 表示降低 n 次對(duì)比度 * @param callback 處理后的回調(diào)函數(shù) */function adjustContrast(inputPath, outputPath, multiplier, callback) {gm(inputPath) .contrast(multiplier) .write(outputPath, callback);}

下面是對(duì)比度因子從 -10 到 10 之間的圖像,可以看到圖片質(zhì)量較好的區(qū)間是 [-5, 2],其他都會(huì)丟失一些細(xì)節(jié)。另外相鄰對(duì)比度因子的圖片之間的差異也比較明顯,所以每張圖片都可作為訓(xùn)練集,這樣又多出 7 張圖片。

總結(jié)

通過上述 5 種方法,可以在一張圖片的基礎(chǔ)上額外獲得 40 張圖片,即訓(xùn)練集是原來的 40 倍。這還是在沒有多種方法混合使用的情況下,如果混合使用,恐怕幾百倍都不止。

gm

還支持對(duì)圖片進(jìn)行其他處理方式,你可以自己去發(fā)掘,每種方式在特定場(chǎng)景下都有自己的局限性,需要你去甄選。希望大家都有一個(gè)自己滿意的訓(xùn)練集。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1089

    瀏覽量

    40572
  • python
    +關(guān)注

    關(guān)注

    56

    文章

    4807

    瀏覽量

    85037
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5513

    瀏覽量

    121549
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    Bun 1.2震撼發(fā)布:全力挑戰(zhàn)Node.js生態(tài)的JavaScript運(yùn)行時(shí)新星

    了與 Node.js 的兼容性,還為開發(fā)者帶來了內(nèi)置的數(shù)據(jù)庫支持和云服務(wù)集成能力,進(jìn)一步強(qiáng)化了其“全能工具包”的定位。Node.js 兼容性獲得突破性進(jìn)展在此次更新,最引人注目的是 Bun
    的頭像 發(fā)表于 01-24 10:42 ?105次閱讀
    Bun 1.2震撼發(fā)布:全力挑戰(zhàn)<b class='flag-5'>Node.js</b>生態(tài)的JavaScript運(yùn)行時(shí)新星

    使用OpenVINO? ElectronJS創(chuàng)建桌面應(yīng)用程序

    ? 最近,我完成了一個(gè) demo 演示,展示了 OpenVINO Node.js 框架的強(qiáng)大功能。得益于與 Electron.js 的集成,該演示不僅能夠高效地執(zhí)行神經(jīng)網(wǎng)絡(luò)推理,
    的頭像 發(fā)表于 11-25 11:35 ?254次閱讀
    使用OpenVINO? ElectronJS<b class='flag-5'>中</b>創(chuàng)建桌面應(yīng)用程序

    Node.js小科普和Node.js安裝常見管理工具

    Node.js是一個(gè)JavaScript的運(yùn)行環(huán)境,用來執(zhí)行JavaScript代碼。 為什么會(huì)出現(xiàn)這么一個(gè)運(yùn)行環(huán)境呢,從JavaScript研發(fā)初衷可以看出它是為了運(yùn)行在瀏覽器的,讓網(wǎng)頁交互更加
    的頭像 發(fā)表于 11-23 15:37 ?160次閱讀
    <b class='flag-5'>Node.js</b>小科普和<b class='flag-5'>Node.js</b>安裝常見管理工具

    GPU深度學(xué)習(xí)的應(yīng)用 GPUs圖形設(shè)計(jì)的作用

    隨著人工智能技術(shù)的飛速發(fā)展,深度學(xué)習(xí)作為其核心部分,已經(jīng)成為推動(dòng)技術(shù)進(jìn)步的重要力量。GPU(圖形處理單元)深度
    的頭像 發(fā)表于 11-19 10:55 ?723次閱讀

    NPU深度學(xué)習(xí)的應(yīng)用

    設(shè)計(jì)的硬件加速器,它在深度學(xué)習(xí)的應(yīng)用日益廣泛。 1. NPU的基本概念 NPU是一種專門針對(duì)深度學(xué)習(xí)算法優(yōu)化的
    的頭像 發(fā)表于 11-14 15:17 ?887次閱讀

    pcie深度學(xué)習(xí)的應(yīng)用

    深度學(xué)習(xí)模型通常需要大量的數(shù)據(jù)和強(qiáng)大的計(jì)算能力來訓(xùn)練。傳統(tǒng)的CPU計(jì)算資源有限,難以滿足深度學(xué)習(xí)的需求。因此,GPU(圖形處理單元)和TPU
    的頭像 發(fā)表于 11-13 10:39 ?526次閱讀

    FPGA深度學(xué)習(xí)能走多遠(yuǎn)?

    的性能和效率。同時(shí),也可能會(huì)出現(xiàn)一些新的基于 FPGA 的深度學(xué)習(xí)算法創(chuàng)新,拓展其應(yīng)用領(lǐng)域。 ? 應(yīng)用領(lǐng)域的拓展:除了圖像識(shí)別、語音處理
    發(fā)表于 09-27 20:53

    工程師必備!Node.js和常見管理工具介紹(附操作演示)

    語言及其相關(guān)生態(tài)的一些基礎(chǔ)而關(guān)鍵的概念,以及它們是如何在互聯(lián)網(wǎng)歷史浪潮中產(chǎn)生的。一JavaScript與Node.js1JavaScriptJavaScript,即JS
    的頭像 發(fā)表于 08-30 12:34 ?356次閱讀
    工程師必備!<b class='flag-5'>Node.js</b>和常見管理工具介紹(附操作演示)

    ARMxy ARM 物聯(lián)網(wǎng)邊緣計(jì)算網(wǎng)關(guān)支持 Node-RED 用于工業(yè)控制

    惡劣環(huán)境下穩(wěn)定運(yùn)行。豐富的通信接口(如網(wǎng)口、USB、RS485 等)及 WiFi/4G 支持,使網(wǎng)關(guān)能夠靈活適應(yīng)不同網(wǎng)絡(luò)環(huán)境。 Node-RED 是一個(gè)基于 Node.js 的流程編排工具,通過
    的頭像 發(fā)表于 08-19 17:01 ?441次閱讀
    ARMxy ARM 物聯(lián)網(wǎng)邊緣計(jì)算網(wǎng)關(guān)支持 <b class='flag-5'>Node</b>-RED 用于工業(yè)控制

    深度學(xué)習(xí)算法集成電路測(cè)試的應(yīng)用

    隨著半導(dǎo)體技術(shù)的快速發(fā)展,集成電路(IC)的復(fù)雜性和集成度不斷提高,對(duì)測(cè)試技術(shù)的要求也日益增加。深度學(xué)習(xí)算法作為一種強(qiáng)大的數(shù)據(jù)處理和模式識(shí)別工具,集成電路測(cè)試領(lǐng)域展現(xiàn)出了巨大的應(yīng)用潛
    的頭像 發(fā)表于 07-15 09:48 ?1171次閱讀

    機(jī)器學(xué)習(xí)的數(shù)據(jù)預(yù)處理與特征工程

    機(jī)器學(xué)習(xí)的整個(gè)流程,數(shù)據(jù)預(yù)處理與特征工程是兩個(gè)至關(guān)重要的步驟。它們直接決定了模型的輸入質(zhì)量,進(jìn)而影響模型的訓(xùn)練效果和泛化能力。本文將從數(shù)據(jù)預(yù)處理
    的頭像 發(fā)表于 07-09 15:57 ?590次閱讀

    深度學(xué)習(xí)的無監(jiān)督學(xué)習(xí)方法綜述

    深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)重要分支,近年來多個(gè)領(lǐng)域取得了顯著的成果,特別是圖像識(shí)別、語音識(shí)別、自然語言
    的頭像 發(fā)表于 07-09 10:50 ?943次閱讀

    深度學(xué)習(xí)視覺檢測(cè)的應(yīng)用

    深度學(xué)習(xí)是機(jī)器學(xué)習(xí)領(lǐng)域中的一個(gè)重要分支,其核心在于通過構(gòu)建具有多層次的神經(jīng)網(wǎng)絡(luò)模型,使計(jì)算機(jī)能夠從大量數(shù)據(jù)自動(dòng)學(xué)習(xí)并提取特征,進(jìn)而實(shí)現(xiàn)對(duì)復(fù)
    的頭像 發(fā)表于 07-08 10:27 ?874次閱讀

    深度學(xué)習(xí)的模型優(yōu)化與調(diào)試方法

    深度學(xué)習(xí)模型訓(xùn)練過程,往往會(huì)遇到各種問題和挑戰(zhàn),如過擬合、欠擬合、梯度消失或爆炸等。因此,對(duì)深度學(xué)習(xí)
    的頭像 發(fā)表于 07-01 11:41 ?1002次閱讀

    FPGA深度學(xué)習(xí)應(yīng)用或?qū)⑷〈鶪PU

    上漲,因?yàn)槭聦?shí)表明,它們的 GPU 訓(xùn)練和運(yùn)行 深度學(xué)習(xí)模型 方面效果明顯。實(shí)際上,英偉達(dá)也已經(jīng)對(duì)自己的業(yè)務(wù)進(jìn)行了轉(zhuǎn)型,之前它是一家純粹 GPU 和游戲的公司,現(xiàn)在除了作為一家云
    發(fā)表于 03-21 15:19