電子發(fā)燒友網(wǎng)>電子資料下載>電子資料>視障人士和盲人的圖像說明

視障人士和盲人的圖像說明

2072260 2023-06-12 | zip | 0.00 MB | 次下載 | 免費

資料介紹

描述

盲人和視障人士經(jīng)常遇到各種社會經(jīng)濟挑戰(zhàn)，這些挑戰(zhàn)可能會阻礙他們獨立生活和充分參與社會的能力。然而，機器學(xué)習(xí)的出現(xiàn)為輔助技術(shù)的發(fā)展開辟了新的可能性。在這項研究中，我們利用圖像字幕和文本轉(zhuǎn)語音技術(shù)創(chuàng)建了一種設(shè)備，可以幫助視力受損或失明的人。圖像字幕與文字轉(zhuǎn)語音技術(shù)相結(jié)合，可以為視障人士和盲人提供幫助。

此外，我想分享我使用TensorRT優(yōu)化深度學(xué)習(xí)模型以縮短其推理時間的經(jīng)驗。有關(guān)詳細信息，請參閱 TechRxiv 上的預(yù)印本，標題為：適用于視障人士和盲人的圖像字幕：低資源語言的秘訣。

為簡單起見，我們假設(shè)一切都已安裝。

隨著單板計算機 (SBC) 越來越流行用于運行 AI 和深度學(xué)習(xí)項目，有些甚至專門設(shè)計用于運行 AI 和深度學(xué)習(xí)項目。我們使用來自SeeedStudio (@seeedstudio)的 reComputer NVIDIA Jetson Xavier NX作為我們系統(tǒng)的大腦。reComputer J20 配備 Jetson Xavier NX，可提供高達 21 TOPS 的性能，使其成為嵌入式和邊緣系統(tǒng)中高性能計算和 AI 的理想選擇。

NVIDIA Jetson 設(shè)備緊湊且節(jié)能，能夠?qū)崟r執(zhí)行機器學(xué)習(xí)算法。然而，在這些內(nèi)存有限的設(shè)備上部署復(fù)雜的深度學(xué)習(xí)模型可能很困難。為了克服這個問題，我們使用了TensorRT等推理優(yōu)化工具，它使我們能夠通過減少內(nèi)存占用來在邊緣設(shè)備上執(zhí)行深度學(xué)習(xí)模型。

圖像描述模型部署管道

我們使用流行的 Microsoft COCO 2014 (COCO) 基準數(shù)據(jù)集來訓(xùn)練ExpansionNet v2圖像描述模型。該數(shù)據(jù)集由 123, 287 張圖像組成，每張圖像都有五個人工注釋的說明，總共有超過 600, 000 個圖像-文本對。我們將數(shù)據(jù)集拆分為訓(xùn)練（113、287 張圖像）、驗證（5、000 張圖像）和測試（5、000 張圖像）集，使用Karpathy拆分策略進行離線評估。為了生成哈薩克語的字幕，我們使用免費提供的谷歌翻譯服務(wù)翻譯了原始的英文字幕。

為了訓(xùn)練哈薩克語字幕的模型，我們遵循了ExpansioNet v2的原始工作中定義的模型架構(gòu)。預(yù)訓(xùn)練的 Swin Transformer 被用作骨干網(wǎng)絡(luò)，從輸入圖像生成視覺特征。該模型在Nvidia DGX-2 服務(wù)器的四個 V100 圖形處理單元 (GPU) 上進行訓(xùn)練。

最后，圖像字幕模型 ExpansionNet v2 部署在 Nvidia Jetson Xavier NX 板上。按下按鈕觸發(fā)相機捕捉分辨率為 640 × 480 像素的 RGB 圖像。然后，將捕獲的圖像調(diào)整為 384 × 384 并傳遞給 ExpansionNet v2 模型以生成說明。接下來，使用文本到語音模型將生成的字幕文本轉(zhuǎn)換為音頻。在我們的研究中，我們利用KazakhTTS模型將哈薩克文本轉(zhuǎn)換為語音。最后，生成的音頻通過用戶的耳機播放，使盲人或視障人士能夠理解他們面前的內(nèi)容。

ONNX 概述

來源：https://developer-blogs.nvidia.com/wp-content/uploads/2021/07/onnx-workflow.png

ONNX 是一種用于機器學(xué)習(xí)和深度學(xué)習(xí)模型的開放格式。它允許您將來自不同框架（例如 TensorFlow、PyTorch、MATLAB、Caffe 和 Keras）的深度學(xué)習(xí)和機器學(xué)習(xí)模型轉(zhuǎn)換為單一格式。

該工作流程包括以下步驟：

將常規(guī) PyTorch 模型文件轉(zhuǎn)換為 ONNX 格式。ONNX 轉(zhuǎn)換腳本可在此處獲得。
使用 trtexec 實用程序創(chuàng)建 TensorRT 引擎

trtexec --onnx=./model.onnx --saveEngine=./model_fp32.engine --workspace=200

從 TensorRT 引擎運行推理。

使用 TensorRT 進行推理優(yōu)化

TensorRT 是 NVIDIA 開發(fā)的高性能深度學(xué)習(xí)推理引擎。它優(yōu)化神經(jīng)網(wǎng)絡(luò)模型并生成可在 NVIDIA GPU 上運行的高度優(yōu)化的推理引擎。TensorRT 使用靜態(tài)和動態(tài)優(yōu)化的組合來實現(xiàn)高性能，包括層融合、內(nèi)核自動調(diào)整和精度校準。

另一方面，PyTorch 是一種流行的深度學(xué)習(xí)框架，廣泛用于研究和開發(fā)。PyTorch 提供了一個動態(tài)計算圖，允許用戶動態(tài)定義和修改他們的模型，這使得嘗試不同的架構(gòu)和訓(xùn)練方法變得容易。