這篇文章是為了幫助初學者開發(fā)社區(qū),尤其是那些對計算機視覺和計算機科學不熟悉的人。NVIDIA 認識到,通過計算機視覺和人工智能解決并受益于世界的視覺計算挑戰(zhàn)需要我們所有人。NVIDIA 很高興與 人工智能中的黑人女性 合作,并將此帖子獻給 人工智能中的黑人女性 。
計算機視覺在現(xiàn)實世界中的應(yīng)用越來越廣泛,其應(yīng)用也越來越具有挑戰(zhàn)性,并且正在改變其意義。計算機視覺已經(jīng)以某種形式存在了幾十年,它正在成為一個越來越常見的短語,遍布世界各地和各個行業(yè):計算機視覺系統(tǒng)、計算機視覺軟件、計算機視覺硬件、計算機視覺開發(fā)、計算機視覺管道、計算機視覺技術(shù)。
什么是計算機視覺?
無論從字面上還是比喻上看,計算機視覺的術(shù)語和領(lǐng)域都超出了人們的想象。在特定的非人工智能實例中,計算機視覺也被稱為 vision AI 和傳統(tǒng)圖像處理,在制造業(yè)和工業(yè)用例中也被稱為 machine vision 。
簡言之,計算機視覺使包括筆記本電腦、智能手機、自動駕駛汽車、機器人、無人機、衛(wèi)星和 x 光機在內(nèi)的設(shè)備能夠感知、處理、分析和解釋數(shù)字圖像和視頻中的數(shù)據(jù)。
換句話說,計算機視覺從根本上將圖像數(shù)據(jù)或圖像數(shù)據(jù)集作為輸入,包括視頻的靜止圖像和運動幀,無論是錄制的還是來自實時攝像機的。計算機視覺使設(shè)備能夠像人類視覺系統(tǒng)一樣擁有和使用類似人類的視覺功能。在人類視覺中,你的眼睛實時地將你周圍的物理世界感知為不同的光反射。
類似地,計算機視覺設(shè)備感知圖像和視頻的像素,檢測模式并解釋可用于進一步分析或決策的圖像輸入。從這個意義上說,計算機視覺“看到”就像人類視覺一樣,并使用智能和計算能力來處理輸入的視覺數(shù)據(jù),以輸出有意義的見解,就像機器人探測并避開其路徑上的障礙物一樣。
不同的計算機視覺任務(wù)模擬人類視覺系統(tǒng),執(zhí)行、自動化和增強與人類視覺系統(tǒng)類似的功能。
計算機視覺與其他形式的人工智能有何關(guān)聯(lián)?
計算機視覺有助于教授和掌握視覺,就像對話人工智能在識別、翻譯和描述文本(我們用來定義和描述周圍物理世界的詞語)的應(yīng)用中,有助于通過語音教授和掌握聲音的感覺。
同樣,計算機視覺通過數(shù)字圖像和視頻幫助教授和掌握視覺。更廣泛地說,術(shù)語 computer vision 還可用于描述設(shè)備傳感器(通常為攝像頭)在檢測、跟蹤和識別圖像中的對象或圖案的應(yīng)用中如何感知和作為視覺系統(tǒng)工作。
多模態(tài)對話人工智能將對話人工智能的功能與多媒體會議應(yīng)用中的計算機視覺相結(jié)合,例如 NVIDIA Maxine 。
計算機視覺還可以廣泛用于描述其他類型的傳感器,如光探測和測距( LiDAR )和無線電探測和測距(雷達)如何感知物理世界。在自動駕駛汽車中,計算機視覺用于描述激光雷達和雷達傳感器如何工作,通常與攝像頭一起工作,以識別和分類人、物體和碎片。
有哪些常見任務(wù)?
雖然計算機視覺任務(wù)涵蓋了廣泛的感知能力,而且列表還在不斷增長,但最新的技術(shù)支持并幫助解決涉及檢測、分類、分割和圖像合成的用例。
檢測任務(wù)定位并有時跟蹤圖像中存在的對象。例如,在數(shù)字病理醫(yī)療領(lǐng)域,檢測可能涉及通過醫(yī)學成像識別癌細胞。在機器人技術(shù)領(lǐng)域,軟件開發(fā)人員正在使用目標檢測來避開工廠地板上的障礙物。
分類技術(shù)確定視覺數(shù)據(jù)中存在的對象。例如,在制造業(yè)中,物體識別系統(tǒng)將不同類型的瓶子分類包裝。在農(nóng)業(yè)領(lǐng)域,農(nóng)民們正在使用分類來識別作物中的雜草。
分割任務(wù)對屬于某一類別的像素進行分類,可以按像素單獨分類(語義圖像分割),也可以將同一類別的多個對象類型指定為單個實例(實例圖像分割)。例如,自動駕駛汽車將道路場景的一部分分割為可駕駛空間和非可駕駛空間。
圖像合成技術(shù)通過變形現(xiàn)有數(shù)字圖像以包含所需內(nèi)容來創(chuàng)建合成數(shù)據(jù)。生成性對抗網(wǎng)絡(luò)( GAN ),比如 EditGAN ,能夠從文本描述和現(xiàn)有的風景和人物圖像中生成合成視覺信息。使用合成數(shù)據(jù)來補充和模擬真實數(shù)據(jù)是物流領(lǐng)域一個新興的計算機視覺用例,它將視覺 AI 用于智能庫存控制等應(yīng)用。
什么是不同類型的計算機視覺?
為了理解計算機視覺中的不同領(lǐng)域,理解計算機視覺任務(wù)所基于的技術(shù)是很重要的。大多數(shù)計算機視覺技術(shù)都是從一個模型或數(shù)學算法開始的,它執(zhí)行特定的基本操作、任務(wù)或組合。雖然我們將傳統(tǒng)的圖像處理和基于人工智能的計算機視覺算法分別進行分類,但大多數(shù)計算機視覺系統(tǒng)依賴于一種組合,這取決于用例、復雜性和所需的性能。
傳統(tǒng)的計算機視覺
傳統(tǒng)的、基于非深度學習的計算機視覺可以指計算機視覺和圖像處理技術(shù)。
在傳統(tǒng)的計算機視覺中,一組特定的指令執(zhí)行特定的任務(wù),比如檢測圖像中的角點或邊緣,以識別建筑物圖像中的窗口。
另一方面,圖像處理對圖像執(zhí)行特定操作,然后可以使用視覺算法對圖像進行進一步處理。例如,您可能希望平滑或壓縮圖像的像素以供顯示,或減小其整體大小。這可以比作彎曲進入眼睛的光線來調(diào)整焦點或視野。圖像處理的其他示例包括調(diào)整、轉(zhuǎn)換、重新縮放和扭曲輸入圖像。
基于人工智能的計算機視覺
基于人工智能的計算機視覺或視覺人工智能依賴于經(jīng)過視覺數(shù)據(jù)訓練的算法來完成特定任務(wù),而不是像圖像處理那樣的編程、硬編碼指令。
前面提到的檢測、分類、分割和合成任務(wù)通常都是基于人工智能的計算機視覺算法,因為它們可以實現(xiàn)準確性和魯棒性。在許多情況下,基于人工智能的計算機視覺算法可以在這兩個性能指標方面優(yōu)于傳統(tǒng)算法。
基于人工智能的計算機視覺算法通過學習和適應(yīng)視覺數(shù)據(jù)輸入,更緊密地模擬人類視覺系統(tǒng),使其在大多數(shù)情況下成為計算機視覺模型的首選。這就是說,基于人工智能的計算機視覺算法需要大量數(shù)據(jù),數(shù)據(jù)的質(zhì)量直接驅(qū)動模型輸出的質(zhì)量。但是,性能超過了成本。
基于人工智能的神經(jīng)網(wǎng)絡(luò)自學,這取決于算法的訓練數(shù)據(jù)。基于人工智能的計算機視覺就像是從經(jīng)驗中學習,并根據(jù)上下文做出預測,而不是明確的方向。學習過程類似于當你的眼睛看到一個不熟悉的物體,大腦試圖學習它是什么,并將其存儲起來以備將來預測。
基于人工智能的計算機視覺中機器學習與深度學習的比較
機器學習計算機視覺是一種基于人工智能的計算機視覺。基于人工智能的基于機器學習的計算機視覺具有人工神經(jīng)網(wǎng)絡(luò)或?qū)?,類似于人腦中的神經(jīng)網(wǎng)絡(luò)或?qū)?,用于連接和傳輸有關(guān)攝取的視覺數(shù)據(jù)的信號。在機器學習中,計算機視覺神經(jīng)網(wǎng)絡(luò)具有獨立且不同的層,明確定義層之間的連接,以及視覺數(shù)據(jù)傳輸?shù)念A定義方向。
基于深度學習的計算機視覺模型是基于機器學習的計算機視覺的一個子集。深度學習中的“深度”源于神經(jīng)網(wǎng)絡(luò)的深度或?qū)訑?shù)。通常,三層或三層以上的神經(jīng)網(wǎng)絡(luò)被認為是深層次的。
基于人工智能的基于深度學習的計算機視覺是基于大量數(shù)據(jù)進行訓練的。數(shù)十萬、數(shù)以百萬計的數(shù)字圖像被用來訓練和開發(fā)深層神經(jīng)網(wǎng)絡(luò)模型,這種情況并不少見。
開始開發(fā)計算機視覺
既然我們已經(jīng)介紹了計算機視覺的基礎(chǔ)知識,我們鼓勵您開始開發(fā)計算機視覺。我們建議初學者開始使用 視覺編程接口( VPI )計算機視覺和圖像處理庫 進行非人工智能算法或 TAO 工具包完全可操作、隨時可用、經(jīng)過預訓練的人工智能模型 。
關(guān)于作者
邁克爾·布恩是NVIDIA 自動駕駛汽車和計算機視覺的產(chǎn)品營銷經(jīng)理。在 2019 冠狀病毒疾病流行的米迦勒,他開始了一個有執(zhí)照的專業(yè)工程師的職業(yè)生涯,從交通基礎(chǔ)設(shè)施咨詢中逐漸進入了新的技術(shù)領(lǐng)域。在他的當前角色,米迦勒合作在NVIDIA 的團隊,開發(fā)和定位令人興奮的技術(shù)解決方案,在人工智能和深入學習的計算機視覺應(yīng)用的醫(yī)療保健( CuCIM ),定義自主車輛平臺(驅(qū)動器),并支持啟用 NVIDIA 計算機視覺和圖像處理庫視覺編程接口( VPI )社區(qū)。 Michael 與研究、工程、產(chǎn)品和活動團隊合作,分享、開發(fā)和交付下一代技術(shù)。
Sandeep Hiremath 是NVIDIA 計算機視覺的首席技術(shù)產(chǎn)品經(jīng)理。他是一位經(jīng)驗豐富的產(chǎn)品領(lǐng)導者,專長于計算機視覺、機器學習和嵌入式系統(tǒng)領(lǐng)域。在NVIDIA ,他負責為汽車、醫(yī)療保健、機器人和研究領(lǐng)域的開發(fā)人員提供一組計算機視覺和圖像處理解決方案的產(chǎn)品愿景和戰(zhàn)略。在 MathWorks 的前一份工作中,他在十多年中擔任了多個面向客戶的角色,涉及客戶成功、宣傳,以及為學術(shù)界、機器人和嵌入式視覺領(lǐng)域的 MATLAB 用戶提供營銷解決方案。
Ona Ogbona 是 NVIDIA 的高級系統(tǒng)安全工程師,致力于開發(fā)自動駕駛解決方案。她的職責包括客戶參與、產(chǎn)品開發(fā)、系統(tǒng)和安全流程交付,以確保自動駕駛汽車的安全交付。在之前的 ZF 工作中,她為乘用車和卡車開發(fā)了轉(zhuǎn)向電子設(shè)備,發(fā)揮了功能性安全作用,成功地實現(xiàn)了車輛道路釋放。在加入汽車行業(yè)之前, Ona 一直在陸地和深水石油和天然氣行業(yè)發(fā)揮作用。 Ona 是特許工程師(曾)和工程技術(shù)學會( MIET )成員。
審核編輯:郭婷
-
NVIDIA
+關(guān)注
關(guān)注
14文章
4989瀏覽量
103074 -
計算機
+關(guān)注
關(guān)注
19文章
7494瀏覽量
87980 -
深度學習
+關(guān)注
關(guān)注
73文章
5503瀏覽量
121175
發(fā)布評論請先 登錄
相關(guān)推薦
評論