自動(dòng)駕駛、智能制造和監(jiān)控應(yīng)用等機(jī)器視覺應(yīng)用所需的目標(biāo)檢測(cè)依賴于 AI 建模?,F(xiàn)在的目標(biāo)是改進(jìn)模型并簡(jiǎn)化其開發(fā)。
多年來,已經(jīng)引入了許多人工智能模型,包括 YOLO、Faster R-CNN、Mask R-CNN、RetinaNet 等,用于檢測(cè)圖像或視頻信號(hào)、解釋物體并做出適當(dāng)?shù)念A(yù)測(cè)。近年來,AI 轉(zhuǎn)換器模型已成為更好的目標(biāo)檢測(cè)解決方案,值得研究它們的工作原理以及它們與傳統(tǒng)模型相比有哪些優(yōu)勢(shì)。
機(jī)器視覺中的物體檢測(cè) 人眼可以看到物體并快速確定其大小、顏色和深度。此外,大腦可以通過過濾掉背景視覺效果并僅關(guān)注前景物體來判斷物體是什么——運(yùn)動(dòng)中的人、靜止不動(dòng)的動(dòng)物或消防栓。例如,駕駛員將注意力集中在紅綠燈和附近的任何行人上,但會(huì)忽略樹木和山脈等風(fēng)景。理想情況下,在這種情況下,人工智能模型會(huì)采取類似的行動(dòng)。它必須捕獲重要的目標(biāo)對(duì)象并過濾掉背景,并對(duì)對(duì)象進(jìn)行分類。AI 模型必須根據(jù)其訓(xùn)練來預(yù)測(cè)感知到的對(duì)象是什么。
Arm汽車業(yè)務(wù)線高級(jí)產(chǎn)品經(jīng)理Alexander Zyazin表示:“如今,機(jī)器可以通過圖像傳感器和鏡頭‘看到’,這些傳感器和鏡頭通過特殊的圖像信號(hào)處理(ISP)模塊饋送到SoC,幫助清理圖像以滿足機(jī)器視覺需求?!斑@個(gè)ISP模塊的輸出被饋送到加速器或通用CPU,用于對(duì)圖像進(jìn)行進(jìn)一步的預(yù)處理和后處理。
設(shè)計(jì)要求因用例而異?!霸诒O(jiān)控和工廠場(chǎng)景中,機(jī)器視覺可用于與人數(shù)統(tǒng)計(jì)相關(guān)的用例,以便更好地規(guī)劃或發(fā)現(xiàn)工廠生產(chǎn)線中的缺陷,”Zyazin指出?!霸谄囶I(lǐng)域,機(jī)器視覺目前被用于高級(jí)駕駛輔助系統(tǒng)(ADAS),它提供來自幾個(gè)傳感器的輸入,以實(shí)現(xiàn)自動(dòng)緊急制動(dòng)或車道保持輔助等單一功能?!?/p>
技術(shù)進(jìn)步正在為自動(dòng)駕駛汽車鋪平道路,其中所有輸入都由傳感器提供,不需要人工輸入?!叭欢?,這將需要汽車周圍的許多傳感器,產(chǎn)生大量數(shù)據(jù),這些數(shù)據(jù)必須以非常低的延遲進(jìn)行管理和處理,”他說?!皬?a href="http://wenjunhu.com/v/tag/1751/" target="_blank">硬件和軟件的角度來看,這是一個(gè)高度復(fù)雜的系統(tǒng)設(shè)計(jì)。
變壓器架構(gòu)
近年來,引入了新的變壓器模型,包括 Oriented Object Detection with Transformer(O2DETR 研究論文 2021)、DEtection TRansformer(來自 Meta 的 DETR 2020)等。與 Faster R-CNN 等傳統(tǒng)模型相比,transformer 方法具有許多優(yōu)勢(shì),包括更簡(jiǎn)單的設(shè)計(jì)。[本文將使用 Meta 的 DETR 2020 來說明轉(zhuǎn)換器模型的工作原理。開發(fā)人員也可以使用 DETR 訓(xùn)練代碼。
圖1:DETR變壓器模型將其預(yù)測(cè)結(jié)果與真實(shí)值進(jìn)行比較。當(dāng)沒有匹配項(xiàng)時(shí),它將產(chǎn)生“無對(duì)象”。匹配將驗(yàn)證對(duì)象。資料來源:“使用 Transformer 進(jìn)行端到端對(duì)象檢測(cè)”,F(xiàn)acebook AI
大多數(shù)對(duì)象檢測(cè)模型會(huì)進(jìn)行初始預(yù)測(cè),然后對(duì)其進(jìn)行微調(diào)以生成最終預(yù)測(cè)。DETR 使用單通道、端到端目標(biāo)檢測(cè)和 transformer 編碼和解碼。兩個(gè)關(guān)鍵的 DETR 組件是:(1) 一組預(yù)測(cè)損失,它強(qiáng)制預(yù)測(cè)與真實(shí)值之間的匹配,以及 (2) 一種架構(gòu),用于預(yù)測(cè)一組對(duì)象并對(duì)對(duì)象之間的關(guān)系進(jìn)行建模。地面實(shí)況是指地面上的實(shí)際情況,如圖1左側(cè)的圖片所示。在這種情況下,它是兩只獨(dú)立的同一種鳥。如果不“檢查”真實(shí)情況,設(shè)計(jì)不佳的算法最終可能會(huì)預(yù)測(cè)兩只不同的鳥或一只有兩個(gè)頭的鳥。
圖2:DETR變壓器模型。資料來源:“使用 Transformer 進(jìn)行端到端對(duì)象檢測(cè)”,F(xiàn)acebook AI
人腦通過根據(jù)先驗(yàn)知識(shí)處理圖像中的信息來識(shí)別物體。機(jī)器視覺必須學(xué)習(xí)一切并將圖像轉(zhuǎn)換為數(shù)字?jǐn)?shù)據(jù)。如圖 2 所示,卷積神經(jīng)網(wǎng)絡(luò) (CNN) 通常用于處理數(shù)據(jù)。DETR 使用傳統(tǒng)的 CNN 和骨干網(wǎng)來獲取其數(shù)據(jù)。然后,它通過轉(zhuǎn)換器編碼和解碼過程發(fā)送數(shù)據(jù)。最后,數(shù)據(jù)將進(jìn)入一個(gè)共享的前饋網(wǎng)絡(luò) (FFN),該網(wǎng)絡(luò)預(yù)測(cè)對(duì)象檢測(cè)或“無對(duì)象”。
DETR 不是按順序處理這些錨框,而是采用端到端方法,并行處理數(shù)據(jù)。簡(jiǎn)單地說,DETR 著眼于全局并開始做出預(yù)測(cè)。然后,它將小塊與真實(shí)值進(jìn)行比較。如果 DETR “看到”一只鳥的頭,并在地面實(shí)況中找到相同的頭,那么它就知道它有一個(gè)匹配項(xiàng),如圖 1 右側(cè)的黃色框所示。否則,它將產(chǎn)生一個(gè)“無對(duì)象”,如圖 1 右側(cè)的綠色框所示。
此外,DETR 可以在沒有“錨點(diǎn)框”或“非最大值抑制”的情況下處理重疊對(duì)象。
錨點(diǎn)盒用于傳統(tǒng)的目標(biāo)檢測(cè)模型。為了將感興趣的對(duì)象歸零,該算法會(huì)在它們周圍生成框。稍后,它們將用作大小和位置預(yù)測(cè)的參考點(diǎn)。
如果有多個(gè)重疊對(duì)象,會(huì)發(fā)生什么情況?假設(shè)兩只鳥站得很近,一只鳥擋住了第二只鳥的一部分。一個(gè)稱為非極大值抑制的過程用于以最大置信度選擇和預(yù)測(cè)兩只獨(dú)立的鳥,同時(shí)抑制所有其他預(yù)測(cè)。
傳統(tǒng)的 AI 模型使用錨框和非極大值抑制來處理信息。繞過這些步驟使 DETR 比傳統(tǒng)模型更高效。
AI 無處不在,但針對(duì)不同應(yīng)用進(jìn)行了優(yōu)化 使用機(jī)器視覺進(jìn)行對(duì)象檢測(cè)需要 AI 模型/算法在 AI 芯片、FPGA 或模塊上運(yùn)行。它們通常被稱為“人工智能引擎”。在首次訓(xùn)練后,可以部署 AI 模型以在適當(dāng)?shù)挠布线\(yùn)行,以做出預(yù)測(cè)和/或決策,通常稱為“推理”。確保硬件開發(fā)能夠跟上新 AI 模型的創(chuàng)新非常重要。
“如果我們只需要檢測(cè)物體,那么像YOLO這樣的非變壓器模型可能就足夠了,”Flex Logix首席技術(shù)官兼軟件和架構(gòu)高級(jí)副總裁Cheng Wang解釋道。“但我們正在進(jìn)入一個(gè)瞬息萬變的領(lǐng)域。三年前開始用于分類和檢測(cè)目的的 transformer 模型現(xiàn)在是生成式 AI 和生成式 AI 視覺的必要條件。所有這些操作都是我們傳統(tǒng)上在以前的AI硬件或AI芯片中沒有考慮過的事情。
此外,僅僅擁有運(yùn)行基準(zhǔn)測(cè)試的 AI 硬件是遠(yuǎn)遠(yuǎn)不夠的,因?yàn)榛鶞?zhǔn)測(cè)試已經(jīng)有五年的歷史了,軟件模型每隔幾個(gè)月就會(huì)發(fā)生變化。為此,Wang表示,需要eFPGA等AI硬件。它具有軟件適應(yīng)性,可以跟上最新的變壓器型號(hào),這使其具有靈活性。
“換句話說,今天有出色的表現(xiàn)是不夠的,”他說?!澳阈枰屇愕脑O(shè)計(jì)面向未來。”
在許多領(lǐng)域,各種類型的人工智能的使用正在增加。
瑞薩電子執(zhí)行副總裁兼嵌入式處理、數(shù)字電源和信號(hào)鏈解決方案事業(yè)部總經(jīng)理Sailesh Chittipeddi在最近于Semicon West舉行的小組討論中指出,“到75年,2025%的數(shù)據(jù)將來自網(wǎng)絡(luò)的邊緣和端點(diǎn)。它不是在云中生成的。因此,盡管你聽到了所有的炒作,但實(shí)際上,當(dāng)涉及到人工智能時(shí),大多數(shù)活動(dòng)都發(fā)生在端點(diǎn)的邊緣。另一個(gè)有趣的統(tǒng)計(jì)數(shù)據(jù)是,從所有這些設(shè)備進(jìn)入企業(yè)的數(shù)據(jù)中有90%實(shí)際上被丟棄了。所以,有暗數(shù)據(jù)。您可以實(shí)際攔截正在生成的數(shù)據(jù)以使其有用的第一點(diǎn)在哪里?這是端點(diǎn)的邊緣。這實(shí)際上是關(guān)于預(yù)測(cè)網(wǎng)絡(luò)端點(diǎn)邊緣發(fā)生什么的能力,以及什么會(huì)產(chǎn)生巨大的差異。
在考慮計(jì)算時(shí),它通常與微控制器、微處理器、CPU、GPU 有關(guān),盡管最新的嗡嗡聲都是關(guān)于 GPU 以及 GPT3 和 GPT4 正在發(fā)生的事情,以及除此之外發(fā)生的事情。
“但請(qǐng)記住,這些都是大型語言模型,”Chittipeddi說?!按蠖鄶?shù)數(shù)據(jù)集不需要如此強(qiáng)大的處理能力。在端點(diǎn)邊緣所需的數(shù)據(jù)要少得多,通常最終發(fā)生的是需要以非常低的延遲快速處理數(shù)據(jù)。延遲、安全性、能夠在本地處理數(shù)據(jù)的能力,以及能夠使其具有可操作性的能力——這是邊緣的第一點(diǎn)。
從這個(gè)角度來看,處理的分布遠(yuǎn)遠(yuǎn)超出了其傳統(tǒng)市場(chǎng),而人工智能生成的數(shù)據(jù)量以及對(duì)更快結(jié)果的需求是這一轉(zhuǎn)變的關(guān)鍵。
“市場(chǎng)一直非常關(guān)注傳統(tǒng)應(yīng)用,如網(wǎng)絡(luò)、PC和ERP,當(dāng)然,這些市場(chǎng)將繼續(xù)增長(zhǎng),”華邦閃存營(yíng)銷副總裁Alex Wei說。“但人們也在尋找新的應(yīng)用,這些新應(yīng)用將真正引領(lǐng)我們進(jìn)入下一個(gè)時(shí)代。這就是為什么 NVIDIA 在 AI 方面產(chǎn)生了如此多的業(yè)務(wù),以及為什么您會(huì)看到 AMD 緊隨其后推出自己的 GPU。這些新應(yīng)用需要更多的組件,并且所有東西都需要更高的密度。人工智能就像在你的大腦中映射信息。但是,如果你開車,看到有人走在街上,你必須盡量忽略他們才能繞過他們。這就是神經(jīng)學(xué)習(xí),它消耗了大量的內(nèi)存。而這僅僅是個(gè)開始。
圖 3:使用 InferX 編譯器進(jìn)行 DETR 部署。DETR 分為 100 層。InferX編譯器將自動(dòng)最大化快速SRAM訪問,最小化慢速DRAM訪問,并生成用于運(yùn)行每個(gè)層的配置位。來源:Flex Logix
機(jī)器視覺是另一項(xiàng)關(guān)鍵技術(shù),如今人工智能和機(jī)器視覺以多種方式進(jìn)行交互?!笆紫龋瑱C(jī)器視覺輸出被饋送到人工智能引擎,以執(zhí)行人數(shù)統(tǒng)計(jì)、物體識(shí)別等功能,以做出決策,”Arm的Zyazin說?!捌浯?,人工智能用于通過基于人工智能的降噪來提供更高質(zhì)量的圖像,然后協(xié)助決策。例如,在汽車應(yīng)用中,人工智能和機(jī)器視覺的結(jié)合可以更早地識(shí)別限速標(biāo)志并相應(yīng)地調(diào)整速度。
但是,在自動(dòng)駕駛情況下,例如,如果 AI 模型從有缺陷的傳感器接收到相互矛盾的視覺信號(hào),會(huì)發(fā)生什么?最好的規(guī)則是在安全方面犯錯(cuò)。
Synopsys負(fù)責(zé)人工智能和機(jī)器學(xué)習(xí)的副總裁Thomas Andersen表示,在這種情況下,這取決于實(shí)際應(yīng)用及其對(duì)系統(tǒng)故障的嚴(yán)重性?!俺鲇谶@個(gè)原因,需要使用多個(gè)系統(tǒng)來雙重和三重檢查信息。如果發(fā)生沖突,可能很難做出決定。例如,對(duì)于自動(dòng)駕駛汽車來說,如果雷達(dá)傳感器檢測(cè)到物體,而攝像頭卻沒有,人們可能總是會(huì)謹(jǐn)慎行事并自動(dòng)剎車。同時(shí),這種所謂的“幻影制動(dòng)”也可能導(dǎo)致事故。人們應(yīng)該永遠(yuǎn)記住,永遠(yuǎn)不會(huì)有完美的解決方案,人類也會(huì)犯很多錯(cuò)誤。
雖然人工智能模型總體上正在改進(jìn),但人工智能在物體檢測(cè)和預(yù)測(cè)中準(zhǔn)確性的重要性不容忽視。
“就像任何應(yīng)用程序一樣,可接受的誤報(bào)率取決于應(yīng)用程序,”Cadence Tensilica Vision 和 AI DSP 產(chǎn)品管理、營(yíng)銷和業(yè)務(wù)開發(fā)總監(jiān) Amol Borkar 說。對(duì)于消費(fèi)類應(yīng)用,錯(cuò)誤地將人識(shí)別為沙發(fā)并不重要。然而,在汽車應(yīng)用中對(duì)行人的錯(cuò)誤分類或?qū)︶t(yī)療狀況的錯(cuò)誤診斷可能既嚴(yán)重又致命。這更像是一個(gè)人工智能/分類/檢測(cè)問題。人工智能的進(jìn)步在自動(dòng)識(shí)別成像數(shù)據(jù)中的復(fù)雜模式和提供定量而不是定性評(píng)估的射線照相特征方面變得更加準(zhǔn)確。
雖然 Borkar 認(rèn)為 AI 改進(jìn)了很多東西,但他承認(rèn)它確實(shí)在平臺(tái)上增加了更多的計(jì)算要求,例如處理大量卷積和神經(jīng)網(wǎng)絡(luò)層。“為了使基于人工智能的模型運(yùn)行良好,需要大量的合成數(shù)據(jù)來訓(xùn)練和驗(yàn)證模型。更進(jìn)一步,與傳統(tǒng)的基于滾動(dòng)/全局快門的傳感器相比,修改感知堆棧以使用事件攝像機(jī)數(shù)據(jù)可能會(huì)對(duì)最小的運(yùn)動(dòng)提供超敏感度。這可以提高系統(tǒng)精度,并且適用范圍廣泛。與任何AI模型要想運(yùn)行良好一樣,這種方法需要大量數(shù)據(jù)來訓(xùn)練或驗(yàn)證,然后才能進(jìn)入黃金時(shí)段。
安全問題
良好的數(shù)據(jù)對(duì)于獲得良好的結(jié)果至關(guān)重要,保護(hù)數(shù)據(jù)以及處理和存儲(chǔ)數(shù)據(jù)的系統(tǒng)也至關(guān)重要。
機(jī)器視覺系統(tǒng)需要始終得到保護(hù),Synopsys戰(zhàn)略營(yíng)銷經(jīng)理Ron Lowman說?!霸谌斯ぶ悄芘c人工智能的情況下,安全性勢(shì)在必行。硬件威脅分析過去基于不良行為者及其威脅向量,但人工智能可以使攻擊向量和受攻擊的設(shè)備數(shù)量成倍增加,從而使安全成為一切必要。多年來,安全性都是在軟件中完成的,因?yàn)樗阋?。但僅靠軟件安全顯然是不夠的,因此我們已經(jīng)看到了所需的安全標(biāo)準(zhǔn)和硬件信任根 IP 的實(shí)現(xiàn)。PCIe和藍(lán)牙就是很好的例子。就藍(lán)牙而言,有自愿性標(biāo)準(zhǔn)來加密數(shù)據(jù),但沒有人這樣做,因?yàn)橛邢嚓P(guān)的成本。慢慢地,該行業(yè)正在改善這種情況。在PCIe的情況下,采用了一種新的標(biāo)準(zhǔn),將安全性引入通信接口。在很短的時(shí)間內(nèi),這推動(dòng)了大量公司采用PCIe IDE,我們看到這迅速改變了整個(gè)接口IP要求的發(fā)展。
Arteris產(chǎn)品營(yíng)銷副總裁Andy Nightingale對(duì)此表示贊同?!霸谌魏渭夹g(shù)應(yīng)用中,安全性都是必不可少的,機(jī)器視覺也不例外。機(jī)器視覺系統(tǒng)通常涉及敏感數(shù)據(jù)和流程,例如監(jiān)控錄像、醫(yī)學(xué)成像或自動(dòng)駕駛汽車控制,因此安全性尤為重要。
Nightingale指出了在機(jī)器視覺應(yīng)用中安全性至關(guān)重要的四個(gè)領(lǐng)域:
數(shù)據(jù)隱私。機(jī)器視覺系統(tǒng)通常處理大量數(shù)據(jù),包括敏感的個(gè)人或商業(yè)信息。保護(hù)這些數(shù)據(jù)免遭未經(jīng)授權(quán)的訪問或披露至關(guān)重要。這可以通過加密、訪問控制和數(shù)據(jù)匿名化來實(shí)現(xiàn)。
系統(tǒng)完整性。機(jī)器視覺系統(tǒng)可能容易受到操縱或破壞其操作的攻擊。保護(hù)系統(tǒng)組件和數(shù)據(jù)免遭篡改或黑客攻擊至關(guān)重要。這可以通過安全啟動(dòng)、系統(tǒng)強(qiáng)化和入侵檢測(cè)來實(shí)現(xiàn)。
認(rèn)證。機(jī)器視覺系統(tǒng)通常依賴于傳感器、攝像頭和其他容易受到欺騙或冒充攻擊的設(shè)備。確保這些設(shè)備經(jīng)過身份驗(yàn)證至關(guān)重要,系統(tǒng)可以檢測(cè)并防止未經(jīng)授權(quán)的訪問。這可以通過生物識(shí)別身份驗(yàn)證、設(shè)備證書和網(wǎng)絡(luò)分段來實(shí)現(xiàn)。
合規(guī)。機(jī)器視覺系統(tǒng)可能受到與安全和隱私相關(guān)的法規(guī)或行業(yè)特定要求的約束。確保系統(tǒng)設(shè)計(jì)和運(yùn)行符合這些要求至關(guān)重要。這可能涉及風(fēng)險(xiǎn)評(píng)估、審計(jì)跟蹤和數(shù)據(jù)保留策略等技術(shù)。
Nightingale補(bǔ)充道:“在整個(gè)SoC設(shè)計(jì)過程中,應(yīng)使用平臺(tái)安全架構(gòu)(PSA)等行業(yè)標(biāo)準(zhǔn),以及通過終端設(shè)備的部署和操作來解決安全性問題?!巴ㄟ^實(shí)施適當(dāng)?shù)陌踩胧瑱C(jī)器視覺系統(tǒng)可以有效地使用,同時(shí)保護(hù)所涉及的數(shù)據(jù)、方法和個(gè)人?!?/p>
展望未來
隨著人工智能模型的不斷發(fā)展,它們將變得更加高效,就像新興的 transformer 模型一樣。開發(fā)人員需要在未來的設(shè)計(jì)中平衡軟件和硬件。設(shè)計(jì)注意事項(xiàng)中需要包括許多因素,包括靈活的硬件、沖突管理、準(zhǔn)確性和安全性。
“對(duì)于未來的架構(gòu),將有一個(gè)系統(tǒng)級(jí)的機(jī)器視覺視圖,”Synopsys的Lowman說?!靶枰紤]某些權(quán)衡因素,例如,系統(tǒng)成本、分解架構(gòu)中的內(nèi)存可用性,或芯片內(nèi)和芯片外的內(nèi)存帶寬、處理器數(shù)量、不同階段的處理器類型、每個(gè) AI 階段的位寬以及許多其他參數(shù)。這些只能通過復(fù)雜的工具以及可配置和優(yōu)化的 IP(無論是存儲(chǔ)器、接口、安全性還是處理器 IP)進(jìn)行優(yōu)化。
此外,隨著新的人工智能和生成模型的出現(xiàn),機(jī)器視覺將繼續(xù)擴(kuò)展到新的應(yīng)用。
Synopsys的Andersen表示:“機(jī)器視覺有幾個(gè)主要方向,包括用于擴(kuò)展深度學(xué)習(xí)解決方案的云計(jì)算,用于改進(jìn)ML管道的自動(dòng)化ML架構(gòu),優(yōu)化計(jì)算機(jī)視覺(機(jī)器視覺的超集)的Transformer Architecture,以及在邊緣整合計(jì)算機(jī)視覺技術(shù)的移動(dòng)設(shè)備。
— Ann Mutschler 和 Ed Sperling 的補(bǔ)充報(bào)道。
審核編輯:黃飛
評(píng)論
查看更多