嵌入式視覺,基于計(jì)算機(jī)的視覺系統(tǒng)的演變和推斷,處理和解釋靜態(tài)和視頻圖像的意義,有望成為下一個(gè)重大技術(shù)成功案例。例如,考慮現(xiàn)在常見于蜂窩電話,平板電腦,膝上型計(jì)算機(jī)和專用計(jì)算機(jī)顯示器中的圖像傳感器和處理器。最初用于視頻會(huì)議和攝影,現(xiàn)在它們被用于其他應(yīng)用,例如增強(qiáng)現(xiàn)實(shí)。
同樣,考慮消費(fèi)者監(jiān)控系統(tǒng)的迅速普及,由于攝像機(jī)及其子系統(tǒng)的穩(wěn)步改進(jìn),以及日益用戶友好的相關(guān)監(jiān)控軟件和服務(wù)的推動(dòng)。此外,最近購(gòu)買汽車的人已經(jīng)知道,圖像傳感器在車輛周圍的許多地方越來(lái)越多地被發(fā)現(xiàn),用于停車輔助,后視安全,即將發(fā)生的碰撞警報(bào),車道偏離警告和其他功能。
前面提到的系統(tǒng)中使用的功能強(qiáng)大且經(jīng)濟(jì)高效的圖像傳感器,處理器,存儲(chǔ)設(shè)備,I/O收發(fā)器和其他IC同樣適用于包含視覺的工業(yè)自動(dòng)化應(yīng)用的開發(fā)人員?;谑謩?shì)的人機(jī)界面在許多方面都是理想的,因此在這種環(huán)境中越來(lái)越普遍。首先,它們很直觀;為什么單擊鼠標(biāo)或按鈕,甚至在觸摸屏上滑動(dòng)手指以翻頁(yè)或在菜單頁(yè)面中移動(dòng),而只需將手掃過空中?
手勢(shì)基于用戶界面的UI還省去了經(jīng)常妨礙基于觸摸的界面的環(huán)境限制;水和其他液體,非導(dǎo)電手套,污垢和細(xì)菌等。然而,第一代運(yùn)動(dòng)實(shí)施,如任天堂? Wii?游戲機(jī)系統(tǒng)所使用的具有其自身的局限性。實(shí)施該方案需要一個(gè)容易丟失,易損壞的手持式控制器。此外,控制器和系統(tǒng)之間的接口(通常通過藍(lán)牙?,ZigBee ?或其他一些RF無(wú)線技術(shù)實(shí)現(xiàn))(如觸摸屏界面)易受功能影響由于環(huán)境EMI導(dǎo)致的性能下降。
相反,請(qǐng)考慮采用圖像傳感器的設(shè)計(jì)。基于視覺的手勢(shì)界面使用人體作為控制器而不是專用的額外硬件,解釋手,手臂和其他身體動(dòng)作。它們具有相對(duì)的EMI免疫力;所有您需要確保的是足夠的操作員到設(shè)備的距離以及足夠的環(huán)境照明。除了基于手勢(shì)的控制,并且與前面提到的計(jì)算機(jī)和手機(jī)一樣,您可以使用面部識(shí)別技術(shù)不僅“解鎖”系統(tǒng)以響應(yīng)有效操作員的面貌,還可以自定義配置系統(tǒng)例如,在任何特定操作員的情況下,登錄到特定的用戶帳戶。他們還可以提供比粗粒度加速度計(jì)或陀螺儀更廣泛的用戶控制選項(xiàng)套件基于動(dòng)作界面。
Kinect案例研究
如果您的系統(tǒng)采用雙圖像傳感器(即立體聲或3-D)排列,您可用的手勢(shì)范圍會(huì)變得更加豐富,不僅包括水平和垂直運(yùn)動(dòng)但也有深度辨別力。立體聲傳感器設(shè)置還使面部識(shí)別軟件能夠更準(zhǔn)確地辨別現(xiàn)實(shí)生活中的人與人的照片。 Microsoft?采用了一種不同的方法,稱為結(jié)構(gòu)光,用Xbox ? 360的Kinect外設(shè)來(lái)識(shí)別深度(參見圖1)。
圖1:微軟用于Xbox 360游戲機(jī)的Kinect外設(shè),已知的嵌入式視覺成功案例(a),結(jié)合了單色和拜耳圖案的全彩色圖像傳感器,以及用于結(jié)構(gòu)光深度識(shí)別的紅外發(fā)射器(b)。 iFixit的進(jìn)一步剖析揭示了其他組件細(xì)節(jié)(c)。 (分別由微軟和iFixit提供)。
Kinect是最著名的嵌入式視覺示例之一,自2011年11月初開始在市場(chǎng)上銷售的前60天銷售800萬(wàn)臺(tái)。它目前還不是一種工業(yè)自動(dòng)化設(shè)備,至少是正式的,盡管黑客的努力已經(jīng)顯著擴(kuò)大了其在游戲機(jī)起源之外的實(shí)用性。微軟計(jì)劃今年推出適用于Windows?7操作系統(tǒng)的官方SDK,以及PC優(yōu)化的產(chǎn)品變體。無(wú)論如何,微軟的設(shè)計(jì)權(quán)衡和決策都具有指導(dǎo)意義其他人開發(fā)基于視覺的用戶界面硬件和軟件。
Chipworks公司和iFixit在產(chǎn)品推出后不久進(jìn)行的Kinect拆解顯示,單色和全彩色圖像傳感器均來(lái)自Aptina。它們相對(duì)通用的VGA分辨率CMOS特性意味著Omnivision等備用電源也是可行的。微軟在Kinect設(shè)計(jì)中包含了一個(gè)紅外發(fā)射器,以便提供一個(gè)已知的 - 照明模式光源,由于其工作頻率,肉眼也是不可見的。然而,這一設(shè)計(jì)決定阻礙了Kinect在陽(yáng)光和其他富含紅外線的環(huán)境中的使用。
單色圖像傳感器與紅外發(fā)射器和PrimeSense源處理SoC協(xié)同工作,輸出QVGA分辨率,通過USB 2.0接口將11位深度圖像映射到Xbox 360,白色像素表示附近的對(duì)象,顏色漸變延伸到藍(lán)色像素(遠(yuǎn))對(duì)象(參見圖2)。 Kinect還提供來(lái)自拜耳濾鏡圖案彩色圖像傳感器的24位插值彩色VGA分辨率圖像,例如,用于捕獲每個(gè)游戲玩家的面部圖像并隨后識(shí)別特定用戶。最后,Kinect采用了四元素陣列麥克風(fēng)配置,可用于精確定位三維空間中特定參與者的聲音,同時(shí)濾除環(huán)境噪聲和其他游戲玩家的聲音。
圖2:PrimeSense開發(fā)的視覺SoC(a)均驅(qū)動(dòng)發(fā)射器用紅外線(b)“繪制”Kinect前面的區(qū)域并處理Kinect VGA分辨率單色圖像傳感器的輸出,創(chuàng)建從近(白)到遠(yuǎn)(藍(lán))距離的物體的每幀深度圖圖像(c) )。 (由PrimeSense提供)。
更簡(jiǎn)單的實(shí)現(xiàn)有時(shí)可以滿足
一些分析公司已經(jīng)獨(dú)立估計(jì)Kinect的材料成本僅為50美元以上,而且該設(shè)備也相當(dāng)大(11“x 3”x 3“)和重量(~4 lbs)。請(qǐng)記住這個(gè)特殊的外圍設(shè)備不僅可以識(shí)別用戶的手勢(shì),還可以成功解決全身運(yùn)動(dòng)捕捉和面部識(shí)別任務(wù),包括識(shí)別用戶的微笑,皺眉,眉毛和其他面部元素的運(yùn)動(dòng),并在屏幕上的用戶頭像。 它也適用于各種操作環(huán)境,從而解釋了紅外發(fā)射器(和相關(guān)的散熱風(fēng)扇),以及單元定向加速度計(jì),電機(jī)和三檔組件。
Kinect需要最大限度地減少其消耗的USB 2.0系統(tǒng)總線帶寬,為其他控制臺(tái)外圍設(shè)備(如網(wǎng)絡(luò)適配器和HD DVD驅(qū)動(dòng)器外圍設(shè)備)保留足夠的備用帶寬。另一方面,它能夠h arness既有自己的處理資源(前面提到過的PrimeSense IC,還有Marvell開發(fā)的和基于ARM?的SoC)和USB2系留游戲機(jī)系統(tǒng)組合的三核六線程3.2 GHz PowerPC?CPU和500 MHz GPU。然而,Kinect的光學(xué)子系統(tǒng)和紅外傳輸方案相結(jié)合,將其保證的近距離可用范圍限制在6英尺(多玩家情況下為8英尺);結(jié)合處理限制,這些因素使得支持Kinect的游戲能夠同時(shí)識(shí)別出幾個(gè)玩家。
在開發(fā)自己的基于嵌入式視覺的基礎(chǔ)上,記住微軟團(tuán)隊(duì)的這些權(quán)衡取舍設(shè)計(jì)。例如,如果不需要語(yǔ)音識(shí)別,您可以省去麥克風(fēng)陣列,或者如果不太穩(wěn)健的源位置和噪聲抑制方案足夠,則可以將其簡(jiǎn)化為單麥克風(fēng)或雙麥克風(fēng)設(shè)置。您可能需要手勢(shì)配置才能準(zhǔn)確響應(yīng)距離圖像傳感器不到6英尺的用戶。另一方面,您可以在所有可能的使用情況下保證足夠的環(huán)境照明,以排除對(duì)輔助紅外線或其他照明的要求。
準(zhǔn)確的深度識(shí)別,適用于復(fù)雜的手部運(yùn)動(dòng)和物體尺寸,有時(shí)需要雙圖像傳感器設(shè)置,但您可能已經(jīng)計(jì)劃使用這樣的配置來(lái)實(shí)現(xiàn)3-D視頻會(huì)議或攝影功能。另一方面,如果基于手勢(shì)的界面相當(dāng)簡(jiǎn)單,您可能可以使用單圖像傳感器設(shè)置。單傳感器配置也足夠(如Kinect所示)用于基于結(jié)構(gòu)光照的深度識(shí)別,以及飛行時(shí)深度分辨方法。
CPU和軟件
如果與早期的Kinect案例研究相比,您的基于視覺的界面復(fù)雜性降低了,那么實(shí)現(xiàn)各種算法所需的處理資源量也將減少??梢允褂酶鞣N處理候選項(xiàng),您可以單獨(dú)使用或組合使用,例如使用CPU-plus-GPU配對(duì)。 它們包括:
來(lái)自Analog Devices和Texas Instruments等供應(yīng)商的DSP
來(lái)自Xilinx的FPGA或其他可編程邏輯供應(yīng)商
GPU來(lái)自AMD和NVIDIA等公司
來(lái)自CogniVue和Maxim等公司的視覺定制IC
來(lái)自CEVA等供應(yīng)商的視覺優(yōu)化處理器內(nèi)核
來(lái)自飛思卡爾的SoC半導(dǎo)體和之前提及的幾家半導(dǎo)體公司以及其他公司
手勢(shì)識(shí)別是一種足夠?qū)I(yè)化和要求苛刻的功能,您可以選擇從公司獲得基礎(chǔ)算法和/或中間件代碼的許可其核心重點(diǎn)是為各種處理平臺(tái)開發(fā)和實(shí)施手勢(shì)技術(shù)。在研究階段,您可能會(huì)發(fā)現(xiàn)手勢(shì)識(shí)別對(duì)不同的人意味著不同的東西。例如,中間件開發(fā)商Omek Interactive將其工作重點(diǎn)放在利用3D圖像傳感器陣列的實(shí)現(xiàn)上,而其他公司只專注于識(shí)別基于手的手勢(shì),而忽略了更廣泛的身體運(yùn)動(dòng)。<另一方面,如果您決定開發(fā)自己的手勢(shì)界面代碼,最常用的API和參考算法本質(zhì)上是開源的,具體來(lái)說:
用于GPGPU的OpenCL?(圖形處理單元上的通用計(jì)算)大規(guī)??刹⑿谢a段的加速
OpenMP ?(多處理)和Grand Central Dispatch,后者最初由Apple ?開發(fā),用于在CPU核心之間以及CPU和GPU之間劃分代碼
OpenCV(計(jì)算機(jī)視覺)代碼庫(kù)最初由Intel ?開發(fā),現(xiàn)在由Willow Garage維護(hù)
OpenNI(自然交互),一個(gè)orga PrimeSense作為關(guān)鍵創(chuàng)始人,提供一套API和支持自然語(yǔ)音和語(yǔ)音命令識(shí)別,手勢(shì)和身體運(yùn)動(dòng)跟蹤的框架
更專有的替代API大自然來(lái)自眾多供應(yīng)商??梢詮腉eneral Instruments和MathWorks等供應(yīng)商處獲得更高級(jí)別的框架和軟件開發(fā)工具集。如果您有興趣通過圖像增強(qiáng)技術(shù)進(jìn)一步提高手勢(shì)算法的有效性,請(qǐng)聯(lián)系A(chǔ)pical Limited等公司。
嵌入式視覺聯(lián)盟
本文中提及的許多公司(以及許多其他公司)都是嵌入式視覺聯(lián)盟的成員,該聯(lián)盟于2011年5月底公開發(fā)布。嵌入式視覺技術(shù)有可能實(shí)現(xiàn)廣泛的電子產(chǎn)品比以前更智能,更敏感,因此它們對(duì)用戶更有價(jià)值。它可以使電子設(shè)備公司既可以創(chuàng)建有價(jià)值的新產(chǎn)品,也可以為現(xiàn)有產(chǎn)品添加有用的功能。此外,它還可以為硬件,軟件和半導(dǎo)體制造商提供重要的新市場(chǎng)。嵌入式視覺聯(lián)盟是一個(gè)統(tǒng)一的全球技術(shù)開發(fā)商和提供商組織,正在幫助以豐富,快速和高效的方式將這種潛力轉(zhuǎn)化為現(xiàn)實(shí)。
-
傳感器
+關(guān)注
關(guān)注
2552文章
51294瀏覽量
755208 -
處理器
+關(guān)注
關(guān)注
68文章
19384瀏覽量
230494 -
計(jì)算機(jī)
+關(guān)注
關(guān)注
19文章
7525瀏覽量
88319
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論