隨著機器視覺及其應(yīng)用的最新進展,相比基于幀的CCD或CMOS圖像傳感器,業(yè)界對更快、更節(jié)能、更靈敏的傳感器硬件的需求越來越高。除了基于傳統(tǒng)CMOS技術(shù)并已達到較高成熟度的事件相機(硅視網(wǎng)膜),現(xiàn)在對新型圖像采集和數(shù)據(jù)預(yù)處理技術(shù)的研究也越來越多,其中許多技術(shù)模擬了人類視覺系統(tǒng)的某些神經(jīng)生物學(xué)功能。
近幾十年來,一種被稱為像素合并(pixel binning)的圖像預(yù)處理技術(shù)得到了應(yīng)用,它是將圖像中相鄰的n個點像素相加合并變?yōu)橐粋€點像素的過程。這提供了很多優(yōu)勢,例如(1)由于輸出數(shù)據(jù)量減少而提高了幀速率,以及(2)在低光水平或短曝光時間下,提高了信噪比(SNR)等。對于后者來說,正常模式下每個探測像素都會受到暗噪聲的影響,但在合并模式下,每個像素僅受到一次噪聲影響。然而,合并的代價是空間分辨率降低,或者說丟失信息。在模式識別應(yīng)用中,即使信噪比很高,這也會降低結(jié)果的準確性。
據(jù)麥姆斯咨詢介紹,維也納技術(shù)大學(xué)(Vienna University of Technology)光子學(xué)研究所的一支研究團隊通過將大量傳感像素合并成一個“超像素”,將合并的概念推向了極限。超像素的最佳形狀通過機器學(xué)習(xí)算法在訓(xùn)練數(shù)據(jù)中確定。研究人員展示了在超短時間尺度上對光學(xué)投影圖像分類,具有增強的動態(tài)范圍,并且不損失分類精度。這項研究成果已發(fā)表于Scientific Reports期刊。
像素合并
不同類型像素合并的人工神經(jīng)網(wǎng)絡(luò)(ANN)分類精度。傳統(tǒng)像素合并可以在低光照強度下擴展動態(tài)范圍,但隨著光照強度的提高會犧牲精度。數(shù)據(jù)驅(qū)動(Data-driven)的像素合并則不存在這個缺點。
對于具有獨熱編碼(one-hot encoding)的多類分類,每個類都需要一個這樣的超像素。對于傳統(tǒng)合并,系統(tǒng)對噪聲變得更具彈性,并且提高了動態(tài)范圍。然而,與傳統(tǒng)情況相比,對于更高的光照強度,其分類精度沒有損失,因此性能沒有妥協(xié)。當(dāng)然,這些優(yōu)勢的代價是降低了靈活性,因為每個特定應(yīng)用都需要自定義配置/設(shè)計。
光電傳感器實現(xiàn)
下圖展示了這款采用數(shù)據(jù)驅(qū)動像素合并的光電傳感器示意圖。該傳感器由N個像素組成,排列成二維陣列。每個像素最多被劃分為M個子像素,這些子像素連接合并在一起形成M超像素,測量其輸出電流。
(a)光電傳感器示意圖。(b)用于MNIST數(shù)據(jù)集分類的NB分類器的顯微圖像,N=14 x 14像素,M=10個輸出通道。(c)具有兩個金屬層的GaAs肖特基光電二極管剖面圖。(d)光學(xué)照明下其中一個探測器元件的電流-電壓特性。
注:MNIST數(shù)據(jù)集(Mixed National Institute of Standards and Technology database)是美國國家標(biāo)準與技術(shù)研究院收集整理的大型手寫數(shù)字數(shù)據(jù)庫,包含60,000個示例的訓(xùn)練集以及10,000個示例的測試集。
樸素貝葉斯(NB)光電傳感器
(a)工作原理示意圖。(b)實驗裝置示意圖。(c)根據(jù)MNIST訓(xùn)練數(shù)據(jù)集確定的NB分類器的超像素形狀。(d)計算混淆矩陣。(e)測量的光響應(yīng)圖。(f)實驗混淆矩陣由10?位數(shù)字光學(xué)投影逐個確定,并將已知/真實類別標(biāo)簽與傳感器預(yù)測的標(biāo)簽進行對比。
ANN光電傳感器
(a)具有權(quán)重和偏差約束的ANN示意圖。(b)ANN傳感器的混淆矩陣。(c)最高和所有其他輸出電流之間的相對差。ANN相比NB分類器展現(xiàn)了更寬的輸出電流分布。(d)ANN的超像素形狀。
數(shù)據(jù)驅(qū)動像素合并的優(yōu)勢
顯然,與在傳統(tǒng)CMOS圖像傳感器中讀出整個圖像相比,讀出M超像素信號需要的時間、資源和能量更少。事實上,光電二極管陣列本身根本不消耗任何能量;能量僅由選擇最高光電流的電子電路消耗。模式識別和分類實時進行,并且僅受光電流產(chǎn)生的物理特性和/或數(shù)據(jù)采集系統(tǒng)的電帶寬的限制。
器件性能評估
結(jié)語
研究人員總結(jié)提出了未來研究的建議路線。當(dāng)前器件的主要限制是缺乏可重構(gòu)性。雖然在某些情況下(例如專用光譜應(yīng)用)可能是合適的,但通常很看重傳感器的可重構(gòu)性。例如,這可以通過利用具有可調(diào)響應(yīng)的光電探測器或基于非易失性存儲器材料的可編程網(wǎng)絡(luò)將各個像素合并在一起來實現(xiàn)。
除了標(biāo)準獨熱編碼之外的其他方案,還可以節(jié)省硬件資源并進一步擴展動態(tài)范圍。這項技術(shù)的可能應(yīng)用包括需要高速識別簡單物體或圖案的工業(yè)圖像識別系統(tǒng),以及光譜學(xué)應(yīng)用,其中入射光被分散成不同的顏色,傳感器經(jīng)過訓(xùn)練以識別某些特征光譜。在這兩種應(yīng)用中,經(jīng)典機器學(xué)習(xí)算法將為數(shù)據(jù)集的逼近提供足夠的繁復(fù)和深度?! ?/p>
評論
查看更多