去年以來,人工智能從技術(shù)走向應(yīng)用,從云端走向終端。隨之而來的是各類公司對各個應(yīng)用場景的挖掘。為了滿足人工智能終端設(shè)備對計算的需求,人工智能芯片趁勢興起。
當(dāng)前,人工智能主流的應(yīng)用仍是圍繞圖像做文章,尤其對于自動駕駛,通過攝像頭看懂、看清周圍環(huán)境的能力異常重要。但圖像質(zhì)量恰恰是其中的一個痛點——現(xiàn)有的攝像頭對光線環(huán)境的適應(yīng)力太差,遠(yuǎn)不如人眼,輸出的低質(zhì)量圖像數(shù)據(jù)嚴(yán)重制約了AI算法的能力發(fā)揮。
但在四年之前,就有一家公司成立,力圖解決這個問題。日前,智東西造訪眼擎科技,與GTIC 2018重磅嘉賓——眼擎科技創(chuàng)始人兼CEO朱繼志進(jìn)行深度對話,了解了這家公司4年來在技術(shù)上的修行,以及其成像引擎將對AI應(yīng)用所起到的價值。
一、技術(shù)研發(fā):耗時四年打磨 目標(biāo)超越人眼
北大電子系畢業(yè)的朱繼志在成立眼擎科技之前,先任職于中興視訊通訊部。在這段為期十年的工作經(jīng)歷中,朱繼志負(fù)責(zé)視頻圖像的技術(shù)開發(fā)工作以及技術(shù)的產(chǎn)品化,對技術(shù)與產(chǎn)品的雙重經(jīng)驗讓他成為了圖像處理這個行業(yè)的老江湖。
后來,朱繼志又投身芯片行業(yè),擔(dān)任國內(nèi)最大芯片分銷商副總裁,在8年的時間里對接手機(jī)、家電、汽車等對芯片有大量需求的行業(yè),也摸透了芯片的產(chǎn)品開發(fā)邏輯與下游行業(yè)的不同需求。
這兩段經(jīng)驗日后被捏合,成就了現(xiàn)在的眼擎科技。
2014年,對圖像處理行業(yè)仍保持高度關(guān)注的朱繼志看到了一個機(jī)會——人們?nèi)粘I钪械南鄼C(jī)實在是太過孱弱:逆光、暗光、強(qiáng)光、多光源,任意一種復(fù)雜光線情況,都會讓相機(jī)輸出的圖片不忍直視,不是暗部一團(tuán)黑就是亮部一片白,再加上各種顏色失真、噪點爆表,與人眼所見相去甚遠(yuǎn)。而在數(shù)碼攝影誕生的數(shù)十年里,盡管成像的關(guān)鍵元器件——CMOS圖像傳感器(此前也流行CCD,但已退出主流市場)一直保持著迭代,但直到今天,這些問題都沒有得到有效解決。
當(dāng)年,朱繼志主導(dǎo)成立了眼擎科技,英文取名“eyemore”,意在使其產(chǎn)品的成像能力對標(biāo)乃至趕超人眼。
朱繼志認(rèn)為,現(xiàn)有的成像系統(tǒng)對光線適應(yīng)能力差與產(chǎn)業(yè)鏈上游的日系廠商主導(dǎo)的全局成像路徑有很大的關(guān)系。而朱繼志對此的解法是——分區(qū)域、分層成像,即將成像對象分解為大量的小格子,用自研的成像算法對每個格子中的數(shù)字信號進(jìn)行分別計算,使得每個小格子中的圖像都輸出最好的成像效果。
原理聽上去不難理解,公司成立的第一年,朱繼志帶領(lǐng)團(tuán)隊打造了一個原型,經(jīng)過驗證,技術(shù)可行。當(dāng)年,眼擎拿到了來自柔宇科技投資人楊向陽的天使投資。
但事情遠(yuǎn)沒有那么簡單。成像算法是一個牽一發(fā)而動全身的事情,或許只是為了調(diào)整了一個暗部的亮度,整張圖片的亮度就同時生變。要使成像算法能夠應(yīng)對各種光線條件,就需要針對一個個場景進(jìn)行具體的調(diào)參。比如自動駕駛車進(jìn)隧道時,光源會從自然光瞬間變成人造光,光線強(qiáng)度也會經(jīng)歷強(qiáng)—弱—中這樣的快速變動,此時攝像頭穩(wěn)定輸出明亮、清晰圖像的能力將大受挑戰(zhàn)。
要應(yīng)對這種情況,只能去隧道實地測試,一遍遍地優(yōu)化應(yīng)對這種場景的算法。而不同的場景,還有很多, 這件事花了眼擎團(tuán)隊三年。
同時,為了滿足更復(fù)雜成像架構(gòu)帶來的巨大運(yùn)算需求,眼擎還打造了一個獨立ISP(Image Signal Processor,圖像信號處理器),來承載眼擎自研的算法。
二、產(chǎn)品落地:芯片承載成像引擎 為AI機(jī)器打造視覺器官
到2017年,眼擎的成像方案初步成熟,接下來該進(jìn)入產(chǎn)品化的階段。
在進(jìn)行技術(shù)開發(fā)的幾年中,眼擎曾面向消費(fèi)者市場推出過Demo類的產(chǎn)品進(jìn)行探索。但朱繼志很快發(fā)現(xiàn)普通消費(fèi)者對成像效果的喜好似乎是個玄學(xué)——人們根據(jù)不同的需求,對圖像質(zhì)量的評判各有一套主觀的標(biāo)準(zhǔn)?;蛟S某些人希望自己能被拍得更白,某些人則希望圖像里的色彩更艷。眼擎準(zhǔn)確輸出圖像中各種物體色彩、紋理、材質(zhì)細(xì)節(jié)的能力,在這種情況下并沒有形成優(yōu)勢。
不過這幾年暴漲的機(jī)器視覺市場為眼擎提供了更大的機(jī)會。無論是手機(jī)上的人臉識別、還是安防、或是自動駕駛,對運(yùn)行人工智能算法的機(jī)器來說,它們需要的都是客觀、準(zhǔn)確、清晰的圖像數(shù)據(jù),這正是眼擎的強(qiáng)項。
找準(zhǔn)To B的市場,眼擎的產(chǎn)品應(yīng)運(yùn)而生——eyemore X42成像芯片。這塊成像引擎芯片凝聚了眼擎創(chuàng)業(yè)四年的成果,針對超過500種不同場景封裝了二十余種智能成像算法。同時,由于采用全新的成像架構(gòu),其單像素的計算能力比封裝在SoC上的集成ISP提升了20倍。這塊芯片有著推動機(jī)器視覺再向前一步的力量,而朱繼志也喜歡把它稱為成像引擎。
這些參數(shù)的背后,是它面對復(fù)雜光線實打?qū)嵉母咚刭|(zhì)成像能力。在智東西實際體驗的弱光成像演示中,搭載了眼擎成像引擎方案的攝像頭在室內(nèi)只有一臺電腦顯示屏作為光源的條件下,呈現(xiàn)出了明亮、清晰、色彩還原度相當(dāng)高的圖像,而手機(jī)在這種場景中為了拍出明亮的電腦顯示屏,已經(jīng)完全放棄了暗部的成像。而人眼在這樣的照度下,也早已無法分辨物體的色彩。
▲上圖為暗光環(huán)境下eyemore成像效果 下圖為正常光線條件下現(xiàn)場圖片
在不依靠紅外光等主動照明的情況下,眼擎的的確確實現(xiàn)了弱光環(huán)境下對人眼的超越。在朱繼志看來,這非常關(guān)鍵。
他很認(rèn)同馬斯克在自動駕駛上的一個看法——“激光雷達(dá)是自動駕駛的拐杖?!敝炖^志認(rèn)為激光雷達(dá)之所以在自動駕駛中如此受歡迎,正是攝像頭的被動光學(xué)成像沒有將潛力發(fā)揮到極致,才需要激光雷達(dá)這樣的主動光學(xué)成像系統(tǒng)。但一旦攝像頭能在更復(fù)雜的情況下看得比人清楚、比人看到更多的色彩,那么人工智能會有更加優(yōu)質(zhì)的圖像數(shù)據(jù)可用,能夠進(jìn)一步發(fā)揮其在識別物體、感知環(huán)境上的能力。
畢竟,人類依靠雙眼已經(jīng)能夠很好地完成駕駛?cè)蝿?wù)。比人眼更加優(yōu)秀的成像系統(tǒng),不僅將使自動駕駛變得更加容易,也能夠運(yùn)用在其他場景中。
不過,朱繼志認(rèn)為這還不夠。因為人眼擁有的超強(qiáng)視覺能力,并不只在于擁有多么優(yōu)秀的光學(xué)系統(tǒng),更重要的是,它通過神經(jīng)與大腦無時不刻地進(jìn)行著交互,通過聚焦的形式屏蔽不重要的信息,將注意力放在真正關(guān)鍵的視覺區(qū)域和物體上。
要達(dá)到真正的智能,處在成像步驟前端的眼擎,需要和后端的AI進(jìn)行交互,了解AI真正需要什么。于是,眼擎的團(tuán)隊又為成像引擎設(shè)計了一套與后端AI算法的交互架構(gòu),來獲知AI對圖像的需求。在必要的時候,這套設(shè)計可以像人眼的聚焦一樣,將計算資源集中起來,對AI關(guān)心的某一幀圖像或者圖像中的某個區(qū)域進(jìn)行更高質(zhì)量的成像。
朱繼志稱,這種與AI系統(tǒng)的交互能力,將使得成像系統(tǒng)真正成為AI的有機(jī)器官。
評論
查看更多