12月6-8日,為期三天的“2019世界創(chuàng)新者年會(huì)”在北京順利舉辦。本次大會(huì)由中國企業(yè)聯(lián)合會(huì)指導(dǎo),由億歐·EqualOcean、工業(yè)和信息化科技成果轉(zhuǎn)化聯(lián)盟聯(lián)合主辦,本次大會(huì)以“科創(chuàng)4.0:共建全球化新未來””為主題,集結(jié)了來自美國、英國、印度、新加坡、印尼、尼日利亞、巴西、日本、以色列等十余個(gè)國家或地區(qū)的6000名創(chuàng)新者,總結(jié)2019年世界科技與產(chǎn)業(yè)創(chuàng)新的成果,預(yù)測2020年最新創(chuàng)新
其中,“科學(xué)企業(yè)家”論壇邀請(qǐng)了華為諾亞方舟實(shí)驗(yàn)室計(jì)算視覺首席科學(xué)家田奇教授、小鵬汽車首席科學(xué)家郭彥東博士、氪信科技創(chuàng)始人兼CEO朱明杰博士、文安智能創(chuàng)始人陶海教授、魔琺科技創(chuàng)始人兼CEO柴金祥教授、MINIEYE創(chuàng)始人兼CEO劉國清博士、聯(lián)想創(chuàng)投董事總經(jīng)理王光熙、達(dá)觀數(shù)據(jù)創(chuàng)始人兼CEO陳運(yùn)文博士、踏歌智行創(chuàng)始人兼首席科學(xué)家余貴珍教授,共同探討和分享作為科學(xué)家創(chuàng)業(yè)者在創(chuàng)業(yè)路上的收獲與感悟,探索科學(xué)技術(shù)與商業(yè)化的結(jié)合機(jī)會(huì),助推產(chǎn)學(xué)研領(lǐng)域協(xié)同發(fā)展。
其中,小鵬汽車首席科學(xué)家郭彥東在大會(huì)發(fā)表題為《智能感知的車載量產(chǎn)之路》的演講,他認(rèn)為:
1、近年來,基于深度學(xué)習(xí),人工智能在諸多領(lǐng)域中都取得了突破性的進(jìn)展。但是自動(dòng)駕駛技術(shù)在量產(chǎn)落地實(shí)際應(yīng)用中有遇到長尾效應(yīng)的挑戰(zhàn)。需要“科學(xué)企業(yè)家”,利用有限的資源,高效的并有優(yōu)先級(jí)的解決可能有 “無限多種”現(xiàn)實(shí)場景的實(shí)際問題。
2、自動(dòng)駕駛技術(shù)落地離不開算法、數(shù)據(jù)、與硬件平臺(tái)。在“源動(dòng)力”數(shù)據(jù)方面,為了兼顧數(shù)據(jù)量,場景覆蓋度,成本,以及真實(shí)度,小鵬汽車有機(jī)整合了公開的互聯(lián)網(wǎng)大數(shù)據(jù)、仿真數(shù)據(jù)、測試車隊(duì)數(shù)據(jù)以及本土真實(shí)用戶的脫敏數(shù)據(jù)形成閉環(huán);并合理構(gòu)建知識(shí)圖譜。
3、就自動(dòng)駕駛技術(shù)落地路徑而言,其基礎(chǔ)是感知,核心是人機(jī)交互,難點(diǎn)是駕駛主體的切換。“科學(xué)企業(yè)家”不僅需要推動(dòng)新技術(shù)落地,也需要從落地中提煉新問題。
4、在將人工智能落地到現(xiàn)實(shí)場景中時(shí),不僅需要量產(chǎn)為先,快速高效進(jìn)行新功能落地,更需要通過新功能推動(dòng)安全駕駛?!翱茖W(xué)企業(yè)家”需要通過量產(chǎn)正向影響社會(huì)駕駛習(xí)慣。
以下為演講實(shí)錄(有刪改):
今天演講的內(nèi)容更多集中在智能汽車自動(dòng)駕駛領(lǐng)域,比如智能感知在落地時(shí)需要應(yīng)對(duì)哪些挑戰(zhàn)。
首先簡單回顧一下,為什么人工智能這些年這么受關(guān)注?我列了幾個(gè)事件,2014年,在人臉識(shí)別的一個(gè)被廣泛認(rèn)可的任務(wù)(Labeled Faces in the Wild,(LFW))上,F(xiàn)acebook等公司的視覺模型首次超過了人類的表現(xiàn);2015年,微軟研究院研發(fā)的神經(jīng)網(wǎng)絡(luò)在通用圖像分類的經(jīng)典任務(wù)ImageNet上超越了人類的表現(xiàn); 2016年,谷歌人工智能在下圍棋的時(shí)候擊敗人類;同年,微軟的深度學(xué)習(xí)模型在對(duì)話語音識(shí)別方面首次達(dá)到了人類的水平。
人工智能已經(jīng)在這么多特定領(lǐng)域表現(xiàn)得比人更好了,為什么車不能讓機(jī)器去開,為什么人工智能落地還有很多挑戰(zhàn)?這是我今天和大家分享的重點(diǎn)。
其實(shí)人工智能之所以能這么好的表現(xiàn),主要來自于深度學(xué)習(xí)技術(shù),大量的訓(xùn)練數(shù)據(jù),以及高速并行運(yùn)算硬件的發(fā)展。但是,如果計(jì)算機(jī)面對(duì)一個(gè)沒有見過的不同的場景時(shí),他在認(rèn)知方面的推廣能力常常遜于人類。以上這些人工智能超越人類的表現(xiàn)的特定任務(wù)中,測試用例往往是有限的。比如在人臉識(shí)別領(lǐng)域長期被廣泛使用的LFW Verification Set,只有6000對(duì)圖像做比對(duì)。從多樣性跟真實(shí)性來說,跟很多工業(yè)中的實(shí)際挑戰(zhàn)有一定的差距。比如在智能座艙中的人臉識(shí)別問題,在成像波段,遮擋的嚴(yán)重性,極限光照,奇怪姿勢,極限曝光等等方面都會(huì)有新的挑戰(zhàn),遠(yuǎn)遠(yuǎn)超出了LFW中的測試情況。這也是為什么現(xiàn)在有越來越多的新的測試任務(wù)被設(shè)計(jì)、發(fā)表,而定義針對(duì)指定應(yīng)用的測試集合非常有必要。
再繼續(xù)討論自動(dòng)駕駛中科研探索與量產(chǎn)落地的狀態(tài)有多大的區(qū)別。幾十年前美國的LIFE雜志就有一篇文章暢想道,通過車路協(xié)同技術(shù)和自動(dòng)駕駛技術(shù),車就不需要司機(jī)了。早在2005年、2007年的第二、第三次Darpa挑戰(zhàn)賽上,就已經(jīng)有多個(gè)車隊(duì)可以完成Darpa設(shè)計(jì)的任務(wù)。然而,在現(xiàn)在頭部企業(yè)的量產(chǎn)車,仍然停留在輔助駕駛階段,要求司機(jī)用手抓著方向盤,如果司機(jī)手不抓方向盤就會(huì)從自動(dòng)駕駛當(dāng)中退出來,所以很多人在方向盤上面加個(gè)橘子等物品,就可以騙過車輛實(shí)現(xiàn)脫手。從上面三個(gè)側(cè)面,我們看到在文學(xué)作品的暢想,科研探索,以及量產(chǎn)落地上,自動(dòng)駕駛的形態(tài)有很大的不同。原因也是在于在科研探索上,對(duì)于成本,可覆蓋場景,耐久,或者是美觀上,與量產(chǎn)落地的考量都有不同。
就自動(dòng)駕駛需要應(yīng)對(duì)的場景多樣性方面,我再來舉幾個(gè)例子。第一個(gè)圖片是一臺(tái)加州的油罐車。因?yàn)樘鞖夂芎?,油罐車表面光滑,就有很多其他汽車的倒影,如果使用單目視覺技術(shù)而不做傳感器融合或者立體視覺的話,就很容易有一些誤識(shí)別是非常危險(xiǎn)的;第二個(gè)是某個(gè)頭部企業(yè)把一臺(tái)貨運(yùn)車識(shí)別成了云彩,發(fā)生了慘案;最邊上的是美國農(nóng)村拍的行人照片,因?yàn)樾腥舜┝撕芷婀值姆b,造成有些識(shí)別技術(shù)有障礙,因?yàn)閺膩頉]有見過這樣的訓(xùn)練樣本。阻礙人工智能賦能自動(dòng)駕駛困難和挑戰(zhàn)來自于長尾分布,每一種情況發(fā)生的事件數(shù)量很少,但是事件種類卻非常多,這樣就給人工智能落地帶來了最大的挑戰(zhàn)。
除此之外,中國本土化的場景跟自動(dòng)駕駛技術(shù)主要起源的美國本地場景會(huì)有很多不同,例子包括一些特殊極端的天氣狀況、城市內(nèi)的人車混流、駕駛習(xí)慣包括但不限于遠(yuǎn)光燈的使用等。另外一個(gè)例子是交通牌。中國的交通牌安裝、擺放方式跟美國有很多不同。此外,交通牌的內(nèi)容、形狀也有不同的地方。中文的交通牌,需要中文的OCR模型來識(shí)別。為了應(yīng)對(duì)這些挑戰(zhàn),我們設(shè)計(jì)了能夠識(shí)別所有中國國家標(biāo)準(zhǔn)定義的交通標(biāo)志的模型,巧妙的把多種類型的模型(分類,識(shí)別等)融合在一個(gè)完整的框架中去。這個(gè)跟很多學(xué)術(shù)研討里選擇一些特定種類的交通標(biāo)志來識(shí)別有很大的不同,難度也上了一個(gè)臺(tái)階。
正式因?yàn)橐陨咸魬?zhàn)的存在,我們把自動(dòng)駕駛分了級(jí),從L0級(jí)到L5級(jí)。很多人也都知道L0到L3級(jí)的時(shí)候都需要人,L3雖然可以解放雙手解放雙腳,但還需要把注意力集中在路面,只有L4級(jí)人才可以不看路面,駕駛的主體從人切換到車。近期,量產(chǎn)L3普遍進(jìn)入了攻堅(jiān)階段,并且能夠通過L3的部署,大量得到用戶使用反饋,拓寬使用場景數(shù)據(jù),實(shí)現(xiàn)數(shù)據(jù)閉環(huán)。這也是技術(shù)到量產(chǎn)的必由之路,分階段實(shí)現(xiàn),最后達(dá)成目標(biāo)。
為了應(yīng)對(duì)以上挑戰(zhàn),,兼顧數(shù)據(jù)量,場景覆蓋度,成本,以及真實(shí)度,我在小鵬汽車有機(jī)整合了公開的互聯(lián)網(wǎng)大數(shù)據(jù)、仿真數(shù)據(jù)、測試車隊(duì)數(shù)據(jù)以及本土真實(shí)用戶的脫敏數(shù)據(jù);并合理構(gòu)建知識(shí)圖譜。第一,互聯(lián)網(wǎng)大數(shù)據(jù),最近20年人類在努力把所有事情都數(shù)字化,都放在互聯(lián)網(wǎng)上,互聯(lián)網(wǎng)本身就提供了大量數(shù)據(jù);第二,仿真數(shù)據(jù);第三,自有測試車隊(duì)數(shù)據(jù);第四,本土用戶的脫敏數(shù)據(jù)形成閉環(huán)。
我們在仿真數(shù)據(jù)生成這個(gè)方向上做了很多的努力。第一個(gè)例子是為了DMS(駕駛員分神預(yù)警系統(tǒng))生成訓(xùn)練數(shù)據(jù)。因?yàn)轳{駛員注意力識(shí)別中很重要的一個(gè)模塊就是從人臉圖像/視頻中估計(jì)人的頭部姿態(tài)(另一個(gè)是眼球方向)。然而,在采集頭部姿態(tài)的訓(xùn)練數(shù)據(jù)時(shí),我們很難要求被采集人很精確的把腦袋轉(zhuǎn)到某一個(gè)指定的角度。我們通過視覺生成技術(shù)(3D reconstruction + GAN),可以從一張人臉圖片出發(fā),精確的生成多個(gè)特定頭部姿態(tài)的人臉圖像,從而得到大量的訓(xùn)練數(shù)據(jù)。此外,仿真數(shù)據(jù)的生成還包括一個(gè)相對(duì)比較新的技術(shù)就是跨模態(tài)數(shù)據(jù)生成。為了讓智能駕艙功能在不同的光照條件下都可用,需要采集大量近紅外的圖像做訓(xùn)練。但是近紅外外采集成本比較大,因此我們可以通過一些技術(shù),把更常見的RGB圖象轉(zhuǎn)化為近紅外的圖像來低成本的獲得大量訓(xùn)練數(shù)據(jù)。
第二個(gè)構(gòu)建仿真數(shù)據(jù)的例子是識(shí)別車外環(huán)境識(shí)別。因?yàn)楹芏嗥嚨奶厥鈭鼍笆潜容^難采集的:在真實(shí)場景下,我們很難要求真實(shí)車輛嚴(yán)格按照我們的方式行駛、擺放,甚至有些場景是帶有危險(xiǎn)性的。為了解決這個(gè)問題,我們就可以生成一些汽車放在路面上。需要注意的是路面的圖像生成也是比較困難的,包括路面紋理、磨損程度、特殊光照等。因?yàn)槁访嬗卸喾N多樣變化。大家可以看到現(xiàn)有技術(shù)路面的生成和真實(shí)的分布相差比較遠(yuǎn)。但是車輛的分布相對(duì)集中,對(duì)應(yīng)的生成技術(shù)比較成熟。所以我們在需要生成車外環(huán)境數(shù)據(jù)時(shí)候,路面的圖像是真實(shí)的,再在上面生成仿真出來的車輛,用這樣一種方式產(chǎn)生大量低成本的訓(xùn)練數(shù)據(jù),提高訓(xùn)練數(shù)據(jù)的場景豐富度。
在真實(shí)路測方面,2019年Waymo的測試公里數(shù)達(dá)到2000萬公里,在所有自動(dòng)駕駛技術(shù)公司里面排名第一。做為量產(chǎn)車交付企業(yè),我們采用了影子模式來豐富測試,把模型部署在交付車輛上來收集采集數(shù)據(jù)來做生產(chǎn)驗(yàn)證,這能幫助我們發(fā)現(xiàn)非常多之前想象不到的例子。
以基于智能雨量識(shí)別的雨刮功能來探討影子模式。我們不需要像傳統(tǒng)車一樣搭載一個(gè)傳感器,只要用車的攝像頭就能看到有沒有雨滴,這樣可以減少一個(gè)額外傳感器的成本,并且準(zhǔn)確率要遠(yuǎn)遠(yuǎn)優(yōu)于傳統(tǒng)的雨量傳感器。第二個(gè)好處自動(dòng)駕駛像守門員一樣能夠告訴你攝像頭成像的效果好不好,是不是符合自動(dòng)駕駛的工況。特斯拉前一段時(shí)間發(fā)推特把這個(gè)作為非常重要的工作來做。但是這樣的功能遇到的場景束縛非常多,雨滴也有很多的不規(guī)則性。右邊的圖可以看到某種馬賽克墻磚的紋理和雨滴非常像,包括特定的落葉造成的光影也會(huì)和雨滴比較像,這樣的情況(corner case)在實(shí)驗(yàn)室做,不真實(shí)的去量產(chǎn)車上去跑,人是想象不出來的。只有通過大量量產(chǎn)車驗(yàn)證,才能夠把人想象不出來的案例收集回來,快速迭代,在用戶真正使用之前把這些問題都解決掉。以智能雨量識(shí)別功能研發(fā)為先導(dǎo),我們搭建了自動(dòng)駕駛整體的數(shù)據(jù)閉環(huán)系統(tǒng),在中國量產(chǎn)車企業(yè)內(nèi)是首批實(shí)現(xiàn)的
此外,做落地一定要落到車上去,就離不開模型優(yōu)化、量化到車載芯片。車能夠選擇的芯片種類目前是小于手機(jī)的,根據(jù)不同車配置的成本和定位的不同,我們聚焦在三款芯片上:TI、Qualcomm、Nvidia。其中,我們選擇了一款低成本的TI芯片,算力比較弱。但是我們通過模型優(yōu)化和定點(diǎn)化技術(shù),就可以在10幾個(gè)M的空間里面放進(jìn)去幾十個(gè)模型,并且能夠保持較高的精度。
實(shí)際上,模型的優(yōu)化和量化,不僅僅是優(yōu)化量化本身,實(shí)際上是根據(jù)車不同的芯片種類來有針對(duì)性的量化,在量產(chǎn)車上跑得快的算法才是好算法。其中核心工作就是利用非常有限的資源,實(shí)現(xiàn)高效創(chuàng)新和迭代,解決無線的問題,實(shí)際的生產(chǎn)生活中,人工智能要實(shí)現(xiàn)落地,要解決的問題是無窮無盡的。
落地路徑的基礎(chǔ)是感知,核心是人機(jī)交互,難點(diǎn)是切換。為什么基礎(chǔ)是感知?因?yàn)榍懊嬗袥]有車,知道安全線在哪是行車最基礎(chǔ)的信息,包括車內(nèi)感知要做到千人千面,以及對(duì)司機(jī)疲勞分神的感知,這些都是做汽車的基礎(chǔ)。為什么交互是核心?L3級(jí)自動(dòng)駕駛中,人還是駕駛的主體,人和機(jī)器是在不停交互的,如何做好交互是產(chǎn)品力的核心所在。那為什么切換是難點(diǎn)?因?yàn)長3級(jí)自動(dòng)駕駛車在行駛過程中,會(huì)遇到一些車覺得自己控制不了的突發(fā)情況,就要把駕駛主體換到人。什么時(shí)候做切換,需要汽車對(duì)于自己駕駛的可靠性、對(duì)于檢測的可靠性以及執(zhí)行度都有比較清晰的判斷,同時(shí)對(duì)司機(jī)狀態(tài)也有清晰的判斷。切換是難點(diǎn),切換的基礎(chǔ)就是對(duì)車的理解。
對(duì)于科學(xué)家,或者科研工作者而言,在企業(yè)中要做的不僅是現(xiàn)有科技成果的轉(zhuǎn)化,還要從實(shí)際落地場景中找到一些新的問題,從新的問題中再去探索新的答案,這本身也是科技創(chuàng)新的重要方面。
評(píng)論
查看更多