全球公認(rèn)最領(lǐng)先的無人車公司Waymo的計算平臺是誰提供的?參見下面這個鏈接,Waymo肯定不想讓太多人知道。
從谷歌2009年開始開發(fā)無人車,計算平臺一直都是用英特爾的,直到最新的克萊斯勒大捷龍無人車,采用了英特爾的Xeon服務(wù)器芯片、Altera的FPGA和英特爾的以太網(wǎng)關(guān)芯片,據(jù)說還使用了XMM系列Modem芯片做數(shù)據(jù)傳輸。
實際不止是Waymo,百度計算平臺有兩部分,一部分使用***Neousys Nuvo-6108GC工控機,這款工控機使用英特爾雙至強E5-2658 V3 12核CPU,主要用來處理激光雷達(dá)云點和圖像數(shù)據(jù)。另一部分為Xilinx的KU115,這是一款2014年底發(fā)布的強大的FPGA。福特、通用也很有可能采用了類似的設(shè)計,就是英特爾的CPU+FPGA計算平臺。Waymo、百度、福特、通用代表著全球最頂尖的無人車技術(shù),也是全球最大的無人車車隊。
現(xiàn)在的FPGA早已不是當(dāng)年的簡單地把寄存器和LUT整合在一起的白紙了,而是越來越像ASIC,或者說SoC?,F(xiàn)在的FPGA都包含了復(fù)雜的接口資源,收發(fā)器資源,存儲器資源和大量的DSP資源(擁有類似GPU的強大浮點運算能力),有些則直接加入了多個ARM內(nèi)核。單純的FPGA幾乎不存在了?,F(xiàn)在的FPGA就是一個小的系統(tǒng)。
智能駕駛和人工智能領(lǐng)域不可能用ASIC,因為ASIC的開發(fā)周期太長,最少也需要3-5年才能量產(chǎn),而人工智能算法迭代速度很快,幾乎是每半年就迭代一次,而智能駕駛的傳感器領(lǐng)域日新月異,特別是激光雷達(dá)領(lǐng)域,新技術(shù)層出不窮。所謂人工智能ASIC,沒出廠就已經(jīng)過時,被時代拋棄了。
上圖為Waymo的計算平臺架構(gòu),采用Altera的FPGA,可能是Arria 10 GT1150。售價大約4000到5000美元。Altera的FPGA共有四大系列,分別是頂配的Stratix系列、成本與性能平衡的Arria系列、廉價的Cyclone系列、帶NVM的MAX系列。Stratix系列多在近萬美元以上,Cyclone系列多在10-20美元之間,Arria系列大約在2000-5000美元之間。
Arria系列再細(xì)分10、V、II、GX四個系列,10系列為最新產(chǎn)品,于2013年推出,采用20納米工藝,GX為第一代產(chǎn)品,2007年推出,采用90納米工藝,II系列為2009年產(chǎn)品,采用40納米工藝,V系列為2011年產(chǎn)品,采用28納米工藝。10系列再分為帶ARM內(nèi)核和不帶ARM內(nèi)核兩大類。ARM內(nèi)核為雙A9內(nèi)核。
GT1150除了標(biāo)準(zhǔn)FPGA的1150K個邏輯元素外,還擁有1518個硬核單精度浮點運算乘法器/加法器,3036個18*19乘法器。最終能夠獲得3340GMACS(等于每秒百萬次的定點乘累加運算),還有1366 GFLOPS的浮點運算能力。Stratix系列的某些產(chǎn)品擁有9200 GFLOPS的浮點運算能力。
Xilinx方面,以最常見的KU115為例。
以深度學(xué)習(xí)、高性能運算、圖形科學(xué)領(lǐng)域最常見的Kintex FPGA來看,國內(nèi)百度、騰訊、阿里都采用了KU115做計算加速。這款FPGA集成了大量資源,包括各種片上存儲器,Xilinx的FPGA中主要有分布式RAM 和 Block RAM 兩種存儲器。用分布式RAM 時其實要用到其所在的SliceM,所以要占用其中的邏輯資源;而Block RAM 是單純的存儲資源,但是要一塊一塊的用,不像分布式RAM 想要多少bit都可以。頂級的Virtex系列FPGA更繼承了高達(dá)8GB的HBM高寬帶內(nèi)存。時鐘方面,有MMCM/PLL。MMCM(mixed-mode clockmanager):混合模式時鐘管理器,用于在與給定輸入時鐘有設(shè)定的相位和頻率關(guān)系的情況下,生成不同的時鐘信號。PLL(phase-locked loop):鎖相環(huán),主要用于頻率綜合,使用一個PLL可以從一個輸入時鐘信號生成多個時鐘信號。這些主要用在收發(fā)器領(lǐng)域。
KU115里還包含5520個DSP,能夠大幅度提高圖像和視頻類任務(wù)的處理速度,這是類似GPU的并行運算架構(gòu),可以說這片F(xiàn)PGA還包含一個小GPU。這個DSP可以對應(yīng)乘法累加器、乘加器或單步/n步計數(shù)器。級聯(lián)多個DSP48E邏輯片可執(zhí)行復(fù)雜的功能。例如,不使用額外的FPGA架構(gòu)資源的情況下實現(xiàn)復(fù)雜乘法器或n階FIR濾波器。對某些如FFT運算,速度大大提升。Virtex系列頂配有12288個DSP,性能達(dá)21897GMAC/s。
Xilinx的Soc+FPGA系列產(chǎn)品則完全可以叫SoC了,其不僅包含多個ARM CPU內(nèi)核,還有針對安全領(lǐng)域的R5內(nèi)核,還有Mali 400這樣的GPU,最夸張的是RFSoC把射頻的ADC/DAC也集成了,還有SD-FEC。
也有無人車基于Xilinx的Soc+FPGA,這就是Perrone Robotics,用兩片F(xiàn)PGA完成工控機的運算性能,架構(gòu)如上圖。這家公司在2004年就成立了,這家公司是一家機器人軟件平臺開發(fā)公司,其為自動駕駛車輛以及通用機器人開發(fā)了一個完整的全棧實時的軟件。Perrone Robotics主要投資者是英特爾,德國工業(yè)巨人利勃海爾和FPInnovations。與激光雷達(dá)廠家Quanergy、Velodyne、Sick都有緊密合作。
別人家的無人車后備箱都是工控機,大風(fēng)扇還有散熱片,而Perrone Robotics就用這么一個小盒子,里面核心正是Xilinx的UltraScale系列的XCZU9EG-FFVB1156ACZ1537FPGA。
ZU9EG并非此系列中最頂級的,除了600K的邏輯元素外,還有2520個DSP。相對KU115弱很多,但是ZU9EG擁有4個A53內(nèi)核,主頻達(dá)1.5GHz,兩個應(yīng)對實時任務(wù)的R5內(nèi)核,主頻600MHz,還有一個Mali 400MP2 GPU內(nèi)核,性能雖然只有12GFLOPS,總聊勝于無,并且還有2520個DSP嘛。
上圖為EG系列內(nèi)部框架圖,跟SoC幾乎沒區(qū)別。
無人車領(lǐng)域比較新的技術(shù)如TSN網(wǎng)絡(luò)交換器,因為ASIC開發(fā)周期長,大部分廠家都會選擇用FPGA代替,此外TSN協(xié)議復(fù)雜,標(biāo)準(zhǔn)延續(xù)的周期很長,恐怕很長一段時間內(nèi)都是用FPGA代替。
除了無人車,ADAS領(lǐng)域FPGA用的更多,奔馳S系列每輛車使用多達(dá)18個FPGA。FPGA最突出優(yōu)勢是功耗極低,一般只有同樣性能GPU的1/10。這使得FPGA更容易通過嚴(yán)苛的車規(guī)級認(rèn)證,特別是高等級的ISO26262認(rèn)證。
以上為三款典型視覺類ADAS系統(tǒng)拆解,博世使用了Xilinx的芯片,從而減少使用一個MCU。TRW的SCam3用在通用汽車上,博世的MPC2用在大眾汽車上,Continental的MFC430TA用在豐田汽車上。雙目系統(tǒng)除了斯巴魯外都是使用Xilinx的FPGA。
最后是深度學(xué)習(xí)領(lǐng)域,隨著深度學(xué)習(xí)朝向低精度發(fā)展,F(xiàn)PGA大展宏圖的時機來了。
FPGA可以靈活對應(yīng)不同精度的深度學(xué)習(xí)。
訓(xùn)練階段用KU115做加速,推理階段用MPSOC。
說了FPGA這么多好處,但FPGA有個致命缺陷,那就是價格比較高。
-
英特爾
+關(guān)注
關(guān)注
61文章
9978瀏覽量
171910 -
無人車
+關(guān)注
關(guān)注
1文章
302瀏覽量
36492 -
waymo
+關(guān)注
關(guān)注
2文章
312瀏覽量
24688
原文標(biāo)題:Waymo背后的巨人:英特爾
文章出處:【微信號:zuosiqiche,微信公眾號:佐思汽車研究】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論