ASICvsGPU+FPGA
GPU適用于單一指令的并行計算,而FPGA與之相反,適用于多指令,單數(shù)據(jù)流,常用于云端的“訓練”階段。
此外與GPU對比,F(xiàn)PGA沒有存取功能,因此速度更快,功耗低,但同時運算量不大。結(jié)合兩者優(yōu)勢,形成GPU+FPGA的解決方案。
FPGA和ASIC的區(qū)別主要在是否可以編程。FPGA客戶可根據(jù)需求編程,改變用途,但量產(chǎn)成本較高,適用于應用場景較多的企業(yè)、軍事等用戶;而ASIC已經(jīng)制作完成并且只搭載一種算法和形成一種用途,首次“開模”成本高,但量產(chǎn)成本低,適用于場景單一的消費電子、“挖礦”等客戶。
目前自動駕駛算法仍在快速更迭和進化,因此大多自動駕駛芯片使用GPU+FPGA的解決方案。未來算法穩(wěn)定后,ASIC將成為主流。
計算能耗比,ASIC>FPGA>GPU>CPU,究其原因,ASIC和FPGA更接近底層IO,同時FPGA有冗余晶體管和連線用于編程,而ASIC是固定算法最優(yōu)化設(shè)計,因此ASIC能耗比最高。
相比前兩者,GPU和CPU屏蔽底層IO,降低了數(shù)據(jù)的遷移和運算效率,能耗比較高。同時GPU的邏輯和緩存功能簡單,以并行計算為主,因此GPU能耗比又高于CPU。
▌ASIC是未來自動駕駛芯片的核心和趨勢
結(jié)合ASIC的優(yōu)勢,我們認為長遠看自動駕駛的AI芯片會以ASIC為解決方案,主要有以下幾個原因:
綜上ASIC專用芯片幾乎是自動駕駛量產(chǎn)芯片唯一的解決方案。由于這種芯片僅支持單一算法,對芯片設(shè)計者在算法、IC設(shè)計上都提出很高要求。
以上并非下定論目前ASIC為核心的芯片一定比GPU+FPGA的芯片強,由于目前自動駕駛算法還在快速迭代和升級過程中,過早以固有算法生產(chǎn)ASIC芯片長期來看不一定是最優(yōu)選擇。
▌相關(guān)公司
Mobileye
Intel在ADAS處理器上的布局已經(jīng)完善,包括Mobileye的ADAS視覺處理,利用Altera的FPGA處理,以及英特爾自身的至強等型號的處理器,可以形成自動駕駛整個硬件超級中央控制的解決方案。
Mobileye具有自主研發(fā)設(shè)計的芯片EyeQ系列,由意法半導體公司生產(chǎn)供應。現(xiàn)在已經(jīng)量產(chǎn)的芯片型號有EyeQ1至EyeQ4,EyeQ5正在開發(fā)進行中,計劃2020年面世,對標英偉達DrivePXXavier,并透露EyeQ5的計算性能達到了24TOPS,功耗為10瓦,芯片節(jié)能效率是DriveXavier的2.4倍。
英特爾自動駕駛系統(tǒng)將采用攝像頭為先的方法設(shè)計,搭載兩塊EyeQ5系統(tǒng)芯片、一個英特爾凌動C3xx4處理器以及Mobileye軟件,大規(guī)模應用于可擴展的L4/L5自動駕駛汽車。該系列已被奧迪、寶馬、菲亞特、福特、通用等多家汽車制造商使用。
從硬件架構(gòu)來看,該芯片包括了一組工業(yè)級四核MIPS處理器,以支持多線程技術(shù)能更好的進行數(shù)據(jù)的控制和管理(下圖左上)。
多個專用的向量微碼處理器(VMP),用來應對ADAS相關(guān)的圖像處理任務(wù)(如:縮放和預處理、翹曲、跟蹤、車道標記檢測、道路幾何檢測、濾波和直方圖等,下圖右上)。
一顆軍工級MIPSWarriorCPU位于次級傳輸管理中心,用于處理片內(nèi)片外的通用數(shù)據(jù)。
此外通過行業(yè)訪談?wù){(diào)研等途徑了解到,Mobileye在L1-L3智能駕駛領(lǐng)域具有極大的話語權(quán),對Tire1和OEM非常強勢,其算法和芯片綁定,不允許更改。
5月3日,寒武紀科技在2018產(chǎn)品發(fā)布會上發(fā)布了多個IP產(chǎn)品——采用7nm工藝的終端芯片Cambricon1M、云端智能芯片MLU100等。
其中寒武紀1M芯片是公司第三代IP產(chǎn)品,在TSMC7nm工藝下8位運算的效能比達5Tops/w(每瓦5萬億次運算),同時提供2Tops、4Tops、8Tops三種尺寸的處理器內(nèi)核,以滿足不同需求。
1M還將支持CNN、RNN、SVM、k-NN等多種深度學習模型與機器學習算法的加速,能夠完成視覺、語音、自然語言處理等任務(wù)。通過靈活配置1M處理器,可以實現(xiàn)多線和復雜自動駕駛?cè)蝿?wù)的資源最大化利用。它還支持終端的訓練,以此避免敏感數(shù)據(jù)的傳輸和實現(xiàn)更快的響應。
寒武紀首款云端智能芯片CambriconMLU100同期發(fā)布,同時公布了在R-CNN算法下MLU100與英偉達TeslaV100(2017)和英偉達TeslaP4(2016)的對比,從參數(shù)上看,主要對標TeslaP4。最后說明芯片從設(shè)計到落地應用面臨的潛在風險:
地平線
2017年地平線發(fā)布了新一代自動駕駛芯片“征程”和配套軟件平臺方案“雨果”,同時還發(fā)布了應用于智能攝像頭的“旭日”處理器。
“征程”是一款專用AI芯片,采用地平線的第一代BPU架構(gòu),可實時處理1080p@30視頻,每幀中可同時對200個目標進行檢測、跟蹤、識別,典型功耗1.5W,每幀延時小于30ms。CEO余凱介紹,地平線的芯片更聚焦在針對不同場景下的具體應用,相比于英偉達的方案,在功耗上低一個數(shù)量級,價格也會有更大的競爭力。
2018年亞洲CES,地平線宣布推出從L2到L4級別全系列的自動駕駛計算平臺。
地平線星云,基于征程1.0芯片,能夠以車規(guī)級標準滿足L1和L2級別的自動駕駛的需求,能同時對行人、機動車、非機動車、車道線、交通標志牌、紅綠燈等多類目標進行精準的實時監(jiān)測與識別;并可滿足車載設(shè)備嚴苛的環(huán)境要求,以及復雜環(huán)境下的視覺感知需求,支持L2級別ADAS功能。
地平線Matrix1.0,內(nèi)置地平線征程2.0處理器架構(gòu),最大化嵌入式AI計算性能,是面向L3/L4的自動駕駛解決方案,可滿足自動駕駛場景下高性能和低功耗的需求。
依托地平線公司自主研發(fā)的工具鏈,開發(fā)者和研究人員可以基于Matrix平臺部署神經(jīng)網(wǎng)絡(luò)模型,實現(xiàn)開發(fā)、驗證、優(yōu)化和部署。
百度“昆侖”
7月4日百度AI開發(fā)者大會上,李彥宏發(fā)布了由百度自主研發(fā)的中國首款云端全功能AI芯片——“昆侖”?!袄觥被诎俣?年的AI加速器經(jīng)驗的研發(fā),預計將于明年流片。
“昆侖”采用14nm三星工藝,是業(yè)內(nèi)設(shè)計算力最高的AI芯片(100+瓦功耗下提供260Tops性能);512GB/s內(nèi)存帶寬,由幾萬個小核心構(gòu)成。
“昆侖”可高效地同時滿足訓練和推斷的需求,除了常用深度學習算法等云端需求,還能適配諸如自然語言處理,大規(guī)模語音識別,自動駕駛,大規(guī)模推薦等具體終端場景的計算需求。
此外可以支持paddle等多個深度學習框架,編程靈活度高。同時也有媒體對該產(chǎn)品提出疑義,主要有以下兩點:
GoogleTPU
GoogleTPU于2016年在GoogleI/O上宣布,當時該公司表示TPU已在其數(shù)據(jù)中心內(nèi)使用了一年以上。該芯片專為Google的TensorFlow(一個符號數(shù)學庫,用于神經(jīng)網(wǎng)絡(luò)等機器學習應用)框架而設(shè)計。
GoogleTPU是專用的,并不面向市場,谷歌僅表示“將允許其他公司通過其云計算服務(wù)購買這些芯片?!?/p>
今年2月,谷歌在其云平臺博客上宣布的TPU服務(wù)開放價格大約為每cloudTPU(180TFLOPS和64GB內(nèi)存)每小時6.50美元。
Google使用TPU開發(fā)圍棋系統(tǒng)AlphaGo和AlphaZero以及進行Google街景視頻文字處理等,能夠在不到五天的時間內(nèi)找到街景數(shù)據(jù)庫中的所有文字,此外TPU也用于提供Google搜索結(jié)果的排序。
TPU與同期的CPU和GPU相比,可以提供15-30倍的性能提升,以及30-80倍的效率(性能/瓦特)提升。
Xilinx&深鑒科技
Xilinx賽靈思是FPGA的先行者和領(lǐng)導者,1984年,賽靈思發(fā)明了現(xiàn)場可編程門陣列FPGA,作為半定制化的ASIC,順應了計算機需求更專業(yè)的趨勢。
FPGA的好處是可編程以及帶來的靈活配置,同時還可以提高整體系統(tǒng)性能,比單獨開發(fā)芯片整個開發(fā)周期大為縮短,但缺點是價格、尺寸等因素。
在汽車ADAS和自動駕駛解決方案上,賽靈思的FPGA和SOC產(chǎn)品家族衍生出三個模塊:
前置攝像頭Zynq-7000/ZynqUltraScale+MPSoC
多傳感器融合系統(tǒng)ZynqUltraScale+MPSoC
Zynq采用單一芯片即可完成ADAS解決方案的開發(fā),SOC平臺大幅提升了性能,便于各種捆綁式應用,能實現(xiàn)不同產(chǎn)品系列間的可擴展性,可幫助系統(tǒng)廠商加快在環(huán)繞視覺、3D環(huán)繞視覺、后視攝像頭、動態(tài)校準、行人檢測、后視車道偏離警告和盲區(qū)檢測等ADAS應用的開發(fā)時間。并且可以讓OEM和Tier1在平臺上添加自己的IP以及賽靈思自己的擴展。
深鑒科技成立于2016年,其創(chuàng)始團隊有著深厚的清華背景,專注于神經(jīng)網(wǎng)絡(luò)剪枝、深度壓縮技術(shù)及系統(tǒng)級優(yōu)化。2018年7月17日,賽靈思宣布收購深鑒科技。
自成立以來,深鑒科技就一直基于賽靈思的技術(shù)平臺開發(fā)機器學習解決方案,推出的兩個用于深度學習處理器的底層架構(gòu)—亞里士多德架構(gòu)和笛卡爾架構(gòu)的DPU產(chǎn)品,都是基于賽靈思FPGA器件。
對于賽靈思來說,看好深鑒科技基于機器學習的軟件、算法,以及面向云側(cè)和端側(cè)硬件架構(gòu)的優(yōu)勢;對于深鑒科技,后期發(fā)展高昂的研發(fā)費用、高成本的芯片設(shè)計、流片、試制、認證、投片量產(chǎn),投靠賽靈思能夠降低隨之而來的風險,進入芯片戰(zhàn)爭的持久戰(zhàn)。
2018年6月,深鑒科技宣布進軍自動駕駛領(lǐng)域,自主研發(fā)的ADAS輔助駕駛系統(tǒng)——DPhiAuto,目前已獲得日本與歐洲一線車企廠商和Tier1的訂單,即將實現(xiàn)量產(chǎn)。
DPhiAuto,基于FPGA,是面向高級輔助駕駛和自動駕駛的嵌入式AI計算平臺,可提供車輛檢測、行人檢測、車道線檢測、語義分割、交通標志識別、可行駛區(qū)域檢測等深度學習算法功能,是一套針對計算機視覺環(huán)境感知的軟硬件協(xié)同產(chǎn)品。
功耗方面,可以在10-20W的功耗范圍內(nèi),實現(xiàn)等效性能,能效比指標高于目前主流的CPU、GPU方案。(國金證券:張帥)百度搜索“樂晴智庫”獲得更多行業(yè)報告。
評論