自動駕駛系統(tǒng)中的復雜計算依靠硬件算力還是計算效率?這是橫亙在許多創(chuàng)業(yè)公司面前的實際問題。依靠前者需要投入大量資金,依靠后者則離不開底層技術的鉆研和開發(fā)。
在2021年CES上,L4級自動駕駛解決方案提供商元戎啟行將在線上展示其針對L4級自動駕駛深度學習模型研發(fā)的推理引擎DeepRoute-Engine。該推理引擎實現(xiàn)了比開源深度學習框架平均高6倍的推理速度。大幅提升了自動駕駛的計算效率,令自動駕駛擺脫了對高算力計算平臺的依賴。
自動駕駛要做到像人類一樣感知周圍物體,需要通過深度學習來完成,即需要通過大規(guī)模的、復雜的深度學習網(wǎng)絡模型來對輸入的數(shù)據(jù)進行推理。在推理過程中,需要實時完成大量的計算。因此,自動駕駛企業(yè)對計算平臺的算力有著嚴格的要求。
這類計算平臺不僅成本高達數(shù)萬元,功耗也高達數(shù)百瓦。假設計算平臺的平均功率為500W,其24小時的耗電量約占一輛蓄電量為50kW·h的電動車的24%。
為了擺脫自動駕駛對這類計算平臺的依賴,降低自動駕駛的硬件成本,以及減少自動駕駛硬件耗能對汽車行駛里程的影響,元戎啟行選擇了另一種方式。通過自研的推理引擎——DeepRoute-Engine,讓L4級自動駕駛的感知模塊,可以運行在低成本、低功耗的計算平臺上。
根據(jù)元戎啟行與曹操出行合作的自動駕駛車型——幾何A的實車測試,元戎啟行的自動駕駛系統(tǒng),每行駛100公里只消耗1度電。該耗電量還包括了車內負載2人,空調開啟,以及傳感器風阻對能量的耗費。
在自動駕駛系統(tǒng)中,感知模塊是其最核心、計算量最大的軟件模塊。想要提高感知模塊的運行效率,就需要針對感知算法的特點、計算需求,以及計算平臺的架構特點進行適配,從而驅動系統(tǒng)的高效運行。一個定制的推理引擎就相當于定制的驅動器,不僅能夠提高感知模塊運行效率,還能提高系統(tǒng)可擴展性,兼容更多計算平臺。
L4級自動駕駛感知算法所使用的深度學習框架非常復雜,需要實時進行大量復雜計算。目前市場上開源的推理引擎,大多無法處理復雜的L4級自動駕駛深度學習模型。而諸如Caffe、TensorFlow、PyTorch這類深度學習框架,尚未針對復雜的深度學習框架進行計算優(yōu)化,因此,其計算效率也差強人意。元戎啟行的推理引擎通過智能的算子融合,將推理過程中可合并的運算進行合并,大幅提高計算效率。
DeepRoute-Engine還針對不同品牌的計算平臺設計了定制的內核程序,用以執(zhí)行所需的大量并行計算。DeepRoute-Engine目前支持包括AMD、Nvidia、Intel等品牌的GPU,以及華為的車載計算平臺。
目前,市場上常見的用于自動駕駛的計算平臺有CPU、以及采用GPU、FPGA、ASIC等架構的AI芯片。由于自動駕駛系統(tǒng)需要處理激光雷達、相機等傳感器采集的海量數(shù)據(jù),傳統(tǒng)的CPU算力越來越無法滿足使用要求,以GPU架構為主的AI芯片成為了實現(xiàn)自動駕駛必不可少的硬件。
而我國在GPU的生產(chǎn)上,與國際廠商還有一定的差距,元戎啟行所研發(fā)的推理引擎,適用于不同品牌的CPU、AI芯片,解決了自動駕駛被計算平臺“卡脖子”的問題。
元戎啟行副總裁劉念邱表示:“通過DeepRoute-Engine,元戎啟行已將復雜的深度學習模型運用在國內外主流的計算平臺上。我們希望能與各界廠商攜手,共同研發(fā)、推進更適合自動駕駛的低功耗、低成本計算平臺解決方案,促進自動駕駛車輛的前裝量產(chǎn)?!?/p>
-
自動駕駛
+關注
關注
784文章
13812瀏覽量
166457 -
元戎啟行
+關注
關注
1文章
20瀏覽量
3955
發(fā)布評論請先 登錄
相關推薦
評論