隨著智能手機需要處理的內(nèi)容變得日益復雜,用戶對當今主流和入門級移動設備的要求已越來越高。而人工智能技術的日益成熟,以及邊緣計算的興起,使得人工智能成為了提升智能手機體驗的重要法寶。目前眾多的高端智能手機都已經(jīng)開始引入人工智能技術。去年,華為、蘋果等廠商都推出了集成人工智能核心的手機處理器,而作為全球最大的移動芯片IP提供商,Arm自去年以來也在不斷的加碼人工智能。
日前,Arm正式發(fā)布了全新的DynamIQ技術,加入了針對人工智能的指令集和優(yōu)化庫,ARMV8.2版本的指令集開始支持神經(jīng)網(wǎng)路卷積運算,極大的提升人工智能和機器學習的效率。隨后在去年5月底,Arm發(fā)布了首款DynamIQ技術處理器Cortex-A75/A55。今年2月下旬,Arm又宣布了針對人工智能的ProjectTrillium項目,推出了多款獨立的人工智能IP。
Arm在北京召開2018全球技術發(fā)布會,再次詳細介紹了ProjectTrillium項目,同時Arm還正式發(fā)布了全新的面向主流市場的圖形處理器Mali-G52,以及面向入門級的Mali-G31。特別值得一提的是,Mali-G52還首次加入了對于機器學習的支持,進一步加碼人工智能。而且新的IP套件可與現(xiàn)有基于DynamIQ的CPU和其他Arm IP無縫集成。
ProjectTrillium:全新人工智能IP
ProjectTrillium是今年2月Arm公布的針對人工智能的Arm IP 套件。包括了全新的機器學習處理器IP、目標檢測處理器IP和神經(jīng)網(wǎng)絡軟件庫。
得益于終端側人工智能市場的快速增長,以及ARM在移動及物聯(lián)網(wǎng)市場的巨大優(yōu)勢,ProjectTrillium項目目前主要針對的也是移動終端和物聯(lián)網(wǎng)設備。
1、全新架構的機器學習處理器IP
根據(jù)Arm及研究機構的預計,到 2028 年,移動設備的數(shù)量將從現(xiàn)在的17億臺增長到 22 億臺,智能IP Camera將由現(xiàn)在的1.6億臺增長到13億臺。在終端側具有人工智能的設備將會由現(xiàn)在的3億臺增長到32億臺。足見人工智能市場增長之迅速。而Arm的機器學習處理器IP的推出則是順應了市場對于專用的人工智能加速芯片的需求。
據(jù)介紹,Arm的機器學習處理器IP依托于Arm多年的研究成果,采用的是全新的架構,可以為其CPU和GPU遇到的挑戰(zhàn)提供解決方案。該架構還為16位整數(shù)運算進行了優(yōu)化。
根據(jù)Arm公布的數(shù)據(jù)顯示,其機器學習處理器IP的性能最高可以達到每平方毫米(芯片面積)超過4.6 TOPs的性能,而且在實際應用中,結合系統(tǒng)及應用優(yōu)化,可以實現(xiàn)2-4倍提升。
那么Arm的機器學習處理器的4.6 TOPs/平方毫米的性能屬于一個什么水平呢?我們拿華為麒麟970所集成的NPU來比較一下。
據(jù)華為介紹,麒麟970集成的NPU專用硬件處理單元,設計了HiAI移動計算架構,其AI性能密度大幅優(yōu)于CPU和GPU。相較于四個Cortex-A73核心,處理相同AI任務,新的異構計算架構擁有約50倍能效,以及25倍性能優(yōu)勢,面積只有CPU的1/2,運算能力達到了1.92TOPs。
根據(jù)Arm的資料顯示,Cortex-A73是采用ARMv8-A架構中核心最小的處理器,每核心面積在0.65平方毫米。四個Cortex-A73核心,面積至少應該是2.6平方毫米。那么華為麒麟970的NPU的面積應該是在1.3平方毫米左右。換算下來,麒麟970的NPU每平方毫米的性能約為1.48 TOPs。也就是說,Arm新推出的機器學習處理器IP的單位面積性能可能達到麒麟970的NPU的4倍,確實非常的強悍。
另外,對于移動設備和一些物聯(lián)網(wǎng)設備,能效也是非常重要的,Arm的機器學習處理器IP在能效上可以實現(xiàn)3 TOPs/W,Arm認為3 TOPs/W將是移動AI芯片的一個“甜蜜點”。
在Arm看來,其目前的主要優(yōu)勢還是在移動市場,而且現(xiàn)在很多AI創(chuàng)新都是從移動端發(fā)生的。另外,Arm的業(yè)務模式主要是進行IP授權,這就需要體量比較大的市場來支撐,顯然目前移動市場對于人工智能的需求量最最為龐大的。所以Arm的人工智能處理器會先從移動市場進行切入。
根據(jù)Arm的機器學習處理器的路線圖也顯示,移動市場將會是Arm的機器學習處理器首先切入的市場。Arm透露,其首款針對移動市場的機器學習處理器IP將會在2018年年中推向市場。
另外,Arm也表示,其機器學習處理器IP是具有高可擴展性、兼容性和可編程的,可以提供計算性能最低從2 GOPs到超過70 TOPs的產(chǎn)品。除了移動市場之外,Arm的機器學習處理器IP也將會開始向物聯(lián)網(wǎng)、工業(yè)、汽車、網(wǎng)絡以及服務器市場進軍。
2、第二代的目標檢測處理器
除了首次推出的機器學習處理器IP之外,Arm此次還針對安防監(jiān)控市場帶來了其第二代的目標檢測處理器。其實早在2016年Arm就推出了其首款目標檢測處理器Spirit,隨后被其2016年收購的計算機視覺和圖像處理器的公司Apical(其產(chǎn)品覆蓋超過15億設備)所采用,隨后廣泛的用于英國智能家居品牌Hive安防攝像頭當中。如果說,Arm此前推出的目標檢測處理器Spirit是一次試水,那么這次的第二代的目標檢測處理器產(chǎn)品則將是Arm全面進軍安防監(jiān)控市場的開始。
根據(jù)Arm公布的數(shù)據(jù)顯示,其第二代目標檢測處理器可以支持全高清畫質(zhì)下60fps實時檢測,支持50×60像素以上的無限數(shù)量的目標檢測。其還提供了詳細的人體模型提供了豐富的源數(shù)據(jù),使人臉、方向、軌跡、姿勢和動作檢測成為可能。
Arm表示,其還可提供集成解決方案,采用其機器學習處理器+目標檢測處理器,可以更高效的實現(xiàn)比如人臉、物體識別等應用。在實時目標識別任務中,目標檢測處理器會首先分離出區(qū)域,比如人臉、物體。這樣,機器學習處理器就能夠分析更少的像素,以實現(xiàn)更快、更精細的結果。
3、神經(jīng)網(wǎng)絡軟件庫
Arm的神經(jīng)網(wǎng)絡庫包括:CMSIS-NN,Compute Library和Object DetectionLibraries。
CMSIS-NN是Arm提供的神經(jīng)網(wǎng)絡推理運算庫,根據(jù)Arm此前的數(shù)據(jù),其對于運行時間/吞吐量將會有4.6倍的提升,而對于能效將有4.9倍的提升;Arm Compute Library是Arm公司去年發(fā)布的開源工具,旨在為圖像/視頻/多媒體/計算機視覺等領域的開發(fā)者提供Arm平臺的硬件加速庫;Object DetectionLibraries則是Arm針對其目前檢測處理器的目標檢測庫。
據(jù)介紹,Arm的神經(jīng)網(wǎng)絡庫可支持主流的神經(jīng)網(wǎng)絡框架,如TensorFlow、Caffe/Caffe2、mxnet等。此外,Arm的神經(jīng)網(wǎng)絡庫還針對 Arm Cortex CPU、Mali GPU 和新的機器學習處理器和目標檢測處理器進行了優(yōu)化。通過以上這些主流框架,開發(fā)者可以輕松調(diào)用Arm的神經(jīng)網(wǎng)絡庫API,從而發(fā)揮出Arm的AI/ML硬件IP的性能。
Mali-G52發(fā)布,Arm GPU首次加入了對于機器學習的支持
在3月6日的發(fā)布會上,Arm發(fā)布了兩款全新的GPU產(chǎn)品:針對中端市場Mali-G52和針對入門級市場的Mali-G31。
其中,Mali G31是基于Arm此前只用于中高端產(chǎn)品線當中的Bifrost架構,是Arm目前最小的GPU,還加入了對于Vulkan的支持??梢哉fMali-G31的推出是Arm首次將之前一些中高端產(chǎn)品的能力開始引入到入門級產(chǎn)品當中。
而Mali-G52則是Mali-G51的升級產(chǎn)品,不僅可從容應對更高的圖形復雜度,允許在主流移動系統(tǒng)的功率和帶寬限制內(nèi)實現(xiàn)更多的機器學習功能。
根據(jù)Arm的資料顯示,Mali-G52由于采用了更寬的執(zhí)行引擎,相比前代產(chǎn)品的4線程,Mali-G52最多可提供8線程,可在相同芯片面積上,提供更高的圖形性能,性能密度相對于Mali-G51提高了30%。另外,在能效方面,Mali-G52也提高了15%。這里需要指出的是,Mali-G52的面積是G51的1.2倍。
當然,更為值得關注的是Mali-G52首次加入了對于INT8數(shù)據(jù)類型的支持,再加上Mali-G52的執(zhí)行引擎增加到了8個,使得其可以更加高效的進行進行針對人工智能的運算。
我們都知道,相對于CPU來說,采用GPU來做AI運算效率會更高一些。所以,我們看到Nvidia的人工智能計算卡主要也是基于GPU來運算的。
根據(jù)Arm公布的數(shù)據(jù)顯示,與Mali-G51相比,在圖形識別能力方面,Mali-G52的性能提升了3.6倍,在Yolonetwork卷積性能測試當中,性能提升了3.5倍。
近年來隨著Arm GPU產(chǎn)品線的越來越強大,目前Arm的Mali系列GPU已經(jīng)成為全球出貨最多的GPU。根據(jù)資料顯示,2017年Arm的Mali系列GPU出貨超過12億顆。隨著此次,Arm首次使得其Mali-G52 GPU開始支持機器學習,相信后續(xù)將會有更多的新的Arm GPU也將會支持。
據(jù)了解,今年年中,Mali-G52 GPU就將會推向市場。
將人工智能帶入到每一個設備當中
Arm認為機器學習正變得日益普及,可跨越多個設備,觸達每一位用戶。而Arm的愿景則是讓將機器學習在更多智能設備中普及。
目前一些高端智能設備當中的人臉識別、物體識別、指紋識別、用戶習慣學習等應用都有用到機器學習,有些廠商還在SoC上配置了獨立的人工智能處理器來進行加速。但是對于目前的主流智能手機市場來說,都配備專門的人工智能處理器并不實際,所以這些任務可以交給SoC上的其他單元來進行 ,比如DynamIQ CPU和Mali-G52 GPU,以提升現(xiàn)有應用的機器學習性能。
Arm資深市場營銷總監(jiān)Ian Smythe先生也在會上表示:“對終端設備而言,支持豐富的多層用戶界面以及一系列廣泛的最新應用已成為必然趨勢。更為重要的是,機器學習不再是高端智能手機的專有配置。各級用戶都希望輕松使用配備機器學習功能的各類APP應用。”
當然,對于需要用到專用的人工智能處理器的設備和市場,Arm此次也推出了ProjectTrillium項目,推出了專用的獨立的機器學習處理器IP和目標檢測處理器IP。并且,Arm的機器學習和目標檢測處理器IP是具有高可擴展性、兼容性和可編程的,可以覆蓋更為廣泛的市場。
另外值得一提的是,Arm此次推出的新的ProjectTrillium項目的IP套件可與現(xiàn)有基于DynamIQ的CPU、Mali-G52 GPU和其他Arm IP無縫集成。
根據(jù)IDC的研究數(shù)據(jù)顯示,目前90%的具有人工智能能力的設備都是基于Arm的(主要是基于ARM的CPU/GPU)。而隨著Arm將人工智能的能力帶入其GPU產(chǎn)品,以及ProjectTrillium項目的推出,再加上去年就推出的針對人工智能優(yōu)化的DynamIQ CPU,未來這一比例可能將進一步提升。
顯然,從前面的一系列介紹,我們不難看出,現(xiàn)在的Arm已經(jīng)開始全面擁抱AI,并希望通過AI獲取更大的市場份額。
得益于Arm在移動CPU及GPU市場的領先地位和生態(tài)優(yōu)勢,隨著ProjectTrillium的推出,Arm的人工智能IP或將成為Arm一條全新的產(chǎn)品線,而且隨著人工智能在終端側的快速發(fā)展,未來其有望成為與Cortex系列CPU、Mali系列多媒體IP并駕齊驅的第三大產(chǎn)品線。
-
ARM
+關注
關注
134文章
9148瀏覽量
368451 -
AI
+關注
關注
87文章
31395瀏覽量
269787 -
人工智能
+關注
關注
1793文章
47588瀏覽量
239465
原文標題:揭秘Arm人工智能戰(zhàn)略:不僅CPU/GPU會支持,還有獨立的AI產(chǎn)品線!
文章出處:【微信號:icsmart,微信公眾號:芯智訊】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論