本期導(dǎo)讀
MLPerf 組織最近發(fā)布了最新一輪機(jī)器學(xué)習(xí)性能測(cè)試結(jié)果,首次直接參加此次測(cè)試的“新力量” 賽靈思(Xilinx), 在最新 MLPerf 推斷基準(zhǔn)測(cè)試中取得了“圖像分類(lèi)”最高的性能/峰值(Perf divided by peak TOPS)成績(jī)。TOPS(每秒萬(wàn)億次運(yùn)算) 是一個(gè)衡量性能效率的指標(biāo),意味著在給定 X 個(gè)硬件峰值計(jì)算量的情況下,賽靈思提供了最高的吞吐量性能。機(jī)器學(xué)習(xí)(ML)是支撐當(dāng)今人工智能(AI)技術(shù)發(fā)展的核心算法,性能效率關(guān)乎各種 AI 應(yīng)用的實(shí)現(xiàn)和落地。然而,玩家們你方唱罷我登場(chǎng)的機(jī)器學(xué)習(xí)性能之爭(zhēng),紙上公開(kāi)的數(shù)據(jù)是否可信,效率高低誰(shuí)來(lái)評(píng)判、如何評(píng)判?
帶著這些問(wèn)題,Aspencore 首席分析師邵樂(lè)峰先生連線賽靈思人工智能高級(jí)總監(jiān)姚頌及人工智能高級(jí)經(jīng)理羅霖先生,希望通過(guò)更深度地了解賽靈思此次參加測(cè)試的過(guò)程及結(jié)果,探索衡量機(jī)器學(xué)習(xí)芯片性能的基準(zhǔn)及自適應(yīng)計(jì)算平臺(tái)的前景。
1
機(jī)器學(xué)習(xí)性能誰(shuí)來(lái)評(píng)判?
當(dāng)今 AI 芯片的評(píng)測(cè)標(biāo)準(zhǔn),主流的有國(guó)際上的 MLPerf,國(guó)內(nèi)有人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟的 AIIA DNN benchmark(人工智能端側(cè)芯片基準(zhǔn)測(cè)試評(píng)估方案)。
MLPerf 是用于測(cè)試機(jī)器學(xué)習(xí)(ML)硬件、軟件以及服務(wù)的訓(xùn)練和推斷性能的一套公開(kāi)、標(biāo)準(zhǔn)化基準(zhǔn),該行業(yè)基準(zhǔn)測(cè)試組織自 2018 年 5 月成立以來(lái),得到了亞馬遜、百度、Facebook、谷歌、哈佛大學(xué)、英特爾、微軟和斯坦福大學(xué)等支持,旨在提供一個(gè)共同認(rèn)可的過(guò)程,來(lái)衡量不同類(lèi)型的加速器和系統(tǒng)如何快速有效地執(zhí)行訓(xùn)練過(guò)的神經(jīng)網(wǎng)絡(luò)。
作為 AI 芯片領(lǐng)域一個(gè)重要的基準(zhǔn)測(cè)試,MLPerf 主要包括訓(xùn)練和推斷兩方面的性能測(cè)試,并正在迅速成為業(yè)界衡量 ML 性能的事實(shí)標(biāo)準(zhǔn)。盡管目前看仍偏重于訓(xùn)練端,但賽靈思軟件和人工智能高級(jí)經(jīng)理羅霖認(rèn)為未來(lái)推斷側(cè)性能測(cè)試的比例將會(huì)不斷增加,尤其是 MLPerf 今年在測(cè)試中增加了新模式和手機(jī)/筆記本電腦這兩種新類(lèi)別。今年的 MLPerf Inference 基準(zhǔn)測(cè)試(v0.7)的第二個(gè)版本,吸引了全球 1,200 多位同行進(jìn)行評(píng)審。
2
從參測(cè)過(guò)程看 MLPerf 測(cè)試有何基準(zhǔn)
此次賽靈思與 Mipsology 合作,參加了嚴(yán)格的“封閉”基準(zhǔn)測(cè)試。該測(cè)試向廠商提供預(yù)訓(xùn)練網(wǎng)絡(luò)和預(yù)訓(xùn)練權(quán)重,是一個(gè)真正的“Close Deviation”同類(lèi)測(cè)評(píng)。羅霖解釋說(shuō),同類(lèi)測(cè)評(píng)就像是跳水比賽中和自選動(dòng)作對(duì)應(yīng)的標(biāo)準(zhǔn)動(dòng)作,是實(shí)打?qū)嵉幕谕瑯宇A(yù)訓(xùn)練權(quán)重模型的對(duì)比。
測(cè)試系統(tǒng)使用賽靈思 Alveo U250 加速器卡,該卡以 Mipsology 優(yōu)化的領(lǐng)域?qū)S眉軜?gòu)(DSA)為基礎(chǔ)?;鶞?zhǔn)測(cè)試測(cè)量了基于 Alveo 的定制 DSA 在離線模式下以 5,011 圖像/秒的速度執(zhí)行基于 ResNet-50 基準(zhǔn)的圖像分類(lèi)任務(wù)的效率。ResNet-50 以圖像/秒為單位測(cè)量圖像分類(lèi)性能。結(jié)果,賽靈思實(shí)現(xiàn)了最高的性能/峰值(TOPS,每秒萬(wàn)億次運(yùn)算)。這是一個(gè)衡量性能效率的指標(biāo),因此也就意味著,在給定 X 個(gè)硬件峰值計(jì)算量的情況下,賽靈思提供了最高的吞吐量性能。
此外,值得一提的是,MLPerf 的結(jié)果還顯示,賽靈思與其在數(shù)據(jù)手冊(cè)中公布的性能相比,實(shí)現(xiàn)了 100% 的可用 TOPS。而市場(chǎng)上的大多數(shù)廠商只能提供其峰值 TOPS 的一小部分,效率最高通常不超過(guò) 40%。這一令人印象深刻的結(jié)果表明,并非所有數(shù)據(jù)手冊(cè),或者說(shuō)紙面上的原始峰值 TOPS,都能準(zhǔn)確代表實(shí)際性能。
從測(cè)試看, 還有一個(gè)重要的因素值得關(guān)注, ML 應(yīng)用涉及的不僅僅是 AI 處理。它們通常需要 ML 預(yù)處理功能和后處理功能,這兩者會(huì)競(jìng)爭(zhēng)系統(tǒng)帶寬,導(dǎo)致系統(tǒng)級(jí)瓶頸。而賽靈思自適應(yīng)平臺(tái)的強(qiáng)大之處就在于,它可以通過(guò)加速關(guān)鍵型非 AI 功能同時(shí)構(gòu)建應(yīng)用級(jí)數(shù)據(jù)流流水線,來(lái)避免系統(tǒng)瓶頸,從而加速整體應(yīng)用。同時(shí),賽靈思在 TensorFlow 和 Pytorch 框架的支持上也做了很多工作,使 Tensorflow 和 Pytorch 模型的硬件加速變得更容易。
3
Xilinx 首次直接參測(cè)意味著什么?
賽靈思首次直接參與 MLPerf 測(cè)試,意味著以 FPGA 為基礎(chǔ)的 AI 解決方案已經(jīng)日趨成熟,在推斷應(yīng)用中達(dá)到了業(yè)界領(lǐng)先的水平,日漸成為 AI 應(yīng)用的主流玩家。在本次數(shù)據(jù)中心類(lèi)別的封閉分區(qū)(Closed Division)參賽廠商中,除了 Nvidia 和 Intel 之外,賽靈思是唯一提交結(jié)果的芯片公司。
羅霖表示:AI 推斷是一個(gè)快速增長(zhǎng)的市場(chǎng),例如自動(dòng)駕駛和基于人工智能的視頻監(jiān)控,需要計(jì)算機(jī)視覺(jué)任務(wù),如圖像分類(lèi)和目標(biāo)檢測(cè)。這些復(fù)雜的計(jì)算工作負(fù)載需要不同級(jí)別的吞吐量、延遲和功率才能高效運(yùn)行,這就是賽靈思和自適應(yīng)計(jì)算產(chǎn)品的亮點(diǎn)所在。
由于時(shí)間的原因,賽靈思在本次 MLPerf 測(cè)試中只提交了 3 項(xiàng)測(cè)試結(jié)果,除了上文提到的使用 U250 加速卡進(jìn)行“圖像分類(lèi)”外,還使用 Alveo U280 加速卡進(jìn)行“目標(biāo)檢測(cè)”,以及使用 Versal ACAP 平臺(tái)進(jìn)行“圖像分類(lèi)”。 羅霖說(shuō),U250 參加的測(cè)試是在封閉分區(qū)所有參賽者采用一樣的神經(jīng)網(wǎng)絡(luò)模型,一樣的預(yù)訓(xùn)練權(quán)重,一樣的預(yù)處理和后處理,就像體操比賽里面“標(biāo)準(zhǔn)動(dòng)作”。相比之下,在開(kāi)放分區(qū)(Open Division)類(lèi)別中廠商允許使用自定義的方法對(duì)模型進(jìn)行優(yōu)化,包括重新訓(xùn)練,屬于“百花齊放”類(lèi)型。
但實(shí)際上,MLPerf Inference 0.7 版的 8 項(xiàng)測(cè)試內(nèi)容賽靈思平臺(tái)其實(shí)都能支持,在公司內(nèi)部運(yùn)行的一些非圖像類(lèi)模型,例如語(yǔ)音識(shí)別、自然語(yǔ)言處理等測(cè)試中,都有不錯(cuò)的表現(xiàn)。相信今后公司會(huì)參加更多類(lèi)別的測(cè)試。
法國(guó)初創(chuàng)公司 Mipsology 是賽靈思此次測(cè)試的合作伙伴,在利用 FPGA 實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)加速方面頗有建樹(shù)。羅霖表示,F(xiàn)PGA 是一個(gè)開(kāi)放的、靈活的計(jì)算加速平臺(tái),各種各樣和 Mipsology 一樣有能力的合作伙伴,都可以基于賽靈思相關(guān)硬件和工具鏈產(chǎn)品,開(kāi)發(fā)出極具市場(chǎng)競(jìng)爭(zhēng)力的產(chǎn)品。
4
TOPS 是衡量機(jī)器學(xué)習(xí)性能的唯一指標(biāo)?
姚頌表示:機(jī)器學(xué)習(xí)(ML)應(yīng)用程序不僅僅是 AI 處理,還需要 ML 前后的處理函數(shù),因?yàn)檫@些函數(shù)會(huì)競(jìng)爭(zhēng)系統(tǒng)帶寬并導(dǎo)致系統(tǒng)級(jí)瓶頸。因此,最優(yōu)秀的 AI 應(yīng)用實(shí)現(xiàn)方案未必是速度最快的,它需要的是在效率最高的同時(shí)保持靈活性,必須是量身定制的,能夠按需交付性能,不多不少。
眾所周知,神經(jīng)網(wǎng)絡(luò)中的前一個(gè)計(jì)算結(jié)果通常都作為后一個(gè)計(jì)算的輸入,AI 推斷效率發(fā)揮不出來(lái)的主要原因是要花很多時(shí)間去內(nèi)存中讀取數(shù)據(jù)。
姚頌列舉了兩種常見(jiàn)的提升效率模式的做法:
一是通過(guò)將計(jì)算結(jié)果快速存儲(chǔ)下來(lái),避免對(duì)內(nèi)存的反復(fù)讀取和寫(xiě)入;
另一種是對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行分割處理,只調(diào)用與特定區(qū)塊處理相關(guān)的數(shù)據(jù),以流水線的方式掩蓋掉內(nèi)存讀取的延時(shí)。
而具體到賽靈思的做法,羅霖更強(qiáng)調(diào)“端到端的優(yōu)化”對(duì)高計(jì)算效率的影響。也就是說(shuō),首先要關(guān)注底層神經(jīng)網(wǎng)絡(luò)處理單元微架構(gòu)的設(shè)計(jì),包括計(jì)算乘加、數(shù)據(jù)存儲(chǔ)/搬運(yùn)、流水線調(diào)度等等;其次是中間層的工具鏈,例如在編譯的時(shí)候是否對(duì)模型進(jìn)行了優(yōu)化,是否將與模型相關(guān)的計(jì)算和對(duì)存儲(chǔ)的操作有效映射到微架構(gòu)上;最后,再對(duì)上層應(yīng)用進(jìn)行優(yōu)化。這一系列操作并非簡(jiǎn)單的硬件堆砌就能達(dá)到,而是要在性能、成本、功耗等多因素之間找到微妙的平衡,不能像孩子們玩的蹺蹺板,一邊的升起,往往意味著另一邊的下墜。
羅霖進(jìn)一步解釋說(shuō),一些解決方案非常適合 AI 推斷,但并不適合整體應(yīng)用處理。GPU 和 ASIC 往往能提供在紙面上看上去很高的 TOPS,但是 AI 推斷性能通常需要與系統(tǒng) I/O、預(yù)處理性能和后處理性能相匹配。如果非 AI 組件不能高效地在單芯片上實(shí)現(xiàn),就需要多芯片解決方案。多芯片方案需要在器件之間傳遞數(shù)據(jù),會(huì)降低系統(tǒng)性能并提高功耗。因此,一個(gè)能夠高效實(shí)現(xiàn)整體應(yīng)用的單器件在實(shí)際 AI 推斷部署中擁有顯著優(yōu)勢(shì)。
5
自適應(yīng)計(jì)算平臺(tái)有哪些典型應(yīng)用?
賽靈思 Versal ACAP 自適應(yīng)計(jì)算平臺(tái)構(gòu)建于能在制造后依然可以動(dòng)態(tài)重配置的硬件上,包括 FPGA 等經(jīng)過(guò)長(zhǎng)期檢驗(yàn)的技術(shù),以及賽靈思 AI 引擎等最近的創(chuàng)新。其強(qiáng)大之處在于,不僅可以加速關(guān)鍵的人工智能和非人工智能功能,而且還可以構(gòu)建應(yīng)用程序級(jí)流媒體管道,以避免系統(tǒng)瓶頸,從而實(shí)現(xiàn)整個(gè)應(yīng)用程序的加速。
為了能夠更好地理解上述理論,羅霖和姚頌為我們列舉了一些典型的應(yīng)用場(chǎng)景:
自動(dòng)駕駛
自動(dòng)駕駛對(duì)超低延時(shí)是相當(dāng)看重的,通常要求每一幀的延時(shí)不能超過(guò) 33 毫秒,這意味著真正能留給感知和識(shí)別的時(shí)間只有不到 10 毫秒,F(xiàn)PGA 可以做到幾毫秒之內(nèi)的延時(shí),相比之下,GPU 就很難做到。
智能視頻分析
“數(shù)據(jù)路徑越復(fù)雜對(duì) FPGA 越有利”,羅霖說(shuō),在智能視頻分析中,不光有 CNN 推斷,還包括檢測(cè)、解碼、圖像預(yù)處理和后處理等許多工作,F(xiàn)PGA 器件能夠做很多優(yōu)化的、定制化的硬件加速。如果換成 GPU,盡管在處理 YOLOV3 模型時(shí)效果不錯(cuò),但添加上其他任務(wù)后,就會(huì)明顯感到“力不從心”,類(lèi)似現(xiàn)象在語(yǔ)音類(lèi)、推薦類(lèi)應(yīng)用中也很常見(jiàn)。
ResNet-50 Vs YOLOv3
YOLOv3 是用于各類(lèi)目標(biāo)檢測(cè)與識(shí)別的神經(jīng)網(wǎng)絡(luò)模型,準(zhǔn)確率高。支持者認(rèn)為,ResNet-50 使用的 224×224 基準(zhǔn)圖像像素現(xiàn)在“幾乎無(wú)人使用”,而 YOLOv3 使用 608×608,甚至 1440×1440 像素,屬于高清處理,這對(duì)自動(dòng)駕駛、機(jī)器人、銀行安全及零售分析領(lǐng)域的客戶來(lái)說(shuō)十分重要。
姚頌不否認(rèn) YOLOv3 是在準(zhǔn)確率和計(jì)算性能上取得不錯(cuò)平衡的模型,但他不認(rèn)為這樣就可以取代 ResNet-50 標(biāo)準(zhǔn),例如在醫(yī)療影像、工業(yè)圖像檢測(cè)等領(lǐng)域就使用了包括 SSB 在內(nèi)的其它模型。更重要的是,ResNet-50 的整體架構(gòu)非常高效,很多互聯(lián)網(wǎng)企業(yè)的神經(jīng)網(wǎng)絡(luò)都基于 ResNet-50 模塊搭建。所以,“我們不應(yīng)該只把眼光聚焦在 YOLOv3 模型上,一顆 AI 芯片,至少應(yīng)該把 CNN 推斷或者類(lèi)似的神經(jīng)網(wǎng)絡(luò)架構(gòu)都支持起來(lái),否則人家會(huì)認(rèn)為你只支持 YOLOv3 模型?!彼f(shuō)。
作者:邵樂(lè)峰
ASPENCORE 中國(guó)區(qū)首席分析師
責(zé)任編輯:haq
-
芯片
+關(guān)注
關(guān)注
455文章
50818瀏覽量
423715 -
AI
+關(guān)注
關(guān)注
87文章
30898瀏覽量
269128 -
人工智能
+關(guān)注
關(guān)注
1791文章
47282瀏覽量
238534 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8418瀏覽量
132654
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論