AI基準(zhǔn)大戰(zhàn)已經(jīng)開始。
5月2日,由各大領(lǐng)先的科技公司和大學(xué)組成的團(tuán)隊(duì)發(fā)布了一款基準(zhǔn)測量工具的雛形——MLPerf,其目的是測量各種AI框架和芯片中不同機(jī)器學(xué)習(xí)任務(wù)的訓(xùn)練速度和推理時間。
在這一任務(wù)的參與者中,有許多知名公司和大學(xué),其中既有谷歌、英特爾、百度、AMD這樣的巨頭,也有一些AI硬件創(chuàng)企,例如SambaNova和Wave Computing。同時還有世界頂尖大學(xué):斯坦福大學(xué)、哈佛大學(xué)、加州大學(xué)伯克利分校、明尼蘇達(dá)大學(xué)和多倫多大學(xué)。
MLPerf的誕生是小部分公司自我組織進(jìn)行產(chǎn)品對比的結(jié)果。上周,RiseML的博客對比了谷歌的TPUv2和NVIDIA V100的性能。5月4日,英特爾發(fā)表博客,展示了為機(jī)器翻譯所用的RNN的數(shù)據(jù),題目稱“英特爾Xeon大規(guī)模處理器表現(xiàn)出令人驚訝的推理性能”。這種對比會給人一些參考,但通常也會讓人覺得供應(yīng)商自認(rèn)為比其他廠商優(yōu)越。而一個標(biāo)準(zhǔn)化的基準(zhǔn)可以讓測試簡單化,得到人們想要的結(jié)果。
除此之外,想要跟蹤記錄各大公司和創(chuàng)企的芯片制造以及軟件更新是非常困難的,更不要說在市場的夸大作用下還能進(jìn)行真實(shí)評估了。某些芯片廠商經(jīng)常承諾達(dá)到了革命性的提速,但從來不透露產(chǎn)品規(guī)格(咳咳,英特爾注意)。
在很長一段時間內(nèi),人們都在討論是否有必要設(shè)立一個有意義的AI基準(zhǔn)。支持者認(rèn)為,標(biāo)準(zhǔn)的缺失限制了AI的應(yīng)用。MLPerf的推動者之一吳恩達(dá)表示:“AI正在改變多個行業(yè),但是為了發(fā)揮它最大的潛能,我們?nèi)孕枰斓挠布蛙浖??!敝С终邆兿M鶞?zhǔn)的確立能幫助AI開發(fā)者創(chuàng)造出更好的產(chǎn)品,讓使用者充分了解所需產(chǎn)品。
MLPerf聲明它的基礎(chǔ)目標(biāo)是:
用公平、有幫助的測量方法加速機(jī)器學(xué)習(xí)的發(fā)展
對各競爭系統(tǒng)進(jìn)行公平對比,以鼓勵機(jī)器學(xué)習(xí)的發(fā)展
保證讓所有人都能參與基準(zhǔn)評比
既服務(wù)于商業(yè)群體,也服務(wù)于研究領(lǐng)域
基準(zhǔn)要可復(fù)制,確保結(jié)果的可靠
MLPerf是仿效過去其他的基準(zhǔn)測試,例如SPEC(The Standard Performance Evaluation Corporation)。該基準(zhǔn)于1988年由一家計算公司的財團(tuán)提出,它有效提高了通用計算的速度。而MLPerf結(jié)合了此前許多基準(zhǔn)的標(biāo)準(zhǔn),例如SPEC的程序,SORT用于對比和培育新思想的方法,DeepBench對軟件應(yīng)用的評估,以及DAWNBench的精確度標(biāo)準(zhǔn)。
Intersect360的CEO Addison Snell注意到:“現(xiàn)在許多企業(yè)都想部署AI,所以推出一套中立的基準(zhǔn)非常重要,尤其在多種技術(shù)爭相競爭的時代。但是,AI領(lǐng)域多種多樣,我不禁懷疑是否最后只剩一種標(biāo)準(zhǔn)。想想五年前人們對大數(shù)據(jù)和分析的熱情,盡管人人都想定義它,但是至今也沒有一個通用的衡量標(biāo)準(zhǔn)。我認(rèn)為AI也會面臨這種情況?!?/p>
Hyperion研究公司的高級研究副總裁Steve Conway認(rèn)為:“MLPerf是一款有用、優(yōu)秀的工具。因?yàn)榻┠暌恢比鄙籴槍I賣雙方的真正標(biāo)準(zhǔn)。這個基準(zhǔn)似乎是針對人工智能早期問題指定的,大多都是有邊界問題。后來我們需要其他標(biāo)準(zhǔn),因?yàn)槿斯ぶ悄荛_始出現(xiàn)了無邊界的問題。有邊界的問題比較簡單,如語音、圖像識別或游戲。而無界線問題包括癌癥診斷和閱讀磁核共振報告;現(xiàn)在,人工智能能為復(fù)雜問題提出推薦方案了?!?/p>
MLPerf現(xiàn)已在GitHub上發(fā)布,但仍處于初期階段,為α版本,未來將在許多方面得到改進(jìn)。目前,MLPerf套件上能進(jìn)行測試的有七個方面:
每個參考都提供了以下內(nèi)容:至少在一個框架中實(shí)現(xiàn)模型的代碼;一個可在container中運(yùn)行基準(zhǔn)測試的Dockerfile;一個可下載適當(dāng)數(shù)據(jù)集的腳本;一個可以運(yùn)行并計時模型訓(xùn)練的腳本;數(shù)據(jù)集、模型和機(jī)器設(shè)置的文檔記錄。
根據(jù)GitHub上的記錄,基準(zhǔn)測試已經(jīng)在以下配置中進(jìn)行測試:
16個CPU,一個NVIDIA P100
Ubuntu 16.04,包括具有NVIDIA支持的docker
600GB的硬盤(盡管很多基準(zhǔn)要求的硬盤更?。?/p>
在這樣一個年輕的市場,如果有更多的AI基準(zhǔn)出現(xiàn),那將變得很有趣。例如,斯坦福大學(xué)是MLPerf的其中一個成員,他最近運(yùn)行了第一個DAWNBenchv1深度學(xué)習(xí)結(jié)果。
斯坦福報道說:“2018年4月20日表示第一個衡量深度學(xué)習(xí)端到端性能的基準(zhǔn)和競爭的開始:測量深度學(xué)習(xí)任務(wù)達(dá)到最佳精確度時所需要的時間和成本是多少,以及在這個最先進(jìn)的精確度水平下進(jìn)行推理的成本是多少。對端到端性能的關(guān)注提供了一種客觀的方法,用于對計算框架、硬件、優(yōu)化算法、超參數(shù)設(shè)置以及影響性能的其他因素進(jìn)行標(biāo)準(zhǔn)化?!?/p>
DAWN的一個競爭對手——fast.ai(一家提供人工智能培訓(xùn)和開發(fā)人工智能軟件工具的初創(chuàng)公司)在HPCwire上宣傳它的產(chǎn)品性能。所以這些基準(zhǔn)很重要,應(yīng)該認(rèn)真對待,像MLPerf這樣的工具能幫助清除AI產(chǎn)品對比中的干擾因素。
“基準(zhǔn)提高了產(chǎn)品可信度,并展示了更好的性能或能帶來更多益處的地方。如果你正在考慮為一個數(shù)百萬美元的項(xiàng)目使用硬件加速器或軟件框架,那么你會不會更喜歡’榜上有名’的產(chǎn)品?”谷歌工程師Peter Mattson表示。
MLPerf希望用可復(fù)制的、公平可靠的基準(zhǔn)測量方法來推動機(jī)器學(xué)習(xí)行業(yè)和研究的發(fā)展。產(chǎn)品之間的對比還應(yīng)促進(jìn)供應(yīng)商和學(xué)者之間的競爭。同時還應(yīng)該為沒人提供做實(shí)驗(yàn)的條件,讓更多人參與其中。
Mattson補(bǔ)充道:“基準(zhǔn)在短期內(nèi)很重要,因?yàn)椴还苁菍ρ邪l(fā)公司還是想要購買產(chǎn)品的公司來說,硬件是一項(xiàng)巨大的投資。長期來看,基準(zhǔn)有助于研究者和供應(yīng)商將性能作為共同的發(fā)展目標(biāo),這樣才能解鎖更多機(jī)器學(xué)習(xí)的能量,造福更多人。”
-
AI
+關(guān)注
關(guān)注
87文章
30947瀏覽量
269217 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8420瀏覽量
132687 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5503瀏覽量
121207 -
MLPerf
+關(guān)注
關(guān)注
0文章
35瀏覽量
645
原文標(biāo)題:MLPerf——機(jī)器學(xué)習(xí)新基準(zhǔn)能否驅(qū)動AI向前?
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論