在本文中,我將討論專為機(jī)器學(xué)習(xí)/人工智能應(yīng)用開(kāi)發(fā)的硬件,以及該領(lǐng)域的機(jī)遇。并簡(jiǎn)要介紹英偉達(dá)是如何在機(jī)器學(xué)習(xí)硬件領(lǐng)域?qū)崿F(xiàn)近乎壟斷的地位,以及為什么幾乎沒(méi)有人能成功挑戰(zhàn)它。
在過(guò)去的10年中,專用于機(jī)器學(xué)習(xí)應(yīng)用的硬件研究迅猛發(fā)展,硬件與機(jī)器學(xué)習(xí)棧的每個(gè)部分都有關(guān)系。這種硬件可加速訓(xùn)練和推理,減少延遲時(shí)間,降低功耗,并降低這些設(shè)備的零售成本。當(dāng)前通用的機(jī)器學(xué)習(xí)硬件解決方案是英偉達(dá)GPU,這使得英偉達(dá)在市場(chǎng)上占據(jù)主導(dǎo)地位,并使其估值超越英特爾。
隨著前景廣闊的研究不斷涌現(xiàn),英偉達(dá)繼續(xù)通過(guò)出售GPU和它的專有CUDA工具箱來(lái)主導(dǎo)這個(gè)領(lǐng)域。不過(guò),我認(rèn)為有四個(gè)因素將挑戰(zhàn)英偉達(dá)的統(tǒng)治地位,并且最快今年,也肯定會(huì)在2~3年內(nèi)改變機(jī)器學(xué)習(xí)硬件的格局。
這個(gè)領(lǐng)域的學(xué)術(shù)研究正在成為主流。摩爾定律已死。隨著它的消亡,“技術(shù)和市場(chǎng)力量正在將計(jì)算推向相反的方向,使得計(jì)算機(jī)處理器不再是通用的,而是更加專業(yè)化的?!保ǔ鎏帲┩顿Y人和創(chuàng)始人都認(rèn)識(shí)到,人工智能不僅能開(kāi)辟新的領(lǐng)域,而且能增加他們的預(yù)算。人工智能產(chǎn)生的碳排放量過(guò)高,而且越來(lái)越高。我們需要讓計(jì)算更加節(jié)能。
背景
下面是典型的機(jī)器學(xué)習(xí)管道的樣子:
對(duì)于大多數(shù)數(shù)據(jù)科學(xué)工作流而言,在訓(xùn)練和部署大型模型之前,通用芯片,如CPU,就已經(jīng)足夠了。GPU在“深度學(xué)習(xí)”(涉及視覺(jué)和自然語(yǔ)言處理等任務(wù)的神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu))中幾乎總是必不可少的。為深度學(xué)習(xí)提供GPU工作站的LambdaLabs公司估計(jì),包括英偉達(dá)的頂級(jí)GPU集群在內(nèi),訓(xùn)練GPT-3的費(fèi)用大約為460萬(wàn)美元。
使用GPU的主要優(yōu)點(diǎn)是,與傳統(tǒng)CPU相比,GPU可以并行地執(zhí)行計(jì)算,數(shù)據(jù)吞吐量更高。計(jì)算過(guò)程中,機(jī)器學(xué)習(xí)的核心計(jì)算部分是矩陣乘法,并行運(yùn)行時(shí)能大大提高運(yùn)算速度。專有的英偉達(dá)CUDA提供了API和工具,以便開(kāi)發(fā)者可以利用這種并行化。像TensorFlow和PyTorch這樣的流行庫(kù)將其抽象出來(lái),其中一行代碼會(huì)自動(dòng)檢測(cè)GPU,然后利用CUDA后端。若要設(shè)計(jì)一種新的算法或庫(kù),需要利用并行計(jì)算的優(yōu)勢(shì),CUDA提供的工具會(huì)使這一工作更加簡(jiǎn)單。
上世紀(jì)90年代初,英偉達(dá)作為一家視頻游戲公司起家,希望能提供能快速繪制3D圖像的圖像芯片。它在這一業(yè)務(wù)上取得了成功,在與另一家顯卡制造商AMD的不斷交鋒中,始終如一地制造出一些最強(qiáng)大的GPU。巧合的是,同樣的圖形硬件竟然成了深度學(xué)習(xí)騰飛不可或缺的因素。CUDA讓英偉達(dá)比其他GPU更有優(yōu)勢(shì)。
2006年,英偉達(dá)發(fā)布了第一個(gè)CUDA工具包,它提供了一個(gè)API,可以讓使用GPU變得非常簡(jiǎn)單。3年后,2009年,斯坦福大學(xué)人工智能教授吳恩達(dá)及其合作者發(fā)表了一篇題為《使用圖形處理器的大規(guī)模無(wú)監(jiān)督式深度學(xué)習(xí)》(Large-scaleDeepUnsupervisedLearningusingGraphicsProcessors)的論文,指出如果GPU用于訓(xùn)練,大規(guī)模的深度學(xué)習(xí)就有可能實(shí)現(xiàn)。
一年后,吳恩達(dá)和斯坦福大學(xué)的另一位教授,GoogleX的共同創(chuàng)始人,SebastianThrun,向拉里·佩奇提出了在谷歌成立深度學(xué)習(xí)研究團(tuán)隊(duì)的想法,該團(tuán)隊(duì)后來(lái)成為GoogleBrain。伴隨著GoogleBrain的崛起和“Imagenet時(shí)刻”的到來(lái),英偉達(dá)的GPU已經(jīng)成為人工智能/機(jī)器學(xué)習(xí)行業(yè)事實(shí)上的計(jì)算標(biāo)準(zhǔn)。如需更多信息,請(qǐng)參閱這篇文章《新的英特爾:英偉達(dá)如何從驅(qū)動(dòng)視頻游戲到革新人工智能》(TheNewIntel:HowNvidiaWentFromPoweringVideoGamesToRevolutionizingArtificialIntelligence)。
概述:現(xiàn)狀
英偉達(dá)憑借其GPU在深度學(xué)習(xí)硬件領(lǐng)域占據(jù)主導(dǎo)地位,這在很大程度上要?dú)w功于CUDA。據(jù)福布斯報(bào)道,“2019年5月,前四大云計(jì)算供應(yīng)商在97.4%的基礎(chǔ)設(shè)施即服務(wù)(IaaS)計(jì)算實(shí)例類型中部署了英偉達(dá)GPU,并配備了專用加速器”。面對(duì)競(jìng)爭(zhēng),它也沒(méi)有坐以待斃。
谷歌早在2015年就開(kāi)發(fā)了專門(mén)為神經(jīng)網(wǎng)絡(luò)開(kāi)發(fā)的人工智能加速器芯片TPU。在其作為特定領(lǐng)域加速器的狹義用例中,TPU比GPU更快,也更便宜,但在谷歌的GCP生態(tài)系統(tǒng)中,TPU被隔離起來(lái),僅有TensorFlow和PyTorch支持(其他庫(kù)需要自己編寫(xiě)TPU編譯器)。
AWS正在對(duì)自己的芯片下賭注,尤其是機(jī)器學(xué)習(xí)。到目前為止,AWSInferentia芯片似乎是最成功的。這在很大程度上取決于開(kāi)發(fā)者從CUDA切換到亞馬遜Inferentia和其他芯片的工具包的難易程度。
2019年12月,英特爾以20億美元的價(jià)格收購(gòu)了HabanaLabs,這是一家以色列公司,為訓(xùn)練和推理工作負(fù)載制造芯片和硬件加速器。英特爾的投資似乎得到了回報(bào),上個(gè)月,AWS宣布將提供運(yùn)行Habana芯片的新EC2實(shí)例,“與當(dāng)前基于GPU的EC2實(shí)例相比,為機(jī)器學(xué)習(xí)工作負(fù)載提供高達(dá)40%的價(jià)格性能”。英特爾還推出了新的XeonCPU系列,它認(rèn)為可與英偉達(dá)的GPU競(jìng)爭(zhēng)。
Xilinx是一家發(fā)明FPGA的上市公司,最近又涉足人工智能加速器芯片領(lǐng)域,2020年10月被AMD收購(gòu)。
對(duì)人工智能計(jì)算能力的需求正在加速。
變化與機(jī)遇
正如我在上面提到的,我的設(shè)想是,到2021年及以后,英偉達(dá)的主導(dǎo)地位將會(huì)受到越來(lái)越多的挑戰(zhàn)和侵蝕。造成這種情況的原因有四個(gè):
1.學(xué)術(shù)研究變成真正的產(chǎn)品
學(xué)術(shù)界和工業(yè)界研究人員創(chuàng)立的一些初創(chuàng)公司已經(jīng)開(kāi)始研究機(jī)器學(xué)習(xí)專用硬件,而且還有更多的開(kāi)發(fā)空間。在這個(gè)領(lǐng)域發(fā)表的論文并不只是提出理論上的保證,它還展示了真正的硬件原型,這些原型實(shí)現(xiàn)了比商業(yè)可用選項(xiàng)更好的指標(biāo)。(實(shí)例1、實(shí)例2和實(shí)例3)
芯片和硬件加速器的種類很多,每一種都有其蓬勃發(fā)展的研究社區(qū)。簡(jiǎn)單地列舉一些:
專用集成電路(ASIC)。谷歌TPU和AWSInferentia都是ASIC的例子。ASIC產(chǎn)品的研發(fā)和生產(chǎn)成本可能高達(dá)5000萬(wàn)美元,但是復(fù)制產(chǎn)品的邊際成本通常很低。ASIC可以被設(shè)計(jì)成低功耗的,而且不會(huì)對(duì)性能有太大的影響。
現(xiàn)場(chǎng)可編程邏輯門(mén)陣列(FPGA)。FPGA對(duì)于高頻交易者來(lái)說(shuō)已稀松平常,但在機(jī)器學(xué)習(xí)方面的例子包括微軟的Brainwave和英特爾的Arria。單個(gè)FPGA的生產(chǎn)成本較低,但多個(gè)FPGA的生產(chǎn)邊際成本要高于ASIC。
神經(jīng)形態(tài)計(jì)算。該領(lǐng)域試圖對(duì)人腦的生物結(jié)構(gòu)進(jìn)行建模,并將其轉(zhuǎn)換成硬件。盡管神經(jīng)形態(tài)學(xué)的思想可以追溯到20世紀(jì)80年代,但該領(lǐng)域仍處于起步階段。在《自然》上有一篇很好的綜述性論文。
更多內(nèi)容請(qǐng)參閱此項(xiàng)調(diào)查報(bào)告《機(jī)器學(xué)習(xí)加速芯片綜述》(SurveyofMachineLearningAccelerators),并關(guān)注ISCAS。
使用上述研究結(jié)果的一些有前途的初創(chuàng)公司:
Blaize于2019年宣稱已經(jīng)開(kāi)發(fā)出一種完全可編程的低功耗處理器,可實(shí)現(xiàn)10倍的低延遲,并且“系統(tǒng)效率最高可提高60%”。
SambaNovaSystems是由斯坦福大學(xué)教授和甲骨文前高管創(chuàng)立的初創(chuàng)公司,由谷歌風(fēng)投和英特爾資本出資組建。它剛剛宣布了一項(xiàng)新產(chǎn)品,該產(chǎn)品是一個(gè)“完整、集成的軟件和硬件系統(tǒng)平臺(tái),可以對(duì)從算法到芯片的數(shù)據(jù)流進(jìn)行優(yōu)化”。
Graphcore是一家英國(guó)初創(chuàng)公司,由紅杉、微軟、寶馬和DeepMinds創(chuàng)始人領(lǐng)投。
2.摩爾定律已死,但無(wú)論如何,專用硬件都是未來(lái)趨勢(shì)
摩爾定律預(yù)測(cè),集成電路上的晶體管數(shù)量每?jī)赡昃蜁?huì)增加一倍。自20世紀(jì)70年代以來(lái),這在經(jīng)驗(yàn)上一直是正確的,并且是我們從那時(shí)起所看到的技術(shù)進(jìn)步的代名詞:個(gè)人計(jì)算革命、傳感器和攝像頭的改進(jìn)、移動(dòng)設(shè)備的興起,以及為人工智能提供充足資源的崛起,凡是你能想到的一切。唯一的問(wèn)題是,摩爾定律即將結(jié)束,如果它還沒(méi)有結(jié)束的話。“縮小芯片的難度越來(lái)越大,這已經(jīng)不是什么秘密了,而且這樣做的好處也今非昔比了。去年,英偉達(dá)的創(chuàng)始人黃仁勛直言不諱地認(rèn)為,‘摩爾定律已不再可能了’。”《經(jīng)濟(jì)學(xué)人》(TheEconomist)寫(xiě)道。
麻省理工學(xué)院經(jīng)濟(jì)學(xué)家NeilThompson在《麻省理工科技評(píng)論》(MITTechnologyReview)上解釋說(shuō):“軟件和專業(yè)架構(gòu)方面的進(jìn)步現(xiàn)在將開(kāi)始有選擇地針對(duì)特定的問(wèn)題和商業(yè)機(jī)會(huì),對(duì)那些有充足資金和資源的人有利,而不是像摩爾定律那樣‘水漲船高’,通過(guò)提供速度更快、成本更低的芯片來(lái)普及?!币恍┤?,包括Thomspon在內(nèi)的,都認(rèn)為,“這是一個(gè)消極的發(fā)展,因?yàn)橛?jì)算硬件將開(kāi)始分裂為“‘快車道’應(yīng)用和‘慢車道’應(yīng)用程序,前者使用功能強(qiáng)大的定制芯片,而后者則被卡在使用通用芯片上,而且其進(jìn)展緩慢?!?/p>
對(duì)于這個(gè)問(wèn)題,分布式計(jì)算常常是一種解決方案:讓我們使用功能更少、成本更低的資源,但要使用大量的資源。但是,就連這種方案也越來(lái)越昂貴(更別提分布式梯度下降算法的復(fù)雜性了)。
那么,接下來(lái)會(huì)發(fā)生什么呢?2018年,CMU的研究人員在《自然》上發(fā)表了一篇論文,題為《摩爾定律末期的科學(xué)研究政策》(ScienceandresearchpolicyattheendofMoore’slaw),該論文指出,私營(yíng)部門(mén)將重點(diǎn)放在短期盈利上,這使得摩爾定律很難找到通用的繼承者。他們呼吁公私合作,共同創(chuàng)造計(jì)算硬件的未來(lái)。
雖然我并不反對(duì)公私合作(給予他們更多的權(quán)利),但我認(rèn)為未來(lái)的計(jì)算硬件將是專用芯片的集合,當(dāng)它們協(xié)同工作時(shí),它們比現(xiàn)在的CPU更能勝任通用任務(wù)。我相信蘋(píng)果向自己的芯片過(guò)渡是朝著這個(gè)方向邁出的一步,這證明了軟硬件集成系統(tǒng)將優(yōu)于傳統(tǒng)芯片。特斯拉也在自動(dòng)駕駛中采用了自己的硬件。我們需要的是大量的新玩家涌入硬件生態(tài)系統(tǒng),這樣專業(yè)芯片的好處就可以實(shí)現(xiàn)大眾化,并分布在昂貴的筆記本電腦、云服務(wù)器和汽車之外。(我敢說(shuō)……是時(shí)候打造了嗎?)
3.創(chuàng)始人和投資者擔(dān)心成本上漲
AndreessenHorowitz的MartinCasado和MattBornstein在去年年初發(fā)表了一篇題為《人工智能的新業(yè)務(wù)(及其與傳統(tǒng)軟件的區(qū)別》(TheNewBusinessofAI(andHowIt’sDifferentFromTraditionalSoftware))的文章,他們認(rèn)為人工智能的業(yè)務(wù)與傳統(tǒng)軟件是不同的。說(shuō)到底,一切都與利潤(rùn)有關(guān)?!霸朴?jì)算基礎(chǔ)設(shè)施對(duì)人工智能公司來(lái)說(shuō)是一個(gè)巨大的成本,有時(shí)甚至是隱性成本”。正如我所提到的那樣,訓(xùn)練人工智能模型可能需要花費(fèi)數(shù)千美元(如果你是OpenAI,你就得花數(shù)百萬(wàn)美元),但成本并不止于這些。人工智能系統(tǒng)必須得到持續(xù)監(jiān)控和改進(jìn)。如果你的模型是“離線”訓(xùn)練的,那么它很容易出現(xiàn)概念漂移,即現(xiàn)實(shí)世界中的數(shù)據(jù)分布隨著時(shí)間的推移與你訓(xùn)練的數(shù)據(jù)發(fā)生變化。這種情況可能是自然發(fā)生的,也可能是對(duì)抗性的,比如當(dāng)用戶試圖欺騙信用風(fēng)險(xiǎn)算法時(shí)。出現(xiàn)這種情況時(shí),就必須對(duì)模型進(jìn)行再訓(xùn)練。
對(duì)于降低概念漂移和創(chuàng)建與現(xiàn)有模型具有相同性能保證的更小的模型有一些積極的研究,但這是另一篇文章的主題。同時(shí),該行業(yè)也正在推進(jìn)更大的模型和更大的計(jì)算支出。更便宜、更專業(yè)的人工智能芯片無(wú)疑會(huì)降低這些成本。
4.訓(xùn)練大型模型有助于氣候變化
由馬薩諸塞大學(xué)阿默斯特分校進(jìn)行的一項(xiàng)研究發(fā)現(xiàn),訓(xùn)練一個(gè)現(xiàn)成的自然語(yǔ)言處理模型所產(chǎn)生的碳排放量相當(dāng)于從舊金山飛往紐約的一次航班。在三大云計(jì)算供應(yīng)商中,只有谷歌的數(shù)據(jù)中心超過(guò)50%的能源來(lái)自可再生能源。
但我認(rèn)為,我不必列出我們?yōu)槭裁匆獪p少人工智能的碳排放。我想說(shuō)的是,現(xiàn)有的芯片耗電量過(guò)大,而且研究表明,其他類型的硬件加速器,如FPGA和超低能耗芯片(如谷歌TPUEdge),對(duì)于機(jī)器學(xué)習(xí)和其他任務(wù)來(lái)說(shuō),可以更加節(jié)能。
即使是地理也會(huì)影響到人工智能的碳排放。斯坦福大學(xué)的研究人員估計(jì),“在主要依賴頁(yè)巖油的愛(ài)沙尼亞舉行一次會(huì)議,其產(chǎn)生的碳排放量是在魁北克舉行的會(huì)議的30倍,而魁北克主要依靠水力發(fā)電?!?/p>
已露端倪
我已經(jīng)提到了人工智能的硬件,但是人工智能的硬件怎么樣?谷歌最近申請(qǐng)了一項(xiàng)專利,該專利是關(guān)于一種利用強(qiáng)化學(xué)習(xí)來(lái)確定跨多個(gè)硬件設(shè)備的機(jī)器學(xué)習(xí)模型操作的位置的方法。這項(xiàng)專利背后的研究人員之一是AzaleaMirhoseini,她在GoogleBrain負(fù)責(zé)機(jī)器學(xué)習(xí)硬件/系統(tǒng)的登月計(jì)劃。
責(zé)任編輯人:CC
評(píng)論
查看更多