大數(shù)據(jù)真的很厲害,相信很多人都感受到了,比如你剛逛完某寶開(kāi)始刷某音,卻發(fā)現(xiàn)某音給你推送了你剛剛看過(guò)的商品的廣告,以及相似品類(lèi)的帶貨直播;再比如某頭條每次給你推送的內(nèi)容都是你感興趣的。這些APP似乎比你更了解你自己。
“精準(zhǔn)推薦”的背后,其實(shí)是大量具有挑戰(zhàn)性的開(kāi)發(fā)工作,是人工智能技術(shù)的加持。AI加速器是推薦系統(tǒng)的關(guān)鍵技術(shù),它的速度和能效是預(yù)測(cè)準(zhǔn)確性的關(guān)鍵。
2019年,Meta(前Facebook)呼吁業(yè)界在其開(kāi)發(fā)的開(kāi)源深度學(xué)習(xí)推薦模型(DLRM)基礎(chǔ)上進(jìn)行推薦系統(tǒng)硬件加速的開(kāi)發(fā)。Neuchips Inc.的開(kāi)發(fā)團(tuán)隊(duì)倍受啟發(fā),他們隨后設(shè)計(jì)出推薦模型容量更大的DLRM加速器Neuchips RecAccel-N3000。
RecAccel-N3000是專(zhuān)為數(shù)據(jù)中心的推薦模型而設(shè)計(jì)的,它能做到每焦耳能量實(shí)現(xiàn)100萬(wàn)次DLRM推斷,舉個(gè)例子來(lái)說(shuō),也就是當(dāng)芯片工作在20W時(shí),每秒可進(jìn)行2000萬(wàn)次推斷。
這款A(yù)I加速器是使用新思科技的EDA工具開(kāi)發(fā)的,并將采用臺(tái)積電7nm工藝制造,樣品計(jì)劃在2022年底完成。
正常來(lái)說(shuō),這一過(guò)程通常需要100多人花3到4年才能完成,但Neuchips僅30人的開(kāi)發(fā)團(tuán)隊(duì)在短短18個(gè)月內(nèi)就制造出了400mm2的人工智能芯片。今天的文章中我們將詳細(xì)介紹他們是如何做到的。
開(kāi)創(chuàng)一種獨(dú)特的
“直連ASIC”開(kāi)發(fā)方法
以DLRM為代表的人工智能推薦系統(tǒng),是利用云計(jì)算和大數(shù)據(jù)方面的最主要的機(jī)器學(xué)習(xí)應(yīng)用之一。優(yōu)化過(guò)的DLRM可以產(chǎn)生更加有效的推理結(jié)果,但卻需要平臺(tái)能夠在能耗和存儲(chǔ)不大幅增加的情況下提供更多的算力。
Neuchips開(kāi)創(chuàng)了一種獨(dú)特的“直連ASIC”開(kāi)發(fā)方法,通過(guò)專(zhuān)門(mén)構(gòu)建的特定領(lǐng)域AI加速器以及共同設(shè)計(jì)的編譯器和runtime軟件來(lái)進(jìn)行加速。在該公司的異步、異構(gòu)數(shù)據(jù)流架構(gòu)中,用來(lái)優(yōu)化DLRM邏輯架構(gòu)的每種IP和處理器都是精心定制的。
此外,RecAccel-N3000還具有以下特點(diǎn):
160MB片上SRAM
4x64帶有ECC的LPDDR5
高達(dá)128GB的卡上DRAM
多達(dá)16通道的PCI Express(PCIe)3.0、4.0和5.0
嵌入式安全硬件信任根模塊
為了能夠率先進(jìn)入市場(chǎng),Neuchips積極尋求能夠幫助該公司加快設(shè)計(jì)周期的支持、設(shè)計(jì)和驗(yàn)證工具以及IP。Neuchips在人工智能芯片設(shè)計(jì)實(shí)驗(yàn)室找到了所需的資源,這一實(shí)驗(yàn)室是新思科技與臺(tái)灣工業(yè)技術(shù)研究院(ITRI)的合作項(xiàng)目。因?yàn)閳F(tuán)隊(duì)內(nèi)的很多成員已經(jīng)非常熟悉新思科技的技術(shù),因此Neuchips很快決定與新思科技合作開(kāi)展這一項(xiàng)目。
該人工智能芯片設(shè)計(jì)實(shí)驗(yàn)室位于臺(tái)灣新竹的工研院總部,已獲得臺(tái)灣工業(yè)技術(shù)部門(mén)(DoIT)和經(jīng)濟(jì)部門(mén)(MOEA)技術(shù)發(fā)展計(jì)劃的支持。人工智能芯片設(shè)計(jì)實(shí)驗(yàn)室的主要產(chǎn)品之一是基于A(yíng)RC人工智能參考設(shè)計(jì)平臺(tái)的新思科技系統(tǒng)級(jí)解決方案,涵蓋了架構(gòu)設(shè)計(jì)、虛擬原型、系統(tǒng)驗(yàn)證等。該設(shè)計(jì)平臺(tái)旨在幫助降低進(jìn)入人工智能領(lǐng)域的門(mén)檻,縮短設(shè)計(jì)周期。
將芯片開(kāi)發(fā)時(shí)間縮短一年以上
基于其獨(dú)特的特性,DLRM可能難以用通用的AI加速器來(lái)加速。Neuchips開(kāi)發(fā)的RecAccel-N3000具有定制的硬件IP,可以加速Embedding、矩陣乘法和特征交互。Neuchips與新思科技合作,實(shí)現(xiàn)了由ARC AI參考設(shè)計(jì)平臺(tái)支持的早期硬件/軟件協(xié)同開(kāi)發(fā),為芯片開(kāi)發(fā)節(jié)省了一年多的時(shí)間。
借助該設(shè)計(jì)平臺(tái),Neuchips團(tuán)隊(duì)能夠在早期開(kāi)發(fā)和驗(yàn)證RecAccel-N3000特定領(lǐng)域人工智能加速器的PCIe 5.0子系統(tǒng)和LPDDR5子系統(tǒng),然后將其集成到整個(gè)芯片中。新思科技的云端ZeBu Server 4硬件加速系統(tǒng)用于驗(yàn)證這些子系統(tǒng)以及整個(gè)RecAccel-N3000。
RecAccel-N3000采用了新思科技的一系列IP模塊,包括:
ARC HS48處理器
ARC EV72處理器
用于A(yíng)MBA、LPDDR5和PCIe的接口IP
具有高級(jí)電源管理功能的內(nèi)存編譯器
硬件安全模塊,具有信任根,為數(shù)據(jù)中心的IT設(shè)備提供安全保障,確保啟動(dòng)代碼的完整性和設(shè)備認(rèn)證
使用經(jīng)驗(yàn)證的新思科技IP幫助Neuchips團(tuán)隊(duì)降低了集成風(fēng)險(xiǎn),大幅縮短了設(shè)計(jì)周期。新思科技的應(yīng)用開(kāi)發(fā)者還支持Neuchips優(yōu)化其基于云的芯片設(shè)計(jì)代碼、配置IP,并在基于FPGA的ZeBu Server 4系統(tǒng)上進(jìn)行仿真和驗(yàn)證,這將整個(gè)ASIC RTL仿真的時(shí)間從兩周縮短到了20分鐘左右。
助力RecAccel-N3000開(kāi)發(fā)過(guò)程的其他設(shè)計(jì)和驗(yàn)證工具包括 Design Compiler RTL綜合解決方案、VCS功能驗(yàn)證解決方案、SpyGlass靜態(tài)和形式化驗(yàn)證平臺(tái)、Verdi自動(dòng)調(diào)試系統(tǒng)、Formality等效性檢查、PrimeTime靜態(tài)時(shí)序分析工具、PrimePower RTL to signoff功率分析工具以及IC Compiler II布局布線(xiàn)解決方案。
推薦系統(tǒng)在數(shù)智化世界中的應(yīng)用逐漸廣泛且日益精準(zhǔn), RecAccel-N3000的出現(xiàn)恰逢其時(shí)。通過(guò)加速數(shù)據(jù)中心的推薦,這一高性能、高能效、可擴(kuò)展的人工智能平臺(tái)有望幫助各行各業(yè)實(shí)現(xiàn)個(gè)性化的用戶(hù)體驗(yàn)。通過(guò)與新思科技、工研院以及臺(tái)灣半導(dǎo)體領(lǐng)域的其他公司的密切合作,Neuchips Inc.已經(jīng)實(shí)現(xiàn)了快速上市的目標(biāo),在提供有影響力的人工智能解決方案的競(jìng)爭(zhēng)中取得了先機(jī)。
-
芯片
+關(guān)注
關(guān)注
456文章
50919瀏覽量
424578 -
人工智能
+關(guān)注
關(guān)注
1792文章
47387瀏覽量
238900 -
新思科技
+關(guān)注
關(guān)注
5文章
798瀏覽量
50353
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論