0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

構(gòu)建高性能計(jì)算芯片

奇異摩爾 ? 來源:Semiengineering ? 2024-04-25 10:23 ? 次閱讀

本文編譯自:Semiengineering

全球領(lǐng)先的超大規(guī)模云數(shù)據(jù)中心公司——Amazon, Google, Meta, Microsoft, Oracle,Akamai——正在推出專門針對(duì)云計(jì)算的異構(gòu)多核架構(gòu),對(duì)整個(gè)芯片行業(yè)的高性能 CPU 開發(fā)產(chǎn)生了影響。

這些芯片都不太可能進(jìn)行商業(yè)銷售。它們針對(duì)特定的數(shù)據(jù)類型和工作負(fù)載進(jìn)行了優(yōu)化,設(shè)計(jì)預(yù)算龐大,但可以通過提高性能和降低功耗來實(shí)現(xiàn)合理化。目標(biāo)是在更小的面積上容納更多的計(jì)算能力,同時(shí)降低冷卻成本,而實(shí)現(xiàn)這一目標(biāo)的最佳途徑就是采用定制化架構(gòu)、緊密集成的微架構(gòu)和精心設(shè)計(jì)的數(shù)據(jù)流。

這一趨勢(shì)始于近十年前,當(dāng)時(shí) AMD 開始采用異構(gòu)架構(gòu)和加速處理單元,取代了過去的同質(zhì)多核 CPU 模式,但起步緩慢。此后,異構(gòu)架構(gòu)開始興起,緊隨為移動(dòng)消費(fèi)設(shè)備設(shè)計(jì)的腳步,這些設(shè)備需要處理非常緊湊的占地面積以及嚴(yán)格的功耗和散熱要求。

Quadric營(yíng)銷副總裁 Steve Roddy 表示:“英特爾等行業(yè)巨頭的單片芯片幾乎在每個(gè)產(chǎn)品代碼中都配備了 AI NPU?!?“當(dāng)然,人工智能先驅(qū) NVIDIA 長(zhǎng)期以來一直在其大獲成功的數(shù)據(jù)中心產(chǎn)品中混合使用 CPU、CUDA內(nèi)核和Tensor內(nèi)核。未來幾年向 chiplet 的轉(zhuǎn)變將徹底鞏固這一過渡,因?yàn)橹付╟hiplet組合的系統(tǒng)購買者可以挑選為相關(guān)設(shè)計(jì)插座量身定制的計(jì)算和互連類型。"

這很大程度上歸因于物理學(xué)和由此產(chǎn)生的經(jīng)濟(jì)學(xué)。隨著擴(kuò)展優(yōu)勢(shì)的縮小,以及先進(jìn)封裝技術(shù)的成熟 --它允許在設(shè)計(jì)中添加更多的定制功能,而過去這些功能受限于掩膜尺寸--每瓦特和每美元性能的競(jìng)爭(zhēng)已進(jìn)入白熱化階段。

"西門子 EDA IC 部門市場(chǎng)總監(jiān) Neil Hand 說:"如今,每個(gè)人都在構(gòu)建自己的架構(gòu),尤其是數(shù)據(jù)中心企業(yè),而處理器架構(gòu)很大程度上取決于工作負(fù)載的情況。"與此同時(shí),這些開發(fā)人員也在詢問加速的最佳途徑是什么,因?yàn)橛泻芏喾椒梢宰龅竭@一點(diǎn)。你可以選擇使用具有多個(gè)內(nèi)核的并行路線,這在某些情況下行不通,但在另一些情況下卻很有效。與此同時(shí),應(yīng)用對(duì)內(nèi)存帶寬的限制越來越大,因此你會(huì)發(fā)現(xiàn)一些高性能計(jì)算公司開始把所有精力都花在內(nèi)存控制器上。還有一些公司會(huì)說:'這實(shí)際上是一個(gè)分解問題,我們要走加速器路線,擁有獨(dú)立的內(nèi)核。'但我不認(rèn)為存在一刀切的做法。"

Roddy 指出,這些新型超級(jí)芯片內(nèi)的 CPU 內(nèi)核仍然遵循高性能 CPU 設(shè)計(jì)的久經(jīng)考驗(yàn)的原則——快速、deep pipelines,在追蹤指針方面極其有效——但這不再是設(shè)計(jì)團(tuán)隊(duì)的唯一關(guān)注點(diǎn)。 “這些大型 CPU 現(xiàn)在與其他可編程引擎共享空間——GPU 和通用可編程 NPU,可加速人工智能工作負(fù)載,”他說。 “與大眾消費(fèi)設(shè)備中高度專業(yè)化的 SoC 的一個(gè)顯著區(qū)別是,避免使用硬連線邏輯塊(加速器)來執(zhí)行人工智能工作負(fù)載中的視頻轉(zhuǎn)碼或矩陣加速等任務(wù)。為數(shù)據(jù)中心設(shè)計(jì)的設(shè)備需要保持可編程性,以響應(yīng)各種工作負(fù)載,而不僅僅是消費(fèi)類設(shè)備中的單一已知功能?!?/p>

然而,所有這些都需要更多的分析,設(shè)計(jì)屆正在繼續(xù)推動(dòng)流程中的更多步驟。 “無論是因?yàn)楣ぞ?,還是通過仿真或虛擬原型,你都擁有了了解數(shù)據(jù)的工具?!盚and說。 “此外,該行業(yè)已經(jīng)發(fā)展壯大,其專業(yè)化程度足以證明所花費(fèi)用的合理性。第一部分是為了降低制造新硬件的風(fēng)險(xiǎn),因?yàn)槟阌泄ぞ邅砹私馇闆r,你不必為了安全而制造'一刀切'的產(chǎn)品?,F(xiàn)在,市場(chǎng)已經(jīng)開始分化,它的重要性足以讓你花錢去做。此外,現(xiàn)在也有了這樣做的方法?,F(xiàn)在,通過生態(tài)系統(tǒng)、技術(shù)和其他一切因素的綜合作用,競(jìng)爭(zhēng)變得容易多了。對(duì)于高性能計(jì)算公司來說,最初的目標(biāo)是:'我們只需獲得一個(gè)良好的平臺(tái),讓我們可以按照自己的方式對(duì)其進(jìn)行維度化,然后再放入一些加速器。所以我們開始看到人工智能加速器和視頻加速器,然后一些更深?yuàn)W的公司開始追求機(jī)器學(xué)習(xí)。這意味著什么?這意味著他們需要非常高的 MAC 性能。他們會(huì)將處理器架構(gòu)聚焦于此,這就是他們的差異化之道。"

再加上RISC-V 和可重復(fù)使用的芯粒和硬 IP,架構(gòu)開始看起來與幾年前大為不同。"如果你看看現(xiàn)在的數(shù)據(jù)中心和數(shù)據(jù)中心中的整個(gè)軟件堆棧,在堆棧中添加一些東西并不像以前那樣困難,你必須重建整個(gè)數(shù)據(jù)中心。"如今變得重要的是進(jìn)行系統(tǒng)級(jí)分析的能力。應(yīng)用的系統(tǒng)級(jí)協(xié)同設(shè)計(jì)已變得非常重要,而且由于高性能計(jì)算已不再像以前那樣容易獲得。這是一個(gè)帶輪子的數(shù)據(jù)中心。

許多人認(rèn)為,應(yīng)該開發(fā)新的架構(gòu),以克服幾代 CPU 所面臨的內(nèi)存挑戰(zhàn)。"Fraunhofer IIS 自適應(yīng)系統(tǒng)工程部高效電子學(xué)部門主管 Andy Heinig 說:"對(duì) AI/ML 的需求將加速開發(fā)新的特定應(yīng)用架構(gòu)的進(jìn)程。"傳統(tǒng)的 CPU 如果能提供更好的內(nèi)存接口來解決內(nèi)存問題,就能成為這場(chǎng)革命的一部分。如果 CPU 能夠提供這種新的內(nèi)存架構(gòu),那么 AI/ML 加速器就能與 CPU 一起成為數(shù)據(jù)中心的最佳解決方案。然后,CPU 負(fù)責(zé)需要靈活性的經(jīng)典任務(wù),而加速器則為非常具體的任務(wù)提供最佳性能。"

例如,Arm 直接與多個(gè)超大規(guī)模企業(yè)合作開發(fā)基于 Neoverse 的計(jì)算解決方案,以實(shí)現(xiàn)高性能、定制靈活性以及強(qiáng)大的軟件和硬件生態(tài)系統(tǒng)。通過這種方式已生產(chǎn)出了公開發(fā)布的芯片,如 AWS Graviton 和 Nitro 處理器、谷歌的 Mt. Evans DPU、微軟 Azure 的 Cobalt 100、NVIDIA 的 Grace CPU Superchip 和阿里巴巴的倚天 710。

“我們從這些和其他設(shè)計(jì)合作伙伴那里學(xué)到了很多東西,”Arm基礎(chǔ)設(shè)施業(yè)務(wù)線產(chǎn)品管理高級(jí)總監(jiān) Brian Jeff 說道。 “我們塑造高性能 CPU 和平臺(tái)開發(fā)的主要方式之一是更深入地了解基礎(chǔ)設(shè)施工作負(fù)載,從而實(shí)現(xiàn)特定的架構(gòu)和微架構(gòu)增強(qiáng),尤其是 CPU 管線的前端和 CMN 網(wǎng)狀結(jié)構(gòu)。"

但捕獲該工作負(fù)載并為其開發(fā)芯片架構(gòu)并不總是那么簡(jiǎn)單。對(duì)于人工智能訓(xùn)練和推理來說尤其如此,因?yàn)樗鼈兛赡軙?huì)隨著算法的變化而變化。

"Synopsys公司接口IP首席產(chǎn)品經(jīng)理Priyank Shukla表示:"目前正在訓(xùn)練不同的模型,例如Meta公司公開的Llama模型和Chat GPT模型。"所有這些模型都有一個(gè)模式和一定數(shù)量的參數(shù)。以 GPT-3 為例,它有 1,750 億個(gè)參數(shù)。每個(gè)參數(shù)的寬度為 2 字節(jié),即 16 位。你需要在 2 個(gè)字節(jié)中存儲(chǔ)這么多信息--1750 億個(gè)參數(shù),相當(dāng)于 3500 億字節(jié)的內(nèi)存。該內(nèi)存需要存儲(chǔ)在共享該模型的所有加速器中,而該模型需要放置在加速器的結(jié)構(gòu)中,參數(shù)需要放置在與該加速器相關(guān)的內(nèi)存中。因此,你需要一個(gè)能接收更大模型并對(duì)其進(jìn)行處理的結(jié)構(gòu)。你可以以不同的方式實(shí)現(xiàn)該模型,即實(shí)現(xiàn)該算法的方式。有些工作可以串行方式進(jìn)行,有些工作可以并行方式進(jìn)行。以串行方式進(jìn)行的工作需要與高速緩存保持一致,并將延遲降到最低。這種以串行方式進(jìn)行的工作將在一個(gè)機(jī)架內(nèi)進(jìn)行分工,以便將延遲降到最低。以并行方式進(jìn)行的工作將通過擴(kuò)展網(wǎng)絡(luò)在不同機(jī)架之間進(jìn)行分配。我們看到系統(tǒng)人員正在創(chuàng)建這一模型和算法,并在定制硬件中加以實(shí)現(xiàn)。

985d1310-0235-11ef-a297-92fbcf53809c.png

圖 1:機(jī)器學(xué)習(xí)優(yōu)化的服務(wù)器機(jī)架。來源:新思科技

組裝各種處理元件并非易事。 Synopsys ASIP 工具產(chǎn)品經(jīng)理 Patrick Verbist 表示:“它們是異構(gòu)多核架構(gòu),通常是通用 CPU 和 GPU 的組合,具體取決于公司類型,因?yàn)樗麄兤珢燮渲兄??!?。 “還有具有固定功能的 RTL 加速器,它們混合在這些異構(gòu)多核架構(gòu)中。這些加速器運(yùn)行的應(yīng)用程序負(fù)載類型通常包括數(shù)據(jù)操作、矩陣乘法引擎、激活函數(shù)、參數(shù)壓縮/解壓縮、圖的權(quán)重等。但所有這些事情之間的一個(gè)共同點(diǎn)與大規(guī)模的運(yùn)營(yíng)有關(guān)。通常,這些計(jì)算是在標(biāo)準(zhǔn)或自定義數(shù)據(jù)類型上完成的。許多處理架構(gòu)通常都支持 Int 16,但如果您只需處理 16 位數(shù)據(jù),您就不想浪費(fèi) 32 位數(shù)據(jù)路徑中的 16 位。你必須定制它。因此,加速器不僅需要運(yùn)行浮點(diǎn) 32 數(shù)據(jù)類型,還需要支持 int 8 和/或 int 16,可能是半精度 float、自定義 int 或自定義 float 類型的數(shù)據(jù)類型,并且功能單元(運(yùn)算符)通常是向量加法器、向量乘法器、加法器樹和激活函數(shù)的組合。這些激活函數(shù)通常是超越函數(shù),例如指數(shù)或雙曲函數(shù)、平方根、大規(guī)模除法,但是是矢量化的并且具有單周期吞吐量要求,因?yàn)槊總€(gè)周期,您都希望對(duì)這些東西開始新的操作。對(duì)于此類加速器,在異構(gòu)性的影響下,我們看到許多客戶使用 ASIP(特定于應(yīng)用程序的指令處理器)作為該異構(gòu)空間中的塊之一。 ASIP 允許您自定義運(yùn)算符,因此數(shù)據(jù)路徑和指令集僅以比常規(guī) DSP 更有效的方式執(zhí)行有限的操作集?!?/p>

DSP 通常不會(huì)被執(zhí)行,它的用途太通用了。另一方面,固定功能 RTL 可能不夠靈活,這就產(chǎn)生了這樣的空間:“是的,我們需要比固定功能 RTL 更靈活、但比通用 DSP 不太靈活的東西?!边@就是 ASIP 發(fā)揮作用的地方。如果你看看 GPU,你會(huì)發(fā)現(xiàn) GPU 在某種程度上也是通用的。它必須支持各種工作負(fù)載,但不是所有工作負(fù)載。這就是 ASIP 發(fā)揮作用的地方,以支持靈活性和可編程性。您需要這種靈活性來支持一系列計(jì)算算法,以適應(yīng)不斷變化的軟件或 AI 圖形要求,以及 AI 算法本身不斷變化的要求?!?/p>

西門子的 Hand 認(rèn)為計(jì)算工作量是一項(xiàng)艱巨的挑戰(zhàn)。“為了解決這個(gè)問題,垂直整合的公司正在以這種方式投資高性能計(jì)算,因?yàn)楦咝阅苡?jì)算與人工智能沒有太大不同,你只能處理你看到的數(shù)據(jù)模式,”Hand說。 “如果你是亞馬遜或微軟這樣的公司,那么你就可以獲得大量的跟蹤數(shù)據(jù),而無需窺探任何數(shù)據(jù),并且你知道機(jī)器的瓶頸在哪里。你可以使用這些信息并說,‘我們看到我們獲得了內(nèi)存帶寬,我們必須對(duì)此采取一些措施,或者這是一個(gè)網(wǎng)絡(luò)帶寬問題,或者,這是一個(gè)人工智能吞吐量問題,而我們正陷入這些領(lǐng)域.'這實(shí)際上與邊緣發(fā)生的挑戰(zhàn)沒有什么不同。邊緣的目標(biāo)是不同的,我們經(jīng)常看著它說,‘我能擺脫什么?我不需要什么?或者,“我可以在哪里縮小功率范圍?”而在數(shù)據(jù)中心,您會(huì)問,‘我如何才能推送更多數(shù)據(jù),以及如何以不燒壞設(shè)備的方式做到這一點(diǎn)?隨著設(shè)備變得越來越大,我怎樣才能以可擴(kuò)展的方式做到這一點(diǎn)?”

Hand 相信向多芯片的轉(zhuǎn)變將推動(dòng)許多有趣的發(fā)展,并且已經(jīng)被 AMD 和 Nvidia 等公司所采用。 “現(xiàn)在您可以開始為這些高性能計(jì)算應(yīng)用程序提供一些有趣的即插即用組件,在很大程度上,您可以開始說,‘我用于該應(yīng)用程序的互連芯片是什么?該應(yīng)用程序的處理模具是什么?它在構(gòu)建標(biāo)準(zhǔn)計(jì)算機(jī)之間提供了一個(gè)中間立場(chǎng),無需進(jìn)行太多更改。我能做些什么?我可以放入不同的進(jìn)程、不同的網(wǎng)卡、不同的 DIMM。作為云提供商,我可以做的事情是有限的,以實(shí)現(xiàn)差異化。另一方面,像 Microsoft 和 Azure 這樣的大型云提供商會(huì)說,‘我可以構(gòu)建自己的完整 SOC,做任何我喜歡做的事情。我可以去建造它。但你現(xiàn)在可以得到這個(gè)中等基礎(chǔ),比方說,你決定生物計(jì)算數(shù)據(jù)中心有市場(chǎng),有足夠多的人進(jìn)入這個(gè)領(lǐng)域,你可以賺一些錢。您可以組裝 3D IC 并使其在該環(huán)境中工作嗎?看看會(huì)發(fā)生什么將會(huì)很有趣,因?yàn)檫@將降低進(jìn)入門檻。我們已經(jīng)看到它被蘋果、英特爾、AMD 和 Nvidia 等公司使用,作為一種在無需測(cè)試巨大芯片的情況下獲得更快旋轉(zhuǎn)速度和更多品種的方法,我認(rèn)為這將產(chǎn)生更大的影響比人們意識(shí)到的高性能計(jì)算。當(dāng)你開始將它們與環(huán)境的完整數(shù)字孿生之類的東西結(jié)合起來時(shí),你可以開始了解環(huán)境中的工作負(fù)載,了解瓶頸,然后嘗試不同的分區(qū),然后下推?!?/p>

Arm 的 Jeff 還發(fā)現(xiàn)數(shù)據(jù)中心芯片架構(gòu)正在發(fā)生變化,以適應(yīng) AI/ML 功能。 “CPU 上的推理非常重要,我們看到我們的合作伙伴利用我們的 SVE 管道、矩陣數(shù)學(xué)增強(qiáng)功能和數(shù)據(jù)類型來運(yùn)行推理。我們還看到人工智能加速器通過高速相干接口的緊密耦合開始發(fā)揮作用,并且 DPU 正在擴(kuò)展其帶寬和智能以將節(jié)點(diǎn)連接在一起?!?/p>

多模塊不可避免
芯片行業(yè)清楚地意識(shí)到,對(duì)于許多計(jì)算密集型應(yīng)用來說,單芯片解決方案已變得不切實(shí)際。過去十年的一個(gè)大問題是,多芯片解決方案的轉(zhuǎn)變何時(shí)才會(huì)成為主流。 Synopsys 研發(fā)總監(jiān) Sutirtha Kabir 表示:“整個(gè)行業(yè)正處于一個(gè)拐點(diǎn),你無法再回避這個(gè)問題了。” “我們?cè)诤笈_(tái)談?wù)撃柖珊汀甋ysMoore’,但設(shè)計(jì)人員必須在 CPU 和 GPU 中添加更多功能,但由于光罩尺寸限制、產(chǎn)量限制以及所有這些限制,他們根本無法做到這一點(diǎn)芯片。多芯片芯片在這里是不可避免的,這帶來了一些有趣的考慮。第一,拿一張紙并將其折疊。這基本上就是多芯片的一個(gè)例子。你拿一個(gè)芯片,把它折疊起來,如果你能巧妙地設(shè)計(jì)它,你可以認(rèn)為你實(shí)際上可以大大縮短時(shí)序,而不是有很長(zhǎng)的時(shí)序路徑。如果你從頂部芯片到底部芯片,你所經(jīng)歷的可能只是芯片中的少量布線,但它們大多是凸塊到凸塊或鍵合到凸塊?!?/p>

多芯片設(shè)計(jì)所面臨的挑戰(zhàn)包括:要弄清楚有多少條路徑需要同步、時(shí)序是應(yīng)該放在兩個(gè)芯片之間還是應(yīng)該單獨(dú)關(guān)閉、L1 是應(yīng)該放在頂部芯片還是底部芯片上--以及是否可以增加 L4。

Kabir解釋說:"從三維角度來看,現(xiàn)在的樓層規(guī)劃變得非常有趣。"你可以把一棟單層房屋改建成三層或四層。但隨之而來的還有其他設(shè)計(jì)挑戰(zhàn)。你不能再忽視散熱問題了。散熱曾經(jīng)是印刷電路板(PCB)的事情,而現(xiàn)在系統(tǒng)設(shè)計(jì)師們認(rèn)為這些芯片非常熱。黃仁勛最近在 SNUG 上說,你把室溫的水從一端放進(jìn)去,另一端就會(huì)變成按摩浴缸的溫度。他是在開玩笑,但事實(shí)是,從溫度的角度來看,這些芯片的溫度很高,如果你在平面規(guī)劃時(shí)不考慮到這一點(diǎn),你的處理器就會(huì)被燒毀。這意味著你必須更早地開始這樣做。在三維平面規(guī)劃方面,當(dāng)涉及到工作負(fù)載時(shí),你如何知道自己已經(jīng)分析了多芯片的不同工作負(fù)載,并確保即使在沒有網(wǎng)表的情況下也能考慮到紅外、熱和時(shí)序等關(guān)鍵影響?我們稱之為零網(wǎng)表階段。這些考慮因素都變得非常有趣,因?yàn)槟阍僖矡o法避免做多芯片,所以從代工廠的角度、從 EDA 的角度,這些都是生態(tài)系統(tǒng)的前沿和中心,而設(shè)計(jì)人員則處于中間位置。

與數(shù)據(jù)中心芯片的熱問題相關(guān)的是低功耗設(shè)計(jì)

"這些數(shù)據(jù)中心耗電量巨大,"Ansys 產(chǎn)品營(yíng)銷總監(jiān) Marc Swinnen 說。"我當(dāng)時(shí)正在舊金山參加 ISSCC,我們的展臺(tái)就在英偉達(dá)公司旁邊,英偉達(dá)公司正在展示其人工智能訓(xùn)練箱--一個(gè)裝有八個(gè)芯片、大量風(fēng)扇和散熱片的大箱子。我們問它的耗電量有多大,他們說:'哦,最高時(shí)有 1 萬瓦,但平均也有 6000 瓦。'功率真是越來越瘋狂了。

Arm公司的Jeff也認(rèn)為,應(yīng)對(duì)數(shù)據(jù)中心芯片新挑戰(zhàn)的最佳方法是采用完整的系統(tǒng)方法,包括指令集架構(gòu)、軟件生態(tài)系統(tǒng)和特定優(yōu)化、CPU微架構(gòu)、結(jié)構(gòu)、系統(tǒng)內(nèi)存管理和中斷控制,以及封裝內(nèi)和芯片外I/O。"完整的系統(tǒng)方法使我們能夠與合作伙伴合作,根據(jù)現(xiàn)代工作負(fù)載和工藝節(jié)點(diǎn)定制 SoC 設(shè)計(jì),同時(shí)利用基于chiplet的設(shè)計(jì)方法"。

這種定制芯片設(shè)計(jì)方法使數(shù)據(jù)中心運(yùn)營(yíng)商能夠優(yōu)化其電力成本和計(jì)算效率。"Jeff 說:"我們 Neoverse N 系列的高效率使每個(gè)插槽的內(nèi)核數(shù)從 128c 到 192c 甚至更高。"這些相同的 N 系列產(chǎn)品可以在更小的空間內(nèi)擴(kuò)展到 DPU 和 6g L2 設(shè)計(jì)以及邊緣服務(wù)器。我們的 V 系列產(chǎn)品面向云計(jì)算,具有更高的每線程性能和更高的矢量性能(用于人工智能推理和視頻轉(zhuǎn)碼等工作負(fù)載),同時(shí)還能提供高效率。加速器附件的廣泛選擇使我們的合作伙伴能夠在為其工作負(fù)載量身定制的 SoC 中將定制處理和云原生計(jì)算正確地結(jié)合在一起。"

結(jié)論

鑒于高性能計(jì)算的演進(jìn)特性,特別是由于數(shù)據(jù)中心的優(yōu)化方式涉及多個(gè)不同方面,所有這一切的最終結(jié)果幾乎都無法預(yù)測(cè)。" Hand表示:"在網(wǎng)絡(luò)應(yīng)用爆發(fā)之初,人們開始在數(shù)據(jù)中心內(nèi)進(jìn)行南北向和東西向路由選擇,這改變了所有的網(wǎng)絡(luò)交換架構(gòu),因?yàn)檫@是一大瓶頸。"這導(dǎo)致了對(duì)數(shù)據(jù)中心的整體重新思考。類似的事情也發(fā)生在內(nèi)存方面,當(dāng)你開始集成光學(xué)技術(shù)和一些更智能的內(nèi)存時(shí),你會(huì)發(fā)現(xiàn)這將會(huì)是非常有趣的事情。

Hand 提到了幾年前的一次英特爾開發(fā)者大會(huì),當(dāng)時(shí)該公司解釋了如何利用硅光子學(xué)中的表面發(fā)射光學(xué)技術(shù)將內(nèi)存與數(shù)據(jù)中心機(jī)架中的存儲(chǔ)分離開來。"他說:"他們有一個(gè)統(tǒng)一的內(nèi)存結(jié)構(gòu),可以在服務(wù)器之間共享,也可以從不同的服務(wù)器分配內(nèi)存。"因此,數(shù)據(jù)中心的拓?fù)浣Y(jié)構(gòu)開始變得非常有趣。即使在機(jī)架中,你看英偉達(dá)的人工智能系統(tǒng)結(jié)構(gòu)也不像傳統(tǒng)的服務(wù)器機(jī)架。最大的變化是,人們可以看到它,如果有市場(chǎng),你就可以構(gòu)建它。我們一直認(rèn)為,架構(gòu)的關(guān)鍵在于核心是否快速。我們從'內(nèi)核快不快'變成了'我有足夠的內(nèi)核嗎'。但問題遠(yuǎn)不止于此。一旦你開始打破馮-諾依曼架構(gòu),開始使用不同的內(nèi)存流,開始關(guān)注內(nèi)存內(nèi)計(jì)算,它就會(huì)變得非???。然后你會(huì)說,'高性能計(jì)算到底意味著什么?

本文編譯自:Semiengineering 特別鳴謝!

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 芯片
    +關(guān)注

    關(guān)注

    456

    文章

    51002

    瀏覽量

    425204
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    10887

    瀏覽量

    212339
  • soc
    soc
    +關(guān)注

    關(guān)注

    38

    文章

    4184

    瀏覽量

    218578
  • 異構(gòu)多核
    +關(guān)注

    關(guān)注

    0

    文章

    7

    瀏覽量

    6934
  • 奇異摩爾
    +關(guān)注

    關(guān)注

    0

    文章

    49

    瀏覽量

    3448

原文標(biāo)題:構(gòu)建高性能計(jì)算芯片

文章出處:【微信號(hào):奇異摩爾,微信公眾號(hào):奇異摩爾】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    FPGA構(gòu)建高性能DSP

      FPGA的方案選擇  幸運(yùn)的是,需要高性能DSP功能的便攜式設(shè)備設(shè)計(jì)者還有其它選擇。最近FPGA開始達(dá)到了應(yīng)用所要求的成本競(jìng)爭(zhēng)力。優(yōu)選的FPGA方案可用來處理計(jì)算量繁重的高端DSP算法,同時(shí)還可
    發(fā)表于 02-17 11:21

    高性能計(jì)算機(jī)的發(fā)展歷史是怎樣的?

    高性能計(jì)算機(jī)的發(fā)展史高性能計(jì)算機(jī)的內(nèi)容高性能計(jì)算機(jī)的應(yīng)用高性能計(jì)算機(jī)的現(xiàn)狀高性能計(jì)算機(jī)的應(yīng)用領(lǐng)域高性能
    發(fā)表于 09-10 10:42

    HPC高性能計(jì)算知識(shí)介紹

    HPC高性能計(jì)算知識(shí) 異構(gòu)并行計(jì)算
    發(fā)表于 05-29 17:45

    高性能計(jì)算軟件具有哪些缺陷?

    談到高性能計(jì)算,很多人都會(huì)想到那些每秒可以運(yùn)行百萬億次、千萬億次計(jì)算的超級(jí)計(jì)算機(jī),如最近炒得很火爆的“天河一號(hào)”、“曙光6000“等,但很少有人會(huì)想到上面跑的軟件。其實(shí),硬件只是基礎(chǔ),
    發(fā)表于 08-30 06:35

    什么是高性能計(jì)算

    什么是高性能計(jì)算 高性能計(jì)算(HighPerformanceComputing)是計(jì)算機(jī)科學(xué)的一個(gè)分支,主要是指從體系結(jié)構(gòu)、并行算法和軟件
    發(fā)表于 05-24 23:29 ?4571次閱讀

    英特爾將為高性能計(jì)算研制“超級(jí)芯片

    英特爾本周稱,它正在投資研發(fā)適用于高性能計(jì)算(hpc)系統(tǒng)的“超級(jí)芯片”,公司希望能夠以此提升其在超級(jí)計(jì)算領(lǐng)域的聲望。
    發(fā)表于 04-02 11:53 ?974次閱讀

    高性能計(jì)算發(fā)展與應(yīng)用

    高性能計(jì)算發(fā)展與應(yīng)用,感興趣的可以看看。
    發(fā)表于 03-24 17:12 ?0次下載

    計(jì)算高性能計(jì)算的區(qū)別及聯(lián)系

    近年來,隨著人工智能、AI智藥等科技領(lǐng)域的火熱,以及阿里云、騰訊云、華為云等互聯(lián)網(wǎng)大廠在各種場(chǎng)景下的成功應(yīng)用。高性能計(jì)算、云計(jì)算這類科技領(lǐng)域的詞匯也也逐漸進(jìn)入人們的日常生活。那么,什么是云計(jì)算
    發(fā)表于 06-26 14:30 ?3454次閱讀

    鯤鵬Validated認(rèn)證幫助密碼模塊構(gòu)建全面的高性能密碼計(jì)算服務(wù)

    此次通過鯤鵬Validated認(rèn)證的基于鯤鵬920可信執(zhí)行環(huán)境的密碼模塊,幫助密碼模塊構(gòu)建了全面的高性能密碼計(jì)算服務(wù)。平臺(tái)使用鯤鵬應(yīng)用使能套件BoostKit進(jìn)行全棧優(yōu)化,采用鯤鵬BoostKit的SecGear框架、畢昇JDK
    的頭像 發(fā)表于 10-10 11:22 ?2505次閱讀

    使用 PWM 技術(shù)構(gòu)建高性能流量變送器

    使用 PWM 技術(shù)構(gòu)建高性能流量變送器
    發(fā)表于 10-31 08:23 ?0次下載
    使用 PWM 技術(shù)<b class='flag-5'>構(gòu)建</b><b class='flag-5'>高性能</b>流量變送器

    什么是HPC(高性能計(jì)算)?

    高性能計(jì)算 (High Performance Computing,又叫HPC、超級(jí)計(jì)算) 是指比傳統(tǒng)計(jì)算機(jī)和服務(wù)器提供更高馬力聚合計(jì)算能力
    的頭像 發(fā)表于 11-01 11:47 ?2.9w次閱讀

    芯品# 高性能計(jì)算芯片

    (LSE:AWE)是全球技術(shù)基礎(chǔ)設(shè)施高速連接和計(jì)算芯片的全球領(lǐng)導(dǎo)者,與Arm合作開發(fā)基于Arm ? Neoverse?計(jì)算子系統(tǒng)(CSS)的高級(jí)計(jì)算
    的頭像 發(fā)表于 06-27 10:28 ?7020次閱讀

    計(jì)算廠家使用WDS分布式存儲(chǔ)構(gòu)建高性能超融合一體機(jī)

    計(jì)算廠家使用WDS分布式存儲(chǔ)構(gòu)建高性能超融合一體機(jī)
    的頭像 發(fā)表于 09-23 09:57 ?277次閱讀
    云<b class='flag-5'>計(jì)算</b>廠家使用WDS分布式存儲(chǔ)<b class='flag-5'>構(gòu)建</b>其<b class='flag-5'>高性能</b>超融合一體機(jī)

    AI高性能計(jì)算平臺(tái)是什么

    AI高性能計(jì)算平臺(tái)不僅是AI技術(shù)發(fā)展的基石,更是推動(dòng)AI應(yīng)用落地、加速產(chǎn)業(yè)升級(jí)的重要工具。以下,是對(duì)AI高性能計(jì)算平臺(tái)的介紹,由AI部落小編為您整理分享。
    的頭像 發(fā)表于 11-11 09:56 ?231次閱讀