日韩国产亚洲欧美成人图片,国产又大又硬又粗,国产精品丝袜

朝著多芯片集成和新型內(nèi)存處理的演進標志著一種范式轉(zhuǎn)變，其中靈活性、效率和對各種工作負載的優(yōu)化變得至關重要。 亞馬遜、谷歌、Meta、微軟、甲骨文和Akamai等世界領先的超大規(guī)模云數(shù)據(jù)中心公司正在推出專門針對云計算的異構(gòu)多核架構(gòu)，這對整個芯片行業(yè)的高性能CPU開發(fā)都產(chǎn)生了影響。

這些芯片都不太可能進行商業(yè)銷售。它們針對特定的數(shù)據(jù)類型和工作負載進行了優(yōu)化，設計預算龐大，但可以通過提高性能和降低功耗來節(jié)省成本。行業(yè)的目標是在更小的面積上容納更多的計算能力，同時降低冷卻成本，而實現(xiàn)這一目標的最佳途徑就是采用定制化架構(gòu)、緊密集成的微架構(gòu)和精心設計的數(shù)據(jù)流。

這一趨勢始于近十年前，當時 AMD 開始采用異構(gòu)架構(gòu)和加速處理單元，取代了過去的同質(zhì)多核 CPU 模式，但起步較慢。此后，異構(gòu)架構(gòu)開始興起，緊隨為移動消費設備設計的腳步，這些設備需要處理非常緊湊的占地面積以及嚴格的功耗和散熱要求。

Quadric市場營銷副總裁Steve Roddy說：“英特爾等行業(yè)巨頭的單片硅幾乎在每一個產(chǎn)品代碼中都有人工智能NPU。當然，人工智能先驅(qū)英偉達長期以來一直在其大獲成功的數(shù)據(jù)中心產(chǎn)品中混合使用 CPU、著色器（CUDA）內(nèi)核和張量（Tensor）內(nèi)核。未來幾年轉(zhuǎn)向芯片片組將鞏固這一轉(zhuǎn)變，因為系統(tǒng)購買者可以根據(jù)設計插槽的特定需求選擇計算和互連類型，從而確定芯片片組的組合?！?/p>

這在很大程度上是物理學和經(jīng)濟學造成的。隨著擴展優(yōu)勢的縮小，以及先進封裝技術的成熟--它允許在設計中添加更多的定制功能，而過去這些功能受限于網(wǎng)罩尺寸--每瓦特和每美元性能的競爭已進入白熱化階段。

西門子 EDA IC 部門市場總監(jiān) Neil Hand 說：“如今，每個人都在構(gòu)建自己的架構(gòu)，尤其是數(shù)據(jù)中心企業(yè)，而處理器架構(gòu)的很大一部分取決于工作負載的外觀。與此同時，這些開發(fā)人員也在探索加速的最佳路徑，因為加速的方式有很多種。你可以選擇并行處理的方式，這對某些任務效果不好，但在其他任務下很有效。與此同時，應用對內(nèi)存帶寬的限制越來越大，因此你會發(fā)現(xiàn)一些高性能計算公司開始把所有精力投入在內(nèi)存控制器上。還有一些公司會說：‘這實際上是一個分解問題，我們要走加速器路線，擁有獨立的內(nèi)核。’但我不認為存在一刀切的做法?！?/p>

Roddy指出，這些新型超級芯片內(nèi)的CPU內(nèi)核仍然遵循久經(jīng)考驗的高性能CPU設計原則：快速、深度流水線，追逐指針的效率極高，但這已不再是設計團隊關注的唯一焦點。他說：”這些大型CPU現(xiàn)在與其他可編程引擎共享空間 — 如GPU和通用可編程NPU，用于加速AI工作負載。與大眾消費設備中高度專業(yè)化的 SoC 相比，一個顯著的區(qū)別是，AI 工作負載中的視頻轉(zhuǎn)碼或矩陣加速等任務避免了硬連邏輯塊（加速器）。為數(shù)據(jù)中心設計的設備需要保持可編程性，以應對各種工作負載，而不僅僅是消費類設備中的單一已知功能?！?/p>

然而，所有這些都需要更多的分析，而設計界正在繼續(xù)推動流程中更多的步驟。Hand說：”無論是通過工具，還是通過仿真或虛擬原型，你都擁有了幫助了解數(shù)據(jù)的工具。此外，該行業(yè)已經(jīng)發(fā)展壯大，其專業(yè)化程度足以證明所花費用的合理性。第一部分是為了降低制造新硬件的風險，因為你有工具來了解情況，就不必保守行事?，F(xiàn)在，市場已經(jīng)開始分化，因此它的重要性值得資金投入。此外，現(xiàn)在也有了實現(xiàn)這一目標的方法。過去，當英特爾推出處理器時，要想與英特爾競爭，幾乎是不可能的?，F(xiàn)在，通過生態(tài)系統(tǒng)、技術和其他因素的綜合作用，競爭變得容易多了。對于高性能計算公司來說，最初的低懸果實是：'我們只需獲得一個良好的平臺，讓我們可以按照自己的方式對其進行維度化，然后再放入一些加速器。所以我們開始看到人工智能加速器和視頻加速器，然后一些更深奧的公司開始追求機器學習。這意味著什么？這意味著他們需要非常高的 MAC 性能。他們會將處理器架構(gòu)聚焦于此，并通過這種方式讓自己脫穎而出。"

再加上 RISC-V、可重復使用的芯片組和硬 IP，架構(gòu)開始變得與幾年前大不相同。Hand說：“如果你看看現(xiàn)在的數(shù)據(jù)中心和數(shù)據(jù)中心中的整個軟件堆棧，在堆棧中添加一些東西并不像以前那樣困難，你不必重建整個數(shù)據(jù)中心。如今變得重要的是進行系統(tǒng)級分析的能力，應用的系統(tǒng)級協(xié)同設計已變得非常重要，而且更加容易，這就是一個移動的數(shù)據(jù)中心?！?/p>

許多人認為，應該開發(fā)新的架構(gòu)來克服幾代 CPU 所面臨的內(nèi)存挑戰(zhàn)。Fraunhofer IIS 自適應系統(tǒng)工程部高效電子學部門主管 Andy Heinig 說：“對 AI/ML 的需求將加速開發(fā)新的特定應用架構(gòu)的進程。傳統(tǒng)的 CPU 如果能提供更好的內(nèi)存接口來解決內(nèi)存問題，就能成為這場革命的一部分。如果 CPU 能夠提供這種新的內(nèi)存架構(gòu)，那么 AI/ML 加速器就能與 CPU 一起成為數(shù)據(jù)中心的最佳解決方案。CPU 負責需要靈活性的經(jīng)典任務，而加速器則為特定任務提供最佳性能?！?/p>

例如，Arm 直接與多家超大規(guī)模云供應商合作開發(fā)基于 Neoverse 的計算解決方案，以實現(xiàn)高性能、定制靈活性以及強大的軟件和硬件生態(tài)系統(tǒng)。這已經(jīng)產(chǎn)生了公開發(fā)布的芯片，如 AWS 的 Graviton 和 Nitro 處理器、谷歌的 Mt.Evans DPU、微軟 Azure 的 Cobalt 100、英偉達的 Grace CPU 超級芯片以及阿里巴巴的Yitian 710。

Arm基礎架構(gòu)業(yè)務線產(chǎn)品管理高級總監(jiān)Brian Jeff說：“我們從這些和其他設計合作伙伴身上學到了很多東西。我們塑造高性能 CPU 和平臺開發(fā)的主要方式之一是通過對基礎設施工作負載的深入了解，實現(xiàn)特定的架構(gòu)和微架構(gòu)增強，尤其是對 CPU 管線前端和 CMN 網(wǎng)狀結(jié)構(gòu)的增強。”

但捕捉到這種工作負載并為其開發(fā)芯片架構(gòu)并不總是這么簡單。對于AI訓練和推理來說尤其如此，因為算法的改變可能會導致工作負載發(fā)生變化。

Synopsys接口IP首席產(chǎn)品經(jīng)理Priyank Shukla表示：“目前正在訓練不同的模型，例如Meta公司公開的Llama模型和Chat GPT模型。所有這些模型都有一個模式和一定數(shù)量的參數(shù)。以 GPT-3 為例，它有 1,750 億個參數(shù)，每個參數(shù)的寬度為 2 字節(jié)，即 16 位。你需要在 2 個字節(jié)中存儲這么多信息--1750 億個參數(shù)，相當于 3500 億字節(jié)的內(nèi)存。該內(nèi)存需要存儲在所有共享該模型的加速器中，而該模型需要放置在加速器的結(jié)構(gòu)中，參數(shù)需要放置在與該加速器相關的內(nèi)存中。因此，你需要一個能接收更大模型并對其進行處理的結(jié)構(gòu)。你可以以不同的方式實現(xiàn)該模型，即實現(xiàn)該算法的方式。有些工作可以串行方式進行，有些工作可以并行方式進行。以串行方式進行的工作需要與高速緩存保持一致，并將延遲降到最低。這種以串行方式進行的工作將在一個機架內(nèi)進行分工，以便將延遲降到最低。以并行方式進行的工作將通過擴展網(wǎng)絡在不同機架之間進行分配。我們看到系統(tǒng)人員正在創(chuàng)建這一模型和算法，并在定制硬件中加以實現(xiàn)。

?圖1：針對機器學習優(yōu)化的服務器機架。來源：Synopsys

組裝各種處理元件并非易事。Synopsys公司ASIP工具產(chǎn)品經(jīng)理Patrick Verbist說："它們是異構(gòu)多核架構(gòu)，通常是通用CPU和GPU的混合，具體取決于公司的類型，因為它們偏好其中一種。然后是具有固定功能的RTL加速器，它們與這些異構(gòu)多核架構(gòu)混合在一起。這些加速器運行的應用負載類型一般包括數(shù)據(jù)操作、矩陣乘法引擎、激活函數(shù)、參數(shù)壓縮/解壓縮、圖形權重等。但所有這些應用都有一個共同點，那就是需要進行大量運算。通常，這些計算是在標準或自定義數(shù)據(jù)類型上完成的。許多處理架構(gòu)都支持Int 16，但如果只需要處理16位數(shù)據(jù)，則沒有必要在32位數(shù)據(jù)路徑中浪費16位。對此必須進行定制。因此，加速器不僅需要支持浮點 32 數(shù)據(jù)類型，還需要支持 int 8 和/或 int 16、半精度浮點、自定義 int 或自定義浮點類型的數(shù)據(jù)類型，而功能單元、運算器通常是矢量加法器、矢量乘法器、加法器樹和激活函數(shù)的組合。這些激活函數(shù)通常是指數(shù)或雙曲函數(shù)、平方根、大除法等超越函數(shù)，但都是矢量化的，而且具有單周期吞吐量要求，因為每個周期都要對這些東西進行新的運算。對于這類加速器，在異構(gòu)性方面，我們看到許多客戶在異構(gòu)空間中使用 ASIP（特定應用指令處理器）。ASIP 允許定制運算器，因此數(shù)據(jù)路徑和指令集只能以比常規(guī) DSP 更有效的方式執(zhí)行有限的一組操作?！?/p>

DSP 通常不夠靈活，因為它太通用了。另一方面，固定函數(shù) RTL 可能不夠靈活，這就為“是的，我們需要比固定函數(shù) RTL 更靈活、比通用 DSP 更不靈活的東西”的需求創(chuàng)造了空間。如果你看一下 GPU，在某種程度上，GPU 也是通用的。它必須支持各種工作負載，但不是所有的工作負載。這就是 ASIP 的作用所在，它支持靈活性和可編程性。你需要這種靈活性來支持一系列計算算法，以適應不斷變化的軟件或人工智能圖的要求，以及人工智能算法本身不斷變化的要求。"

西門子的 Hand 認為，考慮工作負載是一項艱巨的挑戰(zhàn)。

“為了解決這個問題，垂直整合的公司正在以這種方式投資于高性能計算，因為高性能計算并不比AI有什么不同，你只能根據(jù)你所看到的數(shù)據(jù)模式來工作，”Hand說道?！叭绻闶莵嗰R遜或微軟這樣的公司，那么你擁有大量的追蹤數(shù)據(jù)，而且不需要侵入任何數(shù)據(jù)，你知道你的機器存在哪些瓶頸。你可以利用這些信息，說‘我們發(fā)現(xiàn)我們得到了內(nèi)存帶寬，我們必須對此做些什么，或者這是一個網(wǎng)絡帶寬問題，或者這是一個AI吞吐量問題，我們在這些領域遇到了問題。’這與邊緣上發(fā)生的挑戰(zhàn)沒有什么不同。邊緣的目標是不同的，我們經(jīng)常在思考‘我可以擺脫什么？我不需要什么？’或者‘我可以在哪里縮小功率范圍？’而在數(shù)據(jù)中心，你會問，‘我如何能夠通過更多的數(shù)據(jù)，并且以一種不會燒毀設備的方式來做？隨著設備越來越大，我如何以可擴展的方式做到這一點？’”

Hand 認為，轉(zhuǎn)向多芯片封裝將推動許多有趣的發(fā)展，AMD 和英偉達等公司已經(jīng)在使用這種技術?！艾F(xiàn)在，你可以開始為這些高性能計算應用提供一些有趣的即插即用組件，在很大程度上，你可以開始說，'這個應用需要什么互連芯片？這個應用的處理芯片是什么？'它提供了一個介于構(gòu)建標準計算機與不做太大改動之間的中間地帶。我能做什么？我可以安裝不同的進程、不同的網(wǎng)卡、不同的 DIMM。作為云計算服務提供商，我所能做的有限。在另一端，微軟和 Azure 等大型云提供商會說，’我可以構(gòu)建自己的完整 SOC，做我想做的任何事情?！悻F(xiàn)在可以在中間地帶，比方說，你認為生物計算數(shù)據(jù)中心有市場，有足夠多的人進入這個領域，你可以賺到一些錢。你能組裝一個3D IC并使其在該環(huán)境中正常工作嗎？看到會有什么樣的東西出現(xiàn)會很有趣，因為這將降低進入門檻。我們已經(jīng)看到像蘋果、英特爾、AMD和Nvidia等公司正在使用它作為一種加快產(chǎn)品開發(fā)速度、提供更多樣化而不必測試龐大芯片的方式。當你開始將它們與諸如環(huán)境的全數(shù)字孿生之類的東西結(jié)合起來時，你就可以開始理解環(huán)境中的工作負載，理解瓶頸，然后嘗試不同的分區(qū)，然后推進。”

Arm 的 Jeff 還認為，數(shù)據(jù)中心芯片架構(gòu)也在發(fā)生變化，以適應 AI/ML 功能。“CPU上的推理非常重要，我們看到合作伙伴正在利用我們的SVE管道和矩陣數(shù)學增強功能以及數(shù)據(jù)類型來運行推理。我們還看到，通過高速相干接口緊密耦合的人工智能加速器正在發(fā)揮作用，DPUs 正在擴展其帶寬和智能，以便將節(jié)點連接在一起。"

多芯片集成是不可避免的

芯片行業(yè)非常清楚，對于許多計算密集型應用而言，單芯片解決方案已變得不現(xiàn)實。過去十年的最大問題是，向多芯片解決方案的轉(zhuǎn)變何時才能成為主流。Synopsys 研發(fā)總監(jiān) Sutirtha Kabir 說：”整個行業(yè)正處于一個拐點，你不能再回避這個問題了。我們談論著摩爾定律和'SysMoore'，但設計人員必須在 CPU 和 GPU 中增加更多功能，而由于版圖尺寸限制、產(chǎn)量限制等原因，他們根本無法做到這一點。多芯片在這里是不可避免的，這帶來了一些有趣的考慮。首先，拿一張紙對折。這基本上就是多芯片的一個例子。你拿一塊芯片，把它折疊起來，如果你能巧妙地進行設計，你就能想到可以大大縮短時序。如果你要從頂部芯片到底部芯片，你可能只經(jīng)過一小部分芯片的布線，但它們大多是芯片之間的球形焊點或焊絲焊點。“

多芯片設計所面臨的挑戰(zhàn)包括：確定有多少條路徑需要同步、時序應放在兩個芯片之間還是單獨關閉、L1 應放在頂部芯片還是底部芯片上，以及是否可以增加 L4。

Kabir解釋說："從三維角度來看布局設計變得非常有趣。你可以把一棟單層房屋改建成三層或四層，但隨之而來的還有其他設計挑戰(zhàn)。你不能再忽視散熱問題了。散熱曾經(jīng)是PCB的事，而現(xiàn)在系統(tǒng)設計師們認為這些芯片非常熱。黃仁勛（Jensen Huang）最近在 SNUG 上說，你在一端送入室溫水，另一端就會出來溫泉溫度。他是在開玩笑，但事實是，從溫度的角度來看，這些芯片確實非常熱，如果你在布局設計時不考慮到這一點，你的處理器就會被燒毀。這意味著你必須更早地開始這樣做這些工作。在三維布局設計方面，當涉及到工作負載時，你如何確保已經(jīng)分析了多芯片的不同工作負載，并確保即使在沒有電路原理圖的情況下也能考慮到紅外、熱和時序等關鍵影響？我們稱之為零電路圖原理階段。這些考慮因素都變得非常有趣，因為你再也無法避免做多芯片，所以從晶圓廠的角度、從 EDA 的角度，這些都是生態(tài)系統(tǒng)的前沿和中心，而設計人員則處于中間位置。

與數(shù)據(jù)中心芯片的散熱問題相關的是低功耗設計問題。

Ansys 產(chǎn)品營銷總監(jiān) Marc Swinnen 說：“這些數(shù)據(jù)中心耗電量巨大。我參加了舊金山 ISSCC，我們的展臺就在英偉達旁邊，英偉達正在展示其人工智能訓練箱--一個裝有八個芯片、大量風扇和散熱片的大箱子。我們問它的耗電量有多大，他們說：'哦，最高時有 1 萬瓦，但平均也有 6000 瓦。'功率真是越來越瘋狂了。”

Arm公司的Jeff也認為，應對數(shù)據(jù)中心芯片新挑戰(zhàn)的最佳方法是采用全系統(tǒng)方法，包括指令集架構(gòu)、軟件生態(tài)系統(tǒng)和特定優(yōu)化、CPU微架構(gòu)、互聯(lián)結(jié)構(gòu)、系統(tǒng)內(nèi)存管理和中斷控制，以及封裝內(nèi)和芯片外I/O?！蓖暾南到y(tǒng)方法使我們能夠與合作伙伴合作，根據(jù)現(xiàn)代工作負載和工藝節(jié)點定制 SoC 設計，同時利用基于芯片組的設計方法?！?/p>

這種定制芯片設計方法使數(shù)據(jù)中心運營商能夠優(yōu)化其功耗成本和計算效率。Jeff 說：”我們 Neoverse N 系列的高效率使每個插槽的內(nèi)核數(shù)達到 128c 到 192c 甚至更高。這些相同的 N 系列產(chǎn)品可以在更小的空間內(nèi)擴展到 DPU 和 6g L2 設計以及邊緣服務器。我們的 V 系列產(chǎn)品面向云計算，具有更高的單線程性能和更高的矢量性能（用于人工智能推理和視頻轉(zhuǎn)碼等工作負載），同時仍然提供高效率。加速器附件的廣泛選擇使我們的合作伙伴能夠?qū)⒍ㄖ铺幚砗驮圃嬎愕恼_組合集成到根據(jù)其工作負載定制的SoC中。“

結(jié)論

由于高性能計算的演進性質(zhì)，以及數(shù)據(jù)中心優(yōu)化的不同方面，最終結(jié)果幾乎無法預測。西門子的Hand說：”在網(wǎng)絡技術爆炸式發(fā)展的初期，人們開始在數(shù)據(jù)中心內(nèi)部建立南北和東西的路由，這改變了所有的網(wǎng)絡交換架構(gòu)，因為這是一大瓶頸。這導致了對數(shù)據(jù)中心的整體重新思考。類似的事情也發(fā)生在內(nèi)存方面，當你開始集成光學技術和一些更智能的內(nèi)存時，你會發(fā)現(xiàn)這將會是非常有趣的事情?！?/p>

Hand 提到了幾年前的一次英特爾開發(fā)者大會，當時該公司解釋了如何利用硅光子學中的表面發(fā)射光學技術將內(nèi)存與數(shù)據(jù)中心機架中的存儲分離開來。他說：“他們有一個統(tǒng)一的內(nèi)存結(jié)構(gòu)，可以在服務器之間共享，也可以從不同的服務器分配內(nèi)存。因此，數(shù)據(jù)中心的拓撲結(jié)構(gòu)開始變得非常有趣。即使在機架中，你也可以看到像NVIDIA這樣的公司擁有的AI系統(tǒng)結(jié)構(gòu)。最大的變化是，人們可以看看它，如果有市場需求，你就可以構(gòu)建它。我們一直認為，架構(gòu)的關鍵在于核心是否快速。我們從’內(nèi)核快不快?’過渡到’我有足夠的內(nèi)核嗎?’但問題遠不止于此。一旦開始打破馮-諾依曼架構(gòu)，開始使用不同的內(nèi)存流，開始關注內(nèi)存內(nèi)計算，它就會變得非?？?。然后你會思考，‘高性能計算到底意味著什么？”

審核編輯：黃飛

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

芯片

芯片

+關注

關注
455

文章
50816

瀏覽量
423613
amd

amd

+關注

關注
25

文章
5468

瀏覽量
134161
cpu

cpu

+關注

關注
68

文章
10863

瀏覽量
211763
數(shù)據(jù)類型

數(shù)據(jù)類型

+關注

關注
0

文章
236

瀏覽量
13624
RISC-V

RISC-V

+關注

關注
45

文章
2277

瀏覽量
46159

原文標題：面向高性能計算的芯片架構(gòu)設計

文章出處：【微信號：ICViews，微信公眾號：半導體產(chǎn)業(yè)縱橫】歡迎添加關注！文章轉(zhuǎn)載請注明出處。

Triton編譯器在高性能計算中的應用

高性能計算（High-Performance Computing，HPC）是現(xiàn)代科學研究和工程計算中不可或缺的一部分。隨著計算需求的不斷增長

發(fā)表于 12-25 09:11 ?189次閱讀

如何優(yōu)化SOC芯片性能

的核心數(shù)量、頻率和架構(gòu)。例如，對于高性能計算應用，可能需要高頻率、多核心的設計；而對于低功耗應用，則可能需要優(yōu)化功耗效率的核心。總線與接口優(yōu)化：優(yōu)化芯片內(nèi)部的總線結(jié)構(gòu)和接口設計，以

發(fā)表于 10-31 15:50 ?474次閱讀

《算力芯片高性能 CPUGPUNPU 微架構(gòu)分析》第二篇閱讀心得：芯片拓撲學：并行擴展與CPU設計的巨頭對決

三要素。\"在芯片設計領域，這三個要素也同樣重要——拓撲結(jié)構(gòu)的可靠性(堅固)、數(shù)據(jù)傳輸效率(實用)以及架構(gòu)的優(yōu)雅(美觀)。環(huán)形拓撲結(jié)構(gòu)是一個絕佳范例。在這種設計中，處理單元像古羅馬斗獸場般

發(fā)表于 10-29 01:48

邊緣計算架構(gòu)設計最佳實踐

邊緣計算架構(gòu)設計最佳實踐涉及多個方面，以下是一些關鍵要素和最佳實踐建議：一、核心組件與架構(gòu)設計邊緣設備與網(wǎng)關邊緣設備：包括各種嵌入式設備、傳感器、智能手機、智能攝像頭等，負責采集原始數(shù)據(jù)

發(fā)表于 10-24 14:17 ?427次閱讀

【「算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗】--了解算力芯片CPU

，精簡指令集計算機)架構(gòu)在處理器設計中很有代表性。目前RISCR-V是比較火的架構(gòu)設計，其優(yōu)點:模塊設計；精簡和高效指令。 MIPS 的全稱為 Microprocessor witho

發(fā)表于 10-20 12:03

《算力芯片高性能 CPU/GPU/NPU 微架構(gòu)分析》第1-4章閱讀心得——算力之巔：從基準測試到CPU微架構(gòu)的深度探索

，全面評估了芯片在實際AI工作負載中的表現(xiàn)。這兩項基準測試共同構(gòu)成了一個全面的算力評估體系，推動了芯片設計向多樣化和專用化方向發(fā)展。 2 流水線與分支預測：CPU的華爾茲第二章詳細介紹了高性

發(fā)表于 10-19 01:21

【「算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗】--全書概覽

在 GPU 中的應用歷史第9章張量處理器設計 9.1 張量的定義 9.2 脈動陣列計算單元 9.3 Volta 架構(gòu)引入張量核心 9.4 華為異騰Ascend910NPU芯片

發(fā)表于 10-15 22:08

名單公布！【書籍評測活動NO.43】算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析

社會資源和資本力量關注算力芯片的發(fā)展，希望我們的國家能夠更獨立自主地設計制造高性能算力芯片。內(nèi)容簡介：本書介紹了超級計算機算力和AI算力的異同，從CPU流水線開始，描述主要的眾核處

發(fā)表于 09-02 10:09

帶你了解什么是高性能計算（HPC）

國家層面設有專門機構(gòu)負責研究、制定高性能計算發(fā)展策略，我國也逐漸將高性能計算的發(fā)展提升到了國家戰(zhàn)略層面。我國高性能

發(fā)表于 07-20 08:28 ?590次閱讀

芯品# 高性能計算芯片

（LSE：AWE）是全球技術基礎設施高速連接和計算芯片的全球領導者，與Arm合作開發(fā)基于Arm ? Neoverse?計算子系統(tǒng)（CSS）的高級計算

發(fā)表于 06-27 10:28 ?6990次閱讀

高性能計算的原理與實踐：從基本概念到架構(gòu)解析

高性能計算的概念最早可以追溯到上世紀40年代，當時為了進行原子彈的設計和模擬，美國建造了第一臺電子數(shù)字計算機[ENIAC]，它可以每秒執(zhí)行約5000次運算，相當于當時最快的機械計算器的

發(fā)表于 05-11 08:27 ?502次閱讀

構(gòu)建高性能計算芯片

計算的異構(gòu)多核架構(gòu)，對整個芯片行業(yè)的高性能 CPU 開發(fā)產(chǎn)生了影響。這些芯片都不太可能進行商業(yè)銷售。它們針對特定的數(shù)據(jù)類型和工作負載進行了

發(fā)表于 04-25 10:23 ?1327次閱讀

多核架構(gòu)高性能電機控制芯片

基于傳統(tǒng)單核架構(gòu)的電機控制芯片已無法應對新出現(xiàn)的嚴峻挑戰(zhàn)，多核架構(gòu)的控制芯片應運而生。雙核架構(gòu)芯片

發(fā)表于 04-19 14:46 ?8369次閱讀

交換芯片架構(gòu)設計

交換芯片的架構(gòu)設計是網(wǎng)絡設備性能和功能的關鍵。一個高效的交換芯片架構(gòu)能夠處理大量的數(shù)據(jù)流量，支持高速數(shù)據(jù)傳輸，并提供先進的網(wǎng)絡功能。

發(fā)表于 03-21 16:28 ?551次閱讀

交換芯片架構(gòu)設計

交換芯片架構(gòu)設計是網(wǎng)絡通信中的關鍵環(huán)節(jié)，它決定了交換機的性能、功能和擴展性。

發(fā)表于 03-18 14:12 ?721次閱讀