清纯校花的被CAO日常NP,亚洲乱码尤物193yw最新地址,国产精品一区二区综合亚洲

算力是驅(qū)動(dòng)人工智能產(chǎn)業(yè)發(fā)展的核心動(dòng)力。在數(shù)據(jù)、算法和算力三大人工智能要素中，算力是將數(shù)據(jù)和算法真正通過硬件執(zhí)行的基礎(chǔ)單元，并將數(shù)據(jù)、算法轉(zhuǎn)化為最終的生產(chǎn)力。

隨著 AI 技術(shù)的高速發(fā)展，以及 AI 大模型的廣泛應(yīng)用，AI 算力需求正在快速增加，大概每隔 3-4 個(gè)月就會(huì)增加一倍。如今，對(duì) AI 任務(wù)所需算力總量的度量單位已經(jīng)進(jìn)入 PD 時(shí)代（PetaFlops/s-day），即用每秒千萬億次的計(jì)算機(jī)完整運(yùn)行一天消耗的算力總量作為度量單位。比如，特斯拉 FSD 全自動(dòng)駕駛系統(tǒng)的融合感知模型訓(xùn)練消耗的算力當(dāng)量是 500 個(gè) PD。

可以看到，在 AI 大模型時(shí)代，AI 領(lǐng)域的“軍備競(jìng)賽”正從過去算法和數(shù)據(jù)層面的競(jìng)爭(zhēng)，轉(zhuǎn)變?yōu)榈讓铀懔Φ母?jìng)爭(zhēng)。機(jī)遇的背后，如何破解算力困局、實(shí)現(xiàn)算力優(yōu)化，也是整個(gè)行業(yè)需要解決的課題。近日，InfoQ 采訪了大禹智芯聯(lián)合創(chuàng)始人 /CTO、IEEE 國(guó)際頂會(huì) HPCA 名人堂成員蔣曉維博士，英特爾院士、大數(shù)據(jù)技術(shù)全球 CTO 戴金權(quán)，以期探索 AI 大模型時(shí)代下的算力困局破解路徑，尋求算力優(yōu)化最優(yōu)解。

AI 大模型時(shí)代，算力需求大爆發(fā)

作為 AI 的重要子領(lǐng)域，機(jī)器學(xué)習(xí)的發(fā)展最早可以追溯至 20 世紀(jì) 50 年代。2012 年，AlexNet 首次引起廣泛關(guān)注，使得機(jī)器學(xué)習(xí)分支深度學(xué)習(xí)的熱度呈指數(shù)級(jí)上升。在傳統(tǒng)的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)中，算力作為底層基礎(chǔ)設(shè)施扮演著至關(guān)重要的角色，不斷推動(dòng)上層技術(shù)迭代創(chuàng)新。使得這些傳統(tǒng)技術(shù)在圖像識(shí)別、圖像分類、自然語言處理、廣告推薦、自動(dòng)駕駛和圖像生成等領(lǐng)域愈加成熟，并在實(shí)踐中得到了廣泛應(yīng)用。

在 AI 領(lǐng)域，大家關(guān)注的焦點(diǎn)主要包括各種各樣的數(shù)據(jù)集，以及諸如 Caffe、TensorFlow、PyTorch 等深度學(xué)習(xí)框架，還有像 Horovod 這樣的分布式訓(xùn)練框架。與此同時(shí)，底層芯片技術(shù)也在不斷演進(jìn)發(fā)展。最早企業(yè)使用 CPU 進(jìn)行訓(xùn)練；隨后，GPU/GPGPU（通用 GPU）成為訓(xùn)練和推理的標(biāo)準(zhǔn)設(shè)備；再到后來開始出現(xiàn)一些專用的 AI 芯片，比如谷歌的 TPU 芯片，以及國(guó)內(nèi)的寒武紀(jì)等等。

2022 年，AIGC 技術(shù)迎來應(yīng)用大爆發(fā)，從 OpenAI 文本生成圖像系統(tǒng) Dall-E2 到 AI 繪畫神器 Stable Diffusion，AIGC 迅速火成“頂流”。

戴金權(quán)表示，AIGC 技術(shù)主要涵蓋兩類模型：一類是像 Stable Diffusion 這樣的擴(kuò)散模型，它可以生成圖片、音頻、視頻等等；另一類是大語言模型，從語言模型角度來生成文本、對(duì)話等等。這兩種模型的需求不一樣，擴(kuò)散模型更多是對(duì)計(jì)算的需求更高一些，而大語言模型更多是要求內(nèi)存的帶寬和大小能夠支撐。很多時(shí)候一個(gè)比較大的大語言模型，是無法放到一張顯卡上同時(shí)運(yùn)行的，可能需要更大的內(nèi)存支持。

“從英特爾的角度來看，我們需要對(duì)不同的計(jì)算、內(nèi)存、Transformer 注意力機(jī)制算子的要求，以及對(duì)模型進(jìn)行壓縮，不管是稀疏化還是低精度等等，通過多樣化技術(shù)對(duì)它進(jìn)行更好的支持。多模態(tài)是一個(gè)非常重要的方向，最終大模型追求的是這個(gè)模型不僅可以追求處理文本，還可以處理圖片、視頻等，不再是一個(gè)單一的算子，而是很多算子在模型里同時(shí)存在，如何來提供這樣的支持，都是一些技術(shù)上的挑戰(zhàn)?！贝鹘饳?quán)說道。

2022 年 11 月，ChatGPT 橫空出世，成功掀起了 AI 大模型熱潮。隨后，國(guó)內(nèi)外陸續(xù)發(fā)布了多款 AI 大模型。

蔣曉維認(rèn)為，這一波大語言模型熱潮與之前的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)創(chuàng)新相比，確實(shí)存在諸多不同，并不斷刷新大家的認(rèn)知?！皬?AlexNet、CNN+LSTM、VGG、ResNet，再到后來的 GAN 和最近的 Diffusion Model，以及 AIGC 領(lǐng)域的 Bert、GPT 等，這些模型領(lǐng)域的不斷迭代創(chuàng)新已經(jīng)持續(xù)至少 9 年了。ChatGPT 的出現(xiàn)實(shí)際上是過去 9 年各種技術(shù)棧有機(jī)結(jié)合后的一個(gè)積累和突破的過程。”

參數(shù)規(guī)模方面，GPT-3 的參數(shù)規(guī)模是 1750 億。近日，“天才黑客”喬治·霍茲在接受采訪時(shí)透露，GPT-4 參數(shù)高達(dá) 1.76 萬億，是 GPT-3 的 10 倍。算力需求方面，有數(shù)據(jù)顯示，GPT-3 的整個(gè)完整訓(xùn)練需要 3.14E11（TFLOPS）的每秒浮點(diǎn)運(yùn)算量。OpenAI 首席執(zhí)行官 Sam Altman 曾在接受采訪時(shí)指出，GTP-4 需要的計(jì)算量為 GTP-3 的 10 倍；GTP-5 需要的計(jì)算量為 GTP-3 的 200-400 倍。

大模型的背后離不開龐大算力的支撐，這種支撐通常來自于硬件與軟件兩方面。以英特爾為例，戴金權(quán)在接受采訪時(shí)表示，從算力角度來看，英特爾支持生成式 AI 的計(jì)算主要做兩方面工作：

一是在硬件層面。得益于英特爾的 XPU 戰(zhàn)略，比如一個(gè)筆記本電腦也可以有一個(gè)強(qiáng)大的 XPU 平臺(tái)，有 CPU、集成顯卡、獨(dú)立顯卡，下一代還將有 VPU，利用不同的加速來對(duì)生成式 AI 進(jìn)行運(yùn)算的支撐。在數(shù)據(jù)中心端也是如此，第四代英特爾至強(qiáng)可擴(kuò)展處理器內(nèi)置的矩陣運(yùn)算加速器（英特爾 AMX），還有英特爾數(shù)據(jù)中心 GPU Ponte Vecchio（PVC）、Gaudi 系列專用 AI 加速器。

二是在軟件層面，利用軟件的技術(shù)將硬件的計(jì)算能力提供出來，包括與 TensorFlow、PyTorch、Hybrid Bonding 等開源軟件進(jìn)行了廣泛合作，與 OpenAI 合作的 AI 編譯器 Triton，以及和微軟合作優(yōu)化的做大規(guī)模分布式訓(xùn)練的軟件棧 DeepSpeed 等等。

如何破解 AI 算力困局？

龐大的算力需求也意味著需要高昂的訓(xùn)練成本。根據(jù)英偉達(dá)的數(shù)據(jù)，GPT-3 需要使用 1024 顆 A100 芯片訓(xùn)練長(zhǎng)達(dá)一個(gè)月的時(shí)間，總成本約為 460 萬美元。而 GPT-4 的訓(xùn)練成本大約在 1 億美元左右，GPT-5 的成本會(huì)更高。

毫無疑問，AI 大模型的訓(xùn)練是一個(gè)“非常昂貴的過程”。所以也有觀點(diǎn)認(rèn)為，算力成本是限制 AI 大模型和生成式 AI 發(fā)展的因素之一。

“除了在軟件、模型和算法層面進(jìn)行多維度的優(yōu)化之外，CPU 通用計(jì)算領(lǐng)域的發(fā)展歷程可以為大模型算力領(lǐng)域的成本優(yōu)化提供一些借鑒意義”。蔣曉維提到。在 CPU 通用計(jì)算領(lǐng)域，提升算力存在兩種模型，分別是“Scale up”（水平方向上擴(kuò)展）和“Scale out”（垂直方向上擴(kuò)展）。“Scale up”是指通過各種方式將一臺(tái)機(jī)器擴(kuò)展到像小型機(jī)甚至大型機(jī)的規(guī)模，而“Scale out”是指通過由 CPU、內(nèi)存、存儲(chǔ)等商業(yè)化部件構(gòu)建單臺(tái)服務(wù)器，通過復(fù)制這些機(jī)器，并將這些機(jī)器以高性能的數(shù)據(jù)中心網(wǎng)絡(luò)互聯(lián)起來，再結(jié)合一些系統(tǒng)層面的技術(shù)將其構(gòu)建成類似小型機(jī)的解決方案。傳統(tǒng)的小型機(jī)是“Scale up”的經(jīng)典案例，以單路和雙路 x86 服務(wù)器構(gòu)建的數(shù)據(jù)中心則是“Scale out”的代表。

從“Scale up”到“Scale out”是通用計(jì)算領(lǐng)域經(jīng)歷的一種發(fā)展過程。在國(guó)外，谷歌是一個(gè)早期的代表案例，而在國(guó)內(nèi)，阿里是最著名的代表。阿里有一個(gè)著名的故事叫做“去 IOE”，即摒棄 IBM 的小型機(jī)、Oracle 的數(shù)據(jù)庫以及 EMC 的存儲(chǔ)，通過商用化的 x86 服務(wù)器構(gòu)建“Scale out”的數(shù)據(jù)中心。

蔣曉維認(rèn)為，這或許是大型模型和 GPU 算力領(lǐng)域未來可能要走的路線。“目前我們?nèi)匀辉谧咦摺疭cale up’這條路線，單 GPU 服務(wù)器越做越大、也越做越貴。而‘Scale out’的方式，我認(rèn)為應(yīng)該是維持一個(gè)最基本的小單元，可能包含 CPU 、GPU 和高性能互聯(lián)網(wǎng)卡，不同的芯片器件可以由不同的廠家提供。英偉達(dá)的 Grace-Hopper superchip 目前是這種基本單元的代表方案。通過分布式方式和高性能、高效的網(wǎng)絡(luò)將計(jì)算單元互聯(lián)起來是一種降低成本的可能途徑?，F(xiàn)如今，數(shù)據(jù)中心的網(wǎng)絡(luò)延遲已經(jīng)達(dá)到了亞微秒級(jí)別，甚至是納秒級(jí)別，完全具備了將計(jì)算單元高效互聯(lián)的能力。這是從‘Scale up’方式逐漸演變到‘Scale out’方式的一個(gè)維度。我們可以借鑒通用計(jì)算領(lǐng)域先前的一些經(jīng)驗(yàn)?！?/p>

此外，通過軟件來承擔(dān)一些高可用功能，如容錯(cuò)等，以及尋找第二供應(yīng)商，都是降低成本的關(guān)鍵手段。

構(gòu)建分布式算力

在降低算力成本之外，如何更好地利用算力、提升算力的效率也是業(yè)界亟待解決的問題。而如何將計(jì)算能力分布式化、構(gòu)建分布式計(jì)算能力，正是算力優(yōu)化的前提。

在過去，大家對(duì) AI 芯片領(lǐng)域的關(guān)注點(diǎn)主要集中在推理方面，但現(xiàn)在大模型使得人們更關(guān)注分布式訓(xùn)練，尤其是分布式訓(xùn)練集群的構(gòu)建。因?yàn)閱螐埧o法滿足需求，所以需要構(gòu)建分布式訓(xùn)練集群，通過高效的互聯(lián)將大量 GPU 連接起來。

除了提升單個(gè) GPU 芯片的能力之外，另一個(gè)核心問題是如何高效地將 GPU 單卡構(gòu)建成分布式訓(xùn)練能力。這是當(dāng)前大模型算力構(gòu)建過程中一個(gè)非常核心的領(lǐng)域和技術(shù)。這需要超級(jí)計(jì)算網(wǎng)絡(luò)的能力和高性能網(wǎng)絡(luò)，以高效地互聯(lián)單個(gè)節(jié)點(diǎn)的 GPU 計(jì)算單元，并且還需要更高效的 CPU 與 GPU 協(xié)同能力。最近發(fā)布的英偉達(dá)的 DGX GH200 正是這些技術(shù)的巔峰體現(xiàn)。

蔣曉維認(rèn)為，英偉達(dá)不僅僅是一家 GPU 算力公司，同時(shí)也是一家高性能網(wǎng)絡(luò)和 CPU 公司?！拔覀兛梢钥聪掠ミ_(dá)的核心技術(shù)。首先，它在芯片功能方面往往是采用最先進(jìn)的制程技術(shù)，同時(shí)需要在最先進(jìn)的制程支持下達(dá)到單 die 面積以及功耗和散熱的極限。因此，對(duì)于芯片設(shè)計(jì)領(lǐng)域以及制程的各個(gè)環(huán)節(jié)，都有非常高的要求。我認(rèn)為這是第一個(gè)基礎(chǔ)，就是芯片設(shè)計(jì)領(lǐng)域，包括先進(jìn)的制程技術(shù)，高計(jì)算能力的單卡芯片。在此基礎(chǔ)上，我們?cè)贅?gòu)建多機(jī)多卡的訓(xùn)練，將高效的單卡互聯(lián)起來。這就需要高性能網(wǎng)絡(luò)的能力，通過這種高性能網(wǎng)絡(luò)能力實(shí)現(xiàn)單卡性能的‘線性’理想狀況，同時(shí)在擴(kuò)展性方面也有很高的基本要求。”

在過去的幾十年中，英偉達(dá)曾涉足 x86 芯片組領(lǐng)域，并且在退出該業(yè)務(wù)后一直致力于 ARM CPU 的研發(fā)。目前，英偉達(dá)已經(jīng)推出了基于 ARM 架構(gòu)的 Grace 芯片產(chǎn)品，并通過 NvLink C2C 能力在最近發(fā)布的 Grace Hopper 超級(jí)芯片中實(shí)現(xiàn)了高速高效的 GPU 和 CPU 之間的互聯(lián)。通過 NvLink 技術(shù)實(shí)現(xiàn)多個(gè) CPU 芯片之間的互聯(lián)，以實(shí)現(xiàn)雙路甚至多路 CPU 架構(gòu)。除此之外，在完成對(duì) Mellanox 的收購(gòu)之后，英偉達(dá)在高性能網(wǎng)絡(luò)領(lǐng)域的 Infiniband、RDMA、GDR 等技術(shù)也充分支持了多 GPU 服務(wù)器節(jié)點(diǎn)直接的互聯(lián)，為“Scale out”的部署奠定了基礎(chǔ)。

此外，英特爾和 AMD 也在同時(shí)在 CPU、GPU 和高性能網(wǎng)絡(luò)互聯(lián)技術(shù)領(lǐng)域具備強(qiáng)大能力。在 CPU 領(lǐng)域，英特爾和 AMD 都是行業(yè)領(lǐng)導(dǎo)者。在網(wǎng)絡(luò)領(lǐng)域，英特爾擁有自己的 Mount Evans（IPU），而 AMD 在收購(gòu) Pansando 后在 DPU 領(lǐng)域也獲得了強(qiáng)大實(shí)力。在帶內(nèi) - 帶間互聯(lián)方面，英特爾通過 QPI 或 UPI 等技術(shù)實(shí)現(xiàn)了 CPU 的多插槽互連能力。同時(shí)，它還有像 CXL 這樣的技術(shù)，可以實(shí)現(xiàn)加速器與 CPU 或內(nèi)存與 CPU 之間的高效互連，以及自身功能所擁有的 EMIB（2.5D 封裝技術(shù)），實(shí)現(xiàn)芯片之間的互聯(lián)。而 AMD 則擁有 Hyper Transport 以及基于此的 Infinity Fabric 等核心技術(shù)，可以實(shí)現(xiàn)帶內(nèi) - 帶間芯片之間的高效互連。所有這些技術(shù)都為構(gòu)建分布式算力提供了必要的基礎(chǔ)。

目前，英偉達(dá)的 DGX GH200 產(chǎn)品已經(jīng)達(dá)到了極致水平，其擁有 1.8 萬個(gè) CPU 核心、256 個(gè) GPU 和 144T 內(nèi)存，它們之間通過各種高速互聯(lián)技術(shù)有機(jī)地結(jié)合在一起。這種模式已經(jīng)對(duì)分布式訓(xùn)練框架和模式產(chǎn)生了重大影響。接下來的問題是，如何支持這種設(shè)備類型的操作系統(tǒng)？如何支持如此大規(guī)模的設(shè)備內(nèi)存？這些都是未來技術(shù)發(fā)展的方向和挑戰(zhàn)。

算力優(yōu)化探索與實(shí)踐

在具體的算力優(yōu)化探索與實(shí)踐中，蔣曉維表示，作為一家 DPU 公司，大禹智芯關(guān)注的是分布式集群算力模型領(lǐng)域的優(yōu)化，主要集中在從單機(jī)單卡到多機(jī)規(guī)模的優(yōu)化。

在分布式訓(xùn)練場(chǎng)景中，尤其是訓(xùn)練大型模型如 GPT 時(shí)，通常需要使用成千上萬個(gè) GPU。在這個(gè)過程中，大禹智芯將算力或芯片執(zhí)行的計(jì)算分為兩個(gè)維度：

第一個(gè)維度是純計(jì)算，即模型的前向傳播和反向傳播過程，主要在 GPU 上完成。

另一個(gè)維度是耗費(fèi)大量算力但不是 GPU 算力的部分，即訓(xùn)練中的梯度下降過程，在分布式 GPU 中，需要對(duì)參數(shù)進(jìn)行全局約簡(jiǎn)操作，以獲得最終的全局約簡(jiǎn)結(jié)果?？梢詫⑦@部分稱為訓(xùn)練中的 I/O 部分，它主要消耗芯片的網(wǎng)絡(luò)資源而不是 GPU 算力。這部分也是大禹智芯產(chǎn)品關(guān)注的焦點(diǎn)。

在大型模型訓(xùn)練中，當(dāng)達(dá)到 2000 個(gè) GPU 時(shí)，I/O 部分和計(jì)算部分的比例已經(jīng)達(dá)到 1:1。隨著 GPU 數(shù)量超過 2000，I/O 部分所花費(fèi)的時(shí)間和算力可能會(huì)超過計(jì)算部分。因此，大禹智芯專注在分布式訓(xùn)練中優(yōu)化 I/O 部分，利用核心網(wǎng)絡(luò)技術(shù)能力來進(jìn)行優(yōu)化。

“在算力優(yōu)化方面，我們有幾個(gè)核心技術(shù)：首先是我們支持高度靈活且可編程的硬件零擁塞控制技術(shù)，用于取代傳統(tǒng)以太網(wǎng)上的 RoCE v2 協(xié)議。傳統(tǒng)協(xié)議在流量控制方面比較簡(jiǎn)單單一，存在一些問題。我們的技術(shù)提供了更靈活和可編程的解決方案，解決了這些問題。第二，我們支持超低延遲特性。第三，我們支持用于分布式訓(xùn)練中的 MPI 消息傳遞這種集體通信。通過對(duì)各個(gè)維度進(jìn)行大量硬件優(yōu)化，并結(jié)合 RDMA 和 MPI，在訓(xùn)練過程中實(shí)現(xiàn)與 InfiniBand 相當(dāng)?shù)男阅?。這些是我們?cè)趶膯螜C(jī)單卡到分布式訓(xùn)練的過程中進(jìn)行的算力網(wǎng)絡(luò)優(yōu)化工作?！笔Y曉維介紹道。

據(jù)了解，目前在構(gòu)建 GPU 算力網(wǎng)絡(luò)方面，大多數(shù)公司仍選擇使用 InfiniBand 網(wǎng)卡和交換機(jī)，其中主要使用兩種核心技術(shù)：一種是 RDMA（遠(yuǎn)程直接內(nèi)存訪問）技術(shù)，通過 GPUDirect RDMA 來消除 CPU 在 I/O 層面上的控制角色，從而降低整個(gè)訓(xùn)練過程中的 I/O 消耗。另一種技術(shù)是 SHARP（Scalable Hierarchical Aggregation and Reduction Protocol），這也是 Mellanox 的核心技術(shù)，通過 SHARP 技術(shù)來減少在分布式算力過程中對(duì)網(wǎng)絡(luò)帶寬的消耗。

目前，大多數(shù)公司在構(gòu)建算力網(wǎng)絡(luò)時(shí)仍基于英偉達(dá)的解決方案。然而，一些頭部互聯(lián)網(wǎng)公司已經(jīng)開始在以太網(wǎng)上構(gòu)建 GPU 算力網(wǎng)絡(luò)，不再完全依賴 InfiniBand 網(wǎng)絡(luò)。在這種情況下，一個(gè)核心問題是找到一個(gè)能夠完全替代 InfiniBand 上 RDMA 的技術(shù)。

英偉達(dá)除了在 InfiniBand 上有 RDMA 技術(shù)之外，也有以太網(wǎng)上的 RDMA 技術(shù)，稱為 RoCE v2。然而，在許多頭部互聯(lián)網(wǎng)公司應(yīng)用中，這種技術(shù)仍然存在一些問題，所以國(guó)際國(guó)內(nèi)一些頭部互聯(lián)網(wǎng)公司已經(jīng)開始研發(fā)自己的技術(shù)，用以取代 RoCE v2 以太網(wǎng)上的 RDMA，并通過自研的方式實(shí)現(xiàn)更可靠的運(yùn)行。他們能夠在有丟包的網(wǎng)絡(luò)環(huán)境中穩(wěn)定地運(yùn)行 RDMA，并將這項(xiàng)技術(shù)應(yīng)用于 GPU 訓(xùn)練集群中，這是一些行業(yè)內(nèi)領(lǐng)先公司具備的核心能力。

“對(duì)于大禹智芯來說，我們的工作完全基于這些頭部公司的實(shí)踐和技術(shù)趨勢(shì)。我們也在致力于開發(fā)類似的產(chǎn)品，因?yàn)槲覀兿嘈胚@些頭部公司的核心技術(shù)往往只局限于他們自身的部署。但是，我們認(rèn)為更廣泛的公司可能并不具備這樣的能力。像大禹智芯這樣的第三方芯片公司的價(jià)值就在于通過通用化的技術(shù)，為更廣泛的場(chǎng)景提供支持，并通過更普適的方式將這些技術(shù)落地?！笔Y曉維說道。

寫在最后：軟件算法設(shè)計(jì)的多樣化亦是關(guān)鍵

在分布式算力構(gòu)建方面，蔣曉維認(rèn)為，構(gòu)建分布式算力網(wǎng)絡(luò)需要與芯片領(lǐng)域緊密結(jié)合，并且在每個(gè)單元上都需要應(yīng)用先進(jìn)的制程技術(shù)，以支持最大規(guī)模的帶寬。未來，需要重點(diǎn)考慮兩方面：

首先是芯片產(chǎn)業(yè)的發(fā)展。這涉及到各種芯片 IP，例如 SerDes、PCIE 控制器等核心 IP，還有 EDA 工具和先進(jìn)制程技術(shù)。這些都是構(gòu)建各種算力的基本單元能力。

其次是國(guó)內(nèi)的各種 xPU 公司。目前，國(guó)內(nèi)的 xPU 公司仍處于早期階段，各自為政，發(fā)展還比較零散。

“在國(guó)內(nèi)，要在相對(duì)較短的時(shí)間內(nèi)集合整個(gè)產(chǎn)業(yè)的力量共同實(shí)現(xiàn)目標(biāo)，而不是通過一家公司逐步發(fā)展各個(gè)領(lǐng)域的能力，可能需要采取某種方式來結(jié)合產(chǎn)業(yè)力量共同實(shí)現(xiàn)目標(biāo)。在這方面，我認(rèn)為有一個(gè)關(guān)鍵技術(shù)是芯片領(lǐng)域的芯片模塊化（Chiplet）技術(shù)，這是一項(xiàng)非常有潛力的技術(shù)。通過芯片模塊化，我們可以通過成本較低的封裝技術(shù)將不同的芯片模塊集成在一顆芯片上，從而實(shí)現(xiàn)讓每個(gè)領(lǐng)域的專業(yè)公司專注于其擅長(zhǎng)的事情。另外，芯片模塊化本身還是一個(gè)相對(duì)較新的概念，例如芯片模塊化的標(biāo)準(zhǔn)化組織 UCIe 也剛剛成立不久。因此，在這個(gè)領(lǐng)域，國(guó)內(nèi)與國(guó)外之間肯定存在差距，但差距并不是特別大，仍然有迎頭趕上的機(jī)會(huì)?！笔Y曉維總結(jié)道。

展望未來，戴金權(quán)希望可以做到“AI 無所不在”，不管是在本地端、云端還是邊緣端。從這個(gè)角度來看，從小尺寸設(shè)備擴(kuò)展到大規(guī)模數(shù)據(jù)中心的 XPU 架構(gòu)，是一個(gè)非常重要的、且能夠支持未來 AIGC 技術(shù)無所不在的需求的趨勢(shì)。從軟件的角度來看，現(xiàn)在的大模型基本上是以 Transformer 架構(gòu)作為基礎(chǔ)構(gòu)件，目前業(yè)界正在做大量的研究工作，探索 Transformer 架構(gòu)對(duì)內(nèi)存的需求，包括內(nèi)存帶寬、內(nèi)存容量以及計(jì)算需求如何進(jìn)行更好的加速。從發(fā)展的眼光來看，至少 Transformer 這樣的大模型可能會(huì)有更大的尺寸，包括輸入上下文的擴(kuò)展，將來可能是今天的幾倍、幾十倍甚至更高。這必然會(huì)對(duì)軟件算法的設(shè)計(jì)，比如低精度、低比特、壓縮、稀疏化，包括注意力機(jī)制設(shè)計(jì)等有不同的需求。

“所以，軟件算法設(shè)計(jì)的多樣化，是我們認(rèn)為未來有助于滿足 AIGC 和大語言模型的算力需求的重要組成部分。這些需求可能會(huì)進(jìn)一步引導(dǎo)我們未來的訓(xùn)練、推理，以及芯片的架構(gòu)等。此外，大模型還在快速發(fā)展當(dāng)中，可能在更長(zhǎng)的時(shí)間段，比如十年、幾十年的時(shí)間里有很多的發(fā)展，有不同算法級(jí)別的發(fā)展，以及在不同場(chǎng)景適配的發(fā)展，這些都會(huì)對(duì) AI 芯片，包括對(duì)所有計(jì)算的芯片、計(jì)算的能力帶來深遠(yuǎn)的影響。”戴金權(quán)總結(jié)道。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

AI

AI

+關(guān)注

關(guān)注
87

文章
30947

瀏覽量
269217
模塊化

模塊化

+關(guān)注

關(guān)注
0

文章
332

瀏覽量
21359
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5503

瀏覽量
121207
大模型

大模型

+關(guān)注

關(guān)注
2

文章
2465

瀏覽量
2763
AI大模型

AI大模型

+關(guān)注

關(guān)注
0

文章
316

瀏覽量
310

原文標(biāo)題：AI 大模型競(jìng)爭(zhēng)白熱化，算力優(yōu)化才是“超車點(diǎn)”？

文章出處：【微信號(hào)：AI前線，微信公眾號(hào)：AI前線】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

企業(yè)AI算力租賃模式的好處

構(gòu)建和維護(hù)一個(gè)高效、可擴(kuò)展的AI算力基礎(chǔ)設(shè)施，不僅需要巨額的初期投資，還涉及復(fù)雜的運(yùn)維管理和持續(xù)的技術(shù)升級(jí)。而AI算

發(fā)表于 12-24 10:49 ?114次閱讀

Meta推出Llama 3.3 70B，AI大模型競(jìng)爭(zhēng)白熱化

的Llama 3.3 70B模型在性能上表現(xiàn)出色，與同行業(yè)的其他大模型相比毫不遜色。更重要的是，其在成本上展現(xiàn)出了更強(qiáng)的競(jìng)爭(zhēng)力，使得更多的企業(yè)和開發(fā)者能夠負(fù)擔(dān)得起這一先進(jìn)的技術(shù)。這兩大模型

發(fā)表于 12-09 14:50 ?392次閱讀

企業(yè)AI算力租賃是什么

企業(yè)AI算力租賃是指企業(yè)通過互聯(lián)網(wǎng)向?qū)I(yè)的算力提供商租用所需的計(jì)算資源，以滿足其AI應(yīng)用的需求。

發(fā)表于 11-14 09:30 ?650次閱讀

AI時(shí)代算力的重要性及現(xiàn)狀:平衡發(fā)展與優(yōu)化配置的挑戰(zhàn)

在AI時(shí)代，算力扮演著至關(guān)重要的角色。如果說數(shù)據(jù)是AI大模型的“燃料”，那么算

發(fā)表于 11-04 11:45 ?442次閱讀

云知聲山海大模型的訓(xùn)練優(yōu)化方法及應(yīng)用實(shí)踐

由AI大模型工場(chǎng)主辦的AI大模型生態(tài)暨算力大會(huì)在京舉行。作為國(guó)內(nèi)最具影響

發(fā)表于 10-12 14:12 ?272次閱讀

青云科技強(qiáng)化AI算力架構(gòu),升級(jí)產(chǎn)品與服務(wù)體系

10月9日，青云科技正式揭曉了其升級(jí)版的產(chǎn)品與服務(wù)陣容、行業(yè)及場(chǎng)景定制化解決方案，以及全新的生態(tài)戰(zhàn)略。該公司旨在通過AI智算平臺(tái)、AI算力云

發(fā)表于 10-10 16:42 ?482次閱讀

【「大模型時(shí)代的基礎(chǔ)架構(gòu)」閱讀體驗(yàn)】+ 未知領(lǐng)域的感受

國(guó)慶前就收到《大模型時(shí)代的基礎(chǔ)架構(gòu)》一書，感謝電子發(fā)燒友論壇。歡度國(guó)慶之余，今天才靜下心來體驗(yàn)此書，書不厚，200余頁，彩色圖例，印刷精美！當(dāng)初申請(qǐng)此書，主要是看到副標(biāo)題“大模型算力

發(fā)表于 10-08 10:40

大模型時(shí)代的算力需求

現(xiàn)在AI已進(jìn)入大模型時(shí)代，各企業(yè)都爭(zhēng)相部署大模型，但如何保證大模型的算力，以及相關(guān)的穩(wěn)定性和性能

發(fā)表于 08-20 09:04

摩爾線程張建中：以國(guó)產(chǎn)算力助力數(shù)智世界，滿足大模型算力需求

摩爾線程創(chuàng)始人兼CEO張建中在會(huì)上透露，為了滿足國(guó)內(nèi)對(duì)AI算力的迫切需求，他們正在積極尋求與國(guó)內(nèi)頂尖科研機(jī)構(gòu)的深度合作，共同推動(dòng)更大規(guī)模的AI智算

發(fā)表于 05-10 16:36 ?968次閱讀

安筱鵬：AI大模型重構(gòu)產(chǎn)業(yè)競(jìng)爭(zhēng)力的五種模式

今天討論AI大模型，最重要的一個(gè)議題是，AI對(duì)一個(gè)產(chǎn)品、服務(wù)、產(chǎn)業(yè)意味著什么？對(duì)于一個(gè)個(gè)體、企業(yè)、區(qū)域、國(guó)家的競(jìng)爭(zhēng)力意味著什么？未來3-5年，哪些產(chǎn)業(yè)的

發(fā)表于 04-08 09:29 ?1444次閱讀

汽車價(jià)格戰(zhàn)白熱化，車企紛紛「押寶」這傳感器！

進(jìn)入2024年，車市的不確定性，進(jìn)一步加劇了車企白熱化競(jìng)爭(zhēng)的態(tài)勢(shì)。無論是比亞迪的單純降價(jià)，還是外資車企轉(zhuǎn)向小型電動(dòng)車市場(chǎng)。而降價(jià)增配，同樣也是車企的選擇項(xiàng)之一。上周，2月24日，上汽智己正式上市

發(fā)表于 03-06 16:31 ?521次閱讀

賈躍亭宣布起訴高合汽車！

3月5日消息，今年開年之后，我國(guó)新能源車的競(jìng)爭(zhēng)更加白熱化，車企進(jìn)入殘酷淘汰賽。

發(fā)表于 03-05 14:12 ?553次閱讀

數(shù)據(jù)語料庫、算法框架和算力芯片在AI大模型中的作用和影響

數(shù)據(jù)語料庫、算法框架和算力芯片的確是影響AI大模型發(fā)展的三大重要因素。

發(fā)表于 03-01 09:42 ?1122次閱讀

智能算力規(guī)模超通用算力，大模型對(duì)智能算力提出高要求

電子發(fā)燒友網(wǎng)報(bào)道（文/李彎彎）算力是設(shè)備通過處理數(shù)據(jù)，實(shí)現(xiàn)特定結(jié)果輸出的計(jì)算能力，常用FLOPS作為計(jì)量單位。FLOPS是Floating-point Operations Per Second

發(fā)表于 02-06 00:08 ?6369次閱讀

立足算力，聚焦AI！順網(wǎng)科技全面走進(jìn)AI智算時(shí)代

“立足算力，聚焦AI”，順網(wǎng)科技進(jìn)軍AI智算時(shí)代的號(hào)角已被吹響。 1月18日，順網(wǎng)科技（300113.SZ）以“躍遷·向未來”為主題的戰(zhàn)略升

發(fā)表于 01-19 10:57 ?464次閱讀

搜索歷史

AI大模型競(jìng)爭(zhēng)白熱化，算力優(yōu)化才是“超車點(diǎn)”？

評(píng)論

企業(yè)AI算力租賃模式的好處

Meta推出Llama 3.3 70B，AI大模型競(jìng)爭(zhēng)白熱化

企業(yè)AI算力租賃是什么

AI時(shí)代算力的重要性及現(xiàn)狀:平衡發(fā)展與優(yōu)化配置的挑戰(zhàn)

云知聲山海大模型的訓(xùn)練優(yōu)化方法及應(yīng)用實(shí)踐

青云科技強(qiáng)化AI算力架構(gòu),升級(jí)產(chǎn)品與服務(wù)體系

【「大模型時(shí)代的基礎(chǔ)架構(gòu)」閱讀體驗(yàn)】+ 未知領(lǐng)域的感受

大模型時(shí)代的算力需求

摩爾線程張建中：以國(guó)產(chǎn)算力助力數(shù)智世界，滿足大模型算力需求

安筱鵬：AI大模型重構(gòu)產(chǎn)業(yè)競(jìng)爭(zhēng)力的五種模式

汽車價(jià)格戰(zhàn)白熱化，車企紛紛「押寶」這傳感器！

賈躍亭宣布起訴高合汽車！

數(shù)據(jù)語料庫、算法框架和算力芯片在AI大模型中的作用和影響

智能算力規(guī)模超通用算力，大模型對(duì)智能算力提出高要求

立足算力，聚焦AI！順網(wǎng)科技全面走進(jìn)AI智算時(shí)代

搜索歷史

AI大模型競(jìng)爭(zhēng)白熱化，算力優(yōu)化才是“超車點(diǎn)”？

評(píng)論

AI大模型競(jìng)爭(zhēng)白熱化，算力優(yōu)化才是“超車點(diǎn)”？