0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

大模型背景下,AI芯片廠商面臨怎樣的機(jī)遇與挑戰(zhàn)?

億鑄科技 ? 來源:億鑄科技 ? 2023-06-29 16:28 ? 次閱讀

從2022.11.30的ChatGPT,到2023.6.13的360智腦大模型2.0,全球AI界已為大模型持續(xù)瘋狂了七個(gè)多月。ChatGPT們正如雨后春筍般涌現(xiàn),向AI市場投放一個(gè)個(gè)“炸彈”:辦公、醫(yī)療、教育、制造,亟需AI的賦能。

而AI應(yīng)用千千萬,把大模型打造好才是硬道理。

對(duì)于大模型“世界”來說,算法是“生產(chǎn)關(guān)系”,是處理數(shù)據(jù)信息的規(guī)則與方式;算力是“生產(chǎn)力”,能夠提高數(shù)據(jù)處理、算法訓(xùn)練的速度與規(guī)模;數(shù)據(jù)是“生產(chǎn)資料”,高質(zhì)量的數(shù)據(jù)是驅(qū)動(dòng)算法持續(xù)迭代的養(yǎng)分。在這之中,算力是讓大模型轉(zhuǎn)動(dòng)的前提。

我們都知道的是,大模型正對(duì)算力提出史無前例的要求,具體的表現(xiàn)是:據(jù)英偉達(dá)數(shù)據(jù)顯示,在沒有以Transformer模型為基礎(chǔ)架構(gòu)的大模型之前,算力需求大致是每兩年提升8倍;而自利用Transformer模型后,算力需求大致是每兩年提升275倍?;诖?,530B參數(shù)量的Megatron-Turing NLG模型,將要吞噬超10億FLOPS的算力。

fc0de5e2-14d3-11ee-962d-dac502259ad0.png

(AI不同模型算法算力迭代情況 圖源:格隆匯)

作為大模型的大腦——AI芯片,是支撐ChatGPT們高效生產(chǎn)及應(yīng)用落地的基本前提。保證算力的高效、充足供應(yīng),是目前AI大算力芯片廠商亟需解決的問題。

GPT-4等大模型向芯片廠商獅子大開口的同時(shí),也為芯片廠商尤其是初創(chuàng)芯片廠商,帶來一個(gè)利好消息:軟件生態(tài)重要性正在下降。

早先技術(shù)不夠成熟之時(shí),研究者們只能從解決某個(gè)特定問題起步,參數(shù)量低于百萬的小模型由此誕生。例如谷歌旗下的AI公司DeepMind,讓AlphaGo對(duì)上百萬種人類專業(yè)選手的下棋步驟進(jìn)行專項(xiàng)“學(xué)習(xí)”。

而小模型多了之后,硬件例如芯片的適配問題迫在眉睫。故,當(dāng)英偉達(dá)推出統(tǒng)一生態(tài)CUDA之后,GPU+CUDA迅速博得計(jì)算機(jī)科學(xué)界認(rèn)可,成為人工智能開發(fā)的標(biāo)準(zhǔn)配置。

現(xiàn)如今紛紛涌現(xiàn)的大模型具備多模態(tài)能力,能夠處理文本、圖片、編程等問題,也能夠覆蓋辦公、教育、醫(yī)療等多個(gè)垂直領(lǐng)域。這也就意味著,適應(yīng)主流生態(tài)并非唯一的選擇:在大模型對(duì)芯片需求量暴漲之時(shí),芯片廠商或許可以只適配1-2個(gè)大模型,便能完成以往多個(gè)小模型的訂單。

也就是說,ChatGPT的出現(xiàn),為初創(chuàng)芯片廠商們提供了彎道超車的機(jī)會(huì)。這就意味著,AI芯片市場格局將發(fā)生巨變:不再是個(gè)別廠商的獨(dú)角戲,而是多個(gè)創(chuàng)新者的群戲。

本報(bào)告將梳理AI芯片行業(yè)發(fā)展概況、玩家情況,總結(jié)出大算力時(shí)代,玩家提高算力的路徑,并基于此,窺探AI大算力芯片的發(fā)展趨勢。

PART-01

國產(chǎn)AI芯片,正走向AI3.0時(shí)代

現(xiàn)階段的AI芯片,根據(jù)技術(shù)架構(gòu)種類來分,主要包括GPGPU、FPGA、以 VPU、TPU 為代表的 ASIC、存算一體芯片。

fc425d18-14d3-11ee-962d-dac502259ad0.png

根據(jù)其在網(wǎng)絡(luò)中的位置,AI 芯片可以分為云端AI芯片 、邊緣和終端AI芯片;

云端主要部署高算力的AI訓(xùn)練芯片和推理芯片,承擔(dān)訓(xùn)練和推理任務(wù),例如智能數(shù)據(jù)分析、模型訓(xùn)練任務(wù)等;

邊緣和終端主要部署推理芯片,承擔(dān)推理任務(wù),需要獨(dú)立完成數(shù)據(jù)收集、環(huán)境感知、人機(jī)交互及部分推理決策控制任務(wù)。

fc65b2d6-14d3-11ee-962d-dac502259ad0.png

根據(jù)其在實(shí)踐中的目標(biāo),可分為訓(xùn)練芯片和推理芯片:

fc8db39e-14d3-11ee-962d-dac502259ad0.png

縱觀AI芯片在國內(nèi)的發(fā)展史,AI芯片國產(chǎn)化進(jìn)程大致分為三個(gè)時(shí)代。

1.0時(shí)代,是屬于ASIC架構(gòu)的時(shí)代

自2000年互聯(lián)網(wǎng)浪潮拉開AI芯片的序幕后,2010年前后,數(shù)據(jù)、算法、算力和應(yīng)用場景四大因素的逐漸成熟,正式引發(fā)AI產(chǎn)業(yè)的爆發(fā)式增長。申威、沸騰、兆芯、龍芯、魂芯以及云端AI芯片相繼問世,標(biāo)志著國產(chǎn)AI芯片正式啟航。

2016年5月,當(dāng)谷歌揭曉AlphaGo背后的功臣是TPU時(shí),ASIC隨即成為“當(dāng)紅辣子雞”。于是在2018年,國內(nèi)寒武紀(jì)、地平線等國內(nèi)廠商陸續(xù)跟上腳步,針對(duì)云端AI應(yīng)用推出ASIC架構(gòu)芯片,開啟國產(chǎn)AI芯片1.0時(shí)代。

ASIC芯片,能夠在某一特定場景、算法較固定的情況下,實(shí)現(xiàn)更優(yōu)性能和更低功耗,基于此,滿足了企業(yè)對(duì)極致算力和能效的追求。

所以當(dāng)時(shí)的廠商們,多以捆綁合作為主:大多芯片廠商尋找大客戶們實(shí)現(xiàn)“專用場景”落地,而有著綜合生態(tài)的大廠選擇單打獨(dú)斗。

地平線、耐能科技等AI芯片廠商,分別專注AI芯片的細(xì)分領(lǐng)域,采用“大客戶捆綁”模式進(jìn)入大客戶供應(yīng)鏈。

在中廠們綁定大客戶協(xié)同發(fā)展之際,自有生態(tài)的大廠阿里成立獨(dú)資芯片公司平頭哥,著眼AI和量子計(jì)算。

在1.0時(shí)代,剛出世的國內(nèi)芯片廠商們選擇綁定大客戶,有綜合生態(tài)的大廠選擇向內(nèi)自研,共同踏上探索AI芯片算力的征途。

2.0時(shí)代,更具通用性的GPGPU“引領(lǐng)風(fēng)騷”

盡管ASIC有著極致的算力和能效,但也存在著應(yīng)用場景局限、依賴自建生態(tài)、客戶遷移難度大、學(xué)習(xí)曲線較長等問題。

于是,通用性更強(qiáng)的GPGPU(通用圖形處理器)在不斷迭代和發(fā)展中成為AI計(jì)算領(lǐng)域的最新發(fā)展方向,當(dāng)上AI芯片2.0時(shí)代的指路人。

自2020年起,以英偉達(dá)為代表的GPGPU架構(gòu)開始有著不錯(cuò)的性能表現(xiàn)。通過對(duì)比英偉達(dá)近三代旗艦產(chǎn)品發(fā)現(xiàn),從FP16 tensor 算力來看,性能實(shí)現(xiàn)逐代翻倍的同時(shí),算力成本在下降。

于是,國內(nèi)多個(gè)廠商紛紛布局GPGPU芯片,主打CUDA兼容,試探著AI算力芯片的極限。2020年起,珠海芯動(dòng)力、壁仞科技、沐曦、登臨科技、天數(shù)智芯、瀚博半導(dǎo)體等新勢力集結(jié)發(fā)力,大家一致的動(dòng)作是:自研架構(gòu),追隨主流生態(tài),切入邊緣側(cè)場景。

在前兩個(gè)時(shí)代中,國產(chǎn)AI芯片廠商都在竭力順應(yīng)時(shí)代潮流,前赴后繼地跟隨國際大廠的步伐,通過研發(fā)最新芯片解決AI算力芯片的挑戰(zhàn)。

我們能看到的變化是,在2.0時(shí)代中,國產(chǎn)AI芯片廠商自主意識(shí)覺醒,嘗試著自研架構(gòu)以求突破。

3.0時(shí)代,存算一體芯片或成GPT-4等大模型的最優(yōu)選

ASIC芯片的弱通用性難以應(yīng)對(duì)下游層出不窮的應(yīng)用,GPGPU受制于高功耗與低算力利用率,而大模型又對(duì)算力提出前所未有的高要求:目前,大模型所需的大算力起碼是1000TOPS及以上。

以 2020 年發(fā)布的 GPT-3 預(yù)訓(xùn)練語言模型為例,其采用的是2020年最先進(jìn)的英偉達(dá)A100 GPU, 算力是624TOPS。2023年,隨著模型預(yù)訓(xùn)練階段模型迭代,又新增訪問階段井噴的需求,未來模型對(duì)于芯片算力的需求起碼要破千。

再例如自動(dòng)駕駛領(lǐng)域,根據(jù)財(cái)通證券研究所表明,自動(dòng)駕駛所需單個(gè)芯片的算力未來起碼要1000+TOPS:2021年4月, 英偉達(dá)就已經(jīng)發(fā)布了算力為1000TOPS的DRIVE Atlan芯片;到了今年,英偉達(dá)直接推出芯片Thor,達(dá)到2000TOPS。

由此,業(yè)界亟需新架構(gòu)、新工藝、新材料、新封裝,突破算力天花板。除此之外,日漸緊張的地緣關(guān)系,無疑又給高度依賴先進(jìn)制程工藝的AI大算力芯片廠商們提出新的挑戰(zhàn)。

在這些大背景下,從2017年到2021年間集中成立的一批初創(chuàng)公司,選擇跳脫傳統(tǒng)馮·諾依曼架構(gòu),布局存算一體等新興技術(shù),中國AI芯片3.0時(shí)代,正式拉開帷幕。

目前存算一體,正在上升期:

學(xué)界,ISSCC上存算/近存算相關(guān)的文章數(shù)量迅速增加:從20年的6篇上漲到23年的19篇;其中數(shù)字存內(nèi)計(jì)算,從21年被首次提出后,22年迅速增加到4篇。

產(chǎn)界,巨頭紛紛布局存算一體,國內(nèi)陸陸續(xù)續(xù)也有近十幾家初創(chuàng)公司押注該架構(gòu):

特斯拉2023 Investor Day預(yù)告片末尾,特斯拉的dojo超算中心和存算一體芯片相繼亮相;在更早之前,三星、阿里達(dá)摩院包括AMD也早早布局并推出相關(guān)產(chǎn)品:阿里達(dá)摩院表示,相比傳統(tǒng)CPU計(jì)算系統(tǒng),存算一體芯片的性能提升10倍以上,能效提升超過300倍;三星表示,與僅配備HBM的GPU加速器相比,配備HBM-PIM的GPU加速器一年的能耗降低了約2100GWh。

目前,國內(nèi)的億鑄科技、知存科技、蘋芯科技、九天睿芯等十余家初創(chuàng)公司采用存算一體架構(gòu)投注于AI算力,其中億鑄科技偏向數(shù)據(jù)中心等大算力場景。

現(xiàn)階段,業(yè)內(nèi)人士表示,存算一體將有望成為繼CPU、GPU架構(gòu)之后的第三種算力架構(gòu)。

該提法的底氣在于,存算一體理論上擁有高能效比優(yōu)勢,又能繞過先進(jìn)制程封鎖,兼顧更強(qiáng)通用性與更高性價(jià)比,算力發(fā)展空間巨大。

在此基礎(chǔ)上,新型存儲(chǔ)器能夠助力存算一體更好地實(shí)現(xiàn)以上優(yōu)勢。目前可用于存算一體的成熟存儲(chǔ)器有NOR FLASH、SRAM、DRAM、RRAM(ReRAM)、MRAM等。相比之下,RRAM具備低功耗、高計(jì)算精度、高能效比和制造兼容CMOS工藝等優(yōu)勢:

fcbfb5ba-14d3-11ee-962d-dac502259ad0.png

目前,新型存儲(chǔ)器RRAM技術(shù)已然落地:2022上半年,國內(nèi)創(chuàng)業(yè)公司昕原半導(dǎo)體宣布,大陸首條RRAM 12寸中試生產(chǎn)線正式完成裝機(jī)驗(yàn)收,并在工控領(lǐng)域達(dá)成量產(chǎn)商用。

隨著新型存儲(chǔ)器件走向量產(chǎn),存算一體AI芯片已經(jīng)挺進(jìn)AI大算力芯片落地競賽。

而無論是傳統(tǒng)計(jì)算芯片,還是存算一體芯片,在實(shí)際加速AI計(jì)算時(shí)往往還需處理大量的邏輯計(jì)算、視頻編解碼等非AI加速計(jì)算領(lǐng)域的計(jì)算任務(wù)。隨著多模態(tài)成為大模型時(shí)代的大勢所趨,AI芯片未來需處理文本、語音、圖像、視頻等多類數(shù)據(jù)。

對(duì)此,初創(chuàng)公司億鑄科技首個(gè)提出存算一體超異構(gòu)AI大算力技術(shù)路徑。億鑄的暢想是,若能把新型憶阻器技術(shù)(RRAM)、存算一體架構(gòu)、芯粒技術(shù)(Chiplet)、3D封裝等技術(shù)結(jié)合,將會(huì)實(shí)現(xiàn)更大的有效算力、放置更多的參數(shù)、實(shí)現(xiàn)更高的能效比、更好的軟件兼容性、從而抬高AI大算力芯片的發(fā)展天花板。

站在3.0時(shí)代門口,國產(chǎn)AI大算力芯片廠商自主意識(shí)爆發(fā),以期為中國AI大算力芯片提供彎道超車的可能。

(中略)

算力解決方案,蓄勢待發(fā)

以AI云端推理卡為例,我們能看到的是,2018-2023年,算力由于工藝制程“卷不動(dòng)”等種種原因,成本、功耗、算力難以兼顧。

但國力之爭已然打響,ChatGPT已然到來,市場亟需兼顧成本、功耗、算力的方案。

目前國際大廠、國內(nèi)主流廠商、初創(chuàng)企業(yè)都在謀求計(jì)算架構(gòu)創(chuàng)新,試圖找出兼顧性能、規(guī)模、利用率的方案,突破算力天花板。

fce1f1ac-14d3-11ee-962d-dac502259ad0.png

(中略)

AI芯片“新星”存算一體門檻奇高

2019年后,新增的AI芯片廠商,多數(shù)在布局存算一體:據(jù)偲睿洞察不完全統(tǒng)計(jì),在2019-2021年新增的AI芯片廠商有20家,在這之中,有10家選擇存算一體路線。

這無一不說明著,存算一體將成為繼GPGPU、ASIC等架構(gòu)后的,一顆冉冉升起的新星。而這顆新星,并不是誰都可以摘。

在學(xué)界、產(chǎn)界、資本一致看好存算一體的境況下,強(qiáng)勁的技術(shù)實(shí)力、扎實(shí)的人才儲(chǔ)備以及對(duì)遷移成本接受度的精準(zhǔn)把控,是初創(chuàng)公司在業(yè)內(nèi)保持競爭力的關(guān)鍵,也是擋在新玩家面前的三大門檻。

存算一體,打破了三堵墻,能夠?qū)崿F(xiàn)低功耗、高算力、高能效比,但想要實(shí)現(xiàn)如此性能,挑戰(zhàn)頗多:

首先是存算一體涉及到芯片制造的全環(huán)節(jié):從最底層的器件,到電路設(shè)計(jì),架構(gòu)設(shè)計(jì),工具鏈,再到軟件層的研發(fā);

其次是,在每一層做相應(yīng)改變的同時(shí),還要考慮各層級(jí)之間的適配度。

我們一層一層來看,一顆存算一體芯片被造出來,有怎樣的技術(shù)難題。

首先,在器件選擇上,廠商就“如履薄冰”:存儲(chǔ)器設(shè)計(jì)決定芯片的良率,一旦方向錯(cuò)誤將可能導(dǎo)致芯片無法量產(chǎn)。

其次是電路設(shè)計(jì)層面。電路層面有了器件之后,需要用其做存儲(chǔ)陣列的電路設(shè)計(jì)。而目前在電路設(shè)計(jì)上,存內(nèi)計(jì)算沒有EDA工具指導(dǎo),需要靠手動(dòng)完成,無疑又大大增加了操作難度。

緊接著,架構(gòu)層面有電路之后,需要做架構(gòu)層的設(shè)計(jì)。每一個(gè)電路是一個(gè)基本的計(jì)算模塊,整個(gè)架構(gòu)由不同模塊組成,存算一體模塊的設(shè)計(jì)決定了芯片的能效比。模擬電路會(huì)受到噪聲干擾,芯片受到噪聲影響后運(yùn)轉(zhuǎn)起來會(huì)遇到很多問題。

這種情況下,需要架構(gòu)師了解模擬存內(nèi)計(jì)算的工藝特點(diǎn),針對(duì)這些特點(diǎn)去設(shè)計(jì)架構(gòu),同時(shí)也要考慮到架構(gòu)與軟件開發(fā)的適配度。

軟件層面架構(gòu)設(shè)計(jì)完成后,需要開發(fā)相應(yīng)的工具鏈。

fd31fdfa-14d3-11ee-962d-dac502259ad0.png

而由于存算一體的原始模型與傳統(tǒng)架構(gòu)下的模型不同,編譯器要適配完全不同的存算一體架構(gòu),確保所有計(jì)算單元能夠映射到硬件上,并且順利運(yùn)行。

一條完整的技術(shù)鏈條下來,考驗(yàn)著器件、電路設(shè)計(jì)、架構(gòu)設(shè)計(jì)、工具鏈、軟件層開發(fā)各個(gè)環(huán)節(jié)的能力,與協(xié)調(diào)各個(gè)環(huán)節(jié)的適配能力,是耗時(shí)耗力耗錢的持久戰(zhàn)。

根據(jù)以上環(huán)節(jié)操作流程可以看到,存算一體芯片亟需經(jīng)驗(yàn)豐富的電路設(shè)計(jì)師、芯片架構(gòu)師。

除此之外,鑒于存算一體的特殊性,能夠做成存算一體的公司在人員儲(chǔ)備上需要有以下兩點(diǎn)特征:

1、帶頭人需有足夠魄力。在器件選擇(RRAM、SRAM等)、計(jì)算模式(傳統(tǒng)馮諾依曼、存算一體等)的選擇上要有清晰的思路。

這是因?yàn)椋嫠阋惑w作為一項(xiàng)顛覆、創(chuàng)新技術(shù),無人引領(lǐng),試錯(cuò)成本極高。能夠?qū)崿F(xiàn)商業(yè)化的企業(yè),創(chuàng)始人往往具備豐富的產(chǎn)業(yè)界、大廠經(jīng)驗(yàn)和學(xué)術(shù)背景,能夠帶領(lǐng)團(tuán)隊(duì)快速完成產(chǎn)品迭代。

2、在核心團(tuán)隊(duì)中,需要在技術(shù)的各個(gè)層級(jí)中配備經(jīng)驗(yàn)豐富的人才。例如架構(gòu)師,其是團(tuán)隊(duì)的核心。架構(gòu)師需要對(duì)底層硬件,軟件工具有深厚的理解和認(rèn)知,能夠把構(gòu)想中的存算架構(gòu)通過技術(shù)實(shí)現(xiàn)出來,最終達(dá)成產(chǎn)品落地;

3、此外,據(jù)量子位報(bào)告顯示,國內(nèi)缺乏電路設(shè)計(jì)的高端人才,尤其在混合電路領(lǐng)域。存內(nèi)計(jì)算涉及大量的模擬電路設(shè)計(jì),與強(qiáng)調(diào)團(tuán)隊(duì)協(xié)作的數(shù)字電路設(shè)計(jì)相比,模擬電路設(shè)計(jì)需要對(duì)于工藝、設(shè)計(jì)、版圖、模型pdk以及封裝都極度熟悉的個(gè)人設(shè)計(jì)師。

落地,是第一生產(chǎn)力。在交付時(shí),客戶考量的并不僅僅是存算一體技術(shù),而是相較于以往產(chǎn)品而言,存算一體整體SoC的能效比、面效比和易用性等性能指標(biāo)是否有足夠的提升,更重要的是,遷移成本是否在承受范圍內(nèi)。

如果選擇新的芯片提升算法表現(xiàn)力需要重新學(xué)習(xí)一套編程體系,在模型遷移上所花的人工成本高出購買一個(gè)新GPU的成本,那么客戶大概率不會(huì)選擇使用新的芯片。

因此,存算一體在落地過程中是否能將遷移成本降到最低,是客戶在選擇產(chǎn)品時(shí)的關(guān)鍵因素。

目前來看,英偉達(dá)憑借著更為通用的GPGPU霸占了中國AI加速卡的市場。

然而,存算一體芯片憑借著低功耗但高能效比的特性,正成為芯片賽道,冉冉升起的一顆新星。

而存算一體市場,風(fēng)云未定,仍處于“小荷才露尖尖角”階段。但我們不可否認(rèn)的是,存算一體玩家已然構(gòu)筑了三大高墻,非技術(shù)實(shí)力雄厚,人才儲(chǔ)備扎實(shí)者,勿進(jìn)。

PART-04

行業(yè)發(fā)展趨勢

存算一體,算力的下一級(jí)

隨著人工智能等大數(shù)據(jù)應(yīng)用的興起,存算一體技術(shù)得到國內(nèi)外學(xué)界與產(chǎn)界的廣泛研究與應(yīng)用。在2017年微處理器頂級(jí)年會(huì)(Micro 2017)上,包括英偉達(dá)、英特爾、微軟、三星、加州大學(xué)圣塔芭芭拉分校等都推出他們的存算一體系統(tǒng)原型。

自此,ISSCC上存算/近存算相關(guān)的文章數(shù)量迅速增加:從20年的6篇上漲到23年的19篇;其中數(shù)字存內(nèi)計(jì)算,從21年被首次提出后,22年迅速增加到4篇,23年有6篇。

fd623cae-14d3-11ee-962d-dac502259ad0.png

(ISSCC2023存算一體相關(guān)文章 圖源:ISSCC2023)

系統(tǒng)級(jí)創(chuàng)新,嶄露頭角

系統(tǒng)級(jí)創(chuàng)新正頻頻現(xiàn)身半導(dǎo)體TOP級(jí)會(huì)議,展露著打破算力天花板的潛力。

在 AMD 的總裁兼CEO Lisa Su(蘇姿豐)帶來的主旨演講“Innovation for the next decade of compute efficiency“(下一個(gè)十年計(jì)算效率的創(chuàng)新)中,她提到了AI應(yīng)用的突飛猛進(jìn),以及它給芯片帶來的需求。

Lisa Su表示,根據(jù)目前計(jì)算效率每兩年提升2.2倍的規(guī)律,預(yù)計(jì)到2035年,如果想要算力達(dá)到十萬億億級(jí),則需要的功率可達(dá)500MW,相當(dāng)于半個(gè)核電站能產(chǎn)生的功率,“這是極為離譜、不切合實(shí)際的”。

而為了實(shí)現(xiàn)這樣的效率提升,系統(tǒng)級(jí)創(chuàng)新是最關(guān)鍵的思路之一。

fd8fde34-14d3-11ee-962d-dac502259ad0.png

(算力與功耗關(guān)系 圖源:ISSCC2023大會(huì))

在另一個(gè)由歐洲最著名三個(gè)的半導(dǎo)體研究機(jī)構(gòu)IMEC/CEA Leti/Fraunhofer帶來的主旨演講中,系統(tǒng)級(jí)創(chuàng)新也是其核心關(guān)鍵詞。

該演講中提到,隨著半導(dǎo)體工藝逐漸接近物理極限,新的應(yīng)用對(duì)于芯片的需求也必須要從系統(tǒng)級(jí)考慮才能滿足,并且提到了下一代智能汽車和AI作為兩個(gè)尤其需要芯片從系統(tǒng)級(jí)創(chuàng)新才能支持其新需求的核心應(yīng)用。

“從頭到腳”打破算力天花板

系統(tǒng)級(jí)創(chuàng)新,是協(xié)同設(shè)計(jì)上中下游多個(gè)環(huán)節(jié),實(shí)現(xiàn)性能的提升。還有一種說法是,系統(tǒng)工藝協(xié)同優(yōu)化。

系統(tǒng)工藝協(xié)同優(yōu)化為一種“由外向內(nèi)”的發(fā)展模式,從產(chǎn)品需支持的工作負(fù)載及其軟件開始,到系統(tǒng)架構(gòu),再到封裝中必須包括的芯片類型,最后是半導(dǎo)體制程工藝。

fdbf8cd8-14d3-11ee-962d-dac502259ad0.png

(系統(tǒng)工藝協(xié)同優(yōu)化 圖源:ISSCC2023大會(huì))

簡單來說,就是把所有環(huán)節(jié)共同優(yōu)化,由此盡可能地改進(jìn)最終產(chǎn)品。

對(duì)此,Lisa Su給出了一個(gè)經(jīng)典案例:在對(duì)模型算法層面使用創(chuàng)新數(shù)制(例如8位浮點(diǎn)數(shù)FP8)的同時(shí),在電路層對(duì)算法層面進(jìn)行優(yōu)化支持,最終實(shí)現(xiàn)計(jì)算層面數(shù)量級(jí)的效率提升:相比傳統(tǒng)的32位浮點(diǎn)數(shù)(FP32),進(jìn)行系統(tǒng)級(jí)創(chuàng)新的FP8則可以將計(jì)算效率提升30倍之多。而如果僅僅是優(yōu)化FP32計(jì)算單元的效率,無論如何也難以實(shí)現(xiàn)數(shù)量級(jí)的效率提升。

fde21e60-14d3-11ee-962d-dac502259ad0.png

(特定域計(jì)算支持工作負(fù)載優(yōu)化,從而提高性能和效率 圖源:ISSCC2023大會(huì))

這便是系統(tǒng)級(jí)創(chuàng)新成為關(guān)鍵路徑的原因所在:如果電路設(shè)計(jì)僅僅停留在電路這一層——只是考慮如何進(jìn)一步優(yōu)化FP32計(jì)算單元的效率,無論如何也難以實(shí)現(xiàn)數(shù)量級(jí)的效率提升。

對(duì)此,在未來發(fā)展機(jī)會(huì)模塊的演講中,Lisa Su給出了未來系統(tǒng)級(jí)封裝架構(gòu)的大致模樣:包含異構(gòu)計(jì)算叢集,特定加速單元,先進(jìn)封裝技術(shù),高速片間UCIe互聯(lián),存算一體等內(nèi)存技術(shù)。

fe0d3316-14d3-11ee-962d-dac502259ad0.png

(未來的系統(tǒng)級(jí)封裝架構(gòu) 圖源:ISSCC2023大會(huì))

百舸爭流,創(chuàng)新者先

技術(shù)路徑、方案已然明確,接下來就是拼魄力的階段。

每一個(gè)新興技術(shù)的研發(fā)廠商,在前期無疑要面臨技術(shù)探索碰壁,下游廠商不認(rèn)同等各個(gè)層面的問題。而在早期,誰先預(yù)判到未來的發(fā)展趨勢,并用于邁出探索的腳步,鋪下合理的資源去嘗試,就會(huì)搶到先機(jī)。

芯片巨頭NVIDIA在這方面做出了很好的榜樣。

當(dāng)數(shù)據(jù)中心浪潮還未鋪天蓋地襲來、人工智能訓(xùn)練還是小眾領(lǐng)域之時(shí),英偉達(dá)已經(jīng)投入重金,研發(fā)通用計(jì)算GPU和統(tǒng)一編程軟件CUDA,為英偉達(dá)謀一個(gè)好差事——計(jì)算平臺(tái)。

而在當(dāng)時(shí),讓GPU可編程,是“無用且虧本”的:不知道其性能是否能夠翻倍,但產(chǎn)品研發(fā)會(huì)翻倍。為此,沒有客戶愿意為此買單。但預(yù)判到單一功能圖形處理器不是長遠(yuǎn)之計(jì)的英偉達(dá)毅然決定,在所有產(chǎn)品線上都應(yīng)用CUDA。

在芯東西與英偉達(dá)中國區(qū)工程和解決方案高級(jí)總監(jiān)賴俊杰博士的采訪中,賴俊杰表示:“為了計(jì)算平臺(tái)這一愿景,早期黃仁勛快速調(diào)動(dòng)了英偉達(dá)上上下下非常多的資源?!?/p>

遠(yuǎn)見+重金投入,在2012年,英偉達(dá)拿到了創(chuàng)新者的獎(jiǎng)勵(lì):2012年,深度學(xué)習(xí)算法的計(jì)算表現(xiàn)轟動(dòng)學(xué)術(shù)圈,作為高算力且更為通用、易用的生產(chǎn)力工具,GPU+CUDA迅速風(fēng)靡計(jì)算機(jī)科學(xué)界,成為人工智能開發(fā)的“標(biāo)配”。

現(xiàn)如今,存算一體已顯現(xiàn)出強(qiáng)大的性能,在人工智能神經(jīng)網(wǎng)絡(luò)、多模態(tài)的人工智能計(jì)算、類腦計(jì)算等大算力場景,有著卓越的表現(xiàn)。

國內(nèi)廠商也在2019年前后紛紛布局存算一體,同時(shí)選擇3D封裝、chiplet等新興技術(shù),RRAM、SRAM等新興存儲(chǔ)器,突破算力天花板。

AI大算力芯片的戰(zhàn)爭,創(chuàng)新者為先。

結(jié)語:

ChatGPT火爆來襲,引發(fā)AI產(chǎn)業(yè)巨浪,國產(chǎn)AI芯片正迎來3.0時(shí)代;在3.0時(shí)代,更適配大模型的芯片架構(gòu)——存算一體將嶄露頭角,同時(shí)系統(tǒng)級(jí)創(chuàng)新將成為未來的發(fā)展趨勢,搶先下注的廠商將先吃到ChatGPT帶來的紅利。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4740

    瀏覽量

    128953
  • AI芯片
    +關(guān)注

    關(guān)注

    17

    文章

    1887

    瀏覽量

    35029
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2451

    瀏覽量

    2718

原文標(biāo)題:億分享 | 大模型背景下,AI芯片廠商面臨怎樣的機(jī)遇與挑戰(zhàn)?

文章出處:【微信號(hào):億鑄科技,微信公眾號(hào):億鑄科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    AMD MI300X AI芯片面臨挑戰(zhàn)

    近日,據(jù)芯片顧問機(jī)構(gòu)Semianalysis經(jīng)過5個(gè)月的深入調(diào)查后指出,AMD最新推出的“MI300X”AI芯片在軟件缺陷和性能表現(xiàn)上未能達(dá)到預(yù)期,因此在挑戰(zhàn)NVIDIA市場領(lǐng)導(dǎo)地位方
    的頭像 發(fā)表于 12-25 10:57 ?259次閱讀

    Cadence如何應(yīng)對(duì)AI芯片設(shè)計(jì)挑戰(zhàn)

    生成式 AI 引領(lǐng)智能革命成為產(chǎn)業(yè)升級(jí)的核心動(dòng)力并點(diǎn)燃了“百模大戰(zhàn)”。多樣化的大模型應(yīng)用激增對(duì)高性能AI 芯片的需求,促使行業(yè)在摩爾定律放緩的背景
    的頭像 發(fā)表于 12-14 15:27 ?677次閱讀

    產(chǎn)業(yè)"內(nèi)卷化"磁性元件面臨機(jī)遇挑戰(zhàn)

    面對(duì)產(chǎn)業(yè)內(nèi)卷的大環(huán)境,磁性元件行業(yè)究竟面臨怎樣機(jī)遇挑戰(zhàn)?企業(yè)又該如何在利潤空間不斷緊縮的夾縫中求生存、謀發(fā)展? 伴隨市場環(huán)境的日益復(fù)雜多變,以及消費(fèi)者需求的多元化與精細(xì)化,磁性元
    的頭像 發(fā)表于 12-05 11:09 ?145次閱讀
    產(chǎn)業(yè)&quot;內(nèi)卷化&quot;<b class='flag-5'>下</b>磁性元件<b class='flag-5'>面臨</b>的<b class='flag-5'>機(jī)遇</b>與<b class='flag-5'>挑戰(zhàn)</b>

    仇肖莘探討2024 AI芯片新趨勢與邊緣智能機(jī)遇

    峰會(huì)上,愛芯元智的創(chuàng)始人兼董事長仇肖莘博士受邀發(fā)表主題演講,深入剖析了人工智能時(shí)代背景下半導(dǎo)體產(chǎn)業(yè)的最新動(dòng)態(tài),以及在云邊端加速融合的情境,AI芯片
    的頭像 發(fā)表于 11-07 14:23 ?406次閱讀

    億鑄科技熊大鵬探討AI大算力芯片挑戰(zhàn)與解決策略

    在SEMiBAY2024《HBM與存儲(chǔ)器技術(shù)與應(yīng)用論壇》上,億鑄科技的創(chuàng)始人、董事長兼CEO熊大鵬博士發(fā)表了題為《超越極限:大算力芯片的技術(shù)挑戰(zhàn)與解決之道》的演講,深入剖析了AI模型
    的頭像 發(fā)表于 10-25 11:52 ?399次閱讀

    AI崛起背景,MEMS傳感器的出路在哪里

    從智能家居到自動(dòng)駕駛汽車,從智能醫(yī)療到工業(yè)4.0,AI技術(shù)正以前所未有的速度滲透到各行各業(yè)。而在這一波科技浪潮中,MEMS傳感器作為AI技術(shù)的重要底層硬件之一,正面臨著前所未有的機(jī)遇
    的頭像 發(fā)表于 10-22 08:09 ?574次閱讀

    AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第4章-AI與生命科學(xué)讀后感

    的深入發(fā)展。 3. 挑戰(zhàn)機(jī)遇并存 盡管AI在生命科學(xué)領(lǐng)域取得了顯著的成果,但也面臨著諸多挑戰(zhàn)。例如,數(shù)據(jù)隱私、算法偏見、倫理道德等問題都需
    發(fā)表于 10-14 09:21

    當(dāng)前主流的大模型對(duì)于底層推理芯片提出了哪些挑戰(zhàn)

    隨著大模型時(shí)代的到來,AI算力逐漸變成重要的戰(zhàn)略資源,對(duì)現(xiàn)有AI芯片也提出了前所未有的挑戰(zhàn):大算力的需求、高吞吐量與低延時(shí)、高效內(nèi)存管理、能
    的頭像 發(fā)表于 09-24 16:57 ?656次閱讀

    模型發(fā)展,國產(chǎn)GPU的機(jī)會(huì)和挑戰(zhàn)

    電子發(fā)燒友網(wǎng)站提供《大模型發(fā)展,國產(chǎn)GPU的機(jī)會(huì)和挑戰(zhàn).pdf》資料免費(fèi)下載
    發(fā)表于 07-18 15:44 ?10次下載
    大<b class='flag-5'>模型</b>發(fā)展<b class='flag-5'>下</b>,國產(chǎn)GPU的機(jī)會(huì)和<b class='flag-5'>挑戰(zhàn)</b>

    探討數(shù)字化背景PMC的挑戰(zhàn)機(jī)遇

    在數(shù)字化浪潮的席卷,各行各業(yè)都面臨著前所未有的變革。對(duì)于負(fù)責(zé)產(chǎn)品物料控制(PMC)的企業(yè)來說,這一變革既是挑戰(zhàn)也是機(jī)遇。如何在數(shù)字化背景
    的頭像 發(fā)表于 07-05 11:03 ?465次閱讀

    后摩智能引領(lǐng)AI芯片革命,推出邊端大模型AI芯片M30

    在人工智能(AI)技術(shù)飛速發(fā)展的今天,AI模型的部署需求正迅速從云端向端側(cè)和邊緣側(cè)設(shè)備遷移。這一轉(zhuǎn)變對(duì)AI芯片的性能、功耗和響應(yīng)速度提出了
    的頭像 發(fā)表于 06-28 15:13 ?686次閱讀

    探討數(shù)字化背景VSM(價(jià)值流程圖)的挑戰(zhàn)機(jī)遇

    在信息化、數(shù)字化飛速發(fā)展的今天,各行各業(yè)都面臨著前所未有的挑戰(zhàn)機(jī)遇。作為源自豐田生產(chǎn)模式的VSM(價(jià)值流程圖),這一曾經(jīng)引領(lǐng)制造業(yè)革命的工具,在數(shù)字化背景
    的頭像 發(fā)表于 06-25 09:24 ?362次閱讀

    蘋果AI服務(wù)在華面臨挑戰(zhàn),尋求本土合作新機(jī)遇

    在科技飛速發(fā)展的今天,人工智能(AI)已成為各大科技巨頭爭相布局的新戰(zhàn)場。然而,在全球第二大iPhone市場——中國,蘋果公司卻面臨著前所未有的挑戰(zhàn)。
    的頭像 發(fā)表于 06-22 16:51 ?954次閱讀

    2024年國內(nèi)USB Type-C廠商機(jī)遇挑戰(zhàn)分析

    USB Type-C接口作為一種全新的連接標(biāo)準(zhǔn),已經(jīng)在各種電子設(shè)備中得到了廣泛的應(yīng)用。2024年,國內(nèi)USB Type-C廠商面臨著諸多機(jī)遇挑戰(zhàn),需要全面分析和應(yīng)對(duì),以確保在競爭激
    的頭像 發(fā)表于 04-25 19:05 ?350次閱讀

    AI模型怎么解決芯片過剩?

    AI模型
    電子發(fā)燒友網(wǎng)官方
    發(fā)布于 :2024年01月02日 15:42:05