欧洲亚洲日韩在线香蕉网,中国丰满熟妇xxxx性,最好看的一本大道中文日本香蕉

憑借其獨(dú)特的at-memory計(jì)算架構(gòu)，Untether AI希望引領(lǐng)通用AI推理加速器市場(chǎng)。這家初創(chuàng)公司能否取代主導(dǎo)AI訓(xùn)練領(lǐng)域、并將觸角伸向AI推理領(lǐng)域的領(lǐng)先CPU和GPU供應(yīng)商？這些令人印象深刻的展示足以讓這家公司成功嗎？ Untether AI是一家總部位于多倫多的AI芯片初創(chuàng)公司，上周在Hot Chips 2022上發(fā)布了其最新的通用AI推理加速器，名為speedAI，基于該公司的“at-memory”計(jì)算架構(gòu)。

SpeedAI旨在解決AI計(jì)算工作量的爆炸性增長(zhǎng)，以及在廣泛的AI推理應(yīng)用中對(duì)更高精度、更低延遲、更靈活和更優(yōu)能效日益增長(zhǎng)的需求。

Untether AI專注于推理應(yīng)用，正試圖模仿Nvidia在AI訓(xùn)練方面的成功。

AI處理分為兩個(gè)階段。在訓(xùn)練階段，開發(fā)人員向他們的模型提供一個(gè)經(jīng)過策劃的數(shù)據(jù)集，這樣它就可以“學(xué)習(xí)”它將分析的數(shù)據(jù)類型所需的一切。然后，在推理階段，模型可以根據(jù)實(shí)時(shí)數(shù)據(jù)進(jìn)行預(yù)測(cè)，產(chǎn)生可操作的結(jié)果。后者正是Untether AI所追求的細(xì)分市場(chǎng)。

Untether AI的目標(biāo)是否過于雄心勃勃？也許。但基于其芯片前所未有的30 TFLOPS/W和2 PFLOPS的性能，Untether AI相信它有機(jī)會(huì)。該公司聲稱其最新的推理加速器“為能效和計(jì)算密度設(shè)定了新的標(biāo)準(zhǔn)”。

Yole Intelligence計(jì)算和軟件技術(shù)和市場(chǎng)分析師Adrien Sanchez稱speedAI的30FLOPS/W“令人印象深刻”。他補(bǔ)充說，這擊敗了Nvidia的A100，并與Nvidia的Hopper設(shè)備相媲美。Sanchez說：“誠(chéng)然，將為訓(xùn)練量身定制的硬件與以推理為重點(diǎn)的硬件進(jìn)行比較是完全不同的，但這仍然令人印象深刻?！盇I推理市場(chǎng)涵蓋了從自動(dòng)駕駛汽車到智能城市/零售、自然語言處理和科學(xué)應(yīng)用等方方面面。

處在十字路口的AI推理

在當(dāng)今的通用AI處理器市場(chǎng)，Nvidia無疑是訓(xùn)練領(lǐng)域的王者。盡管Nvidia的高功耗解決方案不太適合AI推理應(yīng)用，但在現(xiàn)實(shí)中，許多Nvidia客戶最終也會(huì)使用Nvidia基于GPU的解決方案來滿足他們的推理需求。

然而，AI推理市場(chǎng)正處于十字路口。許多用戶很難在AI推理引擎中找到能效和靈活性之間的折中方案。

一方面，有廣泛使用的基于CPU和GPU的解決方案。另一方面，許多推理處理器通常專門作為視覺處理器。Untether AI公司產(chǎn)品副總裁Bob Beachler表示，Mobileye和Ambarella等公司“可以在它們的SoC上實(shí)現(xiàn)一些AI功能，其中一些已經(jīng)成功實(shí)現(xiàn)了量產(chǎn)?！?

在目前碎片化的AI推理市場(chǎng)中，缺少一種能夠處理各種應(yīng)用中AI工作負(fù)載的推理引擎。

TechInsights的首席分析Linley Gwennap認(rèn)為，“考慮到神經(jīng)網(wǎng)絡(luò)的多樣性和變化”，即使是用于推理，最佳解決方案仍是通用AI處理器。另一種選擇是“一種更具體的處理器，例如，只在卷積網(wǎng)絡(luò)上工作”。

Gwennap說：“GPU更加通用，這就是為什么它如此普遍的原因。”Untether AI（在speedAI）增加了更多的靈活性，以滿足AI推理應(yīng)用的這些更廣泛的需求。

可擴(kuò)展的產(chǎn)品系列

Beachler表示，Untether AI將把speedAI變成一個(gè)可擴(kuò)展的系列。上周發(fā)布的SpeedAI 240被是最大的設(shè)備，而一些列的縮小版（在不同的功率節(jié)點(diǎn)上有更少的memory bank）正在開發(fā)中。這些加速器的功率范圍從10W到5W甚至是亞瓦，Beachler說，因此“我們的芯片可以成為任何嵌入式SoC的協(xié)處理器，這取決于你可能需要多少AI計(jì)算?！?

SpeedAI 240計(jì)劃在2023年初出樣。按比例縮小的推理加速器計(jì)劃在明年晚些時(shí)候推出。

At-memory計(jì)算

Untether AI之所以出名，是因?yàn)樗约喊l(fā)明了一種“at-memory”計(jì)算架構(gòu)。

這家初創(chuàng)公司設(shè)計(jì)了at-memory計(jì)算，將其AI推理加速器從CPU和GPU馮·諾伊曼架構(gòu)固有的低能效中解放出來。這是因?yàn)樵隈T·諾伊曼架構(gòu)下，數(shù)據(jù)從DRAM傳輸?shù)奖镜鼐彺?，然后進(jìn)入處理元素的距離要遠(yuǎn)得多。

Untether AI的at-memory方案在數(shù)據(jù)駐留的地方處理，專用SRAM使用短而寬的總線。這種memory bank架構(gòu)允許AI計(jì)算所需的效率和帶寬，同時(shí)支持計(jì)算的大規(guī)模并行直接連接。

Untether AI使用At-Memory Computation進(jìn)行AI加速。

這并不是UntetherAI的at-memory計(jì)算架構(gòu)的第一次展示。該公司首先通過其最初的AI推理加速器runAI展示了其方法的優(yōu)勢(shì)。runAI于2020年秋季宣布將于本季度投產(chǎn)。

對(duì)于新的speedAI架構(gòu)，Untether AI在能效、準(zhǔn)確性和吞吐量方面增加了許多改進(jìn)。它們包括第二代at-memory計(jì)算架構(gòu)，超過1400個(gè)經(jīng)過優(yōu)化的RISC-V處理器與定制指令，并采用浮點(diǎn)數(shù)據(jù)類型FP8，用于增強(qiáng)推理加速。這些指標(biāo)標(biāo)志著runAI的原始性能（Integer數(shù)據(jù)類型為8個(gè)TOPS/W）提高到30TFLOPS/W（浮點(diǎn)計(jì)算）。

near-memory/馮·諾伊曼架構(gòu)帶來的吞吐量和能效不足等局限性是眾所周知的。像Mythics這樣的芯片設(shè)計(jì)公司一直在推廣所謂的“in-memory計(jì)算”。

然而，at-memory計(jì)算是不同的。Beachler：“人們?cè)噲D用內(nèi)存單元來做乘積。”他解釋說，問題是“你試圖使用模擬技術(shù)，這導(dǎo)致了模擬效應(yīng)，意味著你需要在它周圍安裝很多補(bǔ)償電路?！彼a(bǔ)充說，額外的電路并不能使in-memory計(jì)算設(shè)備更高效。

相比之下，在Untether AI，“我們將處理元素直接附加到標(biāo)準(zhǔn)SRAM單元上?！盨peedAI是數(shù)字化的，采用了TSMC 7nm CMOS技術(shù)。Beachler補(bǔ)充道：“我們圍繞SRAM做所有的事情，最大限度地降低功耗。我們不做緩存，每個(gè)算術(shù)邏輯單元都有自己的內(nèi)存?！?/p>

RISC-V處理器

Untether AI第二代at-memory計(jì)算架構(gòu)的獨(dú)特之處在于使用了RISC-V處理器。

兩年半前，當(dāng)Beachler加入U(xiǎn)ntether AI時(shí)，他曾問團(tuán)隊(duì)：“我知道你們?yōu)槭裁床皇褂?a target="_blank">Arm，但你們?yōu)槭裁床皇褂肦ISC-V處理器呢？”

對(duì)于runAI，Untether AI必須設(shè)計(jì)一個(gè)定制的RISC處理器。Beachler說，RISC-V的生態(tài)系統(tǒng)“還沒有完全形成”。

對(duì)于speedAI，團(tuán)隊(duì)“添加了一堆擴(kuò)展指令，我們稱之為自定義指令，超過20多個(gè)”。Beachler解釋道：“這是特定于我們正在進(jìn)行的計(jì)算類型的，包括神經(jīng)網(wǎng)絡(luò)計(jì)算，以及我們的at-memory計(jì)算架構(gòu)?！?/p>

Beachler指出，這種定制化是Untether AI即使在今天的Arm處理器上也無法做到的，因?yàn)锳rm不開放其指令集。相反，“RISC-V允許這種情況發(fā)生。我們能夠用我們自己的指令設(shè)計(jì)自己的定制處理器，但我們?nèi)匀皇褂肦ISC-V指令集架構(gòu)。”

MemoryBank

Untether AI的第二代memory bank將使用RISC-V處理器，用于靈活、高效的AI加速。

據(jù)Untether AI稱，speedAI架構(gòu)中的每個(gè)memory bank都有512個(gè)處理元素，直接連接到專用SRAM。這些處理元素支持INT4、FP8、INT8和BF16數(shù)據(jù)類型，以及用于節(jié)能的零檢測(cè)電路，并支持2:1結(jié)構(gòu)稀疏性。

SpeedAI加速器使用雙多線程RISC-V來提高memory bank的編程靈活性。

以8行64個(gè)處理元素排列，每一行有自己的專用行控制器和硬接線減少功能，以允許編程的靈活性和變壓器網(wǎng)絡(luò)功能的高效計(jì)算。

兩個(gè)RISC-V處理器（每個(gè)處理器都有20多條用于推理加速的定制指令）管理各行。該公司表示，這種靈活的memory bank可以適應(yīng)許多不同的神經(jīng)網(wǎng)絡(luò)架構(gòu)，包括卷積、transformer和推薦網(wǎng)絡(luò)以及線性代數(shù)模型。

精度問題

除了能效，UntetherAI團(tuán)隊(duì)還專注于提高其高速AI芯片的AI精度。Beachler說：“AI推理芯片的用戶發(fā)現(xiàn)，當(dāng)他們進(jìn)行量化步驟時(shí)，有時(shí)會(huì)出現(xiàn)不可接受的準(zhǔn)確性損失。對(duì)于某些應(yīng)用來說，這沒問題，但當(dāng)AI推理加速器用于推薦引擎和自動(dòng)駕駛汽車時(shí)就不行了?！?/p>

Beachler解釋說，在AI推薦引擎中，“如果你的準(zhǔn)確率僅下降0.1%，就可能會(huì)損失5000萬至1億美元的廣告收入，因?yàn)槟阆蛳M(fèi)者提供了錯(cuò)誤的廣告或推薦。準(zhǔn)確性很重要的另一個(gè)領(lǐng)域是自動(dòng)駕駛汽車，因?yàn)檐噺S在準(zhǔn)確性上不會(huì)妥協(xié)?！?/p>

今年早些時(shí)候，當(dāng)Nvidia宣布其Hopper架構(gòu)時(shí)，這家GPU巨頭談到了一種新的8位浮點(diǎn)（FP8）數(shù)據(jù)類型。與標(biāo)準(zhǔn)的FP16訓(xùn)練相比，F(xiàn)P8格式的吞吐量增加了一倍。

SpeedAI也在使用FP8。經(jīng)過自己的研究，該團(tuán)隊(duì)得出結(jié)論，兩種不同的FP8格式為AI推理提供了精度、范圍和效率的最佳組合。該公司解釋說，將4-尾數(shù)（FP8p用于精度）和3-尾數(shù)（FP8r用于范圍）相結(jié)合，為跨各種不同網(wǎng)絡(luò)的推理提供了最佳的精度和吞吐量?！?/p>

對(duì)于卷積網(wǎng)絡(luò)，Untether AI聲稱，使用FP8“與使用BF16數(shù)據(jù)類型相比，精度損失不到1%的十分之一，吞吐量和能效提高了四倍”。

不是“一刀切”

為什么市場(chǎng)需要一個(gè)通用的AI推理加速器？首先，因?yàn)锳I推理加速應(yīng)用的出現(xiàn)。

Beachler指出，除了中央計(jì)算系統(tǒng)必須處理越來越多感知數(shù)據(jù)的自動(dòng)駕駛汽車之外，智能城市還部署著廣泛的監(jiān)控市場(chǎng)?！八麄冃枰奂瘮?shù)百個(gè)攝像頭來生成實(shí)時(shí)可操作的情報(bào)?！边@同樣適用于軍事AI應(yīng)用，例如對(duì)抗無人機(jī)?！八麄?cè)噲D用不同的傳感器掃描天空，以對(duì)抗無人機(jī)。或者他們會(huì)尋找雷達(dá)信號(hào)，以了解空域內(nèi)的情況。”其他的AI推理應(yīng)用包括自然語言處理加速，Untether AI將其加入到speedAI中。

Yole Intelligence的Sanchez表示，通用AI推理的其他應(yīng)用包括實(shí)時(shí)分類的智能零售、金融領(lǐng)域的語音到文本、企業(yè)數(shù)據(jù)中心和高性能計(jì)算領(lǐng)域的氣候建模。

其次，神經(jīng)網(wǎng)絡(luò)以及客戶在執(zhí)行AI時(shí)使用它們的方式有無數(shù)種變化。Beachler說：“我們已經(jīng)分析了50多個(gè)不同的客戶神經(jīng)網(wǎng)絡(luò)。每個(gè)都是不同的。他們可能從基本的開始，但隨后他們會(huì)做出“適合他們數(shù)據(jù)集和訓(xùn)練”的偏差。

綜上所述，你需要的是具有擴(kuò)展性和靈活性的AI推理加速器架構(gòu)。

然而，目前許多AI應(yīng)用都依賴于現(xiàn)有的通用CPU和GPU。對(duì)于服務(wù)器中的AI應(yīng)用，Sanchez說：“我們看到大部分的推理都是由CPU完成的。這是因?yàn)閷?duì)推理任務(wù)的需求是零星的。對(duì)于客戶來說，使用幾個(gè)Xeon或Epyc內(nèi)核進(jìn)行快速推理比使用整個(gè)硬件池更方便?！?/p>

Untether AI面臨的一大挑戰(zhàn)是識(shí)別需要專用推理硬件的細(xì)分市場(chǎng)。Sanchez說：“超擴(kuò)展性和服務(wù)器分離可能會(huì)增加推理專用硬件應(yīng)對(duì)挑戰(zhàn)的機(jī)會(huì)?！?/p>

軟件陷阱

曾在Altera工作過的Beachler（就像Untether AI執(zhí)行團(tuán)隊(duì)的許多成員一樣）很清楚軟件和工具流的重要性。就像FPGA客戶遇到了軟件編譯問題或擬議硬件架構(gòu)的利用率很差一樣，一些AI芯片客戶也遇到了類似的問題，“你不能編程，或者它太難編程?！?/p>

Beachler說：“正如我們?cè)贏ltera學(xué)到的，我們確保我們的工具永遠(yuǎn)是行業(yè)中最好的，我們?cè)赨ntether AI也在努力做同樣的事，對(duì)軟件進(jìn)行過度投資?！?/p>

然而，Untether AI還沒有提交給MLPerf對(duì)其AI芯片進(jìn)行基準(zhǔn)測(cè)試。Beachler說，公司的工程團(tuán)隊(duì)被50個(gè)客戶拉去做50個(gè)不同的神經(jīng)網(wǎng)絡(luò)，這家初創(chuàng)公司的首要任務(wù)是“確保軟件能夠運(yùn)行所有這些不同的神經(jīng)網(wǎng)絡(luò)”。

他說，這些都是“任何AI初創(chuàng)公司都會(huì)遇到的成長(zhǎng)的痛苦”。但UntetherAI的首個(gè)AI加速器runAI已經(jīng)投入使用，并為客戶運(yùn)行網(wǎng)絡(luò)。

與大量現(xiàn)成的特定應(yīng)用AI推理引擎不同，Untether AI的AI推理加速器被設(shè)計(jì)為通用設(shè)備。然而，這家初創(chuàng)公司似乎被拉向了多個(gè)方向，以滿足客戶的不同需求。Untether AI成功的關(guān)鍵在于它的軟件和編程工具，讓客戶在使用Untether AI的加速器時(shí)能夠獨(dú)立地做出自己的偏差和修改。

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

處理器

處理器

+關(guān)注

關(guān)注
68

文章
19396

瀏覽量
230714
cpu

cpu

+關(guān)注

關(guān)注
68

文章
10899

瀏覽量
212614
加速器

加速器

+關(guān)注

關(guān)注
2

文章
806

瀏覽量
37999
gpu

gpu

+關(guān)注

關(guān)注
28

文章
4766

瀏覽量
129195

評(píng)論

相關(guān)推薦

生成式AI推理技術(shù)、市場(chǎng)與未來

OpenAI o1、QwQ-32B-Preview、DeepSeek R1-Lite-Preview的相繼發(fā)布，預(yù)示著生成式AI研究正從預(yù)訓(xùn)練轉(zhuǎn)向推理（Inference），以提升AI邏輯推理

發(fā)表于 01-20 11:16 ?273次閱讀

Untether發(fā)布人工智能(AI)芯片

初創(chuàng)企業(yè)Untether發(fā)布了一款專為汽車、農(nóng)業(yè)裝備及極端環(huán)境AI應(yīng)用設(shè)計(jì)的人工智能（AI）芯片。　　相較于英偉達(dá)和AMD的旗艦AI芯片，它們主要服務(wù)于需要數(shù)千乃至數(shù)萬個(gè)芯片協(xié)

發(fā)表于 10-29 13:59 ?367次閱讀

NVIDIA助力麗蟾科技打造AI訓(xùn)練與推理加速解決方案

麗蟾科技通過 Leaper 資源管理平臺(tái)集成 NVIDIA AI Enterprise，為企業(yè)和科研機(jī)構(gòu)提供了一套高效、靈活的 AI 訓(xùn)練與推理加速解決方案。無論是在復(fù)雜的

發(fā)表于 10-27 10:03 ?291次閱讀

SiFive發(fā)布MX系列高性能AI加速器IP

在AI技術(shù)日新月異的今天，RISC-V IP設(shè)計(jì)領(lǐng)域的領(lǐng)軍企業(yè)SiFive再次引領(lǐng)行業(yè)潮流，正式推出了其革命性的SiFive Intelligence XM系列高性能AI加速器IP。這

發(fā)表于 09-24 14:46 ?399次閱讀

AMD助力HyperAccel開發(fā)全新AI推理服務(wù)器

（ LLM ）的推理，此類模型通常具有數(shù)十億個(gè)參數(shù)，例如 OpenAI 的 ChatGPT 和 Meta 的 Llama 3 等 Llama LLM。其 AI 芯片名為時(shí)延處理單元（ LPU ），是專門用于 LLM 端到端推理的

發(fā)表于 09-18 09:37 ?398次閱讀

下一代高功能新一代AI加速器(DRP-AI3):10x在高級(jí)AI系統(tǒng)高級(jí)AI中更快的嵌入處理

電子發(fā)燒友網(wǎng)站提供《下一代高功能新一代AI加速器(DRP-AI3):10x在高級(jí)AI系統(tǒng)高級(jí)AI中更快的嵌入處理.pdf》資料免費(fèi)下載

發(fā)表于 08-15 11:06 ?0次下載

美國(guó)限制向中東AI加速器出口，審查國(guó)家安全

AI加速器能協(xié)助數(shù)據(jù)中心處理大量人工智能聊天機(jī)器人和其他工具的開發(fā)信息。如今，它們已然成為構(gòu)建AI基礎(chǔ)設(shè)施的企業(yè)和政府的必需品。

發(fā)表于 05-31 09:20 ?623次閱讀

臺(tái)積電：AI服務(wù)器處理器預(yù)計(jì)翻番，拉動(dòng)收入增長(zhǎng)?

臺(tái)積電將 AI 服務(wù)器處理器嚴(yán)格限定為用于 AI 訓(xùn)練與推理的 GPU、CPU 及 AI

發(fā)表于 04-19 15:04 ?390次閱讀

Arm發(fā)布新一代Ethos-U AI加速器 Arm旨在瞄準(zhǔn)國(guó)產(chǎn)CPU市場(chǎng)

Arm發(fā)布的新一代Ethos-U AI加速器確實(shí)在業(yè)界引起了廣泛關(guān)注。

發(fā)表于 04-18 15:59 ?791次閱讀

Arm推動(dòng)生成式AI落地邊緣！全新Ethos-U85 AI加速器支持Transformer 架構(gòu)，性能提升四倍

電子發(fā)燒友網(wǎng)報(bào)道（文/黃晶晶）在嵌入式領(lǐng)域，邊緣與端側(cè)AI推理需求不斷增長(zhǎng)，Arm既有Helium 技術(shù)使 CPU 能夠執(zhí)行更多計(jì)算密集型的 AI 推理算法，也有Ethos 系列

發(fā)表于 04-16 09:10 ?4689次閱讀

Marvell獲AI芯片訂單，2026財(cái)年將貢獻(xiàn)25億美元營(yíng)收

根據(jù)Marvell透露，已經(jīng)開始為客戶A和B批量生產(chǎn)AI訓(xùn)練及推理加速器，且預(yù)期最早于2025年和2026年實(shí)現(xiàn)對(duì)客戶A和C的AI加速器量產(chǎn)

發(fā)表于 04-15 15:38 ?625次閱讀

開發(fā)者手機(jī) AI - 目標(biāo)識(shí)別 demo

Network Runtime 神經(jīng)網(wǎng)絡(luò)運(yùn)行時(shí)，作為中間橋梁連通上層AI推理框架和底層加速芯片，實(shí)現(xiàn)AI模型的跨芯片推理計(jì)算。提供統(tǒng)一

發(fā)表于 04-11 16:14

使用NVIDIA Triton推理服務(wù)器來加速AI預(yù)測(cè)

這家云計(jì)算巨頭的計(jì)算機(jī)視覺和數(shù)據(jù)科學(xué)服務(wù)使用 NVIDIA Triton 推理服務(wù)器來加速 AI 預(yù)測(cè)。

發(fā)表于 02-29 14:04 ?612次閱讀

家居智能化，推動(dòng)AI加速器的發(fā)展

電子發(fā)燒友網(wǎng)報(bào)道（文/黃山明）AI加速芯片，也稱為人工智能加速器（AI Accelerator），是一種專為執(zhí)行機(jī)器學(xué)習(xí)和深度學(xué)習(xí)任務(wù)而設(shè)計(jì)的ASIC或定制化處理

發(fā)表于 02-23 00:18 ?4639次閱讀

【國(guó)產(chǎn)FPGA+OMAPL138開發(fā)板體驗(yàn)】（原創(chuàng)）5.FPGA的AI加速源代碼

使用硬件加速器來進(jìn)一步提升性能。我寫的這個(gè)簡(jiǎn)化的代碼只是為了幫助理解FPGA如何可能參與AI計(jì)算的過程。在實(shí)際的FPGA AI加速項(xiàng)目中，還需要考慮如何有效地處理數(shù)據(jù)流、優(yōu)化內(nèi)存訪問、

發(fā)表于 02-12 16:18