OpenAI o1、QwQ-32B-Preview、DeepSeek R1-Lite-Preview的相繼發(fā)布,預(yù)示著生成式AI研究正從預(yù)訓(xùn)練轉(zhuǎn)向推理(Inference),以提升AI邏輯推理(reasoning)能力,這一轉(zhuǎn)變將極大推動(dòng)上層應(yīng)用的發(fā)展。
紅杉資本近期指出,在可預(yù)見的未來,邏輯推理和推理時(shí)計(jì)算將是一個(gè)重要主題,并開啟生成式AI的下一階段。新一輪競(jìng)賽已然開始。
那么,在推理這一新興市場(chǎng),哪些企業(yè)占據(jù)了生態(tài)位?他們?nèi)绾螡M足應(yīng)用層的需求?市場(chǎng)格局又將如何變化?風(fēng)險(xiǎn)投資專家Eric Flaningam在本文中作了深刻分析和可能性預(yù)測(cè)。其中,有一點(diǎn)是明確的:推理市場(chǎng)的發(fā)展取決于AI應(yīng)用程序的規(guī)模和形態(tài)。因此,對(duì)于專注提供推理服務(wù)的企業(yè)而言,對(duì)應(yīng)用層變化的感知與需求抽象變得尤為重要。
隨著 OpenAI o1 發(fā)布,推理(inference)終于進(jìn)入了我們過去一年來一直期待的聚光燈下。英偉達(dá)CEO黃仁勛曾說:“推理的規(guī)模將會(huì)比今天大十億倍?!保槺阏f一句:從查詢數(shù)量的角度來看,這可能是真的,但如果推理確實(shí)占到了英偉達(dá)收入的40%,這個(gè)說法在收入上是不可能實(shí)現(xiàn)的。)
借助 o1,推理首次構(gòu)成了模型總計(jì)算中有意義的一部分。
來源:
https://www.fabricatedknowledge.com/p/chatgpt-o1-strawberry-and-memory
它指出了一個(gè)新的潛在規(guī)模定律,即模型“思考”的時(shí)間越長(zhǎng),其準(zhǔn)確性就越高。Stratechery(https://stratechery.com/2024/enterprise-philosophy-and-the-first-wave-of-ai/)
對(duì)這一性能的提升描述得很好:
o1 被明確訓(xùn)練為如何解決問題,其次,o1 被設(shè)計(jì)成在推理時(shí)生成多個(gè)問題解決流,選出最佳方案,并在意識(shí)到出錯(cuò)時(shí)迭代每個(gè)步驟。這就是為什么它能解開填字游戲——只是花了很長(zhǎng)時(shí)間。
上個(gè)月,Anthropic 宣布了“計(jì)算機(jī)使用(Computer Use)”功能,使模型能夠像人類一樣與計(jì)算機(jī)互動(dòng)。這表明,人工智能應(yīng)用將變得越來越復(fù)雜,進(jìn)而導(dǎo)致推理量的增加。
兩個(gè)因素使這個(gè)市場(chǎng)特別有趣:計(jì)算成本的降低和該領(lǐng)域的激烈競(jìng)爭(zhēng)。
來源:
https://cloudedjudgement.substack.com/p/clouded-judgement-92724-the-foundation
隨著推理成本的降低,市場(chǎng)規(guī)模的迅速擴(kuò)大,以及該領(lǐng)域的競(jìng)爭(zhēng)加劇,這個(gè)市場(chǎng)為人工智能提供了一個(gè)非常有趣的案例研究。
本文將深入探討當(dāng)前的形勢(shì),決定市場(chǎng)走向的變量,以及基于這些變量?jī)r(jià)值如何在生態(tài)系統(tǒng)中流動(dòng)。
明確地說,推理是一個(gè)新興市場(chǎng),這個(gè)領(lǐng)域非常擁擠且變化迅速。我們目前擁有的最佳推理性能指標(biāo)是第三方基準(zhǔn)測(cè)試(如果你有更準(zhǔn)確的數(shù)據(jù),歡迎隨時(shí)聯(lián)系我們)。
1推理的背景
首先,推理提供了一個(gè)比訓(xùn)練更加開放的競(jìng)爭(zhēng)市場(chǎng)。在訓(xùn)練過程中,通過大量數(shù)據(jù)集的迭代來創(chuàng)建一個(gè)表示復(fù)雜場(chǎng)景的模型,而推理則是將新數(shù)據(jù)輸入該模型以進(jìn)行預(yù)測(cè)的過程。
來源:
https://www.linkedin.com/pulse/difference-between-deep-learning-training-inference-mark-robins-mdq8c
一些關(guān)鍵差異在推理中尤為重要:
延遲與位置至關(guān)重要:由于推理會(huì)為終端用戶運(yùn)行工作負(fù)載,響應(yīng)速度至關(guān)重要,這意味著在邊緣或邊緣云環(huán)境中進(jìn)行推理可能比訓(xùn)練更有意義。相比之下,訓(xùn)練可以在任何地方進(jìn)行。
可靠性的重要程度(稍微)降低:訓(xùn)練前沿模型可能需要數(shù)月時(shí)間,并且需要大規(guī)模的訓(xùn)練集群。訓(xùn)練集群的相互依賴性意味著集群中一個(gè)部分的錯(cuò)誤可能會(huì)減緩整個(gè)訓(xùn)練過程。而在推理過程中,工作負(fù)載要小得多,且相互依賴性較低;如果發(fā)生錯(cuò)誤,只有單個(gè)請(qǐng)求受到影響,并且可以快速重新運(yùn)行。
硬件可擴(kuò)展性的重要程度降低:Nvidia 的一個(gè)關(guān)鍵優(yōu)勢(shì)在于其通過軟件和網(wǎng)絡(luò)優(yōu)勢(shì)擴(kuò)展更大系統(tǒng)的能力。在推理方面,這種可擴(kuò)展性的重要程度較低。
這些原因共同解釋了為什么許多新的半導(dǎo)體公司專注于推理,因?yàn)檫M(jìn)入門檻相對(duì)較低。
需要指出的是,雖然“推理”是一個(gè)廣泛描述模型實(shí)際使用情況的術(shù)語,但它涵蓋了各種類型的機(jī)器學(xué)習(xí)模型。我的同事在這里寫到了近年來 ML 部署方式的變化。這里展示了不同工作負(fù)載的性能差異:
2當(dāng)前的推理市場(chǎng)概覽
企業(yè)運(yùn)行推理有很多選擇。從最易于管理且定制化程度最低到最難管理但定制化程度最高的選項(xiàng),企業(yè)有以下幾種選擇進(jìn)行推理:
基礎(chǔ)模型 API:來自 OpenAI 等模型提供商的 API。最簡(jiǎn)單且靈活性最低的選項(xiàng)。
推理服務(wù)提供商:專門的推理服務(wù)提供者,如 Fireworks AI 和 DeepInfra,旨在優(yōu)化跨各種云和硬件提供商的成本,是運(yùn)行和定制開源模型的良好選擇。
AI 云:來自 Coreweave 和 Crusoe 等公司的 GPU 或推理即服務(wù),企業(yè)可以租用算力并根據(jù)需要進(jìn)行定制。
超大規(guī)模云廠商:超大規(guī)模云廠商提供計(jì)算能力、推理服務(wù)和平臺(tái),企業(yè)可以在這些平臺(tái)上開發(fā)專用模型。
AI 硬件提供商:企業(yè)用自己的 GPU 并根據(jù)特定需求進(jìn)行優(yōu)化。
附加信息1:從 API 到 AI 硬件——像 Groq、Cerebras 和 SambaNova 這樣的公司已經(jīng)開始提供推理云服務(wù),使客戶能夠以推理 API 的形式利用其硬件。Nvidia 收購了推理服務(wù)提供商 OctoAI,據(jù)推測(cè)是為了創(chuàng)建自己的推理服務(wù)。
附加信息2:邊緣推理——Apple、Qualcomm 和 Intel 希望提供硬件和軟件,使推理能夠直接在設(shè)備上進(jìn)行。
鑒于基礎(chǔ)模型 API 很簡(jiǎn)單(企業(yè)從基礎(chǔ)模型提供商調(diào)用 API 并按需付費(fèi))。我將從推理提供者開始介紹。
3推理提供商
數(shù)家公司在提供推理服務(wù)方面嶄露頭角,他們抽象化了管理硬件的需求。這些公司中最著名的是像 Fireworks AI、Together、Replicate 和 DeepInfra 這樣的推理初創(chuàng)公司。Kevin Zhang 在這里很好地描述了這些公司:
像 Replicate、Fireworks AI 和 DeepInfra 這樣的 API-only 初創(chuàng)公司已經(jīng)完全抽象化了所有復(fù)雜性,使得模型可以通過 API 調(diào)用訪問。這類似于 OpenAI 等基礎(chǔ)模型提供商為開發(fā)者提供的使用體驗(yàn)。因此,這些平臺(tái)通常不允許用戶自定義選擇用于特定模型的 GPU 等。不過,Replicate 有 Cog 用于部署自定義模型等任務(wù)。
與此同時(shí),Modal 和 Baseten 提供了一種介于兩者之間的體驗(yàn),開發(fā)者有更多的“調(diào)節(jié)旋鈕”來控制他們的基礎(chǔ)設(shè)施,但仍然比構(gòu)建自定義基礎(chǔ)設(shè)施更容易。這種更細(xì)粒度的控制使 Modal 和 Baseten 能夠支持超出簡(jiǎn)單文本補(bǔ)全和圖像生成的使用場(chǎng)景。
這些提供商的最明確用例是為開源模型提供推理服務(wù),使企業(yè)能夠使用該模型構(gòu)建應(yīng)用程序。推理提供商使用各種技術(shù),盡可能地優(yōu)化成本。
在選擇推理提供商時(shí),最終考慮因素主要是成本/性能的計(jì)算,包括推理成本、延遲(首次輸出時(shí)間和各輸出之間的時(shí)間)和吞吐量(處理需求的能力)。我們對(duì)價(jià)格有一些了解:
現(xiàn)在,過去幾個(gè)月的一個(gè)有趣變化是硬件供應(yīng)商開始進(jìn)軍推理領(lǐng)域。Nvidia 收購了推理提供商 OctoAI,可能是為了提供類似的服務(wù)。我們可以看到有三家硬件供應(yīng)商提供了市場(chǎng)上最快的推理服務(wù):
一如既往,應(yīng)對(duì)基準(zhǔn)測(cè)試結(jié)果持保留態(tài)度。根據(jù)Irrational Analysis(https://irrationalanalysis.substack.com/p/cerebras-cbrso-equity-research-report),Cerebras 不提供 Llama 405B,可能是因?yàn)槠涑杀静缓侠?。特定的設(shè)置可以實(shí)現(xiàn)這些結(jié)果,但它們可能與其他模型不兼容,或在生產(chǎn)使用場(chǎng)景中不實(shí)用。
大多數(shù)公司的投資回報(bào)率(ROI)計(jì)算將是總擁有成本/性能的比值,而這是在行業(yè)生命周期的這個(gè)階段很難獲得的數(shù)據(jù)。
我會(huì)指出,像 Coreweave、Crusoe 和 Lambda 這樣的 AI 云都提供推理服務(wù)。超大規(guī)模云廠商也是如此!Kevin Zhang 還推測(cè),數(shù)據(jù)平臺(tái)和應(yīng)用程序基礎(chǔ)設(shè)施提供商也可能擴(kuò)展到推理領(lǐng)域:
來源:
https://eastwind.substack.com/p/a-deep-dive-on-ai-inference-startups
在這種競(jìng)爭(zhēng)環(huán)境下,公司要么需要提供有意義的架構(gòu)差異、基于推理解決方案的開發(fā)工具或通過垂直整合實(shí)現(xiàn)成本優(yōu)勢(shì),以創(chuàng)造有意義的差異化。
4硬件提供商
上述推理提供者抽象了管理底層硬件的復(fù)雜性。對(duì)于許多大型 AI 公司來說,管理自己的硬件是有意義的。這包括基礎(chǔ)設(shè)施設(shè)置(安裝、數(shù)據(jù)中心建設(shè)或機(jī)房托管設(shè)置)、模型優(yōu)化、性能監(jiān)控和持續(xù)的硬件維護(hù)。
我們可以在價(jià)值鏈的芯片部分看到硬件供應(yīng)商:
如果英偉達(dá) 40%的數(shù)據(jù)中心收入確實(shí)來自推理,那么英偉達(dá)今天在這個(gè)市場(chǎng)上占據(jù)主導(dǎo)地位。正如黃仁勛指出的,已經(jīng)擁有領(lǐng)先訓(xùn)練硬件的企業(yè)可能會(huì)在升級(jí)設(shè)備時(shí)將其轉(zhuǎn)換為推理硬件。
AMD 正在開拓這一市場(chǎng),預(yù)計(jì)其 AI 加速器將帶來 50 億美元的年收入。他們最近的財(cái)報(bào)電話會(huì)議上的大部分定性評(píng)論都指向了推理工作負(fù)載。
RunPod 對(duì) H100 和 MI300X 在推理方面作了有趣比較,指出 MI300X 由于有更大的 VRAM,在高批處理大小時(shí)具有更好的吞吐量。
https://blog.runpod.io/amd-mi30x-vs-nvidia-h100-sxm-performance-comparison-on-mixtral-8x7b-inference/
MI300X 在非常小和非常大的批處理中更具成本優(yōu)勢(shì)。正如博客所指出的,純粹的性能只是評(píng)估的一部分。Nvidia 在網(wǎng)絡(luò)和軟件方面的領(lǐng)先地位使其在需要系統(tǒng)級(jí)設(shè)計(jì)的實(shí)際場(chǎng)景中具有額外的優(yōu)勢(shì)。
有幾家硬件初創(chuàng)公司也籌集了大量資金以搶占這個(gè)市場(chǎng):
https://www.chipstrat.com/p/etched-silicon-valleys-speedrun
再次需要指出,買家的計(jì)算公式將是 TCO/性能。價(jià)值將流向硬件層面,問題在于在硬件之上的各層創(chuàng)造了多少價(jià)值。
市場(chǎng)上還有一個(gè)不確定的變量,但它可以決定推理中價(jià)值積累的很大一部分。
5邊緣推理呢?
Chipstrat的Austin(https://www.chipstrat.com/)在這方面做了出色的工作。正如奧斯汀所描述的,邊緣推理對(duì)所有相關(guān)方都是有利的:
企業(yè)將會(huì)越來越有動(dòng)力將這些工作負(fù)載盡可能地轉(zhuǎn)移到消費(fèi)者的設(shè)備上——消費(fèi)者提供了硬件和電力資源,使企業(yè)能夠生成智能。
這是雙贏的局面:企業(yè)減少了資本支出和運(yùn)營(yíng)支出,而消費(fèi)者則享受到了本地推理的好處。需要注意的是,采用本地推理需要:
激勵(lì)消費(fèi)者(獎(jiǎng)勵(lì)本地推理的商業(yè)模式、安全優(yōu)勢(shì)等)。
可以在邊緣設(shè)備上運(yùn)行的有用的小模型。
前者似乎很簡(jiǎn)單。像 o1-mini 這樣的模型使后一種方法越來越現(xiàn)實(shí)。我不需要 Siri 成為整個(gè)網(wǎng)絡(luò)的壓縮版本——只需要一個(gè)能夠處理簡(jiǎn)單任務(wù)的推理工具。所需要的更像是一個(gè)訓(xùn)練有素的五年級(jí)學(xué)生,而不是一個(gè)博士通才。
問題回歸到開發(fā)硬件和軟件以滿足用戶需求。我相信我們可以隨著時(shí)間解決這些問題。
https://www.generativevalue.com/p/the-ai-semiconductor-landscape
企業(yè)已經(jīng)在開發(fā)硬件,如蘋果的神經(jīng)網(wǎng)絡(luò)引擎、AMD 的 NPU、英特爾的 NPU、高通的 NPU、谷歌的 Tensor 以及初創(chuàng)公司 Hailo。隨著小型模型的改進(jìn),它將越來越多地實(shí)現(xiàn)在邊緣進(jìn)行推理。
我對(duì)邊緣推理的看法:
如果我們回顧歷史上的顛覆性科技變革事件,它發(fā)生在新產(chǎn)品以遠(yuǎn)低于現(xiàn)有產(chǎn)品價(jià)格提供較少功能時(shí),而現(xiàn)有產(chǎn)品無法與之競(jìng)爭(zhēng)。大型機(jī)讓位給小型機(jī),小型機(jī)讓位給個(gè)人電腦,個(gè)人電腦又讓位給智能手機(jī)。
開啟這些顛覆性變化的關(guān)鍵變量是性能過剩。高端解決方案解決了對(duì)大多數(shù)人而言非必需的問題。許多計(jì)算領(lǐng)域的顛覆性變化來自于計(jì)算的去中心化,因?yàn)橄M(fèi)者并不需要額外的性能。
有了AI,我還沒看到性能過剩。ChatGPT 很好,但還不算出色。一旦它變得出色,那么 AI 在邊緣計(jì)算的大門就會(huì)打開。小型語言模型和神經(jīng)處理單元將引領(lǐng)這個(gè)時(shí)代。問題在于 AI 何時(shí)會(huì)在邊緣計(jì)算中實(shí)現(xiàn),而不是是否會(huì)實(shí)現(xiàn)。
這個(gè)市場(chǎng)再次回歸到應(yīng)用,邊緣推理對(duì)于消費(fèi)者應(yīng)用來說更有意義。
6推理市場(chǎng)的未來
推理工作負(fù)載最終將遵循 AI 應(yīng)用程序的規(guī)模和形態(tài)。
人工智能用的規(guī)模和強(qiáng)度將是決定推理市場(chǎng)大小的關(guān)鍵因素(即有多少應(yīng)用程序在使用以及它們的復(fù)雜程度)。這些應(yīng)用程序的形態(tài)(即誰在構(gòu)建它們)將有助于確定推理市場(chǎng)的形態(tài)。
如果 AI 應(yīng)用市場(chǎng)最終集中在 OpenAI、Microsoft 和 Google 等少數(shù)幾家公司手中,那么推理價(jià)值將流向這些垂直整合公司的底層硬件。
如果 AI 應(yīng)用市場(chǎng)最終變得碎片化,許多公司擁有較小的市場(chǎng)份額,那么推理市場(chǎng)將更加開放。這些較小的、非垂直整合的公司,將為推理提供商的管理服務(wù)付費(fèi)。有些公司可能希望獲得比簡(jiǎn)單 API 所能提供的更多的個(gè)性化或定制化選項(xiàng)。
如果這些應(yīng)用程序能夠使用足夠簡(jiǎn)單的模型在邊緣運(yùn)行,那么這將為邊緣的推理硬件打開大門。
最后,所有這些變量都是連續(xù)的,而不是二元的。一些推理將在邊緣運(yùn)行,一些應(yīng)用程序?qū)⒊蔀楦叨葟?fù)雜的邏輯推理機(jī)器,一些應(yīng)用程序?qū)⒂纱笮湍P吞峁┥虛碛?,而另一部分將由初?chuàng)公司贏得。
-
AI
+關(guān)注
關(guān)注
87文章
31364瀏覽量
269767 -
人工智能
+關(guān)注
關(guān)注
1793文章
47567瀏覽量
239426
原文標(biāo)題:生成式AI推理技術(shù)、市場(chǎng)與未來
文章出處:【微信號(hào):AI智勝未來,微信公眾號(hào):AI智勝未來】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論