ChatGPT火熱的背后。
ChatGPT目前每天花費(fèi)約 700,000 美元來(lái)運(yùn)行硬件推理成本。如果ChatGPT的當(dāng)前實(shí)施和運(yùn)營(yíng)被投入到每一個(gè)谷歌搜索中,這將意味著成本結(jié)構(gòu)的巨大增加,達(dá)到360億美元。谷歌服務(wù)業(yè)務(wù)部門的年凈收入將從 2022 年的 555 億美元下降至 195 億美元。
當(dāng)然,這永遠(yuǎn)不會(huì)發(fā)生,但是如果我們假設(shè)沒(méi)有進(jìn)行任何軟件或硬件改進(jìn),那就是有趣的思想實(shí)驗(yàn)。
第一輪優(yōu)化很簡(jiǎn)單。Bing GPT 的 84 個(gè)不同真實(shí)示例的令牌輸出計(jì)數(shù)明顯較低,約為 350,而 ChatGPT 則為 2,000。在大多數(shù)情況下,人們希望在與搜索交互時(shí)避免閱讀大量信息。此估算考慮了未向用戶顯示的令牌。后續(xù)的優(yōu)化是前2000個(gè)關(guān)鍵詞占搜索量的12.2%,更多的也是純導(dǎo)航搜索。假設(shè) 20% 的搜索不需要 LLM。最后,與使用基于英偉達(dá)的 HGX A100 的 Microsoft/OpenAI 相比,谷歌使用內(nèi)部 TPUv4 pod 具有顯著的基礎(chǔ)設(shè)施優(yōu)勢(shì)。
這些簡(jiǎn)單的優(yōu)化使 Google 在搜索中實(shí)施 LLM 的額外成本僅為 30 億美元。如果一切從一開(kāi)始就完美設(shè)置,Google 僅在硬件上的資本支出成本就約為200億美元,包括數(shù)據(jù)中心基礎(chǔ)設(shè)施。這是在Nvidia H100 和 Google 的 TPUv5 等新硬件或MoE、稀疏性、修剪、模型蒸餾、kv 緩存和提前退出等各種技術(shù)提高成本之前。
人們不會(huì)接受連接到互聯(lián)網(wǎng)的 ChatGPT 的接口,速度太慢,容易編造信息,無(wú)法有效變現(xiàn)。上面的分析仍然過(guò)于簡(jiǎn)單,僅在搜索堆棧的一部分(實(shí)時(shí)查詢處理)中說(shuō)明了LLM?。
今天,我們將深入探討 LLM 在整個(gè)搜索堆棧中的未來(lái)實(shí)現(xiàn)。由于用戶體驗(yàn)的變化,單位收入經(jīng)濟(jì)和成本結(jié)構(gòu)將完全重新設(shè)計(jì),這將在未來(lái) 2 到 3 年內(nèi)迅速改變。
要從收入和成本的角度更深入地了解變化,我們首先必須解釋當(dāng)前的搜索架構(gòu),因?yàn)樗鼮槲磥?lái)的變化提供了背景。從較高的層面來(lái)看,搜索的目標(biāo)是盡快提供相關(guān)信息。輸入關(guān)鍵字時(shí),你希望將最佳信息提升到頂部。搜索管道有四個(gè)主要進(jìn)程:爬蟲、索引、查詢處理器和廣告引擎。機(jī)器學(xué)習(xí)模型已經(jīng)在這四個(gè)領(lǐng)域得到廣泛應(yīng)用。
履帶式
爬蟲自動(dòng)定位互聯(lián)網(wǎng)上的新內(nèi)容,包括網(wǎng)頁(yè)、圖像和視頻,并將其添加到搜索引擎的數(shù)據(jù)庫(kù)(索引)中。通過(guò)利用機(jī)器學(xué)習(xí),爬蟲確定要索引的頁(yè)面的價(jià)值并識(shí)別重復(fù)內(nèi)容。它還分析頁(yè)面之間的鏈接,評(píng)估哪些頁(yè)面可能相關(guān)且重要。此信息用于優(yōu)化抓取過(guò)程,確定抓取哪些頁(yè)面、頻率和程度。
爬蟲在內(nèi)容提取中也起著重要作用。目標(biāo)是全面文本化網(wǎng)頁(yè)包含的內(nèi)容,同時(shí)最小化該數(shù)據(jù)的總大小以支持快速準(zhǔn)確的搜索。延遲就是搜索的重中之重的問(wèn)題,即使是幾百毫秒也會(huì)顯著影響用戶的搜索量。
谷歌和必應(yīng)利用圖像和小型語(yǔ)言模型來(lái)生成頁(yè)面/圖像/視頻本身不存在的元數(shù)據(jù)。大型語(yǔ)言和多模式模型的明顯插入點(diǎn)是大規(guī)模擴(kuò)展這些功能。在任何簡(jiǎn)單的搜索成本模型中都沒(méi)有考慮到這一點(diǎn)。
索引
索引是一個(gè)數(shù)據(jù)庫(kù),用于存儲(chǔ)爬蟲發(fā)現(xiàn)的信息。在索引層中進(jìn)行了大量預(yù)處理,以最大限度地減少必須搜索的數(shù)據(jù)量。這最大限度地減少了延遲并最大限度地提高了搜索相關(guān)性。
相關(guān)性排名:模型可用于根據(jù)相關(guān)性對(duì)索引中的頁(yè)面進(jìn)行排名,以便首先返回最相關(guān)的頁(yè)面以響應(yīng)用戶的搜索查詢。
聚類:模型可用于將索引中相似的頁(yè)面分組為聚類,使用戶更容易找到相關(guān)信息。
異常檢測(cè):模型可以檢測(cè)并從索引中刪除異?;蚶?yè)面,從而提高搜索結(jié)果的質(zhì)量。
文本分類:模型可用于根據(jù)內(nèi)容和上下文對(duì)索引中的頁(yè)面進(jìn)行分類。
主題建模:模型可以識(shí)別索引頁(yè)面涵蓋的主題,并將每一頁(yè)映射到一個(gè)或多個(gè)主題。
雖然目前這是通過(guò)較小的模型和 DLRM 完成的,但如果插入 LLM,效率將顯著提高。在任何簡(jiǎn)單的搜索成本模型中都沒(méi)有考慮到這一點(diǎn)。我們將在本報(bào)告稍后部分討論用例并估算成本。
查詢處理器
這是搜索堆棧中最受關(guān)注的層。它接收用戶的查詢并生成最相關(guān)的結(jié)果。它通過(guò)解析用戶的查詢,將其分解為關(guān)鍵字和短語(yǔ),從索引中獲取最相關(guān)的項(xiàng)目,然后針對(duì)該用戶的特定查詢重新排序和過(guò)濾來(lái)實(shí)現(xiàn)這一點(diǎn)。查詢處理器還負(fù)責(zé)將這些結(jié)果呈現(xiàn)給用戶。
目前有多種模型部署在這個(gè)管道中,從簡(jiǎn)單的拼寫檢查到查詢擴(kuò)展,自動(dòng)將相關(guān)術(shù)語(yǔ)添加到用戶的查詢中以提高搜索結(jié)果的準(zhǔn)確性。基于用戶的搜索歷史、位置、設(shè)備、偏好和興趣的相關(guān)性排名和個(gè)性化結(jié)果。這目前需要在多個(gè)小模型上運(yùn)行推理。
當(dāng)用戶實(shí)時(shí)提交查詢時(shí),必須快速有效地執(zhí)行查詢處理。相比之下,抓取和索引是持續(xù)發(fā)生的過(guò)程,不與用戶交互。
順便說(shuō)一句,谷歌和必應(yīng)在這里使用非常不同的硬件來(lái)實(shí)現(xiàn)他們的經(jīng)典方法。谷歌使用了大量標(biāo)準(zhǔn) CPU 和內(nèi)部 TPU。另一方面,必應(yīng)目前使用許多標(biāo)準(zhǔn) CPU 和FPGA 。
廣告引擎
雖然搜索堆棧的最后三個(gè)部分對(duì)于滿足和留住用戶至關(guān)重要,但許多人認(rèn)為廣告引擎最重要,因?yàn)樗杏荚从谄滟|(zhì)量。查詢處理器與廣告引擎實(shí)時(shí)交互。廣告引擎必須對(duì)用戶查詢、用戶配置文件、位置和廣告效果之間的關(guān)系進(jìn)行建模,以便為每個(gè)用戶生成個(gè)性化推薦,從而最大限度地提高點(diǎn)擊率和收入。
廣告市場(chǎng)是一個(gè)實(shí)時(shí)競(jìng)價(jià)的比賽,廣告商通常為關(guān)鍵字、詞組或某些用戶類型付費(fèi)。廣告模型松散地使用這些作為指導(dǎo),因?yàn)橹Ц兜慕痤~不是服務(wù)的唯一指標(biāo)。該模型需要優(yōu)化轉(zhuǎn)換以賺取收入并提高利率,因此相關(guān)性是超優(yōu)化參數(shù)。
平均而言,在過(guò)去四年中,80% 的 Google 搜索都沒(méi)有在搜索結(jié)果頂部顯示任何廣告。此外,目前只有一小部分搜索(不到 5%)有四個(gè)最熱門的文字廣告。
使用 LLM,消費(fèi)者閱讀的部分不是廣告可以轉(zhuǎn)化為廣告商銷售的前幾個(gè)結(jié)果。相反,它是 LLM 的輸出。因此,這是隨著對(duì)話式 LLM 的出現(xiàn)而發(fā)生最大變化的搜索堆棧的一部分。我們將在本報(bào)告后面部分討論貨幣化的方式和情況,因?yàn)檫@是廣告服務(wù)運(yùn)作方式的根本轉(zhuǎn)變。
激進(jìn)的轉(zhuǎn)變
搜索中的LLM不僅僅是加入搜索引擎界面的一個(gè)大模型。相反,它是許多模型交織在一起的。每個(gè)模型的工作是為鏈中的下一個(gè)模型提供最密集和最相關(guān)的信息。這些模型必須不斷地在活躍用戶身上重新訓(xùn)練、調(diào)整和測(cè)試。谷歌歷來(lái)率先在搜索堆棧的所有四個(gè)層中使用人工智能,但現(xiàn)在,搜索正在用戶體驗(yàn)、使用模型和貨幣化結(jié)構(gòu)方面發(fā)生根本性轉(zhuǎn)變,這可能會(huì)使軟件堆棧的許多現(xiàn)有部分失效。
最大的問(wèn)題是谷歌是否準(zhǔn)備好完成這項(xiàng)任務(wù)。他們能否調(diào)整整個(gè)搜索堆棧?
在弄清楚使用模型之前,谷歌是否有要求來(lái)超級(jí)優(yōu)化其搜索堆棧?假設(shè)谷歌將太多資源投入到以最低成本運(yùn)營(yíng)并達(dá)到搜索相關(guān)性的局部最大值。在那種情況下,谷歌可能會(huì)限制其本應(yīng)致力于擴(kuò)展和測(cè)試新使用模型的模型開(kāi)發(fā)和創(chuàng)新。如果是微軟和 OpenAI 團(tuán)隊(duì)的話,更有可能將謹(jǐn)慎拋在一邊,并對(duì)搜索堆棧的所有四個(gè)元素進(jìn)行徹底重組。
我們最初將與 LaMDA 的輕量級(jí)模型版本一起發(fā)布。這個(gè)小得多的模型需要更少的計(jì)算能力,使我們能夠擴(kuò)展到更多的用戶,從而獲得更多的反饋。
他們正在削減一個(gè)模型,其架構(gòu)最初是在 2021 年初開(kāi)發(fā)的。當(dāng)然,此后它有所改進(jìn),但 OpenAI 和微軟正在使用一個(gè)更大的模型和更新的架構(gòu),這些模型是在 2022 年底和 2023 年初開(kāi)發(fā)的,并得到了 ChatGPT 的持續(xù)反饋。這是有正當(dāng)理由的,但也正是這個(gè)原因可能會(huì)讓谷歌在用戶體驗(yàn)和迭代速度方面受到重創(chuàng)。
更令人擔(dān)憂的是,在過(guò)去的幾個(gè)月里,一些有遠(yuǎn)見(jiàn)的人才最近開(kāi)始涌向初創(chuàng)公司,包括但不限于 OpenAI。這包括 BERT 的教父、PaLM 推理的首席工程師和 Jax 的首席工程師。這可能是文化弱化的跡象。
想象一下,如果這場(chǎng)搜索競(jìng)爭(zhēng)導(dǎo)致谷歌的股票繼續(xù)下跌,而 RSU 的價(jià)值遠(yuǎn)低于預(yù)期。這對(duì)員工的士氣和保留有什么影響?
或者,由于必應(yīng)爭(zhēng)奪市場(chǎng)份額并競(jìng)標(biāo) Google 目前擁有的 Apple 獨(dú)家交易,搜索不再是無(wú)窮無(wú)盡的搖錢樹(shù)怎么樣?谷歌是否必須對(duì)虧損的業(yè)務(wù)(包括谷歌云)勒緊褲腰帶?
延遲
Google 的 Bard 是一個(gè)較小的模型,具有較低的延遲響應(yīng)時(shí)間。谷歌內(nèi)部有一個(gè)非常優(yōu)越的 PaLM 模型,但無(wú)力部署它。
即使延遲為 2,000 毫秒,是常規(guī)搜索的 4 倍,PaLM 也只能采用 60 個(gè)輸入令牌(約 240 個(gè)字符)并輸出 20 個(gè)令牌(80 個(gè)字符),這就是在 64 個(gè) TPUv4 上并行時(shí),始終只能實(shí)現(xiàn)大約35% 的利用率。
重要的是,大型 LLM 需要在搜索堆棧的非時(shí)間敏感部分使用。此外,更大的批量大小可以在堆棧的這些部分實(shí)現(xiàn)更高的利用率,盡管延遲更高。
語(yǔ)境為王
面向用戶的模型和未來(lái) AI 芯片的關(guān)鍵是增加它們的上下文窗口,以便可以通過(guò)層向前饋送更多先前的模型或源材料。就推理成本而言,縮放序列長(zhǎng)度的成本也非常高,這將使你的成本結(jié)構(gòu)膨脹。
因此,在實(shí)時(shí)方面將圍繞此進(jìn)行許多優(yōu)化。在爬行和索引階段,你可以最大化上下文窗口,以盡可能多地將源材料密集化到盡可能高的質(zhì)量標(biāo)準(zhǔn)。
這樣就可以在堆棧的實(shí)時(shí)查詢部分啟用更小的模型,以最大限度地減少搜索和上下文窗口的數(shù)量,從而減少延遲并縮短響應(yīng)時(shí)間。
整個(gè)搜索堆棧中的 LLM 實(shí)現(xiàn)
看看微軟如何以相同的方式應(yīng)用這些技術(shù)作為某些高級(jí)企業(yè)搜索和對(duì)話式 AI 助手的一部分,掃描過(guò)去 30 年中的每個(gè)文檔、電子郵件、Excel 工作表、PDF 和即時(shí)消息,這也將很有趣。當(dāng)然,谷歌仍然擁有其 Android、YouTube、地圖、購(gòu)物、航班和照片等模塊,在這些領(lǐng)域微軟幾乎無(wú)法與之競(jìng)爭(zhēng),因此無(wú)論發(fā)生什么情況,這些模塊都可以讓谷歌在搜索領(lǐng)域保持領(lǐng)先地位。
現(xiàn)在,我們將描述我們?nèi)绾卧谶\(yùn)營(yíng)和基礎(chǔ)設(shè)施層面設(shè)想新的搜索堆棧。我們將通過(guò)堆棧逐個(gè)類別地描述五種不同類型的 LLM 的用途及其跨搜索堆棧、爬蟲、索引、查詢處理器和廣告引擎的四個(gè)不同層的推理成本結(jié)構(gòu)。這些成本結(jié)構(gòu)將仿照 OpenAI 和微軟將使用的 Nvidia HGX A100 / H100,以及谷歌內(nèi)部的 TPUv4 / TPUv5。從使用模型的角度來(lái)看,廣告引擎的變化可能是最有意義的。
編輯:黃飛
?
評(píng)論
查看更多