0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
电子发烧友
开通电子发烧友VIP会员 尊享10大特权
海量资料免费下载
精品直播免费看
优质内容免费畅学
课程9折专享价
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

大模型的“成本瘦身”運動

腦極體 ? 來源:腦極體 ? 作者:腦極體 ? 2023-11-03 08:44 ? 次閱讀

數(shù)據(jù)大、參數(shù)量大、算力大,大模型的某些能力才會“涌現(xiàn)”,這一點在科技圈廣為流傳。

做大模型的主流思想是:不要輕易說模型“不行”,如果“它還沒行”,那就做得更大一點。

所以,不到一年的時間,大模型的參數(shù)規(guī)模增長100倍,如今已經(jīng)突破了萬億級別,資源消耗量巨大,也帶來了越來越高的存儲成本、推理成本、運維成本、落地成本……以及社會成本。

目前,大模型仍處于商業(yè)化的黎明,如何回收大模型的投入,還存在很多未知數(shù)與不確定,而大模型一直在變大,成了一門極其燒錢的生意,背靠微軟的Open AI,2022年就虧損了5.4 億美元左右。

不斷膨脹的成本,就是一張張真金白銀的賬單,壓在大模型企業(yè)身上的一根根“稻草”。Anthropic的首席執(zhí)行官Dario Amodei最近預測,在未來兩年內(nèi),他們的模型成本將達到100億美元。

除了企業(yè)自身,社會也同樣在承擔大模型的隱形成本。谷歌就曾報告稱,訓練 PaLM 在大約兩個月內(nèi)耗費了大約 3.4 千瓦時的電量,相當于300 個家庭每年的能源消耗總量。大模型高能耗給環(huán)境帶來的負擔和成本,最終由整個社會來買單的。

很顯然,無論是商業(yè)上、環(huán)境上,比拼模型體量都是不可持續(xù)的。

一味求大的時代,已經(jīng)過去了。

問題是,怎么給大模型“減負”呢?

事實上,通用大模型的頭部廠商,一直都在積極地開展“成本瘦身”運動。

比如微軟在Microsoft Build 2020 上曾公開了為GPT-3提供支持的AI supercomputing超級計算機,可以讓AI模型的訓練效率比其他平臺高16倍,更快的訓練可以降低時間成本與風險成本。

國產(chǎn)大模型也不例外。

盤古大模型早在2.0版本中,就嘗試采用稀疏+稠密架構,以降低訓練成本。文心一言推出一個月以后,也通過技術手段將大模型的推理性能提升近10倍,推理成本降到原來的十分之一。

避免走向臃腫沉重,成為人人都能使用的工具,大模型的“成本瘦身運動”,勢在必行。具體怎么實現(xiàn)?本文就來談一談這個問題。

一口吃不成胖子

大模型的哪些成本可以優(yōu)化,哪些成本無法削減,哪些成本還要進一步加大投入?搞清楚這些之前,首先得知道是怎么胖的。才能在保證大模型的性能表現(xiàn)和用戶體驗(健康)的前提下,合理且精準地進行“成本瘦身”。

簡單來說,AI三要素——數(shù)據(jù)、算力、算法,仍然是決定大模型成本的最關鍵因素。

先說數(shù)據(jù)。garbage in, garbage out,在大模型時代依然適用。

數(shù)據(jù)質(zhì)量會直接決定大模型的能力。OpenAI招聘了多位博士來處理各行業(yè)的專業(yè)數(shù)據(jù),并找了獨角獸企業(yè)Scale AI等多家數(shù)據(jù)標注公司,給GPT-3進行大規(guī)模的數(shù)據(jù)集投喂。同時,算法模型會不斷迭代升級,對數(shù)據(jù)量的需求會隨著使用量的上升和性能優(yōu)化而持續(xù)不短的時間。

中文大模型的成本高,一個主要原因就是,中文數(shù)據(jù)量和質(zhì)量,與英文還存在差距,訓練中文大模型,需要采集和處理的中文語言數(shù)據(jù)更多。另一方面,英語語法結構相比中文更簡單,中文文本的復雜性和多樣性,有的中文詞匯可以表達多種含義,語境豐富,上下文理解的歧義多、難度大,也增加了中文模型的訓練難度,需要額外的資源來支撐中文大模型的訓練。

再說算力。

大模型的訓練、運行、服務、迭代等一整個全周期,都要計算和存儲資源。

大模型的訓練,主打一個“暴力美學”,參數(shù)越大,訓練所用的計算資源就越多。GPT-3所使用的超級計算機,包含了一萬個GPU、285000個處理器內(nèi)核。國內(nèi)的文心4.0,也是基于飛槳平臺在萬卡集群訓練出來的。

這還不算完。大模型在部署后開放服務,隨著使用量的增加,要完成的推理任務也越來越多。24小時進行大量的“思考”和“輸出”,這個推理過程,也會持續(xù)消耗計算資源,就像人腦在處理大量復雜任務時,需要消耗糖原,很容易感到饑餓,得大吃一頓來補充能量。所以,大模型的推理成本也是很高的。

175B的GPT-3部署后的推理至少需要五個A100 GPU,而國內(nèi)面向全社會開放服務的大模型,比如文心一言,據(jù)說推理成本也是上一代的8-10倍。

最后說說算法。

降低大模型對計算資源的巨大依賴,一個主流方案是優(yōu)化模型,在性能不變的基礎上,以更快的推理速度、更小的延遲、更低的資源需求來運行,相當于ROI投入產(chǎn)出比更高了,訓練、推理環(huán)節(jié)所需要的算力資源,單位成本更低。

有多少人工,就有多少智能,沒有人才不可能搞出真正能打的大模型。算法開發(fā)、測試、迭代、產(chǎn)品化等,都需要大量技術人才。人力成本究竟高不高,還要看大模型的商業(yè)模式是否穩(wěn)健。

學歷拉滿的人才隊伍,在研發(fā)階段,是相當有競爭力的。問題在于,怎么掙錢呢?API調(diào)用或使用量收費,一個token不到一美分,回本盈利可能遙遙無期;付費訂閱(專業(yè)版),頭部大模型具有虹吸效應,大家都會選擇OpenAI或BATH等大廠,自家大模型能否被用戶接受并愿意付費,是未知數(shù);給行業(yè)客戶定制開發(fā),ToB要深入了解行業(yè),調(diào)研開發(fā)測試迭代,讓年薪幾十上百萬的算法工程師,在工地礦山農(nóng)場一待幾個月,項目的毛利率估計不會太好看。

所以,一個大模型能不能成功,不僅僅是靠算法本身的能力,還要看從開發(fā)到落地的商業(yè)循環(huán)是否可持續(xù)。

管住嘴,邁開腿

如果我們把大模型的成本“瘦身”,比作一個希望減去多余贅肉的人,那么這個目標,可以拆解為兩種基本途徑:

一是制造“熱量差”。就是管住嘴邁開腿,控制投入,減去多余的成本,加速商業(yè)化提高收入,自然就瘦了。

二是變成“易瘦體質(zhì)”。充分了解大模型的機理,用新的架構來解決Transformer注意力機制的問題,擁有“怎么吃都不胖”的體質(zhì)。

聽起來,第二種是不是非常有誘惑力呢?

不用苦哈哈的控制成本、吸引用戶、定制服務,輕輕松松躺著掙錢,還有這種好事兒?確實。

目前,所有的大語言模型都用的Transformer架構,而這種架構難以處理長文本及高分辨率圖像,邏輯推理、知識歸納等就靠“大力出奇跡”,成本高昂。很多基礎原理仍然不清楚,這就導致很多現(xiàn)存問題束手無策,比如“幻覺”的產(chǎn)生,推理能力有限等。

圖靈獎得主 Yann LeCun就不止一次批評過大語言模型的技術范式,認為“LLM 對世界的理解非常膚淺”,他希望構建一個“世界模型”,先學習世界運作方式,而后形成一個內(nèi)部模型,再通過這個內(nèi)部模型來完成各種任務。除此之外,關于AGI通用智能還有許多科學家從各自的研究領域去探討。

總結一下,當前的大語言模型,很多原理尚不清晰,技術仍在變化中。未來可能會出現(xiàn)其他技術范式,顛覆當前一味求大的模型,那時可能就不需要過高的成本,也就不用痛苦地“瘦身”了。

可能你已經(jīng)發(fā)現(xiàn)了,研究底層的原理、找到一種更強大的AGI技術,這事兒雖然聽起來很酷,但實在沒譜,目前還沒有一個清晰的時間表。而這一輪大語言模型的技術范式,在工程實踐上是可行的,在產(chǎn)業(yè)中能work的,有提質(zhì)增效的明確效果的。先用起來,把握住現(xiàn)在,才是科技企業(yè)的當務之急。

所以,大模型企業(yè)只能管住嘴、邁開腿,盡快控制成本、加速商業(yè)化,制造良性可持續(xù)發(fā)展的“熱量差”。

制造“熱量差”的四化運動

那么,究竟該怎么制造“熱量差”呢?綜合目前市面上的主流手段,我們將其總結為“四化運動”:數(shù)據(jù)規(guī)?;⒛P蛪嚎s化、計算高效化、商業(yè)分層化。

數(shù)據(jù)規(guī)?;峭ㄟ^規(guī)模效應,來提高數(shù)據(jù)的邊際效益,獲得最佳性價比。規(guī)模效應主要通過三種方式來實現(xiàn),一是產(chǎn)業(yè)集中的規(guī)模化,國家層面已經(jīng)明確提出,要“加快培育數(shù)據(jù)要素市場”,涉及數(shù)據(jù)生產(chǎn)、采集、存儲、加工、分析、服務等多個環(huán)節(jié),產(chǎn)業(yè)化有助于減少大模型企業(yè)的數(shù)據(jù)成本。二是AI工具的應用,減少數(shù)據(jù)工程各個環(huán)節(jié)的人工參與,加快預訓練數(shù)據(jù)的處理,為模型訓練降本提效。三是反饋數(shù)據(jù)的規(guī)模化。大模型對微調(diào)數(shù)據(jù)(SFT/RLHF)的需求量和質(zhì)量要求很高,一些更早向全社會開放服務的大模型,如百度文心一言、商湯“商量SenseChat”、百川智能“百川大模型”、科大訊飛“星火大模型”等,“數(shù)據(jù)飛輪”更早開始轉(zhuǎn)動,有望更快一步達到邊際效益最優(yōu)的數(shù)據(jù)規(guī)模。

數(shù)據(jù)是有邊際效益的。OpenAl 已經(jīng)可以讓用戶來決定,是否允許其使用聊天數(shù)據(jù)進行訓練,也就是說,可以不再依賴用戶反饋數(shù)據(jù)了,那么數(shù)據(jù)的存儲和計算成本自然就能控制住了。

模型壓縮化,就是提高模型的性能,以更少的資源實現(xiàn)更高性能,將資源密集型的大模型,通過壓縮技術,轉(zhuǎn)化為更加緊湊高效的版本。類似于將脂肪轉(zhuǎn)化為肌肉,肌肉的密度更大,體重(性能)不變,人卻變瘦(更?。┝恕?/p>

目前,大模型壓縮的常見手段,主要有三種:量化、剪枝、知識蒸餾。

量化,相當于抽脂,簡單粗暴但是有效。模型的精度越高,所需要的存儲空間就越大。但在推理時,其實并不需要捕捉復雜模型中十分微小的梯度變化,所以量化可以直接降低模型的參數(shù)精度,“抽”去一部分細節(jié)性信息,從而減少占用空間,同時也不過于降低推理能力。比如以問生圖的生成式 AI 模型Stable Diffusion,此前只能在云端運行,高通AI Research使用量化技術,讓模型可以在更低精度水平保持準確性,首次實現(xiàn)了在 Android 智能手機上部署 Stable Diffusion。量化技術,也在文心、盤古等國產(chǎn)大模型中有所應用。

剪枝,類似“切除手術”,直接減去一些對效果沒什么影響的旁枝,比如大量冗余的結構、神經(jīng)元,這些權重較小的部分刪減掉,對模型效果帶來的影響不大,也減少了模型的大小。當然,剪枝是一門“手藝活兒”,剪枝越精確,給模型準確率的損失就越小,壓縮效果越好。

知識蒸餾,就是讓大模型“蒸桑拿”,千億模型一通蒸餾,產(chǎn)出若干個性能接近、結構更簡的小模型,落地成本更低。挑戰(zhàn)在于,千億規(guī)模的模型蒸餾,也要消耗極高的計算資源,而且,從千億蒸餾到幾千萬,數(shù)據(jù)量差距過大,容易影響蒸餾的效果。無損蒸餾,是各大廠商的技術賽點之一。

既然模型壓縮技術,也會消耗計算資源,那么提高算力基礎設施的計算效率,就變得格外重要了。

計算高效化,是大模型廠商能夠以更高效益來提供模型服務的前提。

芯片和計算集群的性能,是研究和優(yōu)化的重點。微軟云azure專門為OpenAI打造了適用于AI計算的超級計算機。國內(nèi)廠商,百度、華為都擁有自研芯片、深度學習框架,可以通過端到端優(yōu)化來提升計算效率,提升大模型的訓練速度和推理速度,從而降低訓練時間和成本。

而對于產(chǎn)業(yè)大模型、行業(yè)大模型等非通用大模型來說,規(guī)模效應和硬件優(yōu)化技術有限,自行構建和維護基礎設施的成本是非常高的,使用云服務來訓練和部署服務,是成本更優(yōu)的選擇。

歸根結底,大模型要提升商業(yè)收入,來達到優(yōu)化ROI、回收成本的目的。目前,各類大模型的商業(yè)化,體現(xiàn)出了明顯的分層化特點。

簡單來說,就是不同體量、不同功能、不同方向的大模型,商業(yè)化路徑也開始涇渭分明。

通用大模型,以規(guī)模效益、高價值市場,為主要目標。OpenAI的用戶量巨大,發(fā)展API經(jīng)濟具有規(guī)模效應,前期投入可以隨著業(yè)務量增長而被均攤。BATH(百度、阿里、騰訊、華為)等都有各自的云業(yè)務,積累了較為豐富的行業(yè)服務經(jīng)驗,尤其是金融、礦山、政務等大型政企的客戶觸達能力,具備較大的商業(yè)轉(zhuǎn)化潛力,因此除了面向大眾服務的訂閱模式、商業(yè)版付費模式等,也可以開展高價值的ToB項目定制開發(fā)。ToB客戶的高要求推動模型體驗和效果提升,也可以服務ToC市場,通過規(guī)模化來進一步攤平成本。

行業(yè)大模型,則在主動收束產(chǎn)品和業(yè)務邊界,圍繞核心業(yè)務和功能,以更少的資源來開發(fā)專精的小模型,在投入和商業(yè)化之間取得一個很好ROI平衡。比如金融領域,度小滿的“軒轅70B”融入了大量的專業(yè)金融語料,提高對金融知識的理解能力,可控性、安全性上滿足金融客戶的特別要求,獲得了上百家金融機構申請試用。

總而言之,大模型并不是只有通用、泛化一條路,千行百業(yè)的私有化、個性化部署,會產(chǎn)生價格、隱私、安全等多方面的決策因素,也帶來大量的細分商機。通用大模型與行業(yè)大模型、專有小模型,分層+合力打開商業(yè)化之路。和而不同,考驗著產(chǎn)業(yè)鏈上每一個角色的智慧。

為了長遠、可持續(xù)的服務,管住嘴、邁開腿,大模型的“成本瘦身”是必經(jīng)之路。

這個過程或許痛苦,卻會凝練出一條護城河,守護整個行業(yè)的健康發(fā)展。

20世紀40年代,計算機剛剛誕生的時候,人們驚嘆于這座“機器怪獸”的龐大身軀,但隨后開啟了信息時代的飛躍。智能手機剛剛誕生時,功能機廠商曾對它極盡諷刺,沒想到這種人人皆可觸網(wǎng)的普惠聯(lián)接,推起了移動互聯(lián)網(wǎng)的繁榮。

隨著大模型越來越好、成本越來越低,“人人皆可AI”,也將不再是一個遙遠的夢。

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • Palm
    +關注

    關注

    0

    文章

    22

    瀏覽量

    11413
  • AI
    AI
    +關注

    關注

    87

    文章

    34324

    瀏覽量

    275516
  • Transformer
    +關注

    關注

    0

    文章

    151

    瀏覽量

    6404
  • 算力
    +關注

    關注

    2

    文章

    1150

    瀏覽量

    15465
  • 大模型
    +關注

    關注

    2

    文章

    3035

    瀏覽量

    3842
收藏 0人收藏

    評論

    相關推薦
    熱點推薦

    成本狂降90%!國產(chǎn)芯片+開源模型如何改寫AI玩具規(guī)則

    電子發(fā)燒友網(wǎng)綜合報道,在AI技術持續(xù)突破的當下,AI玩具正在經(jīng)歷一場靜默的變革,而變革的核心,在于輕量級大模型的技術突破,即通過算法壓縮與硬件協(xié)同,AI玩具得以在方寸之間承載復雜的智能交互,以更低成本
    的頭像 發(fā)表于 05-29 00:52 ?2940次閱讀

    BSP瘦身指南說明 | 技術集結

    一.為什么要實施BSP瘦身計劃當前RT-Thread倉庫中BSP和.git內(nèi)容占比約90%,而RT-Thread核心代碼及文檔僅占約100MB,約為3%。為進一步優(yōu)化用戶體驗,我們計劃了對現(xiàn)有BSP
    的頭像 發(fā)表于 05-07 18:40 ?132次閱讀
    BSP<b class='flag-5'>瘦身</b>指南說明 | 技術集結

    KaihongOS操作系統(tǒng)FA模型與Stage模型介紹

    應用能力和系統(tǒng)管控成本。 Ability與UI分離、嚴格的后臺管控、基于場景的服務機制及單進程模型等特點,使得Stage模型非常適合開發(fā)分布式環(huán)境下的復雜應用。 總的來說,F(xiàn)A模型和S
    發(fā)表于 04-24 07:27

    垂直運動永磁同步直線電機的復合控制研究

    為了改善永磁同步直線電機在數(shù)控珩磨機主軸往復運動時的伺服性能,建立了永磁同步直線電機的數(shù)學模型。 通過對直線電機運動系統(tǒng)數(shù)學模型進行分析,得出系統(tǒng)參數(shù)攝動、推力波動、負載擾動等不確定因
    發(fā)表于 03-12 17:07

    企業(yè)能耗 “大瘦身”, Acrel-EIOT 能源物聯(lián)網(wǎng)平臺有妙招

    企業(yè)能耗 “大瘦身”, Acrel-EIOT 能源物聯(lián)網(wǎng)平臺有妙招
    的頭像 發(fā)表于 03-01 08:04 ?226次閱讀
    企業(yè)能耗 “大<b class='flag-5'>瘦身</b>”, Acrel-EIOT 能源物聯(lián)網(wǎng)平臺有妙招

    阿里巴巴Qwen大模型助力開發(fā)低成本DeepSeek替代方案

    近日,阿里巴巴的開源Qwen2.5模型在AI領域再次展現(xiàn)其強大實力,為斯坦福大學與伯克利大學的研究人員提供了低成本的AI訓練解決方案。借助這一技術,兩所知名學府的研究團隊成功開發(fā)出價格低于50美元
    的頭像 發(fā)表于 02-12 13:42 ?877次閱讀

    Qwen大模型助力開發(fā)低成本AI推理方案

    阿里巴巴的開源Qwen2.5模型近期在AI領域引發(fā)了廣泛關注。這一大模型的推出,為斯坦福大學與伯克利大學的研究人員提供了強大的技術支持,使他們能夠成功開發(fā)出低成本的AI推理模型。 據(jù)悉
    的頭像 發(fā)表于 02-12 09:19 ?510次閱讀

    【「基于大模型的RAG應用開發(fā)與優(yōu)化」閱讀體驗】+大模型微調(diào)技術解讀

    ,減少了計算成本。LoRA(Low-Rank Adaptation):一種基于低秩分解的微調(diào)方法,通過分解模型參數(shù)矩陣為低秩矩陣來減少參數(shù)更新的數(shù)量,提高訓練效率。PET(Prompt-based
    發(fā)表于 01-14 16:51

    【「大模型啟示錄」閱讀體驗】對大模型更深入的認知

    ,大模型的世界遠比我想象的要復雜和深刻。 書中不僅詳細介紹了大模型的構建過程,還探討了它們的核心能力和所需的基礎設施。我特別喜歡的是,書中用通俗易懂的語言,把大模型的“不可能三角”,即規(guī)模、效率和
    發(fā)表于 12-20 15:46

    OpenAI發(fā)布o1模型API,成本大幅下降60%

    近日,OpenAI正式推出了備受期待的o1模型API,并對實時API進行了重大升級,引入了WebRTC支持。此次發(fā)布的o1模型API相較于之前的預覽版本,不僅在性能上有所提升,更在成本上實現(xiàn)了顯著
    的頭像 發(fā)表于 12-19 10:31 ?632次閱讀

    【「大模型啟示錄」閱讀體驗】如何在客服領域應用大模型

    和存儲空間,因此在選擇時需要考慮企業(yè)的資源和成本限制。如果企業(yè)資源有限,可以選擇較小規(guī)模的模型或利用API調(diào)用大型模型以降低本地部署成本。同時,還需要考慮
    發(fā)表于 12-17 16:53

    中國AI企業(yè)創(chuàng)新降低成本打造競爭力模型

    在中國,面對美國實施的芯片限制以及相較于西方企業(yè)更為有限的預算,人工智能(AI)公司正積極尋求降低成本的方法,以開發(fā)出具有市場競爭力的模型。初創(chuàng)公司如01.ai(零一萬物)和DeepSeek(深度求索)等,通過聚焦小數(shù)據(jù)集進行AI模型
    的頭像 發(fā)表于 10-22 14:56 ?868次閱讀

    AI大模型訓練成本飆升,未來三年或達千億美元

    在科技日新月異的今天,人工智能(AI)領域的發(fā)展正以前所未有的速度推進,其中,AI大模型的崛起尤為引人注目。然而,隨著模型參數(shù)的持續(xù)膨脹,其背后的訓練成本也呈現(xiàn)出驚人的增長態(tài)勢。近日,AI新創(chuàng)公司
    的頭像 發(fā)表于 07-11 15:06 ?1827次閱讀

    工業(yè)元宇宙的仿真可以使用哪些模型

    : 1.1 力學模型:力學模型用于模擬物體在力的作用下的運動。這些模型包括牛頓運動定律、拉格朗日力學、哈密頓力學等。 1.2 熱力學
    的頭像 發(fā)表于 06-11 10:26 ?974次閱讀

    電子發(fā)燒友

    中國電子工程師最喜歡的網(wǎng)站

    • 2931785位工程師會員交流學習
    • 獲取您個性化的科技前沿技術信息
    • 參加活動獲取豐厚的禮品