0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

MOE與MOT:提升LLM效能的關(guān)鍵策略比較

深度學(xué)習(xí)自然語言處理 ? 來源:知乎:北方的郎 ? 2024-04-15 09:53 ? 次閱讀

事實(shí)證明,LLM的表現(xiàn)與模型大小和可擴(kuò)展性呈正相關(guān)。這種擴(kuò)展伴隨著計(jì)算資源的擴(kuò)展,也就是說,模型越大,成本就越高。

eb343318-fa7c-11ee-a297-92fbcf53809c.png

eb4b5bce-fa7c-11ee-a297-92fbcf53809c.jpg

基于參數(shù)計(jì)數(shù)的 LLM 性能

這是該行業(yè)面臨的最大挑戰(zhàn)之一。雖然專家混合(Mixture of Experts:MOE)最近被大肆宣傳用于改進(jìn)Transformer模型,但機(jī)器學(xué)習(xí)人員發(fā)現(xiàn)了一種更有前途的新方法——令牌混合(Mixture of Tokens:MOT)。MOE在嘗試不同模型時(shí)表現(xiàn)出的某些缺點(diǎn)導(dǎo)致需要其他方法。在這篇博文中,我們將討論這些新技術(shù),并研究 MoT 在保持訓(xùn)練和推理成本的同時(shí)擴(kuò)展大型語言模型的方式。

Mixture of Experts

Mixture of Experts 因顯著優(yōu)化 Transformer 的可擴(kuò)展性而聞名。要理解這一點(diǎn),我們首先要了解這些“專家”是誰。在 MoE 中,專家是專門執(zhí)行一項(xiàng)或多項(xiàng)任務(wù)的模型。在標(biāo)準(zhǔn)Transformer模型中,令牌(token)由標(biāo)準(zhǔn)前饋層處理。MoE 沒有采用這種方法,而是將每個(gè)token定向到一組專家以及一個(gè)稱為控制器的小型網(wǎng)絡(luò)。該控制器確保每個(gè)令牌僅由一小部分專家處理。

開關(guān)Transformer將每個(gè)令牌發(fā)送給控制器產(chǎn)生的得分最高的一位專家。這項(xiàng)技術(shù)導(dǎo)致參數(shù)大幅減少——從 1.6T 模型(T5 架構(gòu))到等效 1.4B vanilla Transformer 的 FLOPS 成本。

專家選擇提供了一種略有不同的方法。不是讓token選擇前 k 個(gè)專家,而是專家自己選擇前 k 個(gè)token。該方法保證了均勻的負(fù)載平衡(每個(gè)專家接收相同數(shù)量的令牌),并在訓(xùn)練效率和下游性能方面取得了顯著的進(jìn)步。然而,存在某些Token不被選擇的風(fēng)險(xiǎn)。

eb5e580a-fa7c-11ee-a297-92fbcf53809c.jpg

MoE 方法:從左到右:標(biāo)準(zhǔn)前饋、開關(guān)、專家選擇


當(dāng)前方法的局限性

雖然大參數(shù) MoE 架構(gòu)的性能令人印象深刻,但它們?cè)谟?xùn)練和推理過程中面臨著一系列新的挑戰(zhàn)。最值得注意的是:

訓(xùn)練不穩(wěn)定性:這種方法謹(jǐn)慎地選擇專家并將其與token匹配。這意味著控制器權(quán)重的微小變化可能會(huì)對(duì)控制器決策產(chǎn)生不成比例的影響。

負(fù)載不平衡: MoE 的問題是我們無法有效地平衡令牌和專家的分配方式,因?yàn)槁酚删W(wǎng)絡(luò)的選擇沒有受到有效的限制。這就是為什么有些令牌沒有任何專家來處理它們(令牌丟棄),并且?guī)缀跛辛钆贫贾环峙浣o少數(shù)專家(模型崩潰)。

信息泄漏:一些成功的 MoE 方法將序列中不同位置的令牌一起處理(即,通過比較批次中所有令牌的分?jǐn)?shù))。這造成了序列內(nèi)信息泄漏并阻礙了它們?cè)谧曰貧w解碼中的實(shí)用性。

知識(shí)混合性:由于專家數(shù)量有限,傳統(tǒng) MoE 架構(gòu)中的專家通常會(huì)積累廣泛的知識(shí)。這種廣泛的知識(shí)庫削弱了個(gè)別專家的專業(yè)性和有效性。

知識(shí)冗余:多個(gè)專家在學(xué)習(xí)相似信息時(shí)有趨同的傾向,導(dǎo)致知識(shí)領(lǐng)域重疊和模型參數(shù)使用效率低下。

在他們最近的論文中,Cohere AI 的科學(xué)家討論了解決MOE主要挑戰(zhàn)之一的方法——必須將所有專家存儲(chǔ)在內(nèi)存中。他們通過將 MoE 架構(gòu)與輕量級(jí)專家獨(dú)特地結(jié)合起來,提出了參數(shù)極其高效的 MoE。他們的 MoE 架構(gòu)優(yōu)于標(biāo)準(zhǔn) PEFT 方法,并且僅通過更新輕量級(jí)專家即可達(dá)到完全微調(diào)的效果——不到 11B 參數(shù)模型的 1%。

解決MOE的限制

在他們最近的論文中,Cohere AI 的科學(xué)家討論了解決MOE主要挑戰(zhàn)之一的方法——將所有專家存儲(chǔ)在內(nèi)存中。他們通過將 MoE 架構(gòu)與輕量級(jí)專家獨(dú)特地結(jié)合起來,提出了一種參數(shù)極其高效的 MoE。他們的 MoE 架構(gòu)優(yōu)于標(biāo)準(zhǔn) PEFT 方法,并且僅通過更新輕量級(jí)專家即可達(dá)到完全微調(diào)的效果——不到 11B 參數(shù)模型的 1%。

最近的一篇論文討論了 MoE 的最后兩個(gè)局限性,并提出了一種解決這些問題的新技術(shù)——DeepSeekMoE。這是新的 MoE 架構(gòu),旨在通過采用兩個(gè)關(guān)鍵策略來增強(qiáng)專家專業(yè)化:細(xì)粒度專家分割和共享專家隔離。

細(xì)粒度專家分割(Fine-grained expert segmentation)涉及細(xì)分 FFN 中間隱藏維度,從而允許細(xì)粒度專家之間更細(xì)致地分配知識(shí)。這種細(xì)分使每個(gè)專家能夠?qū)W⒂诟唧w的知識(shí)領(lǐng)域,從而在保持恒定的計(jì)算成本的同時(shí)實(shí)現(xiàn)更高水平的專業(yè)化。

同時(shí),共享專家隔離(shared expert isolation)策略將特定專家指定為“共享”,負(fù)責(zé)捕獲不同背景下的共同知識(shí)。通過將一般知識(shí)集中在這些共享專家上,減少了其他專家學(xué)習(xí)過程中的冗余。這種方法提高了參數(shù)效率,并確保每位專家始終專注于獨(dú)特且獨(dú)特的知識(shí)領(lǐng)域。

eb6c6756-fa7c-11ee-a297-92fbcf53809c.jpg

DeepSeekMoE。在這三種架構(gòu)中,專家參數(shù)的數(shù)量和計(jì)算成本保持不變

DeepSeekMoE 經(jīng)過擴(kuò)展可訓(xùn)練 16B 模型,只需約 40% 的計(jì)算量,即可實(shí)現(xiàn)與 DeepSeek 7B 和 LLaMA2 7B 相當(dāng)?shù)男阅?。研究人員還計(jì)劃將 DeepSeekMoE 擴(kuò)展到 145B,突出其相對(duì)于 GShard 架構(gòu)的優(yōu)勢(shì),并展示與 DeepSeek 67B 相當(dāng)?shù)男阅堋?/p>

Token混合(Mixture of Tokens)

MoE 的幾個(gè)缺點(diǎn)導(dǎo)致了混合Token(MoT)的興起。這種對(duì)方法的輕微修改解決了所討論的方法帶來的許多問題。MoT 不是將token發(fā)送給專家,而是將不同示例中的token混合在一起,然后再將其提供給專家。這使得模型能夠從所有token-專家組合中學(xué)習(xí),并提高訓(xùn)練穩(wěn)定性和專家利用率。在向?qū)<姨峁﹖oken后,每種混合物都會(huì)被處理并重新分配回原始token。

token混合是如何進(jìn)行的?首先,您需要為每個(gè)token設(shè)置重要性權(quán)重。這是通過控制器完成的,然后是對(duì)生成的token分?jǐn)?shù)執(zhí)行 softmax 層。因此,每個(gè)專家的token權(quán)重是獨(dú)立計(jì)算的。最后,將每個(gè)token乘以其重要性權(quán)重,然后將它們?nèi)考釉谝黄稹?/p>

eb948646-fa7c-11ee-a297-92fbcf53809c.jpg

令牌混合:每個(gè)專家的令牌都是唯一混合的(混合權(quán)重由控制器決定,為簡(jiǎn)單起見,此處省略),然后處理每個(gè)混合物并將其重新分配回原始令牌(使用與之前相同的權(quán)重)。

MoT 通過進(jìn)行以下更改來解決 MoE 模型的問題:

混合來自不同示例的token,然后將其提供給專家;通過允許模型從所有token-專家組合中學(xué)習(xí),這提高了訓(xùn)練穩(wěn)定性和專家利用率。

token混合是一個(gè)完全可微的模型,這意味著它可以使用標(biāo)準(zhǔn)的基于梯度的方法進(jìn)行訓(xùn)練。這避免了輔助損失或其他難以訓(xùn)練的技術(shù)的需要,從而更容易訓(xùn)練和部署。”

eba0062e-fa7c-11ee-a297-92fbcf53809c.jpg

MoE 與 MoT:在專家混合中(左),每個(gè)令牌都被路由到不同的專家前饋層。在令牌混合(右)中,每組內(nèi)的令牌被混合,并且混合令牌由專家前饋層處理。

結(jié)論

toke混合有可能顯著提高LLM的表現(xiàn)和效率。與普通 Transformer 相比,它顯示出訓(xùn)練時(shí)間減少了 3 倍的驚人結(jié)果。未來,我們預(yù)計(jì) MoT 將繼續(xù)帶來更顯著的改進(jìn)。

ebaa9030-fa7c-11ee-a297-92fbcf53809c.jpg

MoTs 僅用 1/4 的步數(shù)和 1/3 的訓(xùn)練時(shí)間就減少了密集香草 Transformer 的最終訓(xùn)練損失,預(yù)計(jì)未來將顯著改善。

審核編輯:黃飛

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 控制器
    +關(guān)注

    關(guān)注

    112

    文章

    16389

    瀏覽量

    178419
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8423

    瀏覽量

    132744
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    0

    文章

    291

    瀏覽量

    351

原文標(biāo)題:MOE vs MOT 讓LLM更加有效

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    低比特量化技術(shù)如何幫助LLM提升性能

    針對(duì)大語言模型 (LLM) 在部署過程中的性能需求,低比特量化技術(shù)一直是優(yōu)化效果最佳的方案之一,本文將探討低比特量化技術(shù)如何幫助 LLM 提升性能,以及新版 OpenVINO 對(duì)于低比特量化技術(shù)的支持。
    的頭像 發(fā)表于 12-08 15:26 ?1178次閱讀
    低比特量化技術(shù)如何幫助<b class='flag-5'>LLM</b><b class='flag-5'>提升</b>性能

    無法在MCRA中設(shè)置MOE

    無法在MCRA中設(shè)置MOE位以上來自于谷歌翻譯以下為原文 can not set MOE bit in MCRA
    發(fā)表于 05-22 12:29

    小型調(diào)度MOE自制分享!

    ,不過發(fā)現(xiàn)寫多了,忘得也快,還是開貼記錄一下比較好,同時(shí)也希望能得到大家的指導(dǎo)和監(jiān)督。MOE是出于學(xué)習(xí)目的而自制的小型調(diào)度,包含事件驅(qū)動(dòng)、消息機(jī)制、調(diào)試選項(xiàng)、各種實(shí)用軟件模塊和應(yīng)用等,整體做了模塊化
    發(fā)表于 10-22 23:01

    如何提升非零等待區(qū)Flash效能

    部分 AT32 帶有非零等待區(qū),當(dāng)代碼超過零等待區(qū)后,且時(shí)鐘不高于 72MHz,讀取Flash 的效能會(huì)降低。此時(shí)不改變外圍時(shí)鐘,如何快速修改程序以提高 Flash 效能?
    發(fā)表于 10-20 08:26

    STEP_MOT

    DSP之STEP_MOT教程,很好的DSP自學(xué)資料,快來學(xué)習(xí)吧。
    發(fā)表于 04-15 17:49 ?4次下載

    MMC控制策略比較分析研究

    MMC控制策略比較分析研究_李威
    發(fā)表于 01-07 18:12 ?2次下載

    關(guān)于協(xié)同空戰(zhàn)目標(biāo)分配效能優(yōu)化策略仿真_安超

    關(guān)于協(xié)同空戰(zhàn)目標(biāo)分配效能優(yōu)化策略仿真_安超
    發(fā)表于 03-19 19:04 ?0次下載

    基于材料屏蔽效能測(cè)試比較

    屏蔽效能是對(duì)屏蔽體隔離或限制電磁波的能力的度量,是反映屏蔽材料最主要的指標(biāo),因此,屏蔽效能測(cè)試技術(shù)的規(guī)范性、適用性至關(guān)重要。目前屏蔽效能測(cè)試標(biāo)準(zhǔn)已有十幾種,包括國(guó)標(biāo)、國(guó)軍標(biāo)、行標(biāo)等,雖然每種方法都能
    發(fā)表于 02-28 14:59 ?1次下載

    Continuous Batching:解鎖LLM潛力!讓LLM推斷速度飆升23倍,降低延遲!

    本文介紹一篇 LLM 推理加速技術(shù) 相關(guān)的文章,值得讀一讀。 LLMs 在現(xiàn)實(shí)應(yīng)用中的計(jì)算成本主要由服務(wù)成本所主導(dǎo),但是傳統(tǒng)的批處理策略存在低效性。在這篇文章中,我們將告訴你
    的頭像 發(fā)表于 10-15 20:25 ?689次閱讀
    Continuous Batching:解鎖<b class='flag-5'>LLM</b>潛力!讓<b class='flag-5'>LLM</b>推斷速度飆升23倍,降低延遲!

    軍用濾波器的設(shè)計(jì)與優(yōu)化:提升通信質(zhì)量的關(guān)鍵策略!

    軍用濾波器是一種用于軍用通信系統(tǒng)中的電源保護(hù)裝置,主要用于過濾電網(wǎng)中的諧波、干擾及電磁噪聲等問題。它的作用是保護(hù)通信設(shè)備、提高通信質(zhì)量、增強(qiáng)戰(zhàn)場(chǎng)信息交流。下面深圳市維愛普電子有限公司小編將詳細(xì)介紹軍用濾波器的設(shè)計(jì)與優(yōu)化對(duì)于提升通信質(zhì)量的關(guān)鍵
    的頭像 發(fā)表于 01-15 15:36 ?674次閱讀
    軍用濾波器的設(shè)計(jì)與優(yōu)化:<b class='flag-5'>提升</b>通信質(zhì)量的<b class='flag-5'>關(guān)鍵</b><b class='flag-5'>策略</b>!

    基于NVIDIA Megatron Core的MOE LLM實(shí)現(xiàn)和訓(xùn)練優(yōu)化

    本文將分享阿里云人工智能平臺(tái) PAI 團(tuán)隊(duì)與 NVIDIA Megatron-Core 團(tuán)隊(duì)在 MoE (Mixture of Experts) 大語言模型(LLM)實(shí)現(xiàn)與訓(xùn)練優(yōu)化上的創(chuàng)新工作。
    的頭像 發(fā)表于 03-22 09:50 ?799次閱讀
    基于NVIDIA Megatron Core的<b class='flag-5'>MOE</b> <b class='flag-5'>LLM</b>實(shí)現(xiàn)和訓(xùn)練優(yōu)化

    什么是LLM?LLM的工作原理和結(jié)構(gòu)

    隨著人工智能技術(shù)的飛速發(fā)展,大型語言模型(Large Language Model,簡(jiǎn)稱LLM)逐漸成為自然語言處理(NLP)領(lǐng)域的研究熱點(diǎn)。LLM以其強(qiáng)大的文本生成、理解和推理能力,在文本
    的頭像 發(fā)表于 07-02 11:45 ?7941次閱讀

    LLM大模型推理加速的關(guān)鍵技術(shù)

    LLM(大型語言模型)大模型推理加速是當(dāng)前人工智能領(lǐng)域的一個(gè)研究熱點(diǎn),旨在提高模型在處理復(fù)雜任務(wù)時(shí)的效率和響應(yīng)速度。以下是對(duì)LLM大模型推理加速關(guān)鍵技術(shù)的詳細(xì)探討,內(nèi)容將涵蓋模型壓縮、解碼方法優(yōu)化、底層優(yōu)化、分布式并行推理以及特
    的頭像 發(fā)表于 07-24 11:38 ?912次閱讀

    LLM技術(shù)對(duì)人工智能發(fā)展的影響

    隨著人工智能技術(shù)的飛速發(fā)展,大型語言模型(LLM)技術(shù)已經(jīng)成為推動(dòng)AI領(lǐng)域進(jìn)步的關(guān)鍵力量。LLM技術(shù)通過深度學(xué)習(xí)和自然語言處理技術(shù),使得機(jī)器能夠理解和生成自然語言,極大地?cái)U(kuò)展了人工智能的應(yīng)用范圍
    的頭像 發(fā)表于 11-08 09:28 ?414次閱讀

    獵戶星空發(fā)布Orion-MoE 8×7B大模型及AI數(shù)據(jù)寶AirDS

    。 Orion-MoE 8×7B是獵戶星空精心打造的開源混合架構(gòu)專家大模型,該模型擁有高達(dá)8×70億的參數(shù)規(guī)模,采用了先進(jìn)的生成式混合專家設(shè)計(jì)。這一設(shè)計(jì)使得Orion-MoE 8×7B在性能上有了顯著提升,能夠輕松應(yīng)對(duì)多種復(fù)雜任
    的頭像 發(fā)表于 11-29 13:57 ?250次閱讀