0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
电子发烧友
开通电子发烧友VIP会员 尊享10大特权
海量资料免费下载
精品直播免费看
优质内容免费畅学
课程9折专享价
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

復(fù)旦提出大模型推理新思路:Two-Player架構(gòu)打破自我反思瓶頸

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來源:智能感知與物聯(lián)網(wǎng)技術(shù)研 ? 2024-12-06 11:24 ? 次閱讀

AI 領(lǐng)域,近期的新聞焦點(diǎn)無疑是關(guān)于「Scaling Law 是否撞墻?」的辯論。這一曾經(jīng)被視作大模型發(fā)展的第一性原理,如今卻遭遇了挑戰(zhàn)。 在這樣的背景下,研究人員開始意識到,與其單純堆砌更多的訓(xùn)練算力和數(shù)據(jù)資源,不如讓模型「花更多時(shí)間思考」。以 OpenAI 推出的 o1 模型為例,通過增加推理時(shí)間,這種方法讓模型能夠進(jìn)行反思、批評、回溯和糾正,大幅提升了推理表現(xiàn)。 但問題在于,傳統(tǒng)的自我反思(Self-Reflection)和自我糾正(Self-Correction)方法存在明顯局限 —— 模型的表現(xiàn)往往受制于自身能力,缺乏外部信號的引導(dǎo),因此容易觸及瓶頸,止步不前。

462f869a-b04a-11ef-93f3-92fbcf53809c.png

▲單一模型在傳統(tǒng)自我糾正與自我優(yōu)化時(shí)往往難以糾正自身,而雙模型協(xié)作架構(gòu)下能夠獲得更有建設(shè)性的建議。 針對這些挑戰(zhàn),復(fù)旦 NLP 研究團(tuán)隊(duì)提出了一種全新的雙模型協(xié)作架構(gòu)(Two-Player Paradigm)。簡單來說,就是讓評判模型(Critique Model)參與到行為模型(Actor Model)的推理過程中 —— 行為模型專注推理,評判模型則以步驟級別的反饋為行為模型指路。 這種設(shè)計(jì)打破了傳統(tǒng)依賴于單一模型的限制,也讓行為模型能夠在訓(xùn)練和推理階段實(shí)現(xiàn)自我改進(jìn)。更重要的是,整個(gè)框架無需依賴模型蒸餾過程(例如直接模仿 o1 的思考過程),而是通過多模型協(xié)作互動獲得了高質(zhì)量、可靠的反饋信號,最終實(shí)現(xiàn)性能隨計(jì)算投增大的不斷提升。

在這篇工作中,研究團(tuán)隊(duì)聚焦以下四個(gè)核心內(nèi)容:

如何自動化構(gòu)建 critique 數(shù)據(jù)集,訓(xùn)練高效、可靠的評判模型(Critique Model);

使用評判模型推動測試階段的擴(kuò)展(Test-time Scaling);

通過交互協(xié)作提升行為模型的訓(xùn)練性能(Training-time Scaling);

基于 critique 數(shù)據(jù)的 Self-talk 幫助模型自我糾錯。

作者們提出了一個(gè)創(chuàng)新性框架——AutoMathCritique,可以自動生成步驟級別的反饋(step-level feedback),并基于此構(gòu)建了名為 MathCritique-76k 的數(shù)據(jù)集,用于訓(xùn)練評判模型。 進(jìn)一步,研究團(tuán)隊(duì)深入探討了評判模型在測試階段助力推理性能的機(jī)制,并通過引入雙模型協(xié)作架構(gòu) Critique-in-the-Loop,有效緩解了模型探索與學(xué)習(xí)的自訓(xùn)練過程中常見的長尾分布問題,為復(fù)現(xiàn) OpenAI o1 深度推理表現(xiàn)開辟了新的可能性。

論文題目:

Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision

論文鏈接:

http://arxiv.org/abs/2411.16579

項(xiàng)目主頁:

https://mathcritique.github.io/

代碼鏈接:

https://github.com/WooooDyy/MathCritique

數(shù)據(jù)鏈接:

https://huggingface.co/datasets/MathCritique/MathCritique-76k

* 本工作部分實(shí)驗(yàn)基于昇騰 910 完成

AutoMathCritique—自動化、可擴(kuò)展地構(gòu)造步驟級Critique數(shù)據(jù)為了研究 Critique 模型在架構(gòu)中的作用與性能,作者們首先訓(xùn)練了一個(gè)可靠的 Critique 模型。鑒于步驟級別反饋數(shù)據(jù)的稀缺,作者們提出了一種新的框架AutoMathCritique,用于自動化構(gòu)造多樣性推理數(shù)據(jù),并獲得步驟級別的反饋。

466ce6f2-b04a-11ef-93f3-92fbcf53809c.png

▲ AutoMathCritique 流程:通過多種方式收集錯誤數(shù)據(jù)與錯誤信息,并交由標(biāo)注模型進(jìn)行步驟級別標(biāo)注。在標(biāo)注完相應(yīng)問答反饋對后,交由 Actor 模型進(jìn)行進(jìn)一步篩選。

圖中,第一個(gè)階段「構(gòu)建錯誤推理路徑」包含三種策略:

RG1: 直接構(gòu)建整體推理路徑,在高溫度下讓 Actor 模型進(jìn)行重復(fù)采樣,采樣出的數(shù)據(jù)只會包含最終答案的錯誤信息;

RG2: 以某一條推理路徑為模板,在特定的推理步后逐漸提高溫度,讓 Actor 模型采樣出新的軌跡,采樣出的數(shù)據(jù)會包含最終答案的錯誤信息與錯誤步驟的位置信息;

RG3: 以某一條推理路徑為模板,對特定的推理步插入多樣化錯誤內(nèi)容,讓 Actor 模型繼續(xù)采樣出完整軌跡,采樣出的數(shù)據(jù)會包含最終答案的錯誤信息與錯誤步驟的位置與錯誤信息。

第二個(gè)階段「標(biāo)注步驟級別反饋」提供了詳細(xì)的反饋數(shù)據(jù):為了更好的提升反饋數(shù)據(jù)的質(zhì)量,研究人員將第一階段獲得的各類錯誤信息交由標(biāo)注模型,并提供參考答案、錯位定位和錯誤類型信息作為輔助,幫助標(biāo)注模型提供步驟級別的反饋。 第三個(gè)階段「精篩反饋」篩選出更加高質(zhì)量的數(shù)據(jù):為了進(jìn)一步篩選出能夠更好幫助 Actor 模型的數(shù)據(jù),研究人員將錯誤推理路徑與反饋數(shù)據(jù)一起輸入給 Actor 模型,根據(jù)其修改后答案的正確率決定是否保留。

4681aa2e-b04a-11ef-93f3-92fbcf53809c.png

▲AutoMathCritique收集到的信息示例 通過如上方案構(gòu)建的數(shù)據(jù)既包含模型本身所可能犯下的錯誤,又構(gòu)建了域外錯誤,使 Critique 模型能夠?qū)W習(xí)大批量、多樣化錯誤數(shù)據(jù)。而步驟級別的反饋數(shù)據(jù)使得 Actor 模型能夠更好的定位自己所犯下的錯誤,進(jìn)而提升修改的質(zhì)量。 使用如上框架,研究團(tuán)隊(duì)構(gòu)建了一個(gè)擁有 76k 數(shù)據(jù)量的數(shù)據(jù)集MathCritique-76k,其中既包含了正確推理軌跡又包含了自動化合成的錯誤軌跡,并且篩選了優(yōu)質(zhì)的步驟級別反饋數(shù)據(jù)用于之后的訓(xùn)練。

46b320c2-b04a-11ef-93f3-92fbcf53809c.png

▲MathCritique-76k 的數(shù)據(jù)構(gòu)成

Critique模型如何幫助Actor模型提高測試性能?

實(shí)驗(yàn)探究:Critique模型在測試時(shí)對Actor模型的幫助

基于如上構(gòu)建的數(shù)據(jù)集,作者以 Llama3-Instruct 系列為基座模型,微調(diào)了一個(gè)專門用于提供步驟級別反饋的 Critique 模型。其選取了常用的數(shù)學(xué)推理數(shù)據(jù)集 GSM8K 與 MATH 為測試對象,進(jìn)行了多種實(shí)驗(yàn)。 1. Critique 模型對錯誤的識別率與對 Actor 模型的幫助

46de9482-b04a-11ef-93f3-92fbcf53809c.png

▲ 不同 Critique 模型的推理軌跡正誤判斷能力與對 Actor 模型的幫助,Acc. 代表 Actor 模型在不同 Critique 模型的幫助下能夠達(dá)到的正確率。

作者選取了兩個(gè)微調(diào)后的模型與 SOTA 模型作為研究對象,發(fā)現(xiàn) Critique 模型能夠極為有效地識別出推理軌跡的正確與否,并且其所提供的步驟級別反饋能夠被 Actor 模型所用,使得 Actor 模型能夠顯著改進(jìn)自己的錯誤,以達(dá)到更高的正確率。 為了更進(jìn)一步探究 Actor 模型是如何受到幫助的,作者將數(shù)據(jù)集按照 Actor 模型初始的正確率分為了 5 個(gè)難度,并且比較在不同難度下,有無反饋數(shù)據(jù)對模型回答正確率的影響。

46faff46-b04a-11ef-93f3-92fbcf53809c.png

▲以 Actor 模型正確率(采樣 100 次)作為難度分級的指標(biāo),使用 Critique 模型的反饋數(shù)據(jù)能在更高難度題目下獲得更大的幫助。 研究發(fā)現(xiàn) Actor 模型在幾乎各個(gè)難度下,正確率均有所提升。而且在難度級別較高的題目中,Actor 模型均收到了更大的幫助,表現(xiàn)為正確率的顯著提升。這說明,使用 Critique 模型幫助 Actor 模型改進(jìn)其所不會的難題,可以是解決自我提升長尾分布難題的新方法。 2. 在 Critique 模型幫助下增加推理計(jì)算投入的性能

47138bc4-b04a-11ef-93f3-92fbcf53809c.png

▲有無反饋數(shù)據(jù)對測試時(shí) Majority voting 性能的影響,@3K 代表采樣數(shù)量為橫坐標(biāo)的三倍,以控制采樣消耗相同。

研究人員進(jìn)一步探究 Critique 模型能否在測試時(shí)提高 Actor 模型性能。他們以并行 Majority voting 的結(jié)果作為測試指標(biāo),發(fā)現(xiàn)即使在控制了相同的采樣消耗的情況下,擁有反饋數(shù)據(jù)依舊能夠顯著超過沒有反饋數(shù)據(jù)的 Actor 模型。這說明,加入 Critique 模型可以作為實(shí)現(xiàn) Test-time Scaling 的新方法之一。

Critique模型如何幫助Actor模型探索與學(xué)習(xí)?基于以上在 Test-time 的發(fā)現(xiàn),研究人員將測試階段所展現(xiàn)出來的優(yōu)勢用于訓(xùn)練階段(Training-time)的探索與學(xué)習(xí)(Exploration & Learning),進(jìn)一步探究 Critique 模型能否幫助 Actor 模型在訓(xùn)練時(shí)進(jìn)行自我優(yōu)化。 為此,他們提出了一個(gè)有難度感知的雙模型協(xié)作優(yōu)化架構(gòu)Critique-in-the-loop Self-Improvement,用于獲得更高質(zhì)量、多樣化的數(shù)據(jù),并緩解自我優(yōu)化采樣時(shí)的長尾難題。 Critique-in-the-loop Self-Improvement:有難度感知的雙模型協(xié)作優(yōu)化架構(gòu)

473bd6a6-b04a-11ef-93f3-92fbcf53809c.png

▲Critique-in-the-loop Self-Improvement算法偽代碼 研究人員提出了一種雙模型協(xié)作優(yōu)化架構(gòu)。在第一次采樣時(shí),Actor 模型會在訓(xùn)練集上重復(fù)多次采樣。針對錯誤數(shù)據(jù),研究人員使用 Critique 模型輔助 Actor 模型進(jìn)行多次自我修正,從而達(dá)到了難度感知的目的。每一輪迭代時(shí),Actor 模型總會學(xué)習(xí)正確的數(shù)據(jù),從而實(shí)現(xiàn)自我提升。

實(shí)驗(yàn)探究:Critique模型在訓(xùn)練時(shí)對模型性能的影響

1. Critique-in-the-loop 能夠有效幫助模型自我提升

476508dc-b04a-11ef-93f3-92fbcf53809c.png

▲相比于在訓(xùn)練階段只使用 Actor 模型進(jìn)行采樣(Vanilla SI), 使用 Critique 模型后,Actor 模型在測試集正確率上均有顯著提升。圖中 N 代表采樣次數(shù)。 實(shí)驗(yàn)發(fā)現(xiàn),Vanilla Self-Improve 盡管能在一定程度上提升模型的性能,然而其很快達(dá)到瓶頸,甚至開始出現(xiàn)性能的下滑。但是 Critique-in-the-loop 能夠顯著改善這一情況,既使得模型的自我提升較為穩(wěn)定,又能夠在多個(gè)采樣次數(shù)下獲得相當(dāng)顯著的性能提升。研究人員認(rèn)為,這與長尾分布難題的緩解密不可分。 2. Critique-in-the-loop 能夠緩解長尾分布難題 為了進(jìn)一步證實(shí)長尾分布難題獲得了緩解,研究人員進(jìn)一步探究在訓(xùn)練時(shí),不同難度問題的訓(xùn)練數(shù)據(jù)占總體數(shù)據(jù)集的比例。

478274da-b04a-11ef-93f3-92fbcf53809c.jpg

▲圖1. 相比于 Vanilla SI、Critique-in-the-loop 在不同難度問題中采樣出的訓(xùn)練數(shù)據(jù)比例變化。圖 2、圖 3:兩者在測試集中,不同難度問題的性能表現(xiàn)比較。 實(shí)驗(yàn)發(fā)現(xiàn),Critique-in-the-loop 能夠更有效地平衡不同難度問題占總體數(shù)據(jù)集的占比。值得注意的是,難度較高的問題所占的比例出現(xiàn)顯著上升,證實(shí)了長尾分布難題得到緩解。與此同時(shí),研究團(tuán)隊(duì)還分析了測試集上不同難度問題的性能表現(xiàn)。實(shí)驗(yàn)結(jié)論也說明,在較難問題上模型展現(xiàn)出性能的顯著提高。 3. 在測試時(shí)使用 Critique 模型,Critique-in-the-loop 能夠帶來更大的提升

479ed274-b04a-11ef-93f3-92fbcf53809c.png

▲不同訓(xùn)練策略與測試策略的性能性能。訓(xùn)練時(shí),使用了直接微調(diào)推理與有反饋的糾正數(shù)據(jù),直接微調(diào)推理與自我糾正數(shù)據(jù),無 Critique 模型的自我提升以及有 Critique 模型的自我提升四種方式。測試時(shí),比較了是否使用 Critique 模型兩種方式。 鑒于作者之前所提到的訓(xùn)練與測試時(shí) Critique 模型的好處,作者進(jìn)一步分析了兩者結(jié)合后的效果。實(shí)驗(yàn)發(fā)現(xiàn)當(dāng)使用 Critique-in-the-loop 時(shí),在測試階段使用 Critique 模型帶來的性能提升較小,說明 Critique 模型所帶來的性能提升已經(jīng)被融入到了推理模型中。盡管如此,相比于其他訓(xùn)練方案,其性能依舊有顯著優(yōu)勢。

深入分析Critique Models

實(shí)驗(yàn)探究:Critique模型擴(kuò)展性(Scaling Properties)

為了探究 Critique 模型是否對多種模型——尤其是那些模型大小與性能高于自己的 Actor 模型——做到相類似的幫助,作者固定 Critique 模型為 3B 大小的 Qwen-2.5 模型,并使用不同模型大小的 Qwen-2.5 系列模型(1.5B、3B、7B、14B)作為 Actor 模型進(jìn)行了實(shí)驗(yàn)。

47c676e4-b04a-11ef-93f3-92fbcf53809c.png

▲不同模型大小的 Actor 模型在測試賽上正確率表現(xiàn)。其中 w/o critic 代表不使用 Critique 模型,w/orcale 代表僅對原始回答錯誤的數(shù)據(jù)進(jìn)行修正。 實(shí)驗(yàn)結(jié)論發(fā)現(xiàn),無論何種模型大小, Critique 模型的存在均能顯著提升模型測試性能。然而,在較為簡單的數(shù)據(jù)集 GSM8K 上,更大的模型獲得的幫助不如較小的模型;但在較為困難的數(shù)據(jù)集 MATH 上,性能的提升依舊顯著。

實(shí)驗(yàn)探究:Critique模型對Majority Voting性能的影響

作者進(jìn)一步探究Critique 模型對 Majority Voting 性能的影響,探究當(dāng)采樣次數(shù)更大時(shí)的表現(xiàn)。

47e30502-b04a-11ef-93f3-92fbcf53809c.png

▲對 Actor 模型采樣 1000 次后的性能圖,問題按照通過率由低到高進(jìn)行排序,其中紅色部分表示該問題在 Majority Voting 下依舊做錯。 研究發(fā)現(xiàn),擁有 Critique 模型的情況下,Actor 模型在整體上提高了問題的正確率,從而帶來了 Majority Voting 的穩(wěn)定性。另外,作者們還發(fā)現(xiàn),不使用 Critique 模型時(shí),盡管 Actor 模型會給出占比較多的正確答案,然而非正確答案卻擁有更高的占比。 而擁有 Critique 模型時(shí), Actor 模型最終修改給出的答案更為一致,使得正確答案的占比會超過某些出現(xiàn)頻率較高的錯誤答案,幫助模型能夠更好的選出正確答案。

實(shí)驗(yàn)探究:不同計(jì)算投入策略對性能的影響

作者繼續(xù)探討了多種計(jì)算提升消耗策略下 Actor 模型的表現(xiàn)。實(shí)驗(yàn)使用了并行采樣與線性采樣兩種方式,并且比較了 Pass@k、Majority Voting 以及 Sequential Final(僅選取最終答案)三種方式。

47fb1ea8-b04a-11ef-93f3-92fbcf53809c.jpg

▲圖 1 及圖 2:線性與并行采樣策略下,模型的 Pass@k 表現(xiàn);圖 3 及圖 4:不同采樣策略下模型的 Majority voting 表現(xiàn)。橫坐標(biāo)表示采樣樣本的數(shù)量 實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),在 Pass@k 的設(shè)定下,線性采樣的表現(xiàn)略低于并行采樣,這可能源于并行采樣會帶來更多樣化的答案選擇。而在模型需要給出答案的設(shè)定下,僅選取最終答案并不如 Majority voting 的表現(xiàn)要好,強(qiáng)調(diào)了內(nèi)在一致方式的重要性。 隨著采樣次數(shù)的提高,線性采樣的性能超過了并行采樣的方式,這有可能源于當(dāng)采樣次數(shù)足夠大時(shí),并行采樣帶來的多樣性答案可能有害于最終的性能表現(xiàn),而線性采樣通過反復(fù)修改一個(gè)回答,使得結(jié)果更加穩(wěn)定。

A Step Further—基于Critique數(shù)據(jù)構(gòu)建Self-talk模型幫助自我糾錯最后,受到 OpenAI o1 模型的推理啟發(fā),研究人員進(jìn)一步探究Self-talk形式幫助模型自我糾錯的可能性。Self-talk 形式幫助模型在每一個(gè)推理步驟后立刻開始反思與改進(jìn),而不必等整個(gè)軌跡生成完之后再進(jìn)行改進(jìn)。

481ff746-b04a-11ef-93f3-92fbcf53809c.png

▲Self-talk 形式數(shù)據(jù)構(gòu)建示意圖 圖中,第一個(gè)階段用于「構(gòu)建初始反饋數(shù)據(jù)」。研究人員使用AutoMathCritique框架構(gòu)建步驟級別的反饋數(shù)據(jù),并加入到推理路徑中,形成初始的思維鏈。 第二個(gè)階段用于「循環(huán)修正錯誤思考鏈」。第一階段中的數(shù)據(jù)存在著錯誤的推理路徑,研究人員使用 Critique 模型幫助 Actor 模型生成新的推理路徑,并將反饋數(shù)據(jù)同樣加入到推理路徑中逐步生成思維鏈,直到整個(gè)推理路徑?jīng)]有錯誤為止。 第三個(gè)階段用于「優(yōu)化思考鏈為 Self-talk 形式」。前兩階段得到的思考鏈較為生硬,因此研究人員進(jìn)一步使用模型優(yōu)化思維鏈,使其變?yōu)樽匀坏?Self-talk 形式,并保證了最終答案的正確性。

484b4108-b04a-11ef-93f3-92fbcf53809c.png

▲Self-talk 形式數(shù)據(jù)示例 使用如上構(gòu)建的數(shù)據(jù),研究人員訓(xùn)練了一個(gè) Self-talk 模型。初步實(shí)驗(yàn)發(fā)現(xiàn),相比于軌跡級別的自我改進(jìn),Self-talk 格式能夠顯著改善模型性能。盡管表現(xiàn)不如所提出的雙模型合作架構(gòu),然而這也揭示了其潛能所在。

486d0932-b04a-11ef-93f3-92fbcf53809c.png

▲在 MATH 數(shù)據(jù)集上三種方法的各種指標(biāo),分別使用軌跡層面的自我改進(jìn),步驟層面的自我對話改進(jìn)以及雙模型協(xié)作架構(gòu)。實(shí)驗(yàn)比較了正確率、Pass@k 和 MV@k 三個(gè)指標(biāo)。

總結(jié)

本文的主要貢獻(xiàn)包括:

提出自動化構(gòu)造步驟級別 Critique 的框架AutoMathCritique;

探究 Critique 模型對于 Actor 模型在推理時(shí)的幫助;

提出擁有難度感知方式的自我改進(jìn)框架Critique-in-the-loop Self-Improvement,緩解長尾難題;

探究測試時(shí)的各種 Scaling 策略,包括模型大小,采樣策略與采樣數(shù)量等方面。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 框架
    +關(guān)注

    關(guān)注

    0

    文章

    404

    瀏覽量

    17812
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3499

    瀏覽量

    50078

原文標(biāo)題:Scaling Law撞墻?復(fù)旦提出大模型推理新思路:Two-Player架構(gòu)打破自我反思瓶頸

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 0人收藏

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    基于RAKsmart云服務(wù)器的AI大模型實(shí)時(shí)推理方案設(shè)計(jì)

    面對高并發(fā)請求、嚴(yán)格的響應(yīng)延遲要求及波動的業(yè)務(wù)負(fù)載,傳統(tǒng)本地化部署的算力瓶頸愈發(fā)顯著。RAKsmart云服務(wù)器憑借其彈性計(jì)算資源池、分布式網(wǎng)絡(luò)架構(gòu)與全棧AI加速能力,為AI大模型實(shí)時(shí)推理
    的頭像 發(fā)表于 05-13 10:33 ?155次閱讀

    詳解 LLM 推理模型的現(xiàn)狀

    2025年,如何提升大型語言模型(LLM)的推理能力成了最熱門的話題之一,大量優(yōu)化推理能力的新策略開始出現(xiàn),包括擴(kuò)展推理時(shí)間計(jì)算、運(yùn)用強(qiáng)化學(xué)習(xí)、開展監(jiān)督微調(diào)和進(jìn)行提煉等。本文將深入探討
    的頭像 發(fā)表于 04-03 12:09 ?330次閱讀
    詳解 LLM <b class='flag-5'>推理模型</b>的現(xiàn)狀

    為什么無法在運(yùn)行時(shí)C++推理中讀取OpenVINO?模型

    使用模型優(yōu)化器 2021.1 版OpenVINO?轉(zhuǎn)換模型 使用 Runtime 2022.3 版本在 C++ 推理實(shí)現(xiàn) ( core.read_model()) 中讀取模型Open
    發(fā)表于 03-05 06:17

    字節(jié)豆包大模型團(tuán)隊(duì)提出稀疏模型架構(gòu)

    字節(jié)跳動豆包大模型Foundation團(tuán)隊(duì)近期研發(fā)出UltraMem,一種創(chuàng)新的稀疏模型架構(gòu),旨在解決推理過程中的訪存問題,同時(shí)確保模型效果
    的頭像 發(fā)表于 02-13 15:25 ?564次閱讀

    字節(jié)豆包大模型團(tuán)隊(duì)推出UltraMem稀疏架構(gòu)

    字節(jié)跳動豆包大模型Foundation團(tuán)隊(duì)近期在稀疏模型架構(gòu)領(lǐng)域取得了新突破,提出了一種名為UltraMem的新型架構(gòu)。這一
    的頭像 發(fā)表于 02-13 11:17 ?643次閱讀

    北大攜智元機(jī)器?團(tuán)隊(duì)提出OmniManip架構(gòu)

    近日,北京大學(xué)與智元機(jī)器人的聯(lián)合實(shí)驗(yàn)室有了重大成果,北?攜?智元機(jī)器?團(tuán)隊(duì)提出 OmniManip 架構(gòu)。 在具身智能領(lǐng)域,將視覺語言基礎(chǔ)模型(VLMs)應(yīng)用于機(jī)器人實(shí)現(xiàn)通用操作一直是核心問題。目前
    的頭像 發(fā)表于 01-24 09:57 ?458次閱讀

    GPT架構(gòu)推理原理

    導(dǎo)讀 本篇是作者從開發(fā)人員的視角,圍繞著大模型正向推理過程,對大模型的原理的系統(tǒng)性總結(jié),希望對初學(xué)者有所幫助。 引言 什么是人工智能? 清華大學(xué)出版社出版的《人工智能概論》中提出,人工
    的頭像 發(fā)表于 01-20 13:41 ?2194次閱讀
    GPT<b class='flag-5'>架構(gòu)</b>及<b class='flag-5'>推理</b>原理

    中國電提出模型推理加速新范式Falcon

    近日,中國電信翼支付針對大模型推理加速的最新研究成果《Falcon: Faster and Parallel Inference of Large Language Models through
    的頭像 發(fā)表于 01-15 13:49 ?769次閱讀
    中國電<b class='flag-5'>提出</b>大<b class='flag-5'>模型</b><b class='flag-5'>推理</b>加速新范式Falcon

    如何開啟Stable Diffusion WebUI模型推理部署

    如何開啟Stable Diffusion WebUI模型推理部署
    的頭像 發(fā)表于 12-11 20:13 ?484次閱讀
    如何開啟Stable Diffusion WebUI<b class='flag-5'>模型</b><b class='flag-5'>推理</b>部署

    阿里云開源推理模型QwQ

    近日,阿里云通義團(tuán)隊(duì)宣布推出全新AI推理模型QwQ-32B-Preview,并同步實(shí)現(xiàn)了開源。這一舉措標(biāo)志著阿里云在AI推理領(lǐng)域邁出了重要一步。 據(jù)評測數(shù)據(jù)顯示,QwQ預(yù)覽版本已具備研究生水平的科學(xué)
    的頭像 發(fā)表于 11-29 11:30 ?1055次閱讀

    使用vLLM+OpenVINO加速大語言模型推理

    隨著大語言模型的廣泛應(yīng)用,模型的計(jì)算需求大幅提升,帶來推理時(shí)延高、資源消耗大等挑戰(zhàn)。
    的頭像 發(fā)表于 11-15 14:20 ?1284次閱讀
    使用vLLM+OpenVINO加速大語言<b class='flag-5'>模型</b><b class='flag-5'>推理</b>

    高效大模型推理綜述

    模型由于其在各種任務(wù)中的出色表現(xiàn)而引起了廣泛的關(guān)注。然而,大模型推理的大量計(jì)算和內(nèi)存需求對其在資源受限場景的部署提出了挑戰(zhàn)。業(yè)內(nèi)一直在努力開發(fā)旨在提高大
    的頭像 發(fā)表于 11-15 11:45 ?1334次閱讀
    高效大<b class='flag-5'>模型</b>的<b class='flag-5'>推理</b>綜述

    當(dāng)前主流的大模型對于底層推理芯片提出了哪些挑戰(zhàn)

    隨著大模型時(shí)代的到來,AI算力逐漸變成重要的戰(zhàn)略資源,對現(xiàn)有AI芯片也提出了前所未有的挑戰(zhàn):大算力的需求、高吞吐量與低延時(shí)、高效內(nèi)存管理、能耗等等。
    的頭像 發(fā)表于 09-24 16:57 ?1101次閱讀

    【《大語言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識學(xué)習(xí)

    和信息源來推導(dǎo)出最終答案。 問答原理的具體實(shí)現(xiàn) 1. 輸入解析 當(dāng)用戶提出問題時(shí),模型首先會對問題進(jìn)行解析,提取關(guān)鍵詞、主題和背景信息等關(guān)鍵要素。這些要素將作為后續(xù)處理和推理的基礎(chǔ)。 2. 檢索
    發(fā)表于 08-02 11:03

    LLM大模型推理加速的關(guān)鍵技術(shù)

    LLM(大型語言模型)大模型推理加速是當(dāng)前人工智能領(lǐng)域的一個(gè)研究熱點(diǎn),旨在提高模型在處理復(fù)雜任務(wù)時(shí)的效率和響應(yīng)速度。以下是對LLM大模型
    的頭像 發(fā)表于 07-24 11:38 ?1669次閱讀

    電子發(fā)燒友

    中國電子工程師最喜歡的網(wǎng)站

    • 2931785位工程師會員交流學(xué)習(xí)
    • 獲取您個(gè)性化的科技前沿技術(shù)信息
    • 參加活動獲取豐厚的禮品