大型語言模型 (LLM) 的快速發(fā)展徹底改變了聊天機器人系統(tǒng),從而實現(xiàn)了前所未有的智能水平,譬如 OpenAI 的 ChatGPT。但 ChatGPT 的訓(xùn)練和架構(gòu)細節(jié)仍不清楚,阻礙了該領(lǐng)域的研究和開源創(chuàng)新。受 Meta LLaMA 和 Stanford Alpaca 項目的啟發(fā),來自加州大學伯克利分校、CMU、斯坦福大學和加州大學圣地亞哥分校的成員,共同推出了一個 Vicuna-13B 開源聊天機器人,由增強的數(shù)據(jù)集和易于使用、可擴展的基礎(chǔ)設(shè)施支持。
根據(jù)介紹,通過根據(jù)從 ShareGPT.com (一個用戶可以分享他們的 ChatGPT 對話的網(wǎng)站) 收集的用戶共享對話微調(diào) LLaMA 基礎(chǔ)模型,Vicuna-13B 與 Stanford Alpaca 等其他開源模型相比展示了具有競爭力的性能。
以 GPT-4 為評判標準的初步評估顯示,Vicuna-13B 達到了 OpenAI ChatGPT 和 Google Bard 90% 以上的質(zhì)量,同時在 90% 以上的情況下超過了 LLaMA 和 Stanford Alpaca 等其他模型的表現(xiàn)。訓(xùn)練 Vicuna-13B 成本約為 300 美元。訓(xùn)練和服務(wù)代碼,以及在線演示都是公開的,可用于非商業(yè)用途。
為了確保數(shù)據(jù)質(zhì)量,Vicuna 團隊將 HTML 轉(zhuǎn)換回 markdown 并過濾掉一些不合適或低質(zhì)量的樣本。以及將冗長的對話分成更小的部分,以適應(yīng)模型的最大上下文長度。其訓(xùn)練方法建立在 Stanford Alpaca 的基礎(chǔ)上,并進行了以下改進:
內(nèi)存優(yōu)化:為了使 Vicuna 能夠理解長上下文,開發(fā)團隊將最大上下文長度從 Alpaca 中的 512 擴展到 2048,大大增加了 GPU 內(nèi)存需求。通過利用 utilizing gradient checkpointing 和 flash attention 來解決內(nèi)存壓力。
多輪對話:調(diào)整訓(xùn)練損失以考慮多輪對話,并僅根據(jù)聊天機器人的輸出計算微調(diào)損失。
通過 Spot 實例降低成本:40 倍大的數(shù)據(jù)集和 4 倍的訓(xùn)練序列長度對訓(xùn)練費用提出了相當大的挑戰(zhàn)。Vicuna 團隊使用 SkyPilot managed spot 來降低成本,方法是利用更便宜的 spot 實例以及自動恢復(fù)搶占和自動區(qū)域切換。該解決方案將 7B 模型的訓(xùn)練成本從 500 美元削減至 140 美元左右,將 13B 模型的訓(xùn)練成本從 1000 美元左右削減至 300 美元。
Vicuna 團隊構(gòu)建了一個服務(wù)系統(tǒng),該系統(tǒng)能夠使用分布式 workers 為多個模型提供服務(wù);它支持來自本地集群和云的 GPU worker 的靈活插件。通過利用 SkyPilot 中的容錯控制器和 managed spot 功能,該服務(wù)系統(tǒng)可以很好地與來自多個云的更便宜的 spot 實例一起工作,以降低服務(wù)成本。它目前是一個輕量級的實現(xiàn),未來將努力將集成更多的最新研究成果。
具體來說,開發(fā)團隊首先從 ShareGPT.com 收集了大約 7 萬個對話,然后增強了 Alpaca 提供的訓(xùn)練腳本,以更好地處理多輪對話和長序列;訓(xùn)練在一天內(nèi)在 8 個 A100 GPU 上使用 PyTorch FSDP 完成。為了提供演示服務(wù),他們還實現(xiàn)了一個輕量級的分布式服務(wù)系統(tǒng)。通過創(chuàng)建一組 80 個不同的問題并利用 GPT-4 來判斷模型輸出,對模型質(zhì)量進行了初步評估。為了比較兩個不同的模型,團隊成員將每個模型的輸出組合成每個問題的單個提示。然后將提示發(fā)送到 GPT-4,GPT-4 評估哪個模型提供更好的響應(yīng)。
LLaMA、Alpaca、ChatGPT 和 Vicuna 的詳細對比如下:
Vicun 團隊展示了 Alpaca 和 Vicuna 對基準問題的回答示例。在使用 70K 用戶共享的 ChatGPT 對話對 Vicuna 進行微調(diào)后,其發(fā)現(xiàn)與 Alpaca 相比,Vicuna 能夠生成更詳細、結(jié)構(gòu)更合理的答案,并且質(zhì)量與 ChatGPT 相當。
例如,在要求 “撰寫一篇引人入勝的旅游博文,介紹最近的夏威夷之行,突出文化體驗和必去的景點” 時,GPT-4 的評價得分為:Alpaca-13b 7/10,Vicuna-13b 10/10。并闡述理由稱,Alpaca 提供了旅行博文的簡要概述,但沒有按照要求實際撰寫博文,導(dǎo)致得分較低。Vicuna-13b 則就最近的夏威夷之行撰寫了一篇詳細而有吸引力的旅游博文,強調(diào)了文化體驗和必看的景點,完全滿足了用戶的要求,因此獲得了較高的分數(shù)。
與此同時,Vicun 的初步發(fā)現(xiàn)表明,在比較聊天機器人的答案時,GPT-4 可以產(chǎn)生高度一致的等級和詳細的評估。下圖中總結(jié)的基于 GPT-4 的初步評估顯示,Vicuna 達到了 Bard/ChatGPT 的 90% 能力。不過總的來說,為聊天機器人建立一個評估系統(tǒng)仍是一個需要進一步研究的開放式問題。
Vicun 團隊提出了一個基于 GPT-4 的評估框架來自動評估聊天機器人的性能。設(shè)計了八個問題類別,以測試聊天機器人性能的各個方面。并基于每個類別選擇十個問題,分別由 LLaMA、Alpaca、ChatGPT、Bard 和 Vicuna 生成答案,然后要求 GPT-4 根據(jù)有用性、相關(guān)性、準確性和細節(jié)來評估答案質(zhì)量。結(jié)果發(fā)現(xiàn) GPT-4 不僅可以產(chǎn)生相對一致的分數(shù),而且可以詳細解釋為什么給出這樣的分數(shù)(詳細示例鏈接)。但在判斷編碼 / 數(shù)學任務(wù)方面,GPT-4 則不太擅長。
數(shù)據(jù)表明在超過 90% 的問題中,相較 LLaMA、Alpaca 等,GPT-4 更傾向 Vicuna 生成的答案,并且它實現(xiàn)了可與專有模型(ChatGPT、Bard)競爭的性能。在 45% 的問題中,GPT-4 將 Vicuna 的回答評為優(yōu)于或等于 ChatGPT 的回答。
總的來說,雖然最近行業(yè)發(fā)展如火如荼,但事實上聊天機器人仍然面臨局限性,例如難以解決基本的數(shù)學問題或編碼能力有限。且為聊天機器人開發(fā)一個全面、標準化的評估系統(tǒng),也是一個需要進一步研究的懸而未決的問題。
開發(fā)團隊承認,Vicuna 不擅長涉及推理或數(shù)學的任務(wù),并且在準確識別自己或確保其輸出的事實準確性方面可能存在局限性。此外,它還沒有得到充分優(yōu)化以保證安全性或減輕潛在的毒性或偏見。為了解決安全問題,他們使用 OpenAI moderation API 來過濾掉在線演示中不適當?shù)挠脩糨斎搿?/p>
審核編輯 :李倩
-
開源
+關(guān)注
關(guān)注
3文章
3349瀏覽量
42505 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1208瀏覽量
24704 -
聊天機器人
+關(guān)注
關(guān)注
0文章
339瀏覽量
12312 -
OpenAI
+關(guān)注
關(guān)注
9文章
1089瀏覽量
6528
原文標題:低成本開源聊天機器人Vicuna:可達到ChatGPT/Bard 90%以上水平
文章出處:【微信號:OSC開源社區(qū),微信公眾號:OSC開源社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論