為了促進(jìn)開源LLMs的工具使用能力,作者引入了 ToolLLM,這是一個數(shù)據(jù)構(gòu)建、模型訓(xùn)練和評估的通用工具使用框架。
論文:ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs
地址:https://arxiv.org/abs/2307.16789
項目:https://github.com/OpenBMB/ToolBench
單位:清華、人大、耶魯、微信、騰訊、知乎
盡管開源大語言模型 (LLM) 及其變體(例如 LLaMA 和 Vicuna)取得了進(jìn)步,但它們在執(zhí)行更高級別的任務(wù)方面仍然受到很大限制,例如遵循人類指令使用外部工具 (API)。
這是因為當(dāng)前的指令調(diào)優(yōu)主要集中在基本語言任務(wù)而不是工具使用領(lǐng)域。
這與最先進(jìn) (SOTA) 的LLMs(例如 ChatGPT)形成鮮明對比,后者展示了出色的工具使用能力,但不幸的是閉源的。
為了促進(jìn)開源LLMs的工具使用能力,我們引入了 ToolLLM,這是一個數(shù)據(jù)構(gòu)建、模型訓(xùn)練和評估的通用工具使用框架。
我們首先介紹 ToolBench,這是一個供工具使用的指令調(diào)整數(shù)據(jù)集,它是使用 ChatGPT 自動創(chuàng)建的。
具體來說,我們從 RapidAPI Hub 收集了 16,464 個真實世界的 RESTful API,涵蓋 49 個類別,然后提示 ChatGPT 生成涉及這些 API 的各種人工指令,涵蓋單工具和多工具場景。
最后,我們使用 ChatGPT 為每條指令搜索有效的解決方案路徑(API 調(diào)用鏈)。
為了使搜索過程更加高效,我們開發(fā)了一種新穎的基于深度優(yōu)先搜索的決策樹(DFSDT),使LLMs能夠評估多個推理軌跡并擴展搜索空間。我們證明 DFSDT 顯著增強了LLMs的規(guī)劃和推理能力。
為了有效評估工具使用情況,我們開發(fā)了一個自動評估器:ToolEval。
我們在ToolBench上微調(diào)LLaMA并獲得ToolLLaMA。
我們的 ToolEval 表明 ToolLLaMA 表現(xiàn)出執(zhí)行復(fù)雜指令和泛化到未見過的 API 的卓越能力,并且表現(xiàn)出與 ChatGPT 相當(dāng)?shù)男阅堋?/p>
為了使管道更加實用,我們設(shè)計了一個神經(jīng) API 檢索器來為每條指令推薦合適的 API,從而無需手動選擇 API。
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7133瀏覽量
89369 -
開源
+關(guān)注
關(guān)注
3文章
3396瀏覽量
42638 -
語言模型
+關(guān)注
關(guān)注
0文章
536瀏覽量
10311
原文標(biāo)題:劉知遠(yuǎn)等眾多機構(gòu)提出ToolLLM:促進(jìn)大型語言模型掌握16000+真實世界的APIs
文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論