99蜜桃在线观看免费视频网站,av中文字幕一区少妇,亚洲成A人无码亚洲成A无码AV

為了促進(jìn)開源LLMs的工具使用能力，作者引入了 ToolLLM，這是一個數(shù)據(jù)構(gòu)建、模型訓(xùn)練和評估的通用工具使用框架。

論文：ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs
地址：https://arxiv.org/abs/2307.16789
項目：https://github.com/OpenBMB/ToolBench
單位：清華、人大、耶魯、微信、騰訊、知乎

盡管開源大語言模型 (LLM) 及其變體（例如 LLaMA 和 Vicuna）取得了進(jìn)步，但它們在執(zhí)行更高級別的任務(wù)方面仍然受到很大限制，例如遵循人類指令使用外部工具 (API)。

這是因為當(dāng)前的指令調(diào)優(yōu)主要集中在基本語言任務(wù)而不是工具使用領(lǐng)域。

這與最先進(jìn) (SOTA) 的LLMs（例如 ChatGPT）形成鮮明對比，后者展示了出色的工具使用能力，但不幸的是閉源的。

為了促進(jìn)開源LLMs的工具使用能力，我們引入了 ToolLLM，這是一個數(shù)據(jù)構(gòu)建、模型訓(xùn)練和評估的通用工具使用框架。

我們首先介紹 ToolBench，這是一個供工具使用的指令調(diào)整數(shù)據(jù)集，它是使用 ChatGPT 自動創(chuàng)建的。

具體來說，我們從 RapidAPI Hub 收集了 16,464 個真實世界的 RESTful API，涵蓋 49 個類別，然后提示 ChatGPT 生成涉及這些 API 的各種人工指令，涵蓋單工具和多工具場景。

最后，我們使用 ChatGPT 為每條指令搜索有效的解決方案路徑（API 調(diào)用鏈）。

為了使搜索過程更加高效，我們開發(fā)了一種新穎的基于深度優(yōu)先搜索的決策樹（DFSDT），使LLMs能夠評估多個推理軌跡并擴展搜索空間。我們證明 DFSDT 顯著增強了LLMs的規(guī)劃和推理能力。

為了有效評估工具使用情況，我們開發(fā)了一個自動評估器：ToolEval。

我們在ToolBench上微調(diào)LLaMA并獲得ToolLLaMA。

我們的 ToolEval 表明 ToolLLaMA 表現(xiàn)出執(zhí)行復(fù)雜指令和泛化到未見過的 API 的卓越能力，并且表現(xiàn)出與 ChatGPT 相當(dāng)?shù)男阅堋?/p>

為了使管道更加實用，我們設(shè)計了一個神經(jīng) API 檢索器來為每條指令推薦合適的 API，從而無需手動選擇 API。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴