為了實(shí)現(xiàn)日常目標(biāo),人們通常會(huì)根據(jù)逐步指令來(lái)計(jì)劃自己的行動(dòng)。這些指令被發(fā)現(xiàn)是目標(biāo)導(dǎo)向的腳本,包括一組達(dá)成目標(biāo)的原型事件序列。為了實(shí)現(xiàn)目標(biāo)(例如制作蛋糕),通常需要按照某些指令步驟進(jìn)行,例如收集材料,預(yù)熱烤箱等。這種逐步腳本的規(guī)劃會(huì)朝著復(fù)雜目標(biāo)的推理鏈條進(jìn)行。因此,規(guī)劃自動(dòng)化意味著在各個(gè)領(lǐng)域中實(shí)現(xiàn)更智能和合理的人工智能系統(tǒng),例如可執(zhí)行的機(jī)器人系統(tǒng)和用于問(wèn)題解決的推理系統(tǒng)。
最近的研究表明,語(yǔ)言模型(LMs)可以用于計(jì)劃腳本。先前的工作已經(jīng)表明,大型語(yǔ)言模型(LLMs),例如GPT-3、InstructGPT和PaLM,可以以零/少量示例的方式有效地將目標(biāo)分解為過(guò)程步驟。為了訓(xùn)練專業(yè)模型,研究人員提出了自動(dòng)理解和生成腳本知識(shí)的數(shù)據(jù)集。但是,先前的工作主要關(guān)注于針對(duì)典型活動(dòng)的抽象目標(biāo)進(jìn)行規(guī)劃。針對(duì)具有特定約束條件(例如糖尿病患者)目標(biāo)的規(guī)劃仍然未得到充分研究。
本文介紹了復(fù)旦大學(xué)知識(shí)工場(chǎng)實(shí)驗(yàn)室的最新研究論文《Distilling Script Knowledge from Large Language Models for Constrained Language Planning》,該文已經(jīng)被自然語(yǔ)言處理頂會(huì)ACL 2023作為主會(huì)長(zhǎng)文錄用。本文工作關(guān)注約束語(yǔ)言規(guī)劃的問(wèn)題,將語(yǔ)言規(guī)劃推向了更具體的目標(biāo)。論文作者評(píng)估了LLMs的少量示例約束語(yǔ)言規(guī)劃能力,并為L(zhǎng)LMs開(kāi)發(fā)了一種超生成然后過(guò)濾的方法,使準(zhǔn)確性提高了26%?;诒疚牡姆椒?,作者還使用LLMs生成了一個(gè)約束語(yǔ)言規(guī)劃的高質(zhì)量腳本數(shù)據(jù)集(CoScript)。利用CoScript,可為專業(yè)化和小型模型提供具有約束語(yǔ)言規(guī)劃能力的能力,其性能可媲美LLMs。
一、研究背景
為了實(shí)現(xiàn)日常目標(biāo),人們通常會(huì)根據(jù)逐步指令來(lái)計(jì)劃自己的行動(dòng)。這些指令被發(fā)現(xiàn)是目標(biāo)導(dǎo)向的腳本,包括一組達(dá)成目標(biāo)的原型事件序列。為了實(shí)現(xiàn)目標(biāo)(例如制作蛋糕),通常需要按照某些指令步驟進(jìn)行,例如收集材料,預(yù)熱烤箱等。這種逐步腳本的規(guī)劃會(huì)朝著復(fù)雜目標(biāo)的推理鏈條進(jìn)行。因此,規(guī)劃自動(dòng)化意味著在各個(gè)領(lǐng)域中實(shí)現(xiàn)更智能和合理的人工智能系統(tǒng),例如可執(zhí)行的機(jī)器人系統(tǒng)和用于問(wèn)題解決的推理系統(tǒng)。
圖1:InstructGPT生成了一系列“為糖尿病患者做蛋糕”的目標(biāo)規(guī)劃步驟
最近的研究表明,語(yǔ)言模型(LMs)可以用于計(jì)劃腳本。先前的工作已經(jīng)表明,大型語(yǔ)言模型(LLMs),例如GPT-3、InstructGPT和PaLM,可以以零/少量示例的方式有效地將目標(biāo)分解為過(guò)程步驟。為了訓(xùn)練專業(yè)模型,研究人員提出了自動(dòng)理解和生成腳本知識(shí)的數(shù)據(jù)集。但是,先前的工作主要關(guān)注于針對(duì)典型活動(dòng)的抽象目標(biāo)進(jìn)行規(guī)劃。針對(duì)具有特定約束條件(例如糖尿病患者)的目標(biāo)的規(guī)劃仍然未得到充分研究。
二、基于大規(guī)模語(yǔ)言模型的限制約束語(yǔ)言規(guī)劃
在本文中,作者定義了約束語(yǔ)言規(guī)劃問(wèn)題,該問(wèn)題對(duì)規(guī)劃目標(biāo)施加不同的約束。例如,抽象目標(biāo)(制作蛋糕)可以由具有多方面約束的不同現(xiàn)實(shí)特定目標(biāo)所繼承。蛋糕可以用1)不同的配料(例如巧克力或香草);2)各種工具(例如使用微波爐或烤箱);或3)不同的用途(例如用于婚禮或生日派對(duì))來(lái)制作。
表1:促進(jìn)特定目標(biāo)新實(shí)例生成的三種約束類型及其定義
一個(gè)好的規(guī)劃者應(yīng)編寫(xiě)合理并忠實(shí)于約束的腳本。為此,作者探究了LLMs是否會(huì)忠實(shí)于約束地進(jìn)行規(guī)劃。由于沒(méi)有特定目標(biāo)的數(shù)據(jù)集支持本文的研究,必須首先獲取這些目標(biāo)。如表1所述,作者使用InstructGPT對(duì)抽象目標(biāo)進(jìn)行了多方面約束的人在環(huán)數(shù)據(jù)采集進(jìn)行擴(kuò)展。首先,作者手動(dòng)準(zhǔn)備了一個(gè)示例池,從中使用約束從抽象目標(biāo)中推導(dǎo)出具體目標(biāo)。每個(gè)示例都附帶有一個(gè)約束類型(即修飾符、方法或意圖),并包含多個(gè)約束和特定目標(biāo),以便InstructGPT為一個(gè)抽象目標(biāo)生成多個(gè)具體目標(biāo)。
接下來(lái),作者枚舉wikiHow的每個(gè)抽象目標(biāo),以確保數(shù)據(jù)多樣性。然后,從池中隨機(jī)抽取約束類型的多個(gè)示例。最后,將任務(wù)提示、示例和抽象目標(biāo)輸入InstructGPT中,以完成具體目標(biāo)。表2(I)中的一個(gè)示例顯示了InstructGPT針對(duì)抽象目標(biāo)(“制作蛋糕”)和約束類型修飾符以及一些示例生成了約束“巧克力”和“香草”,并完成了特定目標(biāo)(“制作巧克力蛋糕”和“制作香草蛋糕”)。獲取帶有約束的具體目標(biāo)后,可以測(cè)試LLM實(shí)現(xiàn)這些目標(biāo)的能力。
表2: InstructGPT的提示示例,用于通過(guò)上下文學(xué)習(xí)生成特定目標(biāo)和腳本。生成的文本已經(jīng)被突出顯示
表3報(bào)告了結(jié)果的整體準(zhǔn)確度,從中可以發(fā)現(xiàn):1)總體而言,所有基準(zhǔn)模型在特定目標(biāo)的規(guī)劃上都取得了不令人滿意的結(jié)果,其中InstructGPT表現(xiàn)最佳?!白屛覀円徊揭徊剿伎肌辈⒉荒軒椭?;2)從wikiHow檢索不會(huì)導(dǎo)致所需的腳本。
表3:不同約束類型的生成腳本準(zhǔn)確率(%),通過(guò)人工評(píng)估得出。
為了回應(yīng)本文方法的動(dòng)機(jī),作者進(jìn)行了詳細(xì)的分析,以研究為何LLM會(huì)失敗。圖3的結(jié)果表明:1)生成的腳本的語(yǔ)義完整性是可以接受的,但約束的忠實(shí)度無(wú)法保證;2)本文的方法在語(yǔ)義完整性和約束忠實(shí)度方面都極大地提高了規(guī)劃質(zhì)量。
圖2:通過(guò)人工評(píng)估生成的腳本的錯(cuò)誤
因此,作者采用了過(guò)度生成然后過(guò)濾的思路來(lái)提高生成質(zhì)量。正如圖3所示,作者從InstructGPT中過(guò)度生成K個(gè)樣本,然后開(kāi)發(fā)一個(gè)過(guò)濾模型來(lái)選擇忠實(shí)的腳本。由于語(yǔ)言表達(dá)方式多樣,作者依賴于目標(biāo)和腳本之間的語(yǔ)義相似性進(jìn)行過(guò)濾,而不是規(guī)則和模式(即,必須在腳本中出現(xiàn)約束詞)。
作者首先收集了一組目標(biāo),包括所求目標(biāo)作為正樣本以及從相同的抽象目標(biāo)生成的其他目標(biāo)作為負(fù)樣本。然后,將腳本和目標(biāo)轉(zhuǎn)換為InstructGPT嵌入,并計(jì)算余弦相似性作為相似性分?jǐn)?shù)來(lái)衡量語(yǔ)義相似性。此外,作者獎(jiǎng)勵(lì)明確包含目標(biāo)約束關(guān)鍵字的腳本,只有所求目標(biāo)在目標(biāo)集合得分最高時(shí)才會(huì)保留該腳本。
圖3:使用InstructGPT生成具體目標(biāo)并使用超生成-過(guò)濾框架進(jìn)行目標(biāo)規(guī)劃的工作流程。
結(jié)果如表3所示。使用本文的方法,InstructGPT可以大幅提高腳本的質(zhì)量。將相似度函數(shù)替換為來(lái)自其他預(yù)訓(xùn)練模型的嵌入會(huì)導(dǎo)致性能下降。
三、從大模型中獲取腳本知識(shí)
LLMs成本高,需為更小、專業(yè)化模型添加語(yǔ)言規(guī)劃能力。為實(shí)現(xiàn)此目標(biāo),創(chuàng)建數(shù)據(jù)集是必要步驟,但以前的數(shù)據(jù)集不支持特定目標(biāo)的規(guī)劃,手動(dòng)注釋成本高。為此,作者使用符號(hào)知識(shí)蒸餾從LLMs中提取受限制的語(yǔ)言規(guī)劃數(shù)據(jù)集。作者使用超生成-過(guò)濾框架為受限制的語(yǔ)言規(guī)劃腳本數(shù)據(jù)集CoScript構(gòu)建了高質(zhì)量的具體目標(biāo)和腳本,總共生成了55,000個(gè)具體目標(biāo)和相應(yīng)的腳本。
作者還隨機(jī)選擇2,000個(gè)數(shù)據(jù)作為驗(yàn)證集,3,000個(gè)數(shù)據(jù)作為測(cè)試集。為確保驗(yàn)證集和測(cè)試集的質(zhì)量,作者要求眾包工作者查找和修正不正確的樣本。通過(guò)收集這5,000個(gè)樣本的注釋數(shù)據(jù)進(jìn)行錯(cuò)誤識(shí)別,估計(jì)出具體目標(biāo)的準(zhǔn)確率為97.80%,受限腳本生成的準(zhǔn)確率為94.98%,與表3中的結(jié)果一致。
表4:Coscript和之前數(shù)據(jù)集的對(duì)比
并與其他數(shù)據(jù)集進(jìn)行了比較,如表4所示,發(fā)現(xiàn)CoScript比proScript規(guī)模更大,具有更多的腳本和更高的每個(gè)腳本步驟數(shù),并且CoScript具有高度的詞匯多樣性。
圖4:CoScript的約束分布
圖4顯示了CoScript的約束分布,發(fā)現(xiàn)CoScript在生成的具體目標(biāo)中顯示出高度的異質(zhì)性和多元化。有趣的是,InstructGPT傾向于以“if”或“when”這樣的詞語(yǔ)開(kāi)始假設(shè)性約束(例如,“如果有人對(duì)乳糖不耐受,則制作蛋糕”),這表明未來(lái)在語(yǔ)言規(guī)劃中進(jìn)行反事實(shí)推理的研究潛力。
四、小模型的約束規(guī)劃能力
有了CoScript,可以為受限制的語(yǔ)言規(guī)劃訓(xùn)練更小但更專業(yè)化的模型。表5顯示了在wikiHow和CoScript上訓(xùn)練的模型的比較。一般而言,CoScript訓(xùn)練的LMs表現(xiàn)優(yōu)于wikiHow。T5在忠實(shí)度上優(yōu)于GPT-2,可能是由于其編碼器-解碼器框架更擅長(zhǎng)處理輸入信息。然而,在其他文本生成指標(biāo)上,GPT-2優(yōu)于T5。這可能是因?yàn)镃oScript是從InstructGPT蒸餾而來(lái),導(dǎo)致數(shù)據(jù)分布存在偏差,偏向于僅解碼的因果語(yǔ)言模型,例如GPT系列。而且我們發(fā)現(xiàn)使用檢索示例來(lái)增強(qiáng)模型可以提高語(yǔ)義完整性。
表5:不同訓(xùn)練集上模型的總體腳本生成性能。請(qǐng)注意,所有模型的測(cè)試集相同。
作者進(jìn)一步在CoScript和wikiHow上微調(diào)T5(3B),以生成§4.4中保留在訓(xùn)練集之外的具體目標(biāo)的腳本。表7顯示,使用檢索增強(qiáng)微調(diào)的T5可以生成比表3中大多數(shù)LLMs質(zhì)量更高的腳本,這表明當(dāng)適當(dāng)?shù)卦谶m當(dāng)?shù)臄?shù)據(jù)集上進(jìn)行訓(xùn)練時(shí),較小的模型也可以超越較大的模型。
表6:不同模型生成的腳本準(zhǔn)確率(%)。我們?cè)趙ikiHow和CoScript上微調(diào)了T5(3B),同時(shí)通過(guò)少樣本上下文學(xué)習(xí)來(lái)部署LLMs。
五、總 結(jié)
本文旨在定義在特定約束條件下朝著特定目標(biāo)進(jìn)行規(guī)劃。本文作者提出了一種更好的提示方法,用以改進(jìn)LLMs的受約束語(yǔ)言規(guī)劃能力,并從LLMs中提煉出了一個(gè)新的數(shù)據(jù)集(CoScript)。實(shí)驗(yàn)表明,本文的方法提高了LLMs針對(duì)特定目標(biāo)的規(guī)劃質(zhì)量,而在CoScript上訓(xùn)練的較小模型甚至優(yōu)于LLMs。希望CoScript數(shù)據(jù)集能成為推進(jìn)更加復(fù)雜和多樣化目標(biāo)和約束條件下的語(yǔ)言規(guī)劃研究的寶貴資源。
審核編輯:劉清
-
機(jī)器人
+關(guān)注
關(guān)注
211文章
28467瀏覽量
207332 -
人工智能
+關(guān)注
關(guān)注
1791文章
47352瀏覽量
238777 -
過(guò)濾器
+關(guān)注
關(guān)注
1文章
430瀏覽量
19630 -
GPT
+關(guān)注
關(guān)注
0文章
354瀏覽量
15414
原文標(biāo)題:從大模型中蒸餾腳本知識(shí)用于約束語(yǔ)言規(guī)劃
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論