Databricks 發(fā)布了 Dolly 2.0,這是該公司于兩周前發(fā)布的一種訓(xùn)練成本不到 30 美元,類似 ChatGPT 的大型語(yǔ)言模型 (LLM) Dolly 的改進(jìn)版本。公告稱,Dolly 2.0 是第一個(gè)開源的指令跟隨型語(yǔ)言模型,它在人類生成的指令數(shù)據(jù)集上進(jìn)行了微調(diào),可用于研究和商業(yè)用途。
根據(jù)介紹,Dolly 1.0 使用了斯坦福大學(xué) Alpaca 團(tuán)隊(duì)使用 OpenAI API 創(chuàng)建的數(shù)據(jù)集進(jìn)行訓(xùn)練;該數(shù)據(jù)集包含 ChatGPT 的輸出,而其服務(wù)條款試圖阻止任何人創(chuàng)建與 OpenAI 競(jìng)爭(zhēng)的模型。因此,Dolly 1.0 并不能用于商業(yè)用途。且據(jù)已知信息,目前所有現(xiàn)有的知名指令跟隨模型 (Alpaca, Koala, GPT4All, Vicuna) 都受到此限制,禁止商業(yè)使用。為了解決這個(gè)難題,Databricks 于是決定創(chuàng)建一個(gè)沒(méi)有商業(yè)用途限制的新數(shù)據(jù)集。
Dolly 2.0 是一個(gè)基于 EleutherAI pythia 模型系列的 12B 參數(shù)語(yǔ)言模型,并在透明且免費(fèi)提供的數(shù)據(jù)集上進(jìn)行了微調(diào);該數(shù)據(jù)集稱為 databricks-dolly-15k,也已開源發(fā)布。Databricks 表示,他們正在開源整個(gè) Dolly 2.0,包括訓(xùn)練代碼、數(shù)據(jù)集和模型權(quán)重,所有這些都適合商業(yè)使用。這意味著任何組織都可以創(chuàng)建、擁有和定制強(qiáng)大的 LLM,這些 LLM 可以與人們交談,而無(wú)需支付 API 訪問(wèn)費(fèi)用或與第三方共享數(shù)據(jù)。
databricks-dolly-15k 包含來(lái)自數(shù)千名 Databricks 員工的 15,000 個(gè)高質(zhì)量的人工生成的提示 / 響應(yīng)對(duì),專為指令調(diào)優(yōu)大型語(yǔ)言模型而設(shè)計(jì)。且 databricks-dolly-15k 根據(jù)(Creative Commons Attribution-ShareAlike 3.0 Unported License)的許可條款,任何人都可以出于任何目的使用、修改或擴(kuò)展此數(shù)據(jù)集,包括商業(yè)應(yīng)用程序。
Databricks 稱這是 “第一個(gè)開源的、人工生成的指令語(yǔ)料庫(kù),專門設(shè)計(jì)用于讓大型語(yǔ)言能夠展示 ChatGPT 的神奇交互性”。并補(bǔ)充到,雖然 databricks-dolly-15k 比訓(xùn)練 Dolly 1.0 的數(shù)據(jù)集 Alpaca 小得多,但基于 EleutherAI 的 pythia-12b 生成的 Dolly 2.0 模型表現(xiàn)出高質(zhì)量的指令遵循行為。另一方面, databricks-dolly-15k 是由專業(yè)人士生成的、質(zhì)量很高,并且包含對(duì)大多數(shù)任務(wù)的長(zhǎng)篇答案。
Databricks 表示,他們并沒(méi)有期望 Dolly 在有效性方面達(dá)到最先進(jìn)水平。但確實(shí)希望 Dolly 和開源數(shù)據(jù)集將成為大量后續(xù)工作的種子,“這可能有助于引導(dǎo)出更強(qiáng)大的語(yǔ)言模型”。
“我們還認(rèn)為,偏見(jiàn)、問(wèn)責(zé)制和人工智能安全等重要問(wèn)題應(yīng)該由不同利益相關(guān)者組成的廣泛社區(qū)來(lái)解決,而不僅僅是少數(shù)大公司。開源數(shù)據(jù)集和模型鼓勵(lì)評(píng)論、研究和創(chuàng)新,這將有助于確保每個(gè)人都能從人工智能技術(shù)的進(jìn)步中受益?!?/p>
審核編輯 :李倩
-
人工智能
+關(guān)注
關(guān)注
1792文章
47532瀏覽量
239278 -
語(yǔ)言模型
+關(guān)注
關(guān)注
0文章
533瀏覽量
10303 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1208瀏覽量
24754 -
LLM
+關(guān)注
關(guān)注
0文章
297瀏覽量
359
原文標(biāo)題:Dolly 2.0發(fā)布,首個(gè)真正開放、可商用的指令調(diào)優(yōu)LLM
文章出處:【微信號(hào):OSC開源社區(qū),微信公眾號(hào):OSC開源社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論