精品成在人线av无码免费看,好爽好硬好大好紧好多水

2020年，GPT-3可謂火出了圈。

不僅講故事的本職工作做得風(fēng)生水起，還跨界玩起了網(wǎng)頁設(shè)計、運維、下象棋……

不過，盡管表現(xiàn)驚艷，GPT-3背后到底是實實在在的1750億參數(shù)，想要在實際應(yīng)用場景中落地，難度著實不小。

現(xiàn)在，針對這個問題，普林斯頓的陳丹琦、高天宇師徒和MIT博士生Adam Fisch在最新論文中提出，使用較小的語言模型，并用少量樣本來微調(diào)語言模型的權(quán)重。

并且，實驗證明，這一名為LM-BFF（better few-shot fine-tuning fo language models）的方法相比于普通微調(diào)方法，性能最多可以提升30%。

詳情如何，一起往下看。

方法原理

首先，研究人員采用了基于提示的預(yù)測路線。

所謂基于提示的預(yù)測，是將下游任務(wù)視為一個有遮蓋（mask）的語言建模問題，模型會直接為給定的提示生成文本響應(yīng)。

這里要解決的問題，是尋找正確的提示。這既需要該領(lǐng)域的專業(yè)知識，也需要對語言模型內(nèi)部工作原理的理解。

在本文中，研究人員提出引入一個新的解碼目標(biāo)來解決這個問題，即使用谷歌提出的T5模型，在指定的小樣本訓(xùn)練數(shù)據(jù)中自動生成提示。

其次，研究人員在每個輸入中，以額外上下文的形式添加了示例。

問題的關(guān)鍵在于，要有限考慮信息量大的示例，一方面，因為可用示例的數(shù)量會受到模型最大輸入長度的限制；另一方面，不同類型的大量隨機示例混雜在一起，會產(chǎn)生很長的上下文，不利于模型學(xué)習(xí)。

為此，研究人員開發(fā)了一種動態(tài)的、有選擇性的精細策略：對于每個輸入，從每一類中隨機抽取一個樣本，以創(chuàng)建多樣化的最小演示集。

另外，研究人員還設(shè)計了一種新的抽樣策略，將輸入與相似的樣本配對，以此為模型提供更多有價值的比較。

實驗結(jié)果

那么，這樣的小樣本學(xué)習(xí)方法能實現(xiàn)怎樣的效果？

研究人員在8個單句、7個句子對NLP任務(wù)上，對其進行了系統(tǒng)性評估，這些任務(wù)涵蓋分類和回歸。

結(jié)果顯示：

基于提示的微調(diào)在很大程度上優(yōu)于標(biāo)準(zhǔn)微調(diào)；

自動提示搜索能匹敵、甚至優(yōu)于手動提示；

加入示例對于微調(diào)而言很有效，并提高了少樣本學(xué)習(xí)的性能。

在K=16（即每一類樣本數(shù)為16）的情況下，從上表結(jié)果可以看到，該方法在所有任務(wù)中，平均能實現(xiàn)11%的性能增益，顯著優(yōu)于標(biāo)準(zhǔn)微調(diào)程序。在SNLI任務(wù)中，提升達到30%。

不過，該方法目前仍存在明顯的局限性，性能仍大大落后于采用大量樣本訓(xùn)練獲得的微調(diào)結(jié)果。

關(guān)于作者

論文有兩位共同一作。

高天宇，清華大學(xué)本科生特等獎學(xué)金獲得者，本科期間即發(fā)表4篇頂會論文，師從THUNLP實驗室的劉知遠副教授。

今年夏天，他本科畢業(yè)后赴普林斯頓攻讀博士，師從本文的另一位作者陳丹琦。

此前，量子位曾經(jīng)分享過他在寫論文、做實驗、與導(dǎo)師相處方面的經(jīng)驗。

Adam Fisch，MIT電氣工程與計算機科學(xué)專業(yè)在讀博士，是CSAIL和NLP研究小組的成員，主要研究方向是應(yīng)用于NLP的遷移學(xué)習(xí)和多任務(wù)學(xué)習(xí)。

他本科畢業(yè)于普林斯頓大學(xué)，2015-2017年期間曾任Facebook AI研究院研究工程師。

至于陳丹琦大神，想必大家已經(jīng)很熟悉了。她本科畢業(yè)于清華姚班，后于斯坦福大學(xué)拿下博士學(xué)位，2019年秋成為普林斯頓計算機科學(xué)系助理教授。

最后，該論文代碼即將開源，如果還想了解更多論文細節(jié)，請戳文末論文鏈接詳讀~

傳送門

論文地址：

https://arxiv.org/abs/2012.15723v1

項目地址：

https://github.com/princeton-nlp/LM-BFF

責(zé)任編輯：xj

原文標(biāo)題：【前沿】陳丹琦團隊最新論文：受GPT-3啟發(fā)，用小樣本學(xué)習(xí)給語言模型做微調(diào)，性能最高提升30%

文章出處：【微信公眾號：深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

語言模型

語言模型

+關(guān)注

關(guān)注
0

文章
524

瀏覽量
10277
GPT

GPT

+關(guān)注

關(guān)注
0

文章
354

瀏覽量
15383
自然語言

自然語言

+關(guān)注

關(guān)注
1

文章
288

瀏覽量
13351

原文標(biāo)題：【前沿】陳丹琦團隊最新論文：受GPT-3啟發(fā)，用小樣本學(xué)習(xí)給語言模型做微調(diào)，性能最高提升30%

文章出處：【微信號：zenRRan，微信公眾號：深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

大語言模型開發(fā)框架是什么

大語言模型開發(fā)框架是指用于訓(xùn)練、推理和部署大型語言模型的軟件工具和庫。下面，AI部落小編為您介紹大語言模

發(fā)表于 12-06 10:28 ?126次閱讀

大語言模型開發(fā)語言是什么

在人工智能領(lǐng)域，大語言模型（Large Language Models, LLMs）背后，離不開高效的開發(fā)語言和工具的支持。下面，AI部落小編為您介紹大語言

發(fā)表于 12-04 11:44 ?119次閱讀

大語言模型如何開發(fā)

大語言模型的開發(fā)是一個復(fù)雜且細致的過程，涵蓋了數(shù)據(jù)準(zhǔn)備、模型架構(gòu)設(shè)計、訓(xùn)練、微調(diào)和部署等多個階段。以下是對大語言

發(fā)表于 11-04 10:14 ?145次閱讀

【《大語言模型應(yīng)用指南》閱讀體驗】+ 基礎(chǔ)篇

今天開始學(xué)習(xí)《大語言模型應(yīng)用指南》第一篇——基礎(chǔ)篇，對于人工智能相關(guān)專業(yè)技術(shù)人員應(yīng)該可以輕松加愉快的完成此篇閱讀，但對于我還是有許多的知識點、專業(yè)術(shù)語比較陌生，需要網(wǎng)上搜索學(xué)習(xí)更多的資料才能理解書中

發(fā)表于 07-25 14:33

大語言模型的預(yù)訓(xùn)練

能力，逐漸成為NLP領(lǐng)域的研究熱點。大語言模型的預(yù)訓(xùn)練是這一技術(shù)發(fā)展的關(guān)鍵步驟，它通過在海量無標(biāo)簽數(shù)據(jù)上進行訓(xùn)練，使模型學(xué)習(xí)到語言的通用知識，為后續(xù)的任務(wù)

發(fā)表于 07-11 10:11 ?435次閱讀

大模型為什么要微調(diào)？大模型微調(diào)的原理

在人工智能（AI）領(lǐng)域，特別是自然語言處理（NLP）領(lǐng)域，大模型（如BERT、GPT系列等）的出現(xiàn)為許多復(fù)雜任務(wù)提供了強大的解決方案。然而，這些預(yù)訓(xùn)練的大模型雖然具有廣泛的適用性，但在特定任務(wù)上往往

發(fā)表于 07-10 10:43 ?4121次閱讀

【大語言模型：原理與工程實踐】大語言模型的應(yīng)用

類任務(wù)上表現(xiàn)出色，甚至在零樣本條件下也能取得良好效果。另一類則需要逐步推理才能完成的任務(wù)，類似于人類的系統(tǒng)2，如數(shù)字推理等。然而，隨著參數(shù)量的增加，大語言模型在這類任務(wù)上并未出現(xiàn)質(zhì)的飛躍，除非有精心

發(fā)表于 05-07 17:21

【大語言模型：原理與工程實踐】大語言模型的評測

大語言模型的評測是確保模型性能和應(yīng)用適應(yīng)性的關(guān)鍵環(huán)節(jié)。從基座模型到微調(diào)模型，再到行業(yè)

發(fā)表于 05-07 17:12

【大語言模型：原理與工程實踐】大語言模型的預(yù)訓(xùn)練

大語言模型的核心特點在于其龐大的參數(shù)量，這賦予了模型強大的學(xué)習(xí)容量，使其無需依賴微調(diào)即可適應(yīng)各種下游任務(wù)，而更傾向于培養(yǎng)通用的處理能力。然而，隨著學(xué)習(xí)容量的增加，對預(yù)訓(xùn)練數(shù)據(jù)的需求也相

發(fā)表于 05-07 17:10

【大語言模型：原理與工程實踐】探索《大語言模型原理與工程實踐》2.0

《大語言模型“原理與工程實踐”》是關(guān)于大語言模型內(nèi)在機理和應(yīng)用實踐的一次深入探索。作者不僅深入討論了理論，還提供了豐富的實踐案例，幫助讀者理解如何將理論知識應(yīng)用于解決實際問題。書中的案

發(fā)表于 05-07 10:30

【大語言模型：原理與工程實踐】大語言模型的基礎(chǔ)技術(shù)

特定任務(wù)對模型進行微調(diào)。這種方法的成功不僅是自然語言處理發(fā)展的一個轉(zhuǎn)折點，還為許多現(xiàn)實世界的應(yīng)用場帶來了前所未有的性能提升。從廣為人知的GPT到BERT,預(yù)訓(xùn)練的模型參數(shù)量越來越大預(yù)訓(xùn)

發(fā)表于 05-05 12:17

【大語言模型：原理與工程實踐】核心技術(shù)綜述

我也不打算把網(wǎng)上相關(guān)的信息在總結(jié)一下，這樣的話，工作量很大。我主要看了-大語言模型基礎(chǔ)技術(shù)這節(jié) 大語言模型（Large Language Models，LLMs）的核心技術(shù)涵蓋了從

發(fā)表于 05-05 10:56

【大語言模型：原理與工程實踐】揭開大語言模型的面紗

Transformer架構(gòu)，利用自注意力機制對文本進行編碼，通過預(yù)訓(xùn)練、有監(jiān)督微調(diào)和強化學(xué)習(xí)等階段，不斷提升性能，展現(xiàn)出強大的語言理解和生成能力。大語言模型的涌現(xiàn)能力，是指隨著

發(fā)表于 05-04 23:55

【大語言模型：原理與工程實踐】探索《大語言模型原理與工程實踐》

《大語言模型》是一本深入探討人工智能領(lǐng)域中語言模型的著作。作者通過對語言模型的基本概念、基礎(chǔ)技術(shù)

發(fā)表于 04-30 15:35

大語言模型推斷中的批處理效應(yīng)

隨著開源預(yù)訓(xùn)練大型語言模型（Large Language Model, LLM ）變得更加強大和開放，越來越多的開發(fā)者將大語言模型納入到他們的項目中。其中一個關(guān)鍵的適應(yīng)步驟是將領(lǐng)域特定

發(fā)表于 01-04 12:32 ?639次閱讀

搜索歷史

如何使用較小的語言模型，并用少量樣本來微調(diào)語言模型的權(quán)重

評論

大語言模型開發(fā)框架是什么

大語言模型開發(fā)語言是什么

大語言模型如何開發(fā)

【《大語言模型應(yīng)用指南》閱讀體驗】+ 基礎(chǔ)篇

大語言模型的預(yù)訓(xùn)練

大模型為什么要微調(diào)？大模型微調(diào)的原理

【大語言模型：原理與工程實踐】大語言模型的應(yīng)用

【大語言模型：原理與工程實踐】大語言模型的評測

【大語言模型：原理與工程實踐】大語言模型的預(yù)訓(xùn)練

【大語言模型：原理與工程實踐】探索《大語言模型原理與工程實踐》2.0

【大語言模型：原理與工程實踐】大語言模型的基礎(chǔ)技術(shù)

【大語言模型：原理與工程實踐】核心技術(shù)綜述

【大語言模型：原理與工程實踐】揭開大語言模型的面紗

【大語言模型：原理與工程實踐】探索《大語言模型原理與工程實踐》

大語言模型推斷中的批處理效應(yīng)

搜索歷史

如何使用較小的語言模型，并用少量樣本來微調(diào)語言模型的權(quán)重

評論

如何使用較小的語言模型，并用少量樣本來微調(diào)語言模型的權(quán)重