0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

關(guān)于語言模型和對抗訓(xùn)練的工作

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 作者:深度學(xué)習(xí)自然語言 ? 2020-11-02 15:26 ? 次閱讀

論文:Adversarial Training for Large NeuralLangUageModels

源碼:https://github.com/namisan/mt-dnn

TL;DR

本文把對抗訓(xùn)練用到了預(yù)訓(xùn)練和微調(diào)兩個階段,對抗訓(xùn)練的方法是針對embedding space,通過最大化對抗損失、最小化模型損失的方式進行對抗,在下游任務(wù)上取得了一致的效果提升。

有趣的是,這種對抗訓(xùn)練方法不僅能夠在BERT上有提高,而且在RoBERTa這種已經(jīng)預(yù)訓(xùn)練好的模型上也能有所提高,說明對抗訓(xùn)練的確可以幫助模型糾正易錯點。

方法:ALUM(大型神經(jīng)語言模型的對抗性訓(xùn)練)

實現(xiàn):在embedding space添加擾動,最大化對抗損失

應(yīng)用:任何基于Transformer的語言模型的預(yù)訓(xùn)練或微調(diào)

預(yù)備知識

BPE編碼

為了解決詞匯表外單詞的問題,使用Byte-Pair Encoding(BPE)(Sennrich et al.,2015)或其變體(Kudo and Richardson,2018)將標記劃分為子詞單元,生成固定大小的子詞詞匯,以便在訓(xùn)練文本語料庫中緊湊地表示單詞。

BPE詞表既存在char-level級別的字符,也存在word-level級別的單詞。通過BPE得到了更加合適的詞表,這個詞表可能會出現(xiàn)一些不是單詞的組合,但是這個本身是有意義的一種形式。

流程:

確定subword詞表大小

統(tǒng)計每一個連續(xù)字節(jié)對的出現(xiàn)頻率,并保存為code_file。這個是git中l(wèi)earn-bpe完成

將單詞拆分為字符序列并在末尾添加后綴“ ”,而后按照code_file合并新的subword,首先合并頻率出現(xiàn)最高的字節(jié)對。例如單詞birthday,分割為['b', 'i', 'r', 't', 'h', 'd', 'a', 'y'],查code_file,發(fā)現(xiàn)'th'出現(xiàn)的最多,那么合并為['b', 'i', 'r', 'th', 'd', 'a', 'y'],最后,字符序列合并為['birth', 'day']。然后去除'',變?yōu)閇'birth', 'day'],將這兩個詞添加到詞表。這個是apply-bpe完成。

重復(fù)第3步直到達到第2步設(shè)定的subword詞表大小或下一個最高頻的字節(jié)對出現(xiàn)頻率為1

模型:ALUM

基于幾個關(guān)鍵想法:

擾動embedding空間,優(yōu)于直接對輸入文本應(yīng)用擾動。

通過虛擬對抗訓(xùn)練為標準目標添加正則化項。

其中預(yù)訓(xùn)練階段 ,微調(diào)階段

因為有最大化操作,所以訓(xùn)練昂貴。有利于embedding鄰域的標簽平滑。

文中觀點:

虛擬對抗訓(xùn)練優(yōu)于傳統(tǒng)對抗訓(xùn)練,特別是當(dāng)標簽可能有噪聲時。

例如,BERT pretraining使用masked words作為自監(jiān)督的標簽,但在許多情況下,它們可以被其他詞取代,形成完全合法的文本。但BERT中,給到被替換的word的標簽均為負。

算法

首先使用標準目標(1)訓(xùn)練模型;然后使用虛擬對抗訓(xùn)練(3)繼續(xù)訓(xùn)練。

第4-6行為求最大梯度步驟,以找到使對抗性損失最大化的擾動(反局部平滑性)。K越大的近似值越高,但成本更高。為了在速度和性能之間取得良好的平衡,本文實驗K=1.

泛化與魯棒性

文中表示,通過使用ALUM進行對抗性的預(yù)訓(xùn)練,能夠提高廣泛的NLP任務(wù)的泛化和魯棒性(如后述實驗結(jié)論所示)。之前的研究較多發(fā)現(xiàn),對抗訓(xùn)練會損害泛化能力。

先前關(guān)于泛化和魯棒性之間沖突的工作通常集中在有監(jiān)督的學(xué)習(xí)環(huán)境中。調(diào)和兩者的一些初顯成果也利用了未標記的數(shù)據(jù),例如自訓(xùn)練(Raghunathan等人,2020年)。

此外,假設(shè)通過擾動embedding空間而不是輸入空間,NLP中的對抗訓(xùn)練可能無意中偏向于流形擾動而不是規(guī)則擾動。

什么是流形

流形學(xué)習(xí)的觀點:認為我們所觀察到的數(shù)據(jù)實際上是由一個低維流形映射到高維空間的。由于數(shù)據(jù)內(nèi)部特征的限制,一些高維中的數(shù)據(jù)會產(chǎn)生維度上的冗余,實際上這些數(shù)據(jù)只要比較低的維度的維度就能唯一的表示。

所以直觀上來講,一個流形好比是一個d維的空間,在一個m維的空間中(m>d)被扭曲之后的結(jié)果。需要注意的是流形不是一個形狀,而是一個空間。舉個例子,比如說一塊布,可以把它看成一個二維的平面,這是一個二維的空間,現(xiàn)在我們把它扭一扭(三維空間),它就變成了一個流形,當(dāng)然不扭的時候,它也是一個流形,歐氏空間是流形的一種特殊情況。

實驗

提升泛化能力

BERT BASE是使用與Devlin等人相同的設(shè)置訓(xùn)練的標準BERT base模型。(即1M步,batch size = 256)。

BERT+BASE與BERT BASE相似,不同之處在于其訓(xùn)練步數(shù)為1.6M,與對抗預(yù)訓(xùn)練所需時間大致相同(ALUM BERT-BASE)。

ALUM BERT-BASE是一個BERT模型,使用與BERT BASE相同的設(shè)置進行訓(xùn)練,但最后的500K步驟使用ALUM。每一個對抗訓(xùn)練步驟大約比標準訓(xùn)練步驟長1.5倍。

可以觀察到后500k加了ALUM后提升明顯。

提升魯棒性

結(jié)合對抗預(yù)訓(xùn)練和對抗微調(diào)

之前都是在預(yù)訓(xùn)練階段做的對抗,ALUM RoBERTa-LARGE-SMART在預(yù)訓(xùn)練和微調(diào)階段均做對抗。

結(jié)論

提出了一種通用的對抗性訓(xùn)練算法ALUM:

對抗預(yù)訓(xùn)練可以顯著提高泛化能力和魯棒性。

ALUM大大提高了BERT和RoBERTa在各種NLP任務(wù)中的準確性,并且可以與對抗微調(diào)相結(jié)合以獲得進一步的收益。

未來的發(fā)展方向:

進一步研究對抗性預(yù)訓(xùn)練在提高泛化和魯棒性方面的作用;

對抗性訓(xùn)練加速;

將ALUM應(yīng)用于其他領(lǐng)域。

責(zé)任編輯:xj

原文標題:【微軟ALUM】當(dāng)語言模型遇到對抗訓(xùn)練

文章出處:【微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 微軟
    +關(guān)注

    關(guān)注

    4

    文章

    6598

    瀏覽量

    104066
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4612

    瀏覽量

    92901
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    524

    瀏覽量

    10277
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    488

    瀏覽量

    22038

原文標題:【微軟ALUM】當(dāng)語言模型遇到對抗訓(xùn)練

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    語言模型開發(fā)框架是什么

    語言模型開發(fā)框架是指用于訓(xùn)練、推理和部署大型語言模型的軟件工具和庫。下面,AI部落小編為您介紹大語言
    的頭像 發(fā)表于 12-06 10:28 ?125次閱讀

    什么是大模型、大模型是怎么訓(xùn)練出來的及大模型作用

    ,基礎(chǔ)模型。 ? 大模型是一個簡稱,完整的叫法,應(yīng)該是“人工智能預(yù)訓(xùn)練模型”。預(yù)訓(xùn)練,是一項技術(shù),我們后面再解釋。 ? 我們現(xiàn)在口頭上常說
    的頭像 發(fā)表于 11-25 09:29 ?1434次閱讀
    什么是大<b class='flag-5'>模型</b>、大<b class='flag-5'>模型</b>是怎么<b class='flag-5'>訓(xùn)練</b>出來的及大<b class='flag-5'>模型</b>作用

    從零開始訓(xùn)練一個大語言模型需要投資多少錢?

    一,前言 ? 在AI領(lǐng)域,訓(xùn)練一個大型語言模型(LLM)是一個耗時且復(fù)雜的過程。幾乎每個做大型語言模型(LLM)
    的頭像 發(fā)表于 11-08 14:15 ?213次閱讀
    從零開始<b class='flag-5'>訓(xùn)練</b>一個大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>需要投資多少錢?

    摩爾線程與羽人科技完成大語言模型訓(xùn)練測試

    (YuRen-7b)大語言模型訓(xùn)練測試。測試結(jié)果顯示,訓(xùn)練效率達到預(yù)期,夸娥千卡智算集群展現(xiàn)出了高度的兼容性和穩(wěn)定性,為羽人科技未來的零代碼訓(xùn)練
    的頭像 發(fā)表于 08-27 16:19 ?536次閱讀

    語言模型的預(yù)訓(xùn)練

    能力,逐漸成為NLP領(lǐng)域的研究熱點。大語言模型的預(yù)訓(xùn)練是這一技術(shù)發(fā)展的關(guān)鍵步驟,它通過在海量無標簽數(shù)據(jù)上進行訓(xùn)練,使模型學(xué)習(xí)到
    的頭像 發(fā)表于 07-11 10:11 ?435次閱讀

    llm模型訓(xùn)練一般用什么系統(tǒng)

    LLM(Large Language Model,大型語言模型)是近年來在自然語言處理領(lǐng)域取得顯著成果的一種深度學(xué)習(xí)模型。它通常需要大量的計算資源和數(shù)據(jù)來進行
    的頭像 發(fā)表于 07-09 10:02 ?413次閱讀

    語言模型:原理與工程實踐+初識2

    的一系列變革。 大語言模型是深度學(xué)習(xí)的應(yīng)用之一,可以認為,這些模型的目標是模擬人類交流,為了理解和生成人類語言。為此,模型需要在大量文本數(shù)據(jù)
    發(fā)表于 05-13 00:09

    語言模型:原理與工程時間+小白初識大語言模型

    解鎖 我理解的是基于深度學(xué)習(xí),需要訓(xùn)練各種數(shù)據(jù)知識最后生成自己的的語言理解和能力的交互模型。 對于常說的RNN是處理短序列的數(shù)據(jù)時表現(xiàn)出色,耳真正厲害的是Transformer,此框架被推出后直接
    發(fā)表于 05-12 23:57

    【大語言模型:原理與工程實踐】大語言模型的應(yīng)用

    。 關(guān)于語言模型是否具備與人類“系統(tǒng)2”相似的能力,存在廣泛的爭議。然而,隨著模型參數(shù)量的增加和大規(guī)模預(yù)訓(xùn)練的實施,大
    發(fā)表于 05-07 17:21

    【大語言模型:原理與工程實踐】大語言模型的預(yù)訓(xùn)練

    語言模型的核心特點在于其龐大的參數(shù)量,這賦予了模型強大的學(xué)習(xí)容量,使其無需依賴微調(diào)即可適應(yīng)各種下游任務(wù),而更傾向于培養(yǎng)通用的處理能力。然而,隨著學(xué)習(xí)容量的增加,對預(yù)訓(xùn)練數(shù)據(jù)的需求也相
    發(fā)表于 05-07 17:10

    【大語言模型:原理與工程實踐】大語言模型的基礎(chǔ)技術(shù)

    全面剖析大語言模型的核心技術(shù)與基礎(chǔ)知識。首先,概述自然語言的基本表示,這是理解大語言模型技術(shù)的前提。接著,詳細介紹自然
    發(fā)表于 05-05 12:17

    【大語言模型:原理與工程實踐】核心技術(shù)綜述

    我也不打算把網(wǎng)上相關(guān)的信息在總結(jié)一下,這樣的話,工作量很大。 我主要看了-大語言模型基礎(chǔ)技術(shù)這節(jié) 大語言模型(Large Language
    發(fā)表于 05-05 10:56

    【大語言模型:原理與工程實踐】揭開大語言模型的面紗

    語言模型(LLM)是人工智能領(lǐng)域的尖端技術(shù),憑借龐大的參數(shù)量和卓越的語言理解能力贏得了廣泛關(guān)注。它基于深度學(xué)習(xí),利用神經(jīng)網(wǎng)絡(luò)框架來理解和生成自然語言文本。這些
    發(fā)表于 05-04 23:55

    【大語言模型:原理與工程實踐】探索《大語言模型原理與工程實踐》

    處理中預(yù)訓(xùn)練架構(gòu)Transformer,以及這些技術(shù)在現(xiàn)實世界中的如何應(yīng)用。通過具體案例的分析,作者展示了大語言模型在解決實際問題中的強大能力,同時也指出了當(dāng)前技術(shù)面臨的挑戰(zhàn)和局限性。書中對大
    發(fā)表于 04-30 15:35

    盤點一下史上最全大語言模型訓(xùn)練中的網(wǎng)絡(luò)技術(shù)

    人工智能的基礎(chǔ)設(shè)施在大語言模型訓(xùn)練和推理過程中發(fā)揮了關(guān)鍵的作用。隨著大語言模型規(guī)模不斷增大,其對計算和通信的需求也在不斷增加。高
    的頭像 發(fā)表于 03-27 17:24 ?1474次閱讀
    盤點一下史上最全大<b class='flag-5'>語言</b><b class='flag-5'>模型</b><b class='flag-5'>訓(xùn)練</b>中的網(wǎng)絡(luò)技術(shù)