神經(jīng)網(wǎng)絡(luò)技術(shù)是現(xiàn)代人工智能的關(guān)鍵技術(shù),在自然語言處理、圖像處理等領(lǐng)域表現(xiàn)出優(yōu)異效果。來自東北大學(xué)自然語言處理實驗室、小牛翻譯團隊的肖桐教授、博士生李垠橋、李北在CCMT 2022會議所進行的《自然語言處理中的神經(jīng)網(wǎng)絡(luò)設(shè)計與學(xué)習(xí)》演講報告,從神經(jīng)網(wǎng)絡(luò)架構(gòu)在自然語言處理中的發(fā)展、人工神經(jīng)網(wǎng)絡(luò)設(shè)計和自動化架構(gòu)設(shè)計三個方面對該領(lǐng)域技術(shù)發(fā)展進行了全面梳理,同時也對方向的未來發(fā)展進行了分析和探討。
近些年來,人工神經(jīng)網(wǎng)絡(luò)方法已經(jīng)成為了自然語言處理中最重要的范式之一。但是,大量依賴人工設(shè)計的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),導(dǎo)致自然語言處理領(lǐng)域的發(fā)展很大程度依賴于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)上的突破。由于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計大多源自研究人員的靈感和大量經(jīng)驗性嘗試,如何挖掘這些神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)背后的邏輯,如何系統(tǒng)化的思考不同神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)之間的內(nèi)在聯(lián)系,是使用這類方法時所需要深入考慮并回答的問題。甚至,可以想象,讓計算機自動設(shè)計神經(jīng)網(wǎng)絡(luò)架構(gòu),也可以成為進一步突破人類思維限制的方向之一。
在《自然語言處理中的神經(jīng)網(wǎng)絡(luò)設(shè)計與學(xué)習(xí)》中,講者們根據(jù)自身研究經(jīng)驗對上述問題進行了回答,對神經(jīng)網(wǎng)絡(luò)架構(gòu)的基本發(fā)展脈絡(luò)、常用的神經(jīng)網(wǎng)絡(luò)架構(gòu)的設(shè)計理念進行分析,同時對神經(jīng)網(wǎng)絡(luò)架構(gòu)的自動設(shè)計方法進行整理。這些內(nèi)容可以為相關(guān)研究者供模型架構(gòu)設(shè)計上的一些思路,以及實踐中的參考。同時,講者在分享中也呼吁研究者更多地以系統(tǒng)化的思考方式來看待神經(jīng)網(wǎng)絡(luò)方法在自然語言處理中的應(yīng)用,而非簡單像“黑盒”一樣使用它們。
第一部分:神經(jīng)網(wǎng)絡(luò)架構(gòu)在自然語言處理中的發(fā)展
報告的第一部分內(nèi)容由小牛翻譯聯(lián)合創(chuàng)始人、東北大學(xué)計算機學(xué)院博士生導(dǎo)師肖桐教授講述。首先回顧了自然語言處理中神經(jīng)網(wǎng)絡(luò)的發(fā)展,從上世紀五十年代的感知機開始到如今的預(yù)訓(xùn)練模型,為自然語言處理領(lǐng)域神經(jīng)網(wǎng)絡(luò)的發(fā)展構(gòu)建了一張脈絡(luò)圖。并以該圖為主線,梳理了自然語言處理領(lǐng)域里程碑級別的神經(jīng)網(wǎng)絡(luò)模型及其影響,包括NNLM、Word2Vec、RNN、Seq2Seq、Attention、Transformer、預(yù)訓(xùn)練模型等重要工作。接下來,以神經(jīng)網(wǎng)絡(luò)架構(gòu)設(shè)計思想為核心,介紹了從不同學(xué)科的視角看神經(jīng)網(wǎng)絡(luò),并以卷積神經(jīng)網(wǎng)絡(luò)和Transformer作實例探討了隱藏在復(fù)雜模型背后的神經(jīng)網(wǎng)絡(luò)設(shè)計靈感來源,包括卷積神經(jīng)網(wǎng)絡(luò)與人類視覺系統(tǒng)感受野的關(guān)系、Transformer位置編碼和自注意力機制設(shè)計靈感來源。最后,列舉了設(shè)計神經(jīng)網(wǎng)絡(luò)架構(gòu)面臨的四個挑戰(zhàn)。
第二部分:基于人工先驗知識的神經(jīng)網(wǎng)絡(luò)設(shè)計
報告的第二部分由東北大學(xué)博士生李北講述。本部分主要關(guān)注基于人工先驗的神經(jīng)網(wǎng)絡(luò)設(shè)計,內(nèi)容圍繞基于Transformer模型的網(wǎng)絡(luò)結(jié)構(gòu)改進工作展開,包括基于跨層連接的結(jié)構(gòu)優(yōu)化、注意力機制的改進、多尺度建模、混合專家系統(tǒng)及應(yīng)用數(shù)值理論提高參數(shù)高效性五方面工作。在每個方面,講者從方法的早期靈感開始介紹,并介紹了方法的發(fā)展脈絡(luò)和隨后的改進工作,對近年來結(jié)構(gòu)優(yōu)化相關(guān)的工作實現(xiàn)了大規(guī)模的覆蓋。其中詳細討論了關(guān)于模型對淺層信息利用不充分,深層網(wǎng)絡(luò)的訓(xùn)練穩(wěn)定性,深層網(wǎng)絡(luò)的深度退化問題,注意力的局部建模,多頭注意力的增強,注意力、架構(gòu)、語義單元多尺度網(wǎng)絡(luò),多分支網(wǎng)絡(luò)設(shè)計,顯性建模和隱性建模等問題。
第三部分:自動化設(shè)計神經(jīng)網(wǎng)絡(luò)架構(gòu)
報告的第三部分由東北大學(xué)博士生李垠橋講述。主要圍繞如何通過自動化地方式對神經(jīng)網(wǎng)絡(luò)架構(gòu)進行設(shè)計而展開。在該部分中講者首先介紹了什么是神經(jīng)網(wǎng)絡(luò)架構(gòu)的自動設(shè)計,對比了機器學(xué)習(xí)中三種不同的范式的差異,然后通過對神經(jīng)網(wǎng)絡(luò)技術(shù)發(fā)展的歷史回顧切入,對自動化架構(gòu)設(shè)計在其中扮演的角色進行了梳理。在此之后講者對自動化架構(gòu)設(shè)計的整體框架進行細致的介紹,包括搜索空間、搜索策略以及性能評估,讓大家對這類方法本身具備清楚的認知。再后講者以自然語言處理任務(wù)為例介紹了如何應(yīng)用自動化機器學(xué)習(xí)的方式對結(jié)構(gòu)進行優(yōu)化和設(shè)計,對自動化架構(gòu)搜索在自然語言處理領(lǐng)域中所要解決的問題進行分析。最終,還對目前自動化架構(gòu)設(shè)計中依舊存在的重要問題進行了探討,希望對讀者有進一步的幫助和啟發(fā)。
部分slides如下:
審核編輯 :李倩
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4771瀏覽量
100777 -
自然語言處理
+關(guān)注
關(guān)注
1文章
618瀏覽量
13561 -
nlp
+關(guān)注
關(guān)注
1文章
488瀏覽量
22038
原文標題:CCMT講習(xí)班 | NLP中的神經(jīng)網(wǎng)絡(luò)設(shè)計與學(xué)習(xí)|附338頁ppt與講解文章
文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論