前言
最近,大語(yǔ)言模型(LLMs)在許多任務(wù)上表現(xiàn)出接近人類(lèi)水平的性能,這引發(fā)了行業(yè)興趣和資金投入的激增,有關(guān)LLMs的論文最近也層出不窮。
看起來(lái),NLP領(lǐng)域似乎已被LLMs占滿(mǎn),這讓一些研究者感到無(wú)所適從,尤其是那些剛?cè)胄械牟┦可鷤?,他們可能?huì)認(rèn)為,“LLMs似乎已經(jīng)解決了所有NLP的子任務(wù)!那我還能做些什么呢?”
事實(shí)上,NLP不僅僅是LLMs。NLP的應(yīng)用遠(yuǎn)比簡(jiǎn)單地預(yù)測(cè)下一個(gè)詞要廣泛得多。此外,LLMs的訓(xùn)練需要大量數(shù)據(jù)和計(jì)算資源,這對(duì)于大多數(shù)研究者來(lái)說(shuō)難以承擔(dān)。
這篇論文是由美國(guó)某NLP研究實(shí)驗(yàn)室的成員撰寫(xiě)的,旨在探討LLM時(shí)代NLP研究的未來(lái)。這些成員圍繞一個(gè)問(wèn)題進(jìn)行了頭腦風(fēng)暴:除了LLMs的開(kāi)發(fā)外,還有哪些有趣的、不依賴(lài)于付費(fèi)資源的研究領(lǐng)域適合作為博士論文的研究方向。(劇透一下:還有很多這樣的研究領(lǐng)域?。?/p>
下面我們來(lái)介紹一下文中所提到的一些適合研究的有趣方向。
論文:A PhD Student’s Perspective on Research in NLP in the Era of Very Large Language Models
地址:https://arxiv.org/pdf/2305.12544.pdf
項(xiàng)目:https://bit.ly/nlp-era-llm
多語(yǔ)言模型/處理低資源語(yǔ)言
多語(yǔ)言模型是能夠處理多種語(yǔ)言的模型,但開(kāi)發(fā)多語(yǔ)言模型中,如何利用低資源語(yǔ)言仍然是一個(gè)主要挑戰(zhàn)。因?yàn)榈唾Y源語(yǔ)言的訓(xùn)練數(shù)據(jù)有限。目前的方法包括數(shù)據(jù)增強(qiáng)、并行語(yǔ)料庫(kù)挖掘和光學(xué)字符識(shí)別(OCR)等。
然而,最先進(jìn)的機(jī)器翻譯模型(如NLLB-200)在許多低資源語(yǔ)言(如非洲語(yǔ)言)上仍然表現(xiàn)較差。即使是ChatGPT在馬拉地語(yǔ)、巽他語(yǔ)和商務(wù)語(yǔ)等低資源語(yǔ)言上的翻譯效果也很差。此外,ChatGPT在低資源語(yǔ)言到英語(yǔ)的翻譯中表現(xiàn)相當(dāng)好,但在英語(yǔ)到低資源語(yǔ)言的翻譯中表現(xiàn)不佳。
研究方向
在當(dāng)前低資源的語(yǔ)言基準(zhǔn)上(如FLORES-200)改進(jìn)機(jī)器翻譯性能。針對(duì)資源極低的語(yǔ)言,可以利用圣經(jīng)(世界上翻譯最多的文檔)等現(xiàn)有文本作為開(kāi)發(fā)機(jī)器翻譯系統(tǒng)的起點(diǎn)。此外,手動(dòng)創(chuàng)建平行語(yǔ)料庫(kù)和利用構(gòu)詞法模型開(kāi)發(fā)翻譯詞典等方法也是重要的研究路徑。
提高適用于所有語(yǔ)言的多語(yǔ)言模型的性能。目前的多語(yǔ)言模型在各種語(yǔ)言上的表現(xiàn)不一致,需要進(jìn)一步探索多語(yǔ)言模型需要的數(shù)據(jù)量以及在哪種語(yǔ)言組合上能夠?qū)崿F(xiàn)相似的性能。此外,通過(guò)cross-lingual projection和利用現(xiàn)有的機(jī)器翻譯系統(tǒng),將模型架構(gòu)轉(zhuǎn)移到其他語(yǔ)言也是一個(gè)研究方向。
Code-switching。Code-switching是指說(shuō)話者在不同語(yǔ)言之間切換的現(xiàn)象,這種訓(xùn)練數(shù)據(jù)很難獲得。目前的研究重點(diǎn)包括LLMs是否可以生成這類(lèi)數(shù)據(jù),探索LLMs在不同語(yǔ)言組合上的泛化能力以及在區(qū)分高度相似語(yǔ)言(如同一母語(yǔ)下的不同方言)上的學(xué)習(xí)能力。
LLMs的推理能力
NLP中的推理對(duì)于問(wèn)答、閱讀理解和對(duì)話系統(tǒng)等任務(wù)至關(guān)重要,因?yàn)樗梢栽鰪?qiáng)模型在未知場(chǎng)景中的泛化能力。從基于規(guī)則和符號(hào)的方法到概率模型和機(jī)器學(xué)習(xí)算法的統(tǒng)計(jì)方法,NLP研究經(jīng)歷了巨大變化。近年來(lái),深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)徹底改變了這一領(lǐng)域,在各任務(wù)上取得了先進(jìn)性能。然而,要實(shí)現(xiàn)類(lèi)似人類(lèi)的推理和泛化能力仍面臨挑戰(zhàn)。
研究方向
穩(wěn)健的形式推理。形式推理一直是一個(gè)具有挑戰(zhàn)性的任務(wù),LLMs遠(yuǎn)未完全掌握數(shù)值推理等形式推理、邏輯推理和因果推理任務(wù)。為此,研究人員致力于探索結(jié)合神經(jīng)網(wǎng)絡(luò)和符號(hào)人工智能的優(yōu)勢(shì),例如通過(guò)集成計(jì)算器、python程序、數(shù)據(jù)庫(kù)知識(shí)檢索或搜索引擎,提升模型在形式推理方面的準(zhǔn)確性和魯棒性。
在現(xiàn)實(shí)世界中的推理。由于NLP模型的訓(xùn)練主要依賴(lài)于與文本世界的交互,因此在推理過(guò)程中缺乏現(xiàn)實(shí)世界經(jīng)驗(yàn)的基礎(chǔ)。這可能導(dǎo)致模型在生成響應(yīng)時(shí)缺乏實(shí)際可行性或考慮不到現(xiàn)實(shí)約束。為了解決這一問(wèn)題,研究人員正在探索整合外部知識(shí)來(lái)源、多模態(tài)數(shù)據(jù)或模擬現(xiàn)實(shí)世界場(chǎng)景的方法,以提升模型的推理能力。
社會(huì)環(huán)境中的負(fù)責(zé)任推理。模型將需要做出復(fù)雜的決策,其中包括道德推理。例如,在創(chuàng)建網(wǎng)站時(shí),可能需要考慮一些道德選擇,如迎合特定的亞群體,或過(guò)度優(yōu)化用戶(hù)注意力或點(diǎn)擊率。在理解或提高AI系統(tǒng)在不同社會(huì)背景和文化背景下對(duì)社會(huì)復(fù)雜和道德相關(guān)的場(chǎng)景進(jìn)行推理的能力方面,還有很多需要研究的地方。
正式定義推理,設(shè)計(jì)合適的評(píng)價(jià)框架。當(dāng)前的挑戰(zhàn)之一是,如何定義LLMs的推理?當(dāng)模型記住一個(gè)推理模式時(shí),我們應(yīng)該將其視為推理技能還是對(duì)知識(shí)的掌握?除此之外,我們還面臨著如何測(cè)試模型推理能力的問(wèn)題。數(shù)據(jù)污染、古德哈特定律(一旦數(shù)據(jù)集被利用就無(wú)法反映技能)以及缺乏可靠的評(píng)估指標(biāo)來(lái)評(píng)估多步推理等問(wèn)題仍待解決。
提示如何幫助推理?有兩種類(lèi)型的提示對(duì)于提升推理能力非常有價(jià)值:in-context learning和思維鏈(CoT)。然而,LLMs到底是在進(jìn)行真正的推理,還是僅僅生成統(tǒng)計(jì)上相似的序列,以及AI系統(tǒng)在多大程度上可以從幾個(gè)示例中學(xué)習(xí)推理,這些問(wèn)題仍存在爭(zhēng)議。
知識(shí)庫(kù)
知識(shí)庫(kù)從現(xiàn)實(shí)世界抽象出概念、實(shí)體及其關(guān)系,在許多應(yīng)用中發(fā)揮著重要作用,例如關(guān)系提取和機(jī)器閱讀。當(dāng)前的LLMs在內(nèi)部知識(shí)方面仍存在局限性。無(wú)論是一般知識(shí)、特定領(lǐng)域知識(shí)都存在限制。此外,LLMs經(jīng)常會(huì)出現(xiàn)幻覺(jué),根據(jù)錯(cuò)誤的事實(shí)提出主張。雖然基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)(RLHF)可以減輕這個(gè)問(wèn)題,但幻覺(jué)問(wèn)題仍然是模型固有的。通過(guò)結(jié)合知識(shí)庫(kù)改進(jìn)模型的輸出,可以減少幻覺(jué),使用戶(hù)更容易驗(yàn)證主張的正確性。
研究方向
Knowledge-guided LLM。為了解決幻覺(jué)問(wèn)題,可以將經(jīng)過(guò)驗(yàn)證的知識(shí)與LLMs的回復(fù)進(jìn)行結(jié)合。已經(jīng)有研究人員嘗試使用DialogGPT等系統(tǒng)來(lái)檢索或生成知識(shí),以增強(qiáng)生成的回應(yīng)。Bing等搜索引擎也會(huì)在回答問(wèn)題之前進(jìn)行網(wǎng)絡(luò)查詢(xún)。然而,如何有效地與定制的外部知識(shí)庫(kù)進(jìn)行交互仍然是一個(gè)待解決的問(wèn)題。
自動(dòng)構(gòu)建知識(shí)庫(kù)。許多應(yīng)用程序可以從專(zhuān)門(mén)的知識(shí)庫(kù)中受益。自動(dòng)構(gòu)建這類(lèi)知識(shí)庫(kù)是一個(gè)有趣的研究方向,但也面臨著許多挑戰(zhàn),如知識(shí)覆蓋范圍、知識(shí)真實(shí)性、知識(shí)鏈接等。在構(gòu)建醫(yī)療保健或化學(xué)等專(zhuān)業(yè)領(lǐng)域的知識(shí)庫(kù)時(shí),這些挑戰(zhàn)會(huì)更加突出。然而,一旦這些問(wèn)題得到解決,研究人員將能夠利用LLMs動(dòng)態(tài)地管理來(lái)自最新原始文本和復(fù)雜應(yīng)用本體的知識(shí)庫(kù),例如跟蹤來(lái)自PubMed文章的藥物相互作用。
一般和文化常識(shí)。NLP模型中可用的文化知識(shí)通常僅限于少數(shù)西方文化,無(wú)法涵蓋世界文化觀點(diǎn)的多樣性。隨著NLP應(yīng)用的廣泛傳播,這種限制可能直接影響用戶(hù),因?yàn)樗鼪](méi)有考慮到用戶(hù)的價(jià)值觀、信仰和世界觀。此外一個(gè)主要的開(kāi)放研究方向是如何獲取和表達(dá)編碼這些文化觀點(diǎn)的知識(shí),以及何時(shí)和如何調(diào)用這些文化知識(shí)。
Language Grounding
Language Grounding是語(yǔ)言與世界(可以是物理的或非物理的)的事物或經(jīng)驗(yàn)聯(lián)系起來(lái)的能力,如TextWorld等文字游戲。該領(lǐng)域的探索主要利用多模態(tài)數(shù)據(jù)構(gòu)建數(shù)據(jù)集和任務(wù)。視覺(jué)問(wèn)答、圖像和視頻字幕、文本到圖像檢索以及文本到圖像/視頻生成等流行任務(wù)已經(jīng)取得了重要進(jìn)展。越來(lái)越多的多模態(tài)模型(如GPT-4)不斷擴(kuò)大其訓(xùn)練語(yǔ)料庫(kù),并增加音頻等多樣輸入的支持。
盡管GPT-4展示了令人印象深刻的zero-shot性能,超越了大多數(shù)微調(diào)但規(guī)模較小的多模態(tài)模型,但它們也存在一些成本與限制。首先,它們?nèi)狈?duì)世界的真正理解,無(wú)法具備領(lǐng)域知識(shí),在現(xiàn)實(shí)生活中的應(yīng)用有一定局限性。其次,這些模型往往難以解釋?zhuān)覀冸y以理解其生成新數(shù)據(jù)時(shí)的不可靠行為,如幻覺(jué)問(wèn)題。最后,由于昂貴的計(jì)算資源需求,只有少數(shù)大學(xué)和機(jī)構(gòu)能夠負(fù)擔(dān)得起適當(dāng)使用這些模型。
研究方向
有效結(jié)合多種模態(tài)。如何最佳地整合音頻、視頻、文本等不同模態(tài)仍然是一個(gè)待解決的問(wèn)題。不同模態(tài)通常相互補(bǔ)充(例如,手勢(shì)可以輔助口頭表達(dá)),從而減少對(duì)大量數(shù)據(jù)的依賴(lài)。然而,在某些情況下,不同模態(tài)可能會(huì)相互競(jìng)爭(zhēng),一些研究表明,在特定情況下單模態(tài)模型優(yōu)于多模態(tài)模型。
較少研究的模態(tài)。大部分研究都集中在視覺(jué)、文本或音頻模態(tài)上。然而,在Language Grounding的背景下,較少研究的模態(tài),如生理、感覺(jué)或行為,對(duì)于多種應(yīng)用具有重要價(jià)值,例如測(cè)量駕駛員的警覺(jué)性、抑郁檢測(cè)或欺騙行為檢測(cè)。
在現(xiàn)實(shí)世界和不同領(lǐng)域中的應(yīng)用。大部分研究都基于在實(shí)驗(yàn)室環(huán)境中收集的數(shù)據(jù),或者基于室內(nèi)活動(dòng)(如電影或烹飪)的圖像和視頻數(shù)據(jù)。在現(xiàn)實(shí)世界和戶(hù)外環(huán)境中Grounding的研究相對(duì)較少。此外,將這些模型應(yīng)用于不同領(lǐng)域(如機(jī)器人、醫(yī)學(xué)、導(dǎo)航、教育和可訪問(wèn)性)需要適應(yīng)使用較少的數(shù)據(jù)點(diǎn)或不同類(lèi)型的數(shù)據(jù),并結(jié)合領(lǐng)域?qū)I(yè)知識(shí)以更好地理解外部環(huán)境。
網(wǎng)絡(luò)環(huán)境中的NLP
網(wǎng)絡(luò)環(huán)境中的NLP可分為兩個(gè)對(duì)立的現(xiàn)象:內(nèi)容生成和審核。內(nèi)容的快速生成得到了廣泛支持,但也存在制造假新聞和虛假信息的風(fēng)險(xiǎn),需要及時(shí)審核和監(jiān)管。通過(guò)使用NLP來(lái)監(jiān)控和分析用戶(hù)生成的內(nèi)容,可以保持在線生態(tài)系統(tǒng)的平衡。
然而,內(nèi)容生成和審核仍然存在一些問(wèn)題。在生成方面,需要識(shí)別潛在的惡意操縱。在審核方面,現(xiàn)有的審核模型仍然不夠透明、準(zhǔn)確、可問(wèn)責(zé)和理解。此外,構(gòu)建用于檢測(cè)不需要的內(nèi)容的模型面臨分類(lèi)困難、數(shù)據(jù)標(biāo)注耗時(shí)和學(xué)術(shù)數(shù)據(jù)集不足等挑戰(zhàn)。
研究方向
檢測(cè)和揭穿在線錯(cuò)誤信息。NLP系統(tǒng)可以幫助事實(shí)核查員減緩誤導(dǎo)性?xún)?nèi)容的傳播。同時(shí),需要發(fā)展低資源和跨語(yǔ)言的NLP系統(tǒng)來(lái)幫助解決錯(cuò)誤信息問(wèn)題。多模態(tài)處理和社交網(wǎng)絡(luò)分析(例如誰(shuí)喜歡或轉(zhuǎn)發(fā)了該內(nèi)容)也可提高錯(cuò)誤信息檢測(cè)效果。
確保多樣化的代表性。隨著LLMs的普及,需要注意防止網(wǎng)絡(luò)上的聲音過(guò)度集中,特別是邊緣化群體的代表性。
避免過(guò)度審核。內(nèi)容審核技術(shù)應(yīng)考慮到不同群體和文化環(huán)境中的細(xì)微差異,以確保公平性。同時(shí),需要關(guān)注政府對(duì)在線討論話題的限制,維護(hù)言論自由。
識(shí)別生成內(nèi)容背后的涉眾。隨著機(jī)器生成內(nèi)容的增加,識(shí)別值得信任的信息將變得更加具有挑戰(zhàn)性。發(fā)展NLP模型以識(shí)別生成內(nèi)容背后的利益相關(guān)者及其利益類(lèi)型,如商業(yè)利潤(rùn)或政治利益,是一個(gè)有希望的方向。
兒童語(yǔ)言習(xí)得和LLM之間的聯(lián)系
兒童語(yǔ)言習(xí)得作為一個(gè)基線,在通往高效AGI的道路上具有重要意義。兒童通過(guò)有限的互動(dòng)和觀察就能掌握多種語(yǔ)言,而不需要海量訓(xùn)練文本。研究探索LLMs與兒童語(yǔ)言習(xí)得之間的聯(lián)系,并借鑒統(tǒng)計(jì)學(xué)習(xí)的背景。這一領(lǐng)域的發(fā)展對(duì)于低資源和瀕危語(yǔ)言具有廣泛的影響。
然而,要實(shí)現(xiàn)這一研究還存在許多挑戰(zhàn),由于研究?jī)和睦щy性,包括招募和倫理審查委員會(huì)對(duì)數(shù)據(jù)收集的限制。兒童無(wú)法有效地交流,往往只能獲得有限的數(shù)據(jù),這限制了實(shí)驗(yàn)的設(shè)計(jì)和數(shù)據(jù)的表達(dá)能力。在兒童語(yǔ)言研究中,通常需要父母的參與,以確保孩子專(zhuān)注于實(shí)驗(yàn)并遵循指導(dǎo)。此外,難以控制實(shí)驗(yàn)對(duì)象也導(dǎo)致難以控制混雜變量。
研究方向
樣本高效的語(yǔ)言學(xué)習(xí)。對(duì)樣本高效語(yǔ)言學(xué)習(xí)進(jìn)行基礎(chǔ)和理論研究,并開(kāi)發(fā)更高效的NLP工具,是十分必要的。一個(gè)相關(guān)方向是設(shè)定樣本高效語(yǔ)言學(xué)習(xí)的基線,以推動(dòng)數(shù)據(jù)效率方面的進(jìn)展。
兒童語(yǔ)言習(xí)得的基準(zhǔn)發(fā)展。簡(jiǎn)化和擴(kuò)展子語(yǔ)言基準(zhǔn)的構(gòu)建,利用大型視頻數(shù)據(jù)集進(jìn)行控制實(shí)驗(yàn),培養(yǎng)專(zhuān)門(mén)為兒童學(xué)習(xí)語(yǔ)言設(shè)計(jì)的模型,以深入理解兒童語(yǔ)言使用和開(kāi)發(fā)更有效學(xué)習(xí)模型的方式。
語(yǔ)言模型作為兒童語(yǔ)言習(xí)得的生物學(xué)模型。將NLP模型視為生物模型,探索人類(lèi)嬰兒語(yǔ)言習(xí)得的理論。利用現(xiàn)有數(shù)據(jù)集和新的基準(zhǔn)以及強(qiáng)大的語(yǔ)言模型,進(jìn)行實(shí)驗(yàn)研究,分析語(yǔ)言習(xí)得過(guò)程,獲得關(guān)于兒童語(yǔ)言習(xí)得的新見(jiàn)解,如音位級(jí)習(xí)得和內(nèi)在獎(jiǎng)勵(lì)機(jī)制等。
非語(yǔ)言交流
非語(yǔ)言交流是一種重要的人際交流形式,包括手勢(shì)、面部表情、肢體語(yǔ)言和姿勢(shì)等。最近的研究強(qiáng)調(diào)將非語(yǔ)言信息與語(yǔ)言表征相結(jié)合,以獲得更豐富的表征。理解非語(yǔ)言模式和語(yǔ)言之間的一致性仍然是一個(gè)未解決的問(wèn)題,特別是考慮到這些模式的不同特點(diǎn)和解釋的挑戰(zhàn)。例如,在手語(yǔ)研究中,仍需解決許多問(wèn)題,包括手語(yǔ)數(shù)據(jù)集的構(gòu)建和有效計(jì)算模型的開(kāi)發(fā)。
研究方向
非語(yǔ)言信息的表征。非語(yǔ)言交際的多個(gè)子領(lǐng)域需要對(duì)非語(yǔ)言信息進(jìn)行表示、離散化和解釋的研究。需要找到適用于不同模式、上下文和文化的理想表征集,以實(shí)現(xiàn)面部表情和手勢(shì)的解釋并確保在不同模式下的一致性。
手語(yǔ)的理解、生成和翻譯。手語(yǔ)詞匯和語(yǔ)料庫(kù)的發(fā)展對(duì)于訓(xùn)練和評(píng)估計(jì)算模型至關(guān)重要。理解手語(yǔ)的挑戰(zhàn)包括手勢(shì)的高度可變性和其他非手動(dòng)特征的影響,如面部表情、身體姿勢(shì)和眼睛注視。同時(shí),手語(yǔ)生成的研究旨在提高手語(yǔ)交流的流暢性和表達(dá)力,涉及同一手語(yǔ)使用者之間、使用不同手語(yǔ)的人以及口頭和手語(yǔ)同時(shí)存在的情況。
有效的語(yǔ)言和非語(yǔ)言溝通。在溝通過(guò)程中,語(yǔ)言和非語(yǔ)言信號(hào)都應(yīng)該被綜合考慮。建立能夠理解和解釋語(yǔ)言和非語(yǔ)言信號(hào)的聯(lián)合模型是AI輔助通信的長(zhǎng)期目標(biāo)。研究問(wèn)題包括語(yǔ)言模型的發(fā)展以及有效的融合方法,以實(shí)現(xiàn)同時(shí)進(jìn)行語(yǔ)言和非語(yǔ)言交流的大型聯(lián)合模型。
合成數(shù)據(jù)集
當(dāng)傳統(tǒng)的人類(lèi)數(shù)據(jù)收集變得不可行、昂貴或存在隱私問(wèn)題時(shí),在NLP研究中通常需要使用合成數(shù)據(jù)。隨著生成模型的發(fā)展,合成數(shù)據(jù)生成已經(jīng)在各個(gè)領(lǐng)域得到了廣泛應(yīng)用。例如,用于低資源語(yǔ)言的反向翻譯、語(yǔ)義解析、意圖分類(lèi)、結(jié)構(gòu)化數(shù)據(jù)生成或醫(yī)學(xué)對(duì)話生成等方面都有相關(guān)的例子。如果需要在特定領(lǐng)域進(jìn)行適應(yīng),通常需要對(duì)模型進(jìn)行預(yù)訓(xùn)練,并通過(guò)提示模型生成數(shù)據(jù)集,然后使用自動(dòng)或?qū)<因?yàn)證的方式評(píng)估生成數(shù)據(jù)集的質(zhì)量。
然而,使用合成數(shù)據(jù)也面臨一些挑戰(zhàn)。其中包括數(shù)據(jù)質(zhì)量控制困難(由于缺乏文本生成的評(píng)估指標(biāo))、缺乏多樣性、數(shù)據(jù)生成模型中存在的潛在偏差,以及數(shù)據(jù)生成模型固有的限制,例如難以捕捉遠(yuǎn)程依賴(lài)關(guān)系。
研究方向
知識(shí)蒸餾。研究如何將LLM的知識(shí)轉(zhuǎn)移到較小的模型中。這個(gè)任務(wù)可以通過(guò)將LLM的輸出用作合成示例來(lái)實(shí)現(xiàn),這種方法可以轉(zhuǎn)換或控制生成的數(shù)據(jù)的特性。研究者們還嘗試使用微調(diào)的模型來(lái)過(guò)濾質(zhì)量,并使用更小、更集中的模型來(lái)模擬LLM的行為(如Alpaca)。
控制生成的數(shù)據(jù)屬性。目前的方法是通過(guò)提供自然文本規(guī)范和示例來(lái)控制生成數(shù)據(jù)的屬性。然而,優(yōu)化這些提示通常是基于試錯(cuò),而且指定屬性可能不夠準(zhǔn)確或存在噪聲。因此,開(kāi)發(fā)魯棒、可控和可復(fù)制的合成數(shù)據(jù)生成范式仍然是一個(gè)待解決的研究問(wèn)題。
轉(zhuǎn)換現(xiàn)有的數(shù)據(jù)集。關(guān)注如何通過(guò)對(duì)現(xiàn)有數(shù)據(jù)集進(jìn)行各種修改來(lái)創(chuàng)建新的數(shù)據(jù)集,同時(shí)保持?jǐn)?shù)據(jù)的語(yǔ)義不變。常見(jiàn)的轉(zhuǎn)換方法包括格式更改、情態(tài)轉(zhuǎn)換和風(fēng)格轉(zhuǎn)換,以實(shí)現(xiàn)不同樣式的數(shù)據(jù)生成,如將文本從一種寫(xiě)作風(fēng)格轉(zhuǎn)換為另一種風(fēng)格。
NLP的可解釋性
可解釋性是理解和解釋機(jī)器學(xué)習(xí)模型決策過(guò)程的任務(wù),旨在增加其透明性和合理性,以促進(jìn)可信的NLP實(shí)踐。過(guò)去的NLP系統(tǒng),如基于規(guī)則的方法、隱馬爾可夫模型和邏輯回歸等,被認(rèn)為是可解釋的白盒技術(shù)。然而,NLP的最新進(jìn)展主要是黑盒方法,以可解釋性為代價(jià)。為了解決這個(gè)問(wèn)題,研究人員開(kāi)始關(guān)注開(kāi)發(fā)能夠揭示NLP模型內(nèi)部工作原理的技術(shù)。這些技術(shù)包括注意機(jī)制、基于規(guī)則的系統(tǒng)和可視化方法。
當(dāng)前的NLP可解釋性研究主要集中在理解模型的預(yù)測(cè)、特征重要性和決策過(guò)程等方面。注意力機(jī)制、LIME和SHAP等技術(shù)提供了對(duì)模型行為的洞察。然而,在健壯性、普遍性和倫理考慮等方面仍存在挑戰(zhàn)。此外,可解釋性方法通常缺乏標(biāo)準(zhǔn)化,難以處理復(fù)雜的大型模型,限制了它們?cè)趯?shí)際場(chǎng)景中的應(yīng)用。
研究方向
探索模型內(nèi)部表征。研究NLP模型的內(nèi)部表征,以揭示其推理能力和潛在偏差,并探索模型對(duì)語(yǔ)言的探測(cè)任務(wù)和世界知識(shí)的捕獲。
機(jī)制解釋性。研究模型中的潛在機(jī)制和算法,以揭示其決策過(guò)程,并通過(guò)提取計(jì)算子圖和逆向工程整個(gè)深度神經(jīng)網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)機(jī)制解釋性。
Human-in-the-loop提高可解釋性。結(jié)合人的反饋和專(zhuān)業(yè)知識(shí)來(lái)提高模型的可解釋性,促進(jìn)透明度和信任,并識(shí)別和解決偏見(jiàn)和道德考慮。
基于引用生成的文本。通過(guò)附加引用和顯示額外推理步驟,為生成模型的輸出提供可靠的來(lái)源,以提高可解釋性和用戶(hù)信任度。
高效的NLP
為了應(yīng)對(duì)不斷擴(kuò)大的語(yǔ)言模型規(guī)模和不斷增長(zhǎng)的資源消耗所帶來(lái)的挑戰(zhàn),我們需要探索高效的NLP。擴(kuò)大模型規(guī)模被認(rèn)為是實(shí)現(xiàn)NLP任務(wù)最先進(jìn)性能的基本方法,但這需要大量能源和財(cái)政資源,引發(fā)了對(duì)AI碳足跡和NLP產(chǎn)品開(kāi)發(fā)經(jīng)濟(jì)負(fù)擔(dān)的擔(dān)憂(yōu)。在數(shù)據(jù)管理、模型設(shè)計(jì)和訓(xùn)練范例方面,我們?nèi)杂泻艽蟮母倪M(jìn)空間。通過(guò)處理數(shù)據(jù)重復(fù)、提高數(shù)據(jù)質(zhì)量和管理大量數(shù)據(jù),可以提高數(shù)據(jù)效率。在模型設(shè)計(jì)方面,提高注意機(jī)制效率、開(kāi)發(fā)無(wú)參數(shù)模塊減少參數(shù)量、優(yōu)化模型深度或效率是主要挑戰(zhàn)。最后,在訓(xùn)練范例方面,有機(jī)會(huì)通過(guò)promot和微調(diào)提高NLP效率。
研究方向
數(shù)據(jù)的效率。通過(guò)刪除重復(fù)、冗余或噪聲數(shù)據(jù),以更少的數(shù)據(jù)項(xiàng)提高性能。目前的工作主要關(guān)注去除噪聲示例和無(wú)用數(shù)據(jù),但對(duì)于龐大的語(yǔ)料庫(kù)或原始web數(shù)據(jù)管理,需要更有效的數(shù)據(jù)重復(fù)刪除方法。
模型設(shè)計(jì)。改進(jìn)注意力機(jī)制來(lái)提高模型效率的方法已經(jīng)被廣泛研究,但在處理非常長(zhǎng)的上下文建模方面仍存在挑戰(zhàn)。稀疏模型可以通過(guò)增加寬度來(lái)增加表達(dá)性,同時(shí)降低計(jì)算量。基于Transformer的模型的前饋層中應(yīng)用混合專(zhuān)家架構(gòu)也是一種值得嘗試的實(shí)踐。
高效的下游任務(wù)適應(yīng)。通過(guò)微調(diào)預(yù)訓(xùn)練模型來(lái)適應(yīng)下游任務(wù)的有效方法已經(jīng)被提出,其中包括prompt tuning和prefix tuning等技術(shù)。然而,需要找到一種高效的自動(dòng)提示構(gòu)建方法,以提高下游任務(wù)的適應(yīng)性。
面向教育的NLP
NLP在教育領(lǐng)域的應(yīng)用涵蓋了多個(gè)方面,如語(yǔ)言學(xué)習(xí)應(yīng)用程序、語(yǔ)法糾正工具、評(píng)分輔助工具、課程和評(píng)估開(kāi)發(fā)工具以及教育研究人員的工具。近年來(lái),隨著B(niǎo)ERT、RoBERTa等模型的發(fā)布,研究人員開(kāi)始探索這些模型在教育領(lǐng)域的應(yīng)用,并逐漸引入更大規(guī)模的模型。目前,許多在教育領(lǐng)域部署的NLP應(yīng)用是在廣泛使用大型語(yǔ)言模型之前開(kāi)發(fā)的。隨著進(jìn)一步的研究和發(fā)展,我們很可能會(huì)看到基于大型語(yǔ)言模型的任務(wù)特定模型在教育領(lǐng)域得到大規(guī)模應(yīng)用。
研究方向
可控文本生成。可控的文本生成技術(shù)可以用于個(gè)性化的學(xué)習(xí)體驗(yàn)。例如,通過(guò)自動(dòng)生成與學(xué)生興趣相關(guān)的故事來(lái)引入新術(shù)語(yǔ),或者根據(jù)學(xué)生的閱讀水平修改故事內(nèi)容。此外,閱讀理解方面的研究也可以應(yīng)用于基于學(xué)生先前經(jīng)驗(yàn)和測(cè)試結(jié)果的個(gè)性化學(xué)習(xí)體驗(yàn)。
教育解釋生成。個(gè)性化的課堂材料可以包括針對(duì)學(xué)生理解困難的解釋。例如,使用NLP系統(tǒng)幫助學(xué)生理解學(xué)術(shù)論文中復(fù)雜的句子,或者改寫(xiě)老師給出的答案,以提供與學(xué)生知識(shí)體系相關(guān)的解釋。自動(dòng)評(píng)分也是NLP在教育領(lǐng)域做出貢獻(xiàn)的一個(gè)領(lǐng)域,但仍存在著為不完美的分?jǐn)?shù)提供解釋的研究問(wèn)題。
智能輔導(dǎo)系統(tǒng)。智能輔導(dǎo)系統(tǒng)在個(gè)性化教育方面具有巨大的潛力。NLP方法可以用于生成針對(duì)性的練習(xí)題,并解釋學(xué)生在各個(gè)學(xué)科領(lǐng)域的錯(cuò)誤。隨著NLP技術(shù)的進(jìn)一步發(fā)展,這些系統(tǒng)可能會(huì)得到改進(jìn)。然而,部署NLP技術(shù)在教育中需要謹(jǐn)慎,因?yàn)榧词箤?duì)于簡(jiǎn)單的問(wèn)題,NLP模型也可能給出錯(cuò)誤的答案和解釋。
需要注意的是,由于學(xué)術(shù)不誠(chéng)實(shí)的可能性增加,教育界對(duì)于大型語(yǔ)言模型的接受度存在一定的擔(dān)憂(yōu)。因此,大學(xué)和課程制定了政策來(lái)規(guī)范人工智能在教育中的使用。我們對(duì)于最近的進(jìn)展在適當(dāng)情況下對(duì)教育產(chǎn)生積極影響持樂(lè)觀態(tài)度,但整體課程如何調(diào)整以納入大型語(yǔ)言模型的應(yīng)用仍需觀察。
面向醫(yī)療保健的NLP
在醫(yī)療保健領(lǐng)域,NLP的應(yīng)用可以分為對(duì)醫(yī)療服務(wù)提供者和關(guān)鍵利益相關(guān)者的影響進(jìn)行分類(lèi)。對(duì)于醫(yī)療服務(wù)提供者而言,NLP主要用于支持臨床決策,包括匯總和整合現(xiàn)有數(shù)據(jù)和研究,以及從數(shù)據(jù)中提取相關(guān)信息。然而,這些任務(wù)面臨著一些挑戰(zhàn),例如醫(yī)療保健數(shù)據(jù)的標(biāo)準(zhǔn)化和準(zhǔn)確標(biāo)記,以及提取和檢索醫(yī)療概念和患者病情分類(lèi)。此外,NLP還用于回答患者的健康相關(guān)問(wèn)題和檢索與醫(yī)療或疾病相關(guān)的信息。近年來(lái),該領(lǐng)域的研究主要集中在心理健康領(lǐng)域的語(yǔ)言分析,包括專(zhuān)業(yè)治療和社交媒體對(duì)話。在協(xié)助公共衛(wèi)生官員方面,NLP被應(yīng)用于公共衛(wèi)生監(jiān)測(cè),用于確定疾病、風(fēng)險(xiǎn)因素或高危人群。此外,NLP還用于緩解網(wǎng)絡(luò)上的錯(cuò)誤信息或公眾情緒等問(wèn)題。
然而,NLP在醫(yī)療保健領(lǐng)域存在一些明顯的局限性。其中之一是缺乏高質(zhì)量、帶注釋的臨床數(shù)據(jù)。臨床數(shù)據(jù)對(duì)于開(kāi)發(fā)臨床決策工具至關(guān)重要,但由于隱私和道德問(wèn)題,通常無(wú)法公開(kāi)獲取。此外,目前的工作主要集中在英語(yǔ)或其他高資源語(yǔ)言,對(duì)于少數(shù)語(yǔ)言的研究相對(duì)較少。同時(shí),缺乏對(duì)基于NLP的衛(wèi)生系統(tǒng)的人類(lèi)評(píng)估也是一個(gè)挑戰(zhàn),因?yàn)楝F(xiàn)有的自動(dòng)評(píng)估指標(biāo)并不能充分說(shuō)明患者的結(jié)果。
研究方向
醫(yī)療保健基準(zhǔn)構(gòu)建。在醫(yī)療保健領(lǐng)域,需要構(gòu)建更多的基準(zhǔn)數(shù)據(jù)集,以支持各種任務(wù)的研究和開(kāi)發(fā)。由于醫(yī)療數(shù)據(jù)的隱私限制,可能需要探索使用合成數(shù)據(jù)集、數(shù)據(jù)增強(qiáng)技術(shù)或以低資源語(yǔ)言和領(lǐng)域?yàn)榛A(chǔ)生成新的衛(wèi)生數(shù)據(jù)集的方法。此外,對(duì)于已有的基準(zhǔn)數(shù)據(jù)集,還需要進(jìn)行評(píng)價(jià)和質(zhì)量評(píng)估的研究。
NLP用于臨床決策。NLP系統(tǒng)可以用作頭腦風(fēng)暴和決策工具,幫助醫(yī)療專(zhuān)家進(jìn)行評(píng)估和決策過(guò)程。它們可以合成新的醫(yī)學(xué)知識(shí),并將其提供給醫(yī)療從業(yè)人員。此外,將一般醫(yī)學(xué)知識(shí)與個(gè)人患者信息結(jié)合起來(lái)需要新的知識(shí)集成策略。由于臨床決策的高風(fēng)險(xiǎn)性,NLP系統(tǒng)的可靠性和可解釋性至關(guān)重要,以提供清晰的推理過(guò)程。
藥物發(fā)現(xiàn)。NLP方法可以從大量的科學(xué)文獻(xiàn)、專(zhuān)利、社交媒體、臨床記錄和其他生物醫(yī)學(xué)來(lái)源中提取和分析信息。研究方向包括藥物-靶標(biāo)相互作用的識(shí)別和優(yōu)先排序、新候選藥物的發(fā)現(xiàn)、化合物性質(zhì)的預(yù)測(cè)以及藥物設(shè)計(jì)的優(yōu)化。此外,新的NLP方法可以幫助識(shí)別新的藥物靶標(biāo)關(guān)聯(lián),并促進(jìn)更有效的藥物再利用工作。
NLP的道德/倫理問(wèn)題
目前研究致力于解決雙重使用、公平性和隱私等關(guān)鍵倫理問(wèn)題。除此之外,近期LLM的使用和應(yīng)用還存在其他倫理關(guān)注點(diǎn),包括版權(quán)缺失、模型解釋性差、技能退化、勞動(dòng)力市場(chǎng)的破壞、模型誤用和模型不適用等。
研究方向
雙重使用。許多NLP應(yīng)用可能既具有積極影響,又可能被以有害方式使用。需要通過(guò)在部署前進(jìn)行討論和在部署后進(jìn)行數(shù)據(jù)調(diào)查來(lái)確定NLP模型和應(yīng)用的潛在危害。此外,開(kāi)發(fā)能夠檢測(cè)、抑制和防止有害使用的NLP系統(tǒng),如事實(shí)核查器,至關(guān)重要。對(duì)抗性NLP也可以用于探索NLP系統(tǒng)的局限性和漏洞,以提高其魯棒性。
公平性。需要方法來(lái)評(píng)估NLP模型的公平性,并檢測(cè)和減少偏見(jiàn)。這包括研究數(shù)據(jù)集創(chuàng)建實(shí)踐及其與模型偏見(jiàn)的相關(guān)性。研究應(yīng)該探討是否通過(guò)對(duì)數(shù)據(jù)集創(chuàng)建提出更嚴(yán)格的要求,可以減少模型在偏見(jiàn)數(shù)據(jù)上訓(xùn)練或評(píng)估時(shí)可能加劇的偏見(jiàn)和不平等。
隱私保護(hù)。需要新的技術(shù)來(lái)識(shí)別和匿名化敏感用戶(hù)信息,同時(shí)保持?jǐn)?shù)據(jù)在分析和決策中的實(shí)用性。這包括差分隱私、聯(lián)邦學(xué)習(xí)和安全多方計(jì)算等方法,以確保NLP驅(qū)動(dòng)的醫(yī)療應(yīng)用中患者數(shù)據(jù)的機(jī)密性和安全性。此外,NLP系統(tǒng)可以對(duì)數(shù)據(jù)政策產(chǎn)生影響,可以開(kāi)發(fā)NLP方法來(lái)以用戶(hù)可理解的格式總結(jié)數(shù)字產(chǎn)品的數(shù)據(jù)政策,并確保模型與這些政策保持一致。
機(jī)器生成數(shù)據(jù)的版權(quán)和檢測(cè)。在NLP模型生成內(nèi)容時(shí),開(kāi)發(fā)NLP模型可以使用的版權(quán)標(biāo)準(zhǔn)方法至關(guān)重要。需要確定所有權(quán)和權(quán)利的問(wèn)題,特別是在領(lǐng)域如編程或創(chuàng)意寫(xiě)作中將LLM納入工作流程。
將NLP模型作為人類(lèi)助手而非人類(lèi)替代品進(jìn)行整合.可以利用NLP模型進(jìn)行人類(lèi)培訓(xùn)應(yīng)用,改善人類(lèi)的拼寫(xiě)、寫(xiě)作和閱讀理解能力。
結(jié)語(yǔ)
這篇論文關(guān)注的研究領(lǐng)域可以分成三類(lèi):首先,有一些領(lǐng)域因?yàn)橐筇鄶?shù)據(jù)或者缺乏推理和基礎(chǔ)能力,LLMs無(wú)法解決。其次,還有一些領(lǐng)域由于缺乏適合的數(shù)據(jù),也不能充分利用LLMs的能力。最后,還有一些領(lǐng)域可以為提升LLMs的能力和質(zhì)量做出貢獻(xiàn)。需要注意的是,作者沒(méi)有列出那些LLMs在信息提取、問(wèn)答和文本摘要等方面表現(xiàn)稍顯落后的領(lǐng)域。而且,作者也沒(méi)有深入研究LLM開(kāi)發(fā)的方向,因?yàn)檫@方面已經(jīng)有很多研究論文在關(guān)注了。
審核編輯 :李倩
-
模型
+關(guān)注
關(guān)注
1文章
3290瀏覽量
49020 -
機(jī)器翻譯
+關(guān)注
關(guān)注
0文章
139瀏覽量
14920 -
nlp
+關(guān)注
關(guān)注
1文章
489瀏覽量
22066 -
LLM
+關(guān)注
關(guān)注
0文章
298瀏覽量
361
原文標(biāo)題:LLM時(shí)代NLP研究何去何從?一個(gè)博士生的角度出發(fā)
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論