1 簡介
??語言不僅是人類交流的工具,更是思維和智能的基礎(chǔ)。大腦如何解碼和處理語言信息是揭示人類智能本質(zhì)的關(guān)鍵。隨著腦機接口(BCI)等技術(shù)的迅速發(fā)展,我們有了從大腦活動中解碼自然語言的可能。這一研究方向不僅對認(rèn)知科學(xué)和神經(jīng)科學(xué)領(lǐng)域的發(fā)展至關(guān)重要,也為因神經(jīng)退行性疾病和創(chuàng)傷而失去語言能力的人提供了新的希望。該方向的發(fā)展將極大地拓展我們對人類大腦處理語言的理解,并可能開啟全新的溝通方式。
??從大腦活動中解碼自然語言的最大需求出現(xiàn)在那些因錐體束或下運動神經(jīng)元的急性或退行性損傷而導(dǎo)致運動和語言障礙的患者中。當(dāng)運動和語言障礙特別嚴(yán)重,如在鎖定綜合征(LIS)中,患者可能完全失去運動控制,從而無法獨立發(fā)起或維持交流,僅限于用眨眼或眼球運動等輕微動作回答簡單問題。BCI技術(shù)提供了大腦與外界之間的橋梁,讀取人腦產(chǎn)生的信號并將它們轉(zhuǎn)換成所需的認(rèn)知任務(wù),使得那些由于運動障礙而不能說話的人可以僅通過他們的腦信號進行交流,而無需移動任何身體部分。
??在協(xié)助這類患者交流上,很多BCI范式已經(jīng)取得了重大進展,包括P300、穩(wěn)態(tài)視覺誘發(fā)電位(SSVEP)和運動想象(MI)等。P300和SSVEP利用外部刺激,如閃爍的屏幕或聽覺蜂鳴聲,以誘發(fā)有區(qū)分性的大腦模式?;谶\動想象的系統(tǒng)則識別人腦自發(fā)的運動意圖,無需外部刺激的輔助。然而,這些范式通常只能通過意念打字的形式輸出文本,無法替代口頭交流的速度和靈活性。在日常對話中,每分鐘交流的平均單詞數(shù)通常能達到意念打字速度的7倍。因此,從大腦活動中解碼自然語言,更具體而言是從言語或想象言語時的大腦活動解碼自然語言,相比之前的BCI范式具有明顯的速度優(yōu)勢,同時也允許患者用更少的努力進行溝通。
2 數(shù)據(jù)采集
??為獲取大腦在言語或想象言語過程中產(chǎn)生的信號,已經(jīng)有多種神經(jīng)影像學(xué)方法被應(yīng)用。這些方法主要包括腦電圖(EEG)、腦磁圖(MEG)、功能性磁共振成像(fMRI)等非侵入性方法,以及皮質(zhì)腦電圖(ECoG)等侵入性方法。侵入性方法能提供足夠的時空分辨率,同時具有較高的信噪比(SNR),但更高的醫(yī)療風(fēng)險限制了它們在臨床和日常使用中的普及。這使得基于非侵入性方法的大腦活動解碼也得到了關(guān)注和廣泛研究。
圖1 幾種神經(jīng)影像學(xué)方法的比較
2.1 ECoG
??皮質(zhì)腦電圖(ECoG)是一種侵入性的神經(jīng)記錄技術(shù),它通過在大腦硬腦膜下空間植入電極陣列來測量大腦皮層表面的電活動。這些電極通常是由鉑銥制成的圓盤形電極,嵌入在柔軟的硅膠片中。ECoG記錄的信號具有很高的時空分辨率,可以提供關(guān)于大腦活動的精確信息。由于其準(zhǔn)確性和較高的信噪比,ECoG在臨床神經(jīng)科學(xué)中有著廣泛的應(yīng)用,特別是識別藥物難治性癲癇患者的癲癇發(fā)作源頭,以及確定對大腦功能至關(guān)重要的皮質(zhì)區(qū)域,以便在切除手術(shù)期間保留這些區(qū)域。ECoG的一個主要優(yōu)點是它能夠在皮層表面覆蓋較廣的區(qū)域,同時提供足夠的空間分辨率,這對于研究廣泛分布的神經(jīng)網(wǎng)絡(luò),如語言和運動控制網(wǎng)絡(luò),具有重要的價值和意義。
2.2 EEG
??腦電圖(EEG)是一種廣泛使用的非侵入性神經(jīng)記錄技術(shù),通過在頭皮上放置電極來測量大腦活動產(chǎn)生的電信號。EEG主要用于監(jiān)測和研究大腦的電生理活動,特別是用于診斷和研究癲癇、睡眠障礙、大腦損傷以及各種神經(jīng)系統(tǒng)疾病。作為一種非侵入性方法,EEG有著較高的時間分辨率,能夠捕捉大腦電活動的快速變化,提供亞毫秒級的時間信息,這對于研究大腦如何在短時間內(nèi)處理信息非常有用。然而EEG的空間分辨率相對較低,難以精確定位大腦內(nèi)特定區(qū)域的電活動,限制了其在精確腦映射方面的應(yīng)用。EEG的另一個局限性在于信噪比(SNR)較低。信號中的目標(biāo)成分難以從背景活動中識別出來,這些背景活動可能來自于肌肉或器官活動、眼球運動或眨眼。盡管存在上述問題,鑒于EEG的非侵入性、便攜性和低成本,EEG仍然是神經(jīng)科學(xué)、臨床神經(jīng)學(xué)和腦機接口研究中極其重要的工具。
圖3 EEG示意圖
2.3 MEG
??腦磁圖(MEG)是一種非侵入性神經(jīng)成像技術(shù),通過記錄大腦神經(jīng)元活動引發(fā)的磁場變化來測量大腦活動。在細(xì)胞層面上,大腦中的單個神經(jīng)元具有電化學(xué)特性,導(dǎo)致帶電離子通過細(xì)胞流動。這種緩慢的離子電流流動的凈效果會產(chǎn)生電磁場。雖然單個神經(jīng)元產(chǎn)生的場強度可以忽略不計,但特定區(qū)域內(nèi)大量神經(jīng)元共同激活時,會在頭部外產(chǎn)生可測量的磁場。大腦產(chǎn)生的這些神經(jīng)磁信號非常微弱,因此MEG掃描儀需要使用超導(dǎo)傳感器,并置于磁屏蔽室中進行測量。MEG能夠提供精度達到亞毫秒級的大腦活動時序特征,并提供比EEG更準(zhǔn)確的神經(jīng)活動空間定位。盡管MEG的使用條件相對嚴(yán)格,但其時空分辨率上的優(yōu)勢使其成為了神經(jīng)科學(xué)和臨床研究領(lǐng)域中極為重要的技術(shù)手段。
圖4 MEG示意圖
2.4 fMRI
??fMRI(功能磁共振成像)的原理是利用BOLD(血氧水平依賴性)對比來檢測大腦中的活動變化。BOLD對比利用了血液中氧合血紅蛋白和脫氧血紅蛋白在磁性質(zhì)上的差異。當(dāng)大腦的某一部分活躍時,它需要更多的氧來支持其功能。為了滿足這一需求,血流會增加以帶來更多的氧合血紅蛋白。氧合血紅蛋白和脫氧血紅蛋白在磁性上有所不同:氧合血紅蛋白是磁性中性的,而脫氧血紅蛋白是磁性的。因此,當(dāng)一個區(qū)域的血流增加時,該區(qū)域的BOLD信號也會增加。
??fMRI具有較高的空間分辨率和較低的時間分辨率。fMRI一次掃描可以測量約100,000個體素,而MEG的傳感器通常在300個以下。然而,一個神經(jīng)活動的脈沖可能導(dǎo)致BOLD在大約10秒內(nèi)上升和下降;對于自然說出的英語,每次掃描采集的大腦圖像可能受到超過20個單詞的影響。這意味著大腦活動的解碼是一個不適定問題。盡管這為解碼連續(xù)語言提出了挑戰(zhàn),仍然有一些工作在該方向做出了探索和嘗試。
3 前沿工作
??下面將介紹幾篇最近幾年從大腦活動中解碼自然語言的相關(guān)工作。目前比較主流的方法是從大腦活動端到端地解碼文本。這些工作通常采用編碼器—解碼器的模型結(jié)構(gòu),將腦信號映射到連續(xù)文本。隨著預(yù)訓(xùn)練語言模型的出現(xiàn),前沿工作逐漸將其應(yīng)用于大腦活動解碼,通常作為解碼器,和隨機初始化的編碼器共同訓(xùn)練。也有工作嘗試使用非端到端的方式對大腦活動進行解碼。在解碼文本之外,還有工作研究將腦信號對齊到預(yù)訓(xùn)練模型生成的高質(zhì)量表征,從而將腦信號映射到預(yù)訓(xùn)練模型輸出構(gòu)成的良好向量空間中。
3.1 端到端的解碼
Machine translation of corticalcactivity to text with an encoder-decoder framework(Nature neuroscience 2020)
??在這篇工作之前,大多數(shù)從大腦活動中解碼自然語言的工作通常局限于孤立的音素或單音節(jié)詞。解碼連續(xù)文本的工作相對較少,且效果不佳。文章將問題建模為機器翻譯問題,腦信號視為源語言,對應(yīng)的連續(xù)文本視作目標(biāo)語言,從而將機器翻譯領(lǐng)域的模型方法遷移到大腦活動解碼這一任務(wù)上。
??文章設(shè)計了一個簡單的編碼器—解碼器結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò),以從ECoG信號中解碼連續(xù)文本。如下圖所示,對于輸入的原始ECoG信號,模型首先在時間維進行跨步卷積,以提取時序特征并下采樣到16HZ,然后輸入編碼器—解碼器結(jié)構(gòu)的LSTM網(wǎng)絡(luò)以解碼得到連續(xù)文本。為了引導(dǎo)編碼器編碼有意義的信息,除了端到端地訓(xùn)練模型從ECoG信號中解碼連續(xù)文本,文章在訓(xùn)練階段還額外添加了一個輔助損失,強迫模型基于編碼器每個時間步的隱藏層表征準(zhǔn)確預(yù)測對應(yīng)時刻語音的音頻表征。(這里采用音頻的梅爾頻率倒譜系數(shù)MFCC作為音頻的低階表征)
圖6 文章提出的編碼器—解碼器框架
??文章從每位受試者收集了30至50個句子的重復(fù)口述,以及同一時間大腦臨側(cè)裂區(qū)大約250個電極記錄下的ECoG信號。文章提出的方法在準(zhǔn)確性方面相較以往研究有著顯著提升,其中一部分參與者的平均詞錯誤率(WER)降至了7%,這一成果顯著優(yōu)于以往研究中超過60%的錯誤率,為未來的研究提供了重要的參考意義。
??在神經(jīng)科學(xué)和腦機接口領(lǐng)域,大腦活動數(shù)據(jù)的采集通常面臨一系列挑戰(zhàn),最終導(dǎo)致采集的數(shù)據(jù)集規(guī)模通常較小,成為相關(guān)研究和應(yīng)用發(fā)展的重要限制。由于缺乏訓(xùn)練數(shù)據(jù),傳統(tǒng)的從大腦活動中解碼自然語言的工作通常局限在小而封閉的詞表上,且難以泛化到訓(xùn)練集之外的單詞和句子上。這篇工作首次使用預(yù)訓(xùn)練語言模型(文章使用BART)進行EEG信號的連續(xù)文本解碼。借助預(yù)訓(xùn)練語言模型在理解句法特征、語義特征以及長距離依賴方面的能力,這篇工作得以將詞表擴展到約50000的規(guī)模(即BART的詞表大?。瑫r在數(shù)據(jù)稀缺的條件下保持較好的泛化能力。
??文章將人腦視作一種特殊的文本編碼器,并提出了一個稱作BrainBART的新穎框架。該框架將EEG特征序列視為編碼的連續(xù)文本,并通過額外的編碼器將輸入的EEG特征序列映射到BART的嵌入層表征,如下圖所示。訓(xùn)練期間的目標(biāo)是最小化文本重建的交叉熵?fù)p失。此外,文章還提出了一個零樣本情感分類方法,該方法首先將EEG特征序列轉(zhuǎn)換為文本,然后通過文本分類器預(yù)測情感標(biāo)簽。
圖7 BrainBART框架
??這篇工作使用了ZuCo數(shù)據(jù)集,其中包含被試者進行自然閱讀任務(wù)時記錄的EEG和眼動追蹤數(shù)據(jù)。BrainBART在連續(xù)文本解碼上達到了40.1%的BLEU-1分?jǐn)?shù),并在零樣本的三元情感分類上達到了55.6%的F1分?jǐn)?shù),顯著優(yōu)于有監(jiān)督的基線。
??盡管EEG信號的連續(xù)文本解碼已取得一定成功,但從fMRI信號生成連續(xù)文本的研究相對較少,這主要是因為fMRI的低時間分辨率。之前的fMRI信號解碼方法通常依賴于對預(yù)定義的感興趣區(qū)(ROI)進行特征提取,未能有效利用時間序列信息,且通常忽略高效編碼的重要性。為解決這些問題,并避免使用單獨的復(fù)雜流程從特定模態(tài)的腦信號解碼語言,文章提出了一個通用的腦信號解碼框架,稱作UniCoRN(統(tǒng)一認(rèn)知信號重構(gòu)),可應(yīng)用于各種模態(tài)腦信號的解碼。UniCoRN采用編碼器—解碼器框架,利用了預(yù)訓(xùn)練語言模型的強大解碼能力,并通過快照和序列重建構(gòu)建了一個有效的編碼器,使模型能夠分析單個快照及快照序列之間的時間依賴性,從而最大化地提取腦信號中的信息。
??下面以fMRI信號解碼為例介紹模型的整體框架。UniCoRN包含兩個階段:腦信號重建,以針對特定模態(tài)的腦信號訓(xùn)練編碼器;以及腦信號解碼,即將第一階段中腦信號的表征轉(zhuǎn)換為自然語言。文章這里的深層思想是將腦信號的每個快照(如單個fMRI幀)視為“人腦所說語言”的單詞級表征,并通過編碼器獲得這種語言的詞嵌入,最終像傳統(tǒng)的機器翻譯任務(wù)一樣,將其轉(zhuǎn)換為真實的人類語言。腦信號重建階段可細(xì)分為快照重建和序列重建兩個子階段,以訓(xùn)練編碼器整合每個快照的內(nèi)部特征和時間序列中快照間的時間關(guān)系。如圖所示,快照重建階段(phase 1)通過快照編碼器分別編碼每個fMRI幀,并以重建原始的fMRI幀作為訓(xùn)練目標(biāo);序列重建階段(phase 2)將連續(xù)fMRI幀的編碼表征輸入序列編碼器以生成序列化表征,并使用和上一階段相同的目標(biāo)繼續(xù)訓(xùn)練。在腦信號重建階段之后,之前用于重建原始fMRI幀的解碼器被替換為文本解碼器,以進行最終的文本生成(phase 3)。文章在這里選擇BART作為文本解碼器,并使用交叉熵?fù)p失進行訓(xùn)練。
圖8 UniCoRN框架
??UniCoRN在fMRI信號的連續(xù)文本解碼任務(wù)上(Narratives數(shù)據(jù)集)達到了34.77%的BLEU-4分?jǐn)?shù),并在EEG的連續(xù)文本解碼任務(wù)上(ZuCo數(shù)據(jù)集)達到了62.90%的BLEU-4分?jǐn)?shù),從而超越了之前的基線。實驗結(jié)果表明從fMRI信號中解碼語言是可行的,并且使用統(tǒng)一結(jié)構(gòu)解碼不同模態(tài)的腦信號是有效的。
3.2 非端到端解碼
??這篇工作提出了一種方法,從fMRI信號重建受試者正在聽到或想象的聽覺刺激(以自然語言的形式)。實現(xiàn)這一點需要克服fMRI的低時間分辨率。為解決這一問題,文章提出的解碼器并未采用端到端的解碼方式,而是通過猜測候選單詞序列,評估每個候選項引發(fā)當(dāng)前測得的大腦反應(yīng)的可能性,然后選擇最佳候選項來實現(xiàn)解碼。
??方法的框架如下圖所示。三名受試者聽了16小時的敘事故事,并記錄了基于血氧水平依賴(BOLD)的功能磁共振成像(fMRI)反應(yīng)。文章針對每位受試者訓(xùn)練了一個編碼模型,以從文本刺激的語義表征預(yù)測對應(yīng)的大腦反應(yīng)。為了從大腦活動中重建語言,文章采用beam search算法以逐詞生成候選序列。文章提出的方法維持著若干個最可能的候選序列,當(dāng)通過大腦聽覺和語言區(qū)域的活動檢測到新詞時,使用語言模型為每個候選序列生成最可能的若干延續(xù)。然后,使用之前訓(xùn)練的編碼模型對每個延續(xù)引發(fā)當(dāng)前測得的大腦反應(yīng)的可能性進行評分,并保留最可能的延續(xù)。實驗結(jié)果表明,方法的識別準(zhǔn)確度明顯高于偶然預(yù)期,證明了方法的有效性。
圖9 文章提出的fMRI信號解碼方法
3.3 信號對齊研究
??這篇工作提出了一種使用單一架構(gòu)的數(shù)據(jù)驅(qū)動方法,從MEG或EEG信號中解碼自然語言。文章引入了一個卷積神經(jīng)網(wǎng)絡(luò)作為腦信號的編碼器,并使用對比目標(biāo)進行訓(xùn)練,以對齊預(yù)訓(xùn)練語音自監(jiān)督模型wav2vec-2.0生成的深層音頻表征。
??理論上,可以通過回歸損失訓(xùn)練腦信號編碼器,預(yù)測對應(yīng)音頻的梅爾頻率倒譜系數(shù),并將編碼器的輸出作為腦信號的一種表征。然而在實踐中,文章觀察到這種直接回歸方法生成的表征通常由不可區(qū)分的寬帶成分主導(dǎo)。對于這一問題,文章首先推斷回歸可能是一種無效的損失,并將其替換為了CLIP模型的對比損失,該損失最初被設(shè)計用于匹配對齊文本和圖像兩種模態(tài)的深層表征。文章進一步判斷梅爾頻率倒譜系數(shù)不太可能與豐富的大腦活動相匹配,因為其僅包含聲音的低階表征。文章在這里將梅爾頻率倒譜系數(shù)替換為wav2vec-2.0的輸出表征,該模型有效地編碼了多層次的語言特征,且有研究表明其與大腦的激活之間存在線性關(guān)系。最后,文章提出了一個考慮被試者差異的CNN網(wǎng)絡(luò),作為大腦活動的編碼器。
圖10 文章提出的腦信號對齊方法
??文章在四個公開的MEG/EEG數(shù)據(jù)集上進行了驗證,模型能夠用3秒的MEG/EEG信號,識別匹配的音頻片段(即零樣本解碼),在MEG上達到最高72.5%TOP-10準(zhǔn)確率,在EEG上達到最高19.1%的TOP-10準(zhǔn)確率。盡管文章中的實驗僅限于音頻片段和單個詞的解碼,但其方法和思想可以作為后續(xù)工作的基礎(chǔ),有效地遷移到包括連續(xù)文本解碼在內(nèi)的諸多任務(wù)上。
4 總結(jié)
??本文回顧了從大腦活動中解碼自然語言這一任務(wù)及前沿方法。前沿方法的不斷發(fā)展不僅加深了我們對語言和大腦交互的理解,也為發(fā)展先進的腦機接口技術(shù)打下了堅實的基礎(chǔ)。盡管已取得顯著進展,但這一領(lǐng)域仍面臨著缺少大腦活動數(shù)據(jù),非侵入性方法信噪比低等問題,限制了方法在實際應(yīng)用中的可用性。對于未來工作,一方面需要獲取更高質(zhì)量和更大規(guī)模的大腦活動數(shù)據(jù),另一方面也需要算法和模型的創(chuàng)新,以最大限度利用有限的數(shù)據(jù)。最后,跨學(xué)科的合作,如神經(jīng)科學(xué)、語言學(xué)、計算機科學(xué)的結(jié)合,將為理解大腦處理語言的復(fù)雜機制提供新的視角,推動該領(lǐng)域朝著更加精確和實用的方向發(fā)展。
審核編輯:劉清
-
傳感器
+關(guān)注
關(guān)注
2551文章
51168瀏覽量
754184 -
信噪比
+關(guān)注
關(guān)注
3文章
260瀏覽量
28632 -
SNR
+關(guān)注
關(guān)注
3文章
195瀏覽量
24425 -
磁共振成像
+關(guān)注
關(guān)注
0文章
21瀏覽量
8596 -
電信號
+關(guān)注
關(guān)注
1文章
820瀏覽量
20602
原文標(biāo)題:從大腦活動中解碼自然語言:任務(wù)與前沿方法
文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論