自然語(yǔ)言處理:人工智能連接主義復(fù)興浪潮中的下一個(gè)突破口
AI 行業(yè)應(yīng)用是一片新的大陸,深度學(xué)習(xí)作為新大陸的基石,經(jīng)歷了一輪又一輪突破。過去十年,在計(jì)算機(jī)視覺、語(yǔ)音識(shí)別、棋類 AI 等計(jì)算和感知智能技術(shù)上,深度學(xué)習(xí)率先取得成功。而最近深度學(xué)習(xí)在認(rèn)知智能/自然語(yǔ)言處理上的進(jìn)展,特別是 Transformer 衍生模型加上兩階段預(yù)訓(xùn)練語(yǔ)言模型范式的成功,正在將自然語(yǔ)言處理變成人工智能下一個(gè)最有可能的突破口。
計(jì)算機(jī)視覺與語(yǔ)音的成功是破繭成蝶,而非橫空出世
2010 年到 2017 年,從 LeNet 到 AlexNet、Inception、VGGNet、ResNet 及其衍生結(jié)構(gòu),深度神經(jīng)網(wǎng)絡(luò)加上集成學(xué)習(xí)技術(shù)在計(jì)算機(jī)視覺研究中大放異彩,在 ImageNet 大規(guī)模深度視覺挑戰(zhàn)(ILSVRC)圖像分類任務(wù)上的錯(cuò)誤率從 28.2% 一路降低到了 2% 左右。盡管這仍然是“實(shí)驗(yàn)室環(huán)境”下的結(jié)果,但當(dāng) AI 在某一個(gè)單點(diǎn)任務(wù)上的表現(xiàn)接近或者超越人類的時(shí)候,就會(huì)給行業(yè)帶來巨大的商機(jī)。在視覺分類、檢索、匹配、目標(biāo)檢測(cè)等各項(xiàng)任務(wù)上,隨著相關(guān)算法越來越準(zhǔn)確,業(yè)界也開始在大量商業(yè)場(chǎng)景中嘗試這些技術(shù)。
人臉識(shí)別,作為計(jì)算機(jī)視覺技術(shù)取得突破的一個(gè)代表性應(yīng)用,就是在這個(gè)大背景下從技術(shù)研究期進(jìn)入成熟商業(yè)期,爆發(fā)成為一個(gè)千億甚至萬(wàn)億級(jí)別的市場(chǎng)。
但在計(jì)算機(jī)視覺技術(shù)商業(yè)化的歷程中,其實(shí)也有一段不短的蟄伏期。在深度卷積神經(jīng)網(wǎng)絡(luò)興起之前,微軟亞洲研究院研究人臉識(shí)別的團(tuán)隊(duì)曾在內(nèi)部長(zhǎng)期遭受質(zhì)疑:做了十多年,準(zhǔn)確率總是只有 70% 到 80%,看上去挺好玩,但這個(gè)準(zhǔn)確率能有什么實(shí)際的應(yīng)用價(jià)值呢?然而 2010 年深度學(xué)習(xí)浪潮迅速掃清了質(zhì)疑,長(zhǎng)期研究這個(gè)方向的被質(zhì)疑者們,成了這個(gè)新商業(yè)領(lǐng)域的領(lǐng)導(dǎo)者,從火種涅槃成為滿天繁星。而連接主義學(xué)派的忠實(shí)信徒、蟄伏近三十年的深度學(xué)習(xí)三劍客 Geoff Hinton、Yann LeCun 和 Yoshua Bengio,也是因?yàn)樵诮y(tǒng)計(jì)機(jī)器學(xué)習(xí)盛行的數(shù)十年間受盡冷眼的厚積,才有了 2010 年后因 GPU 算力和神經(jīng)網(wǎng)絡(luò)模型不斷加深而產(chǎn)生的薄發(fā),從而一舉獲得圖靈獎(jiǎng)。
為什么自然語(yǔ)言處理領(lǐng)域的發(fā)展要相對(duì)滯后?
深度學(xué)習(xí)在計(jì)算機(jī)視覺、語(yǔ)音識(shí)別等感知智能技術(shù)上率先取得成功并不是偶然。深度學(xué)習(xí)秉承連接主義學(xué)派的范式,相較傳統(tǒng)統(tǒng)計(jì)機(jī)器學(xué)習(xí)技術(shù)的最大進(jìn)化在于其利用了高于統(tǒng)計(jì)方法數(shù)個(gè)數(shù)量級(jí)的參數(shù)和極其復(fù)雜的函數(shù)組合,通過引入各種非線性和多層級(jí)感知能力,構(gòu)成了遠(yuǎn)強(qiáng)于統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型的擬合能力。ResNet-152 的參數(shù)量已經(jīng)達(dá)到六千萬(wàn)的級(jí)別,GPT-2.0 的參數(shù)量達(dá)到了驚人的 15 億。而其他上億甚至數(shù)億級(jí)別的網(wǎng)絡(luò)更是數(shù)不勝數(shù)。如此復(fù)雜的模型對(duì)數(shù)據(jù)的擬合能力達(dá)到了前所未有的水平,但是同時(shí)也極大提高了過擬合的風(fēng)險(xiǎn)。這對(duì)數(shù)據(jù)提出了極高的要求。訓(xùn)練數(shù)據(jù)的數(shù)量、維度、采樣均衡度、單條數(shù)據(jù)本身的稠密度(非0、不稀疏的程度),都需要達(dá)到極高的水平,才能將過擬合現(xiàn)象降低到可控范圍。
視覺信息(圖像、視頻)恰好是這樣一類自然連續(xù)信號(hào):一張圖片通常就有數(shù)百萬(wàn)甚至上千萬(wàn)像素,而且每個(gè)像素上通常都有顏色,數(shù)據(jù)量大、數(shù)據(jù)的表示稠密、冗余度也高。往往在丟失大量直接視覺信號(hào)的情況下,人還能迅速理解圖片的語(yǔ)義信息,就是因?yàn)樽匀贿B續(xù)信號(hào),如圖像中的場(chǎng)景和物體往往具有視覺、結(jié)構(gòu)和語(yǔ)義上的共性。一個(gè) 30MB 的位圖圖片能被壓縮到 2MB 而讓人眼基本無(wú)法感知區(qū)別;一個(gè) 30MB 的 wave 音頻文件被壓縮到 3MB 的 MP3 還能基本保持主要旋律和聽感,都是因?yàn)檫@類自然連續(xù)信號(hào)中存在大量不易被人的感官所感知的冗余。
視覺信息這種的豐富和冗余度,讓深度神經(jīng)網(wǎng)絡(luò)得以從監(jiān)督信號(hào)中一層層提煉、一層層感知,最終學(xué)會(huì)部分判斷邏輯。深度神經(jīng)網(wǎng)絡(luò)在感知智能階段中在視覺任務(wù)和語(yǔ)音任務(wù)上的成功,離不開視覺、語(yǔ)音信號(hào)自身的這種數(shù)據(jù)特點(diǎn)。
今天,屬于感知智能的視覺和語(yǔ)音應(yīng)用已經(jīng)全面開花,但屬于認(rèn)知智能的自然語(yǔ)言處理卻發(fā)展滯后。這種發(fā)展?fàn)顟B(tài)與自然語(yǔ)言處理技術(shù)中的數(shù)據(jù)特征也有密不可分的關(guān)系。
相對(duì)于圖片、語(yǔ)音給出的直接信號(hào),文字是一種高階抽象離散信號(hào)。較之圖片中的一個(gè)像素,文本中一個(gè)單元信息密度更大、冗余度更低,往往組成句子的每一個(gè)單詞、加上單詞出現(xiàn)的順序,才能正確表達(dá)出完整的意思。如何利用單個(gè)文本元素(字/詞)的意思,以及如何利用語(yǔ)句中的順序信息,是近年來自然語(yǔ)言處理和文本分析技術(shù)的主要探索脈絡(luò)。
2013 年,詞的分布式向量表示(Distributed Representation)出現(xiàn)之前,如何在計(jì)算機(jī)中高效表示單個(gè)字/詞是難以逾越的第一個(gè)坎。在只能用One-hot向量來表示字/詞的年代,兩個(gè)近義詞的表示之間的關(guān)系卻完全獨(dú)立,語(yǔ)義相似度無(wú)法計(jì)算;上表示一個(gè)字/詞所需的上萬(wàn)維向量中只有一個(gè)維度為1,其他維度都為0,稀疏度極高。面對(duì)這類信號(hào),深度神經(jīng)網(wǎng)絡(luò)這類復(fù)雜的模型所擅長(zhǎng)的化繁為簡(jiǎn)的抽象、提煉、總結(jié)能力便束手無(wú)策,因?yàn)檩斎胄盘?hào)已經(jīng)極簡(jiǎn)到了連最基礎(chǔ)的自我表示都難以做到。
NLP 中的兩大重要挑戰(zhàn):特征表示、結(jié)構(gòu)/語(yǔ)義理解正取得關(guān)鍵進(jìn)展
而分布式詞向量將語(yǔ)言的特征表示向前推進(jìn)了一大步。分布式詞向量提出了一個(gè)合理的假設(shè):兩個(gè)詞的相似度,可以由他們?cè)诙鄠€(gè)句子中各自的上下文的相似度去度量,而上下文相似的兩個(gè)詞會(huì)在向量空間中由兩個(gè)接近的向量來表示。這種做法部分賦予了詞向量“語(yǔ)義”,因此我們不必再讓機(jī)器去查百科全書告訴我們“蘋果”的近義詞是“梨子”,而是直接從大量的互聯(lián)網(wǎng)語(yǔ)料中去學(xué)習(xí),原來“蘋果”的近義詞也可以是“三星”、“華為”。因?yàn)槿藗兂3?huì)說“我購(gòu)買了一個(gè)蘋果手機(jī)”,也常說“我購(gòu)買了一個(gè)三星手機(jī)”,模型會(huì)敏銳的學(xué)習(xí)到“蘋果”和“三星”在大量語(yǔ)料中出現(xiàn)時(shí)其上下文高度相似,因而認(rèn)為兩個(gè)詞相似。分布式詞向量讓無(wú)語(yǔ)義、極稀疏的 One-hot 向量壽終正寢,而為大家提供了嵌入語(yǔ)義信息、稠密的特征表示,這才使得深度神經(jīng)網(wǎng)絡(luò)在自然語(yǔ)言處理和文本分析上的應(yīng)用真正變得可能。
捕捉語(yǔ)句中在獨(dú)立的詞集合基礎(chǔ)之上、詞序列構(gòu)成的句子結(jié)構(gòu)信息也是自然語(yǔ)言處理和文本分析中的一個(gè)主要方向。傳統(tǒng)條件隨機(jī)場(chǎng)(CRF)考慮了前后相鄰元素和當(dāng)前元素之間的依賴;長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)模型(LSTM)以一種衰減形式考慮了當(dāng)前元素之前的元素序列;seq2seq 通過注意力和編解碼的機(jī)制使得解碼時(shí)的當(dāng)前元素不光能用上已經(jīng)解碼完畢的元素序列,還能用上編碼前的序列的完整信息;近期各類基于 Transformer 結(jié)構(gòu),如 ELMo 、BERT、GPT-2.0、XLNet,則利用兩階段(基于自編碼的預(yù)訓(xùn)練加基于任務(wù)的調(diào)優(yōu))模式,能夠以自監(jiān)督的方式更好地利用大規(guī)模的無(wú)標(biāo)注語(yǔ)料訓(xùn)練不同句子結(jié)構(gòu)中詞語(yǔ)之間的關(guān)系,并且突破傳統(tǒng)線性序列結(jié)構(gòu)中存在的難以建立長(zhǎng)距離、雙向依賴關(guān)系的問題,學(xué)習(xí)到質(zhì)量更高的中間語(yǔ)言模型,再通過調(diào)優(yōu)就能在文本生成、閱讀理解、文本分類、信息檢索、序列標(biāo)注等多個(gè)任務(wù)上取得當(dāng)前最為領(lǐng)先的準(zhǔn)確率。
以機(jī)器閱讀理解任務(wù)為例,在 SQuAD1.0 數(shù)據(jù)集上,BERT 和 XLNet 都已大幅超越人類的 91.22(F1分),分別達(dá)到了 93.16 和 95.08;在更加復(fù)雜的 SQuAD2.0 數(shù)據(jù)集上,XLNet 也已經(jīng)達(dá)到了 89.13。
又如在 2019 年 3 月舉行的第十四屆 NTCIR 上,短文本情感對(duì)話任務(wù)(STC3)提出的要求是:中文回答不僅需要內(nèi)容合理,語(yǔ)句流暢,而且需要情感合宜。例如,如果用戶說“我的貓昨天去世了”,如果機(jī)器人想表達(dá)悲傷的情感,那么最合適的回答可能是“這太悲傷了,很抱歉聽到”,但如果想表達(dá)安慰的情感,則應(yīng)該說 “壞事永遠(yuǎn)發(fā)生,我希望你會(huì)快樂”。對(duì)情感表達(dá)要求的增加,無(wú)疑增加了難度。
而在這個(gè)比賽中,一覽群智和人民大學(xué)信息學(xué)院聯(lián)合組成的團(tuán)隊(duì)獲得了冠軍,其使用的方法便是基于 Transformer 改進(jìn)的網(wǎng)絡(luò)模型,以情感識(shí)別、情感領(lǐng)域?qū)υ捵幽P?、集成學(xué)習(xí)等方法相結(jié)合,擊敗了十幾支強(qiáng)勁對(duì)手。類似的探索,讓 AI 在特定任務(wù)下的認(rèn)知能力,朝著人類水平一步步發(fā)展。
認(rèn)知智能進(jìn)入快車道
自然語(yǔ)言處理領(lǐng)域的發(fā)展雖然比計(jì)算機(jī)視覺和語(yǔ)音領(lǐng)域滯后幾年,但是我們看到自然語(yǔ)言處理已經(jīng)進(jìn)入快車道。近兩年來語(yǔ)言模型上的飛速進(jìn)步,讓我們感受到之前制約自然語(yǔ)言處理和文本分析發(fā)展的主要難點(diǎn),正在被更好的模型結(jié)構(gòu)、訓(xùn)練和使用方法、更大的算力逐漸克服。為自然語(yǔ)言任務(wù)加入“常識(shí)”,也是另一個(gè)新興重要探索方向,這個(gè)方向則與知識(shí)圖譜技術(shù)緊密結(jié)合。
我們正處于認(rèn)知智能的黃金發(fā)展期,新技術(shù)的出現(xiàn)與逐步成熟,使得更多行業(yè)的應(yīng)用場(chǎng)景變得可能。一覽群智一直在探索認(rèn)知智能的基礎(chǔ)技術(shù)發(fā)展與前沿行業(yè)應(yīng)用,圍繞自然語(yǔ)言處理技術(shù)的變與不變,在這個(gè)過程中有著自己的思考和總結(jié),并且通過智語(yǔ)這個(gè)核心技術(shù)產(chǎn)品,給出自己的答案。就像 BERT、GPT-2.0、XLNet 在兩階段范式上的殊途同歸,我們也認(rèn)為基礎(chǔ)語(yǔ)言模型在不同任務(wù)上可以存在一些不變性,但在不同場(chǎng)景中一定要做特殊語(yǔ)料與任務(wù)下的調(diào)優(yōu)與適配。出于對(duì)文本信號(hào)特性的理解和自然語(yǔ)言處理技術(shù)發(fā)展階段的認(rèn)識(shí),我們構(gòu)建認(rèn)知智能核心產(chǎn)品智語(yǔ)平臺(tái)的思路,也是圍繞這種變與不變?cè)谡归_。
“智語(yǔ)” 自然語(yǔ)言處理平臺(tái)的智能流程
但認(rèn)知智能在金融、公安、媒體等場(chǎng)景中的變化部分給 AI 廠商帶來的挑戰(zhàn)非常明顯。一個(gè)算法往往在不同場(chǎng)景下要利用不同的標(biāo)注語(yǔ)料去形成不同的模型,一個(gè)媒體場(chǎng)景的 10 類新聞分類模型,無(wú)法給另一個(gè)媒體的 12 類分類體系使用。
為了解決數(shù)據(jù)標(biāo)注難、封閉環(huán)境下模型訓(xùn)練難、部署難等問題,一覽群智的智語(yǔ)平臺(tái)提供了標(biāo)注管理、智能標(biāo)注加速、自然語(yǔ)言處理、文本模型訓(xùn)練、一鍵部署等端到端功能,提升了團(tuán)隊(duì)在應(yīng)對(duì)不同場(chǎng)景時(shí)的效率與效果。例如智能標(biāo)注加速功能,利用主動(dòng)學(xué)習(xí)的先進(jìn)技術(shù),將訓(xùn)練一個(gè)分類或者序列標(biāo)注模型的標(biāo)注量有效降低至原有的 30%-50%,同時(shí)保證模型性能基本不變;加上平臺(tái)高效能的標(biāo)注管理,總體效率提升可達(dá)數(shù)倍。而傻瓜式的訓(xùn)練和部署,使得初級(jí)團(tuán)隊(duì)成員通過短期培訓(xùn)也能有效形成 AI 的生產(chǎn)力。
“智語(yǔ)” 自然語(yǔ)言處理平臺(tái)端到端流程方案
結(jié)語(yǔ)
回顧 AI 連接主義學(xué)派復(fù)興的十年,就像一個(gè)螺旋梯,算法與算力應(yīng)用相互促進(jìn)、不斷攀升。在見證 ImageNet 圖像分類錯(cuò)誤率從 30% 一路降低到 2%左右;見證 AlphaGo 擊敗樊輝、李世石、柯潔之后,我們開始見證基于 BERT/GPT-2.0/XLNet 在閱讀理解任務(wù)超越人類。十年后再回顧,會(huì)發(fā)現(xiàn)今天之于自然語(yǔ)言處理,也許恰如 2014 年之于人臉識(shí)別。
-
AI
+關(guān)注
關(guān)注
87文章
31272瀏覽量
269635 -
計(jì)算機(jī)視覺
+關(guān)注
關(guān)注
8文章
1699瀏覽量
46050 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5510瀏覽量
121338
原文標(biāo)題:從發(fā)展滯后到不斷突破,NLP已成為AI又一燃爆點(diǎn)?
文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論