在AI技術(shù)發(fā)展的過(guò)程中自然語(yǔ)言處理技術(shù)已經(jīng)成了最重要的一大體系,隨著年代的定義越加細(xì)分化語(yǔ)言識(shí)別逐漸區(qū)分為語(yǔ)音識(shí)別和語(yǔ)義識(shí)別兩個(gè)概念。一字之差卻大不相同。語(yǔ)音識(shí)別是前提語(yǔ)義識(shí)別才是它的目標(biāo)。從語(yǔ)音識(shí)別到語(yǔ)義識(shí)別,中間還有多長(zhǎng)的路要走?
最近科技圈刮起一股收購(gòu)風(fēng),前面博通收購(gòu)高通還在如火如荼的進(jìn)行,這周蘋(píng)果就宣布收購(gòu)音樂(lè)識(shí)別軟件Shazam。Shazam這個(gè)軟件,通過(guò)手機(jī)麥克風(fēng)收錄音頻片段,能夠識(shí)別音樂(lè)、電影、電視節(jié)目甚至是廣告。那么蘋(píng)果公司整合這項(xiàng)技術(shù)做什么?很大可能是為了其人工智能助理軟件Siri。
Siri使用自然語(yǔ)言處理技術(shù),是AI技術(shù)的一大體系,而隨著近年定義和產(chǎn)業(yè)分工越發(fā)精細(xì),語(yǔ)言識(shí)別漸漸分成了語(yǔ)音識(shí)別和語(yǔ)義識(shí)別兩個(gè)支系。語(yǔ)音和語(yǔ)義雖只有一字之差,卻有很大的不同。
打個(gè)簡(jiǎn)單的比方,語(yǔ)音識(shí)別相當(dāng)于是人的耳朵,而語(yǔ)義識(shí)別則是大腦,語(yǔ)音識(shí)別幫助機(jī)器獲取和輸出信息,那么語(yǔ)義識(shí)別則是對(duì)這些信息進(jìn)行識(shí)別加工。
在這里, 小編舉個(gè)例子來(lái)幫助大家更好的理解上面的話:
爸爸沒(méi)法舉起他的兒子,因?yàn)樗苤亍?/p>
問(wèn):誰(shuí)重?
爸爸沒(méi)法舉起他的兒子,因?yàn)樗芴撊酢?/p>
問(wèn):誰(shuí)虛弱?
可以看到,這兩個(gè)句子結(jié)構(gòu)完全一致,后面的“他”指的到底是爸爸還是爸爸的兒子?這對(duì)于我們來(lái)說(shuō)輕而易舉,因?yàn)槲覀冇心芮宄耐ㄟ^(guò)我們積累的知識(shí)知道:爸爸舉不起兒子,要么兒子太重,爸爸舉不起;要么兒子不重,但是爸爸力氣小,比較虛弱,因此舉不起兒子。
但是對(duì)于一個(gè)只會(huì)語(yǔ)音識(shí)別的機(jī)器來(lái)說(shuō),它不會(huì)去思考句子中的“他”到底指的兒子還是爸爸,事實(shí)上,它也“想不清楚”。但是通過(guò)語(yǔ)義識(shí)別,機(jī)器會(huì)對(duì)聽(tīng)到的信息進(jìn)行加工理解,從而給出正確的答案。
與語(yǔ)音識(shí)別相比,顯然語(yǔ)義識(shí)別顯然要更深一個(gè)層次,用到的技術(shù)也更為復(fù)雜。
本期《趣科技》, 小編就給大家介紹一下人工智能中,自然語(yǔ)言識(shí)別這一重要支系。
語(yǔ)音識(shí)別發(fā)展史
語(yǔ)音是最自然的交流方式,自從1877年愛(ài)迪生發(fā)明了留聲機(jī),人們就開(kāi)始了與機(jī)器的交談,但是主要還是與人交流,而非機(jī)器本身。
1950年,計(jì)算機(jī)科學(xué)之父阿蘭·圖靈在《Mind》雜志上發(fā)表了題為《計(jì)算的機(jī)器和智能》的論文,首次提出了機(jī)器智能的概念,論文還提出了一種驗(yàn)證機(jī)器是否有智能的方法:讓人和機(jī)器進(jìn)行交流,如果人無(wú)法判斷自己交流的對(duì)象是人還是機(jī)器,就說(shuō)明這個(gè)機(jī)器有智能了,這就是后來(lái)鼎鼎有名的人工智能圖靈測(cè)試。
到20世紀(jì)80年代,語(yǔ)音識(shí)別技術(shù)能夠?qū)⒖谡Z(yǔ)轉(zhuǎn)化為文本。
2001年,計(jì)算機(jī)語(yǔ)音識(shí)別達(dá)到了80%的準(zhǔn)確度。從那時(shí)起,我們就可以提取口語(yǔ)語(yǔ)言的含義并作出回應(yīng)。然而,多數(shù)情況下,語(yǔ)音技術(shù)仍然不能像鍵盤(pán)輸入那樣帶給我們足夠好的交流體驗(yàn)。
近幾年來(lái),語(yǔ)音識(shí)別又取得了巨大的技術(shù)進(jìn)步??拼笥嶏w董事長(zhǎng)劉慶峰在一次演講中,在演講的同時(shí)使用著最新的智能語(yǔ)音識(shí)別技術(shù)——可以讓他演講的內(nèi)容實(shí)時(shí)以中英文雙字幕的形式呈現(xiàn)在大屏幕上,反應(yīng)迅速、幾乎沒(méi)錯(cuò)。識(shí)別精確度超過(guò)95%。隨著這項(xiàng)技術(shù)的進(jìn)步,語(yǔ)音優(yōu)先的基礎(chǔ)設(shè)施變得越來(lái)越重要,亞馬遜、蘋(píng)果、谷歌、微軟和百度都迅速部署了聲音優(yōu)先軟件、軟件構(gòu)建快和平臺(tái)。
圖|語(yǔ)音發(fā)展史
語(yǔ)音識(shí)別產(chǎn)品應(yīng)用
語(yǔ)音識(shí)別作為打造良好交互體驗(yàn)的重要前提,今年的發(fā)展可謂是持續(xù)火爆。在智能音箱市場(chǎng),首先想到的就是Amazon的Echo。Echo作為將自然語(yǔ)音轉(zhuǎn)化為在線指令的設(shè)備,其效率之高無(wú)容置疑,并且可保持在線的自然環(huán)境中的自然語(yǔ)言識(shí)別。
Echo的核心技術(shù)在于它集成的智能語(yǔ)音助手Alexa。在2015年6月25日亞馬遜曾宣布,將開(kāi)放智能語(yǔ)音硬件Echo的內(nèi)置AI助手Alexa的語(yǔ)音技術(shù),供第三方開(kāi)發(fā)者免費(fèi)使用。由此可見(jiàn),亞馬遜向用戶呈現(xiàn)出來(lái)的不僅僅是技術(shù)上的領(lǐng)先,還有真正落地的產(chǎn)品,以及良好的產(chǎn)品體驗(yàn)。
與此同時(shí),國(guó)內(nèi)語(yǔ)音識(shí)別領(lǐng)域也開(kāi)始爭(zhēng)奪大戰(zhàn)。以科大訊飛聽(tīng)見(jiàn)系列產(chǎn)品為例,自2015年發(fā)布以來(lái),總用戶突破1000萬(wàn),應(yīng)用于30余個(gè)行業(yè)。目前,已經(jīng)形成了以聽(tīng)見(jiàn)智能會(huì)議系統(tǒng)、訊(詢)問(wèn)筆錄系統(tǒng)、聽(tīng)見(jiàn)轉(zhuǎn)寫(xiě)網(wǎng)站、錄音寶APP、聽(tīng)見(jiàn)智能會(huì)議服務(wù)等以智能語(yǔ)音轉(zhuǎn)寫(xiě)技術(shù)為核心的產(chǎn)品和服務(wù)體系。
語(yǔ)音識(shí)別技術(shù)瓶頸
從下圖可以看出,語(yǔ)音識(shí)別的誤字率呈明顯的下降趨勢(shì)。
然而,即使達(dá)到100%的準(zhǔn)確率,僅限于輸入法功用的語(yǔ)音識(shí)別也無(wú)人機(jī)互動(dòng)的意義,它還算不得真正的人工智能。
我們所期望的語(yǔ)音識(shí)別實(shí)質(zhì)上是人機(jī)交互,大致上可以理解為人與機(jī)器之間無(wú)障礙溝通。要達(dá)到這種期望,光靠誤字率很低甚至為零的語(yǔ)音識(shí)別可能并不能做到,那么就需要有“大腦”的語(yǔ)義識(shí)別了,相對(duì)于語(yǔ)音識(shí)別,它可以通過(guò)人們的語(yǔ)氣、談話的內(nèi)容等等判斷用戶說(shuō)的話到底是什么意思,而不是簡(jiǎn)單的一字不落的識(shí)別出所說(shuō)的內(nèi)容。比如說(shuō):小沈陽(yáng)長(zhǎng)得可真帥!在不同的語(yǔ)境下卻有著截然相反的意思。
從“傻白甜”的語(yǔ)音識(shí)別到“帶腦子”的語(yǔ)義識(shí)別,還有很長(zhǎng)的路要走。
口音和噪聲
語(yǔ)音識(shí)別中最明顯的一個(gè)缺陷就是對(duì)口音和背景噪聲的處理。最直接的原因是大部分的訓(xùn)練數(shù)據(jù)都是高信噪比、美式口音的英語(yǔ)。
上圖中可以看到有口音的情況下,人的錯(cuò)誤率低于模型;從高信噪比到低信噪比,人與模型之間的錯(cuò)誤率差距急劇擴(kuò)大。
語(yǔ)義錯(cuò)誤
實(shí)際上語(yǔ)音識(shí)別系統(tǒng)的目標(biāo)并不是誤字率。人們更關(guān)心的是語(yǔ)義錯(cuò)誤率。
舉個(gè)語(yǔ)義錯(cuò)誤的例子,比如某人說(shuō)“l(fā)et’s meet up Tuesday”,但語(yǔ)音識(shí)別預(yù)測(cè)為“l(fā)et’s meet up today”。我們也可能在單詞錯(cuò)誤的情況下保持語(yǔ)義正確,比如語(yǔ)音識(shí)別器漏掉了“up”而預(yù)測(cè)為“l(fā)et’s meet Tuesday”,這樣話語(yǔ)的語(yǔ)義是不變的。
將模型與人工進(jìn)行比較時(shí)的重點(diǎn)是查找錯(cuò)誤的本質(zhì),而不僅僅是將誤字率作為一個(gè)決定性的數(shù)字。
微軟研究人員將他們的人工級(jí)語(yǔ)音識(shí)別器的錯(cuò)誤與人類進(jìn)行過(guò)比較。他們發(fā)現(xiàn)的一個(gè)差異是該模型比人更頻繁地混淆“uh”和“uh huh”。而這兩條術(shù)語(yǔ)的語(yǔ)義大不相同:“uh”只是個(gè)填充詞,而“uh huh”是一個(gè)反向確認(rèn)。這個(gè)模型和人出現(xiàn)了許多相同類型的錯(cuò)誤。
單通道和多人會(huì)話
一個(gè)好的會(huì)話語(yǔ)音識(shí)別器必須能夠根據(jù)誰(shuí)在說(shuō)話對(duì)音頻進(jìn)行劃分,還應(yīng)該能弄清重疊的會(huì)話(聲源分離)來(lái)理解音頻。
一個(gè)人在一個(gè)有多個(gè)人說(shuō)話的環(huán)境中的時(shí)候,能夠很容易的分辨出自己要與某人說(shuō)話,并且能夠在同時(shí)與多個(gè)人交談。很明顯,目前的語(yǔ)音識(shí)別器并不能做到這一點(diǎn)。當(dāng)多個(gè)人對(duì)著麥克風(fēng)講話時(shí),它可能直接就“懵”了。
上下文理解
實(shí)際生活中我們會(huì)使用許多其他的線索來(lái)輔助理解別人在說(shuō)什么。
列舉幾個(gè)人類使用上下文而語(yǔ)音識(shí)別器沒(méi)有的情況:
歷史會(huì)話和討論過(guò)的話題;
說(shuō)話人的視覺(jué)暗示,包括面部表情和嘴唇動(dòng)作;
關(guān)于會(huì)話者的背景。
可以看到雖然目前語(yǔ)音識(shí)別技術(shù)的誤字率已經(jīng)低于5%,但想從語(yǔ)音識(shí)別轉(zhuǎn)變成真正的語(yǔ)義識(shí)別,是仍然面臨著很多挑戰(zhàn)。
語(yǔ)音識(shí)別到真正的語(yǔ)義識(shí)別
語(yǔ)音識(shí)別和語(yǔ)義識(shí)別合起來(lái)的語(yǔ)言識(shí)別雖然為人工智能的一大支系,但是比起語(yǔ)音識(shí)別,顯然語(yǔ)義識(shí)別要更加智能。在這里, 小編先給大家梳理一下人工智能,機(jī)器學(xué)習(xí),深度學(xué)習(xí),神經(jīng)網(wǎng)絡(luò)這些術(shù)語(yǔ)之間的關(guān)系,大家或許就更加能理解從語(yǔ)音識(shí)別到真正的語(yǔ)義識(shí)別還有哪些路要走(目前市場(chǎng)上有很多做語(yǔ)義識(shí)別的公司,但是跟人類相比還存在一定的距離。)?
人工智能(AI)是一個(gè)大的概念,它是機(jī)器學(xué)習(xí)的父類。
除學(xué)習(xí)之外的人工智能可以歸納成了“邏輯/算法編程”,也就是通過(guò)編程將人類所知的知識(shí)和邏輯告訴機(jī)器,從而借助機(jī)器的高速計(jì)算和海量存儲(chǔ)等能力實(shí)現(xiàn)一些人類才能做的“弱智能”工作,像上世紀(jì)深藍(lán)計(jì)算機(jī),將國(guó)際象棋中所有可能的結(jié)果都通過(guò)預(yù)先編好的程序計(jì)算出來(lái)從而選擇最佳的下法(窮舉法)。從程序的實(shí)現(xiàn)上來(lái)說(shuō)恐怕就是無(wú)數(shù)的if…else…吧。
而另一類就是基于數(shù)據(jù)的自我學(xué)習(xí),把大量的數(shù)據(jù)告訴機(jī)器由機(jī)器自己去分析這些數(shù)據(jù)從而總結(jié)得出某種規(guī)律/邏輯,然后利用這種邏輯來(lái)處理新的數(shù)據(jù)。
毫無(wú)疑問(wèn),學(xué)習(xí)是人工智能中最為火熱和最有前途的方向,讓人去“學(xué)習(xí)”那么復(fù)雜的邏輯來(lái)告訴機(jī)器怎么做還不如讓機(jī)器自己來(lái)學(xué)習(xí)呢,畢竟人都是懶的嘛,而“懶”就是人類進(jìn)步的動(dòng)力!
學(xué)習(xí)是不斷的訓(xùn)練過(guò)程,其模型是在連續(xù)的優(yōu)化調(diào)整中,隨著訓(xùn)練數(shù)據(jù)越多其模型越準(zhǔn)確,但是人類的學(xué)習(xí)不僅僅是一個(gè)連續(xù)學(xué)習(xí)過(guò)程,還有一種跳躍式學(xué)習(xí),也就是常說(shuō)的“頓悟”,這點(diǎn)是機(jī)器學(xué)習(xí)目前所沒(méi)有的。
也就是說(shuō),要從語(yǔ)音識(shí)別成功轉(zhuǎn)變成真正意義上的語(yǔ)義識(shí)別,首先要獲得大量的數(shù)據(jù)(比如說(shuō)普通話,上海方言等),用過(guò)這些數(shù)據(jù)不斷訓(xùn)練,來(lái)提高識(shí)別的準(zhǔn)確率。
圖|語(yǔ)義識(shí)別市場(chǎng)
雖說(shuō)實(shí)現(xiàn)真正的語(yǔ)義識(shí)別不容易,但是就目前的市場(chǎng)分析來(lái)看,語(yǔ)義識(shí)別已經(jīng)滲透到了我們的生活之中,作為人工智能的基礎(chǔ)性技術(shù)之一,隨著技術(shù)的不斷成熟,語(yǔ)義識(shí)別將不斷地改變更多的傳統(tǒng)行業(yè)。
圖|人工智能各分支占比
在人工智能的整個(gè)領(lǐng)域里,自然語(yǔ)言處理無(wú)論是在創(chuàng)業(yè)熱度/獲投數(shù)量還是獲投金額都處于細(xì)分領(lǐng)域的前三名。據(jù)有關(guān)數(shù)據(jù)分析,預(yù)計(jì)到2024年,市場(chǎng)規(guī)??蛇_(dá)110億美元。并且在這個(gè)領(lǐng)域還沒(méi)有出現(xiàn)巨頭,這塊蛋糕還給創(chuàng)業(yè)者留有大量的余地。可以說(shuō)語(yǔ)音識(shí)別(在這里指的整個(gè)語(yǔ)言識(shí)別)未來(lái)的市場(chǎng)發(fā)展十分有看頭。
想象一下,當(dāng)語(yǔ)音識(shí)別發(fā)展到一定程度,我們坐在電視機(jī)前就可以語(yǔ)音遙控想看的節(jié)目。假如你要看英劇《神探夏洛克》,經(jīng)常會(huì)被人叫成《神探夏洛特》(因?yàn)橄穆逄馗樧旎蛘吒毡椋@時(shí)候如果不做語(yǔ)義理解,可能你搜出來(lái)的名字就是《夏洛特?zé)馈?,因?yàn)樗l度也很高。
圖|語(yǔ)義識(shí)別帶來(lái)的人機(jī)交互
專做語(yǔ)義識(shí)別的三角獸公司CTO亓超對(duì)以上現(xiàn)象如此解釋:當(dāng)你沒(méi)有辦法記住片子完整名字時(shí),語(yǔ)義識(shí)別需要給你做糾正,做更合適處理。其實(shí)用戶在看電視產(chǎn)生很大需求,當(dāng)用戶不知道要看什么,需要機(jī)器幫忙做推薦和引導(dǎo),而這個(gè)過(guò)程中精準(zhǔn)化程度、和人性化程度取決于智能化程度。
當(dāng)語(yǔ)音識(shí)別發(fā)展到一定的程度,語(yǔ)義識(shí)別或?qū)⒊蔀樾碌闹髁鳌?/p>
評(píng)論
查看更多