每一次的科技變革,所帶來(lái)的不只是產(chǎn)品的更新迭代,還有一種全新的生活方式。就比如觸屏手機(jī)的出現(xiàn),老式鍵盤退出了歷史舞臺(tái),繁瑣的操作方式被拋棄,手機(jī)有了多樣化的界面風(fēng)格和豐富的娛樂(lè)功能。
同樣的,當(dāng)智能語(yǔ)音技術(shù)出現(xiàn)之后,觸屏又顯得out了,通過(guò)語(yǔ)音就能輸入文字、操控手機(jī)里的應(yīng)用、導(dǎo)航路線,甚至遠(yuǎn)程控制家里的設(shè)備。
智能語(yǔ)音技術(shù)身后的巨大經(jīng)濟(jì)空間被迅速發(fā)掘,吸引了眾多科技公司投身其中,各種各樣的語(yǔ)音產(chǎn)品如雨后春筍一般出現(xiàn)在我們的生活里。
但一個(gè)很奇怪的現(xiàn)象也出現(xiàn)了,語(yǔ)音技術(shù)在不斷的進(jìn)步,智能語(yǔ)音產(chǎn)品也在推陳出新,然而,很多人對(duì)語(yǔ)音產(chǎn)品的熱度卻下降了,甚至一度報(bào)以惡評(píng)。
有些人覺(jué)得語(yǔ)音輸入錯(cuò)誤率太高,比手動(dòng)輸入花費(fèi)的時(shí)間還多;有些人覺(jué)得所謂的智能家電功能雞肋,體驗(yàn)太差;還有的人則認(rèn)為智能語(yǔ)音產(chǎn)品都是炒作,不值得花錢去購(gòu)買。
這些觀點(diǎn)可能更針對(duì)于國(guó)內(nèi)的消費(fèi)者,對(duì)于國(guó)外的消費(fèi)者來(lái)說(shuō),他們很早之前就已經(jīng)開(kāi)始接觸帶有語(yǔ)音功能的產(chǎn)品,諸如蘋果的Siri,以及亞馬遜的智能音箱echo。
語(yǔ)音操控對(duì)于已經(jīng)習(xí)慣使用這些產(chǎn)品的人來(lái)說(shuō),或許已經(jīng)成為了他們生活的一部分。而之所以會(huì)有“覺(jué)得智能語(yǔ)音真的很雞肋”這些想法,或許是因?yàn)檫€不夠了解它。
智能語(yǔ)音被看作是告別觸摸式模式的下一代交互模式。它是有很鮮明的理由存在的:
首先,比起文字交互來(lái)說(shuō),語(yǔ)音交互更加自然,適用性更廣。從人的學(xué)習(xí)能力來(lái)看,語(yǔ)音可以說(shuō)是我們先天就能獲得的能力,但文字不是,很多人甚至都不會(huì)書(shū)寫。
所以從某種程度上來(lái)說(shuō),如果語(yǔ)音交互能夠普及,在理想狀態(tài)下是人人都可以用語(yǔ)音命令來(lái)操控智能設(shè)備,實(shí)現(xiàn)智能體驗(yàn)。
其次,語(yǔ)音交互能夠把人更多的感官解放出來(lái),比如視覺(jué)、雙手。讓我們能夠在很多情況下更集中精力去做某件事,就比如在駕駛汽車的時(shí)候,用語(yǔ)音來(lái)導(dǎo)航能避免我們因?yàn)椴榭雌聊环稚⒘俗⒁饬Χa(chǎn)生的許多事故。
再次,語(yǔ)音交互所能適用的場(chǎng)景并不是單一的,它能應(yīng)用在我們所能想象得到的所有地方,目前已經(jīng)出現(xiàn)的智能家居系統(tǒng)就是一個(gè)很好的例子,它通過(guò)將物聯(lián)網(wǎng)和語(yǔ)音技術(shù)聯(lián)合,僅用語(yǔ)音就能操控家中所有的設(shè)備。
以同樣的方式,它也可以應(yīng)用在工業(yè)上、娛樂(lè)上、交通系統(tǒng)上。在未來(lái),能夠變革很多行業(yè)。
當(dāng)然,對(duì)于很多人提到的語(yǔ)音交互可能存在的不足,比如語(yǔ)音識(shí)別效果、語(yǔ)義理解能力,實(shí)際上,這是語(yǔ)音交互領(lǐng)域存在的普遍問(wèn)題,但隨著技術(shù)的發(fā)展有了很大的改善。
就拿國(guó)內(nèi)從事語(yǔ)音交互服務(wù)的歐拉蜜來(lái)說(shuō),目前它的識(shí)別率就高達(dá)九成以上,應(yīng)用了深度學(xué)習(xí)算法和神經(jīng)網(wǎng)絡(luò)模型自動(dòng)語(yǔ)音識(shí)別技術(shù)的它能夠?qū)崟r(shí)地將語(yǔ)音轉(zhuǎn)化為文字,而且對(duì)于噪聲的處理能力也很卓越,基本不需要額外對(duì)音頻進(jìn)行優(yōu)化或者處理,就能讓用戶獲得良好的識(shí)別效果。
對(duì)于用戶最關(guān)注的語(yǔ)義理解部分,人機(jī)交互方案專家歐拉蜜也有自己獨(dú)到的解決方法,采用了具有可全文檢索的結(jié)構(gòu)化知識(shí)庫(kù),能夠輔助確定語(yǔ)法參數(shù)的合法性,更好的消除語(yǔ)句歧義。
除此之外,它還完美的解決了一個(gè)語(yǔ)音方面的大難題,就是上下文理解。它采用了具有記憶基礎(chǔ)的上下文理解處理技術(shù),利用多維度的上下文支持能力,能夠進(jìn)行長(zhǎng)句式連續(xù)詢問(wèn)。也就是說(shuō),不僅可以讓應(yīng)用理解用戶的“言外之意”,還可以和用戶聊天嘮嗑等等。
當(dāng)然,身為人機(jī)交互領(lǐng)域?qū)<业臍W拉蜜能做到的還不止這些,它還具有語(yǔ)音喚醒、離線識(shí)別、實(shí)時(shí)目標(biāo)檢測(cè)和人臉識(shí)別等等功能,有效輔助并強(qiáng)化AI人機(jī)交互行為,來(lái)讓語(yǔ)音識(shí)別更加高效、精準(zhǔn)和多元化。
由此也可見(jiàn),語(yǔ)音技術(shù)并沒(méi)有像人們所以為的那樣停滯不前,而是一直在摸索、在進(jìn)步。智能時(shí)代的到來(lái)已經(jīng)是一個(gè)大勢(shì),面對(duì)新事物的到來(lái),最好的態(tài)度或許就是去嘗試著理解它,并接受它。
評(píng)論
查看更多