不難發(fā)現(xiàn),現(xiàn)在「車(chē)載語(yǔ)音交互」的體驗(yàn)越來(lái)越完善。它不僅能完成更多的指令,而且能和我們進(jìn)行情感交互,甚至還懂得一些基本的倫理綱常。AI語(yǔ)音交互,同樣正在占據(jù)我們生活應(yīng)用中的每一個(gè)入口,現(xiàn)在,被視作“第三空間”的汽車(chē)場(chǎng)景,通過(guò)自然連續(xù)對(duì)話(huà)完成人車(chē)之間的主動(dòng)交互,正在成為現(xiàn)實(shí)。
回顧發(fā)展之初,車(chē)載語(yǔ)音雖然能完整跑通 ASR、TTS 這些流程,能實(shí)現(xiàn)一些簡(jiǎn)單的 NLU/NLP 能力,但體驗(yàn)有很多漏洞,比如有可能識(shí)別失敗,指令完成緩慢,交互邏輯不合常理等等。如今來(lái)看,這些基礎(chǔ)能力正變得更強(qiáng),基本可以稱(chēng)得上是一個(gè)「有價(jià)值的工具」。
另一方面,語(yǔ)音交互作為智能網(wǎng)聯(lián)汽車(chē)的“靈魂”,一直是車(chē)聯(lián)網(wǎng)公司和主機(jī)廠發(fā)力的重點(diǎn)領(lǐng)域。目前市面上常見(jiàn)的車(chē)載系統(tǒng)每次交互都得說(shuō)出喚醒詞,無(wú)法做到自然連續(xù)對(duì)話(huà)。相比市場(chǎng)同類(lèi)車(chē)載系統(tǒng),基于AliOS底層技術(shù)開(kāi)發(fā)的斑馬智行VENUS系統(tǒng),在AI語(yǔ)音功能智能化程度上有了更高突破,不僅具備人類(lèi)親和力的特質(zhì)和邏輯思維能力,同時(shí),整個(gè)對(duì)話(huà)體驗(yàn)更加自然流暢,能帶給用戶(hù)更具情景化、更有溫度的用車(chē)體驗(yàn)。
實(shí)際上,新斑馬語(yǔ)音產(chǎn)品在快、準(zhǔn)、自然的交互體驗(yàn)基礎(chǔ)上,開(kāi)創(chuàng)了全雙工、全場(chǎng)景、全閉環(huán)的交互特色,并第一次在車(chē)內(nèi)實(shí)現(xiàn)了個(gè)性化聲音克隆的技術(shù)。
語(yǔ)音基礎(chǔ)能力方面,新斑馬語(yǔ)音背靠阿里巴巴達(dá)摩院,提供ECNR、VW、ASR、TTS等全鏈路語(yǔ)音基礎(chǔ)能力,并且在汽車(chē)語(yǔ)義上投入重兵與達(dá)摩院合作共建,保障在核心能力上的領(lǐng)先性和特色。
語(yǔ)音交互特性方面,重點(diǎn)演進(jìn)了全雙工交互能力,并且開(kāi)發(fā)了可見(jiàn)即可說(shuō)、全時(shí)喚醒、靈動(dòng)喚醒詞、多TTS引擎、雙模態(tài)交互、個(gè)性化聲音克隆等交互特色。其中聲音克隆技術(shù)可以將用戶(hù)的聲音復(fù)制到車(chē)內(nèi),提供更加個(gè)性化的趣味體驗(yàn)。
同時(shí),在與車(chē)場(chǎng)景結(jié)合方面,斑馬語(yǔ)音擁有全場(chǎng)景、全閉環(huán)的交互體驗(yàn)。在地圖導(dǎo)航、多媒體、通訊、車(chē)控車(chē)設(shè)四大場(chǎng)景上進(jìn)行了深度挖掘,與語(yǔ)音進(jìn)行深度結(jié)合,實(shí)現(xiàn)動(dòng)口不動(dòng)手的語(yǔ)音交互體驗(yàn)。同時(shí)為支付寶車(chē)載小程序開(kāi)放平臺(tái)提供語(yǔ)音開(kāi)放能力,讓接入汽車(chē)的支付寶車(chē)載小程序都可以使用語(yǔ)音進(jìn)行交互。
自然語(yǔ)音交互系統(tǒng)- 全雙工交互技術(shù)
一次喚醒多次輸入
更高效更接近人類(lèi)交互習(xí)慣
基于場(chǎng)景的上下文預(yù)測(cè)
邊說(shuō)邊聽(tīng),邊聽(tīng)邊想
全雙工交互具有一次喚醒多次輸入、邊說(shuō)邊聽(tīng)邊聽(tīng)邊想、基于場(chǎng)景進(jìn)行上下文預(yù)測(cè)等能力。相比傳統(tǒng)語(yǔ)音交互方式,全雙工更接近人類(lèi)習(xí)慣,是語(yǔ)音交互到自然交互的必備階段。
實(shí)現(xiàn)全雙工語(yǔ)音交互,面臨著多項(xiàng)技術(shù)挑戰(zhàn):如何在機(jī)器說(shuō)話(huà)的同時(shí)清楚地接收用戶(hù)說(shuō)話(huà)的信號(hào)?如何保證持續(xù)不斷地接收用戶(hù)完整的信息表達(dá)?如何在保證準(zhǔn)確理解的前提下控制誤觸發(fā)?這些問(wèn)題在汽車(chē)環(huán)境中會(huì)被不斷放大,阻礙技術(shù)的落地應(yīng)用。
斑馬依托達(dá)摩院降噪、回聲消除、流式ASR、流式NLU、專(zhuān)項(xiàng)NLU拒識(shí)模型等前沿技術(shù),在大規(guī)模實(shí)車(chē)數(shù)據(jù)的訓(xùn)練下,實(shí)現(xiàn)了真正的全雙工交互技術(shù)在車(chē)內(nèi)的大規(guī)模使用。
自然語(yǔ)音交互系統(tǒng)- 聲音克隆技術(shù)
快速生成TTS聲音模擬
個(gè)性化自然交互體驗(yàn)
讓最熟悉的聲音一路相伴
聲音克隆技術(shù)只需要提取用戶(hù)5-10分鐘的聲音片段,就可以提取出他的聲音特征,進(jìn)而訓(xùn)練出和他的聲音相似的TTS聲音。傳統(tǒng)的TTS技術(shù)需要獲得幾十小時(shí)的數(shù)據(jù)才能夠進(jìn)行TTS的發(fā)音人訓(xùn)練。而基于深度神經(jīng)網(wǎng)絡(luò),斑馬聲音克隆系統(tǒng)在5-10分鐘的聲音片段中,就可以通過(guò)聲音特征提取訓(xùn)練、聲音合成器訓(xùn)練和聲碼器訓(xùn)練完成TTS聲音的模擬。
聲音克隆技術(shù)在車(chē)內(nèi)可以為你帶來(lái)更加個(gè)性化的自然交互體驗(yàn),你可以把車(chē)內(nèi)的聲音設(shè)置成自己的愛(ài)人、子女、父母等親人的聲音,為自己的行車(chē)生活增添更多的溫暖。
有了聲音及語(yǔ)意上的天然優(yōu)勢(shì),再加之AI大數(shù)據(jù)的后端支持,斑馬智行VENUS實(shí)現(xiàn)了“智商情商雙進(jìn)步,聊啥都懂”的突出能力。具體來(lái)看,斑馬智行VENUS AI語(yǔ)音技能將覆蓋500多個(gè)常用知識(shí)領(lǐng)域,無(wú)論是查天氣、查股票,還是幽默段子,都能“隨問(wèn)隨答”。
隨著5G、物聯(lián)網(wǎng)、自動(dòng)駕駛等技術(shù)的成熟,車(chē)載語(yǔ)音助手必然會(huì)替代我們現(xiàn)有的人車(chē)交互方式,一款好的車(chē)機(jī)語(yǔ)音對(duì)汽車(chē)而言,顯得尤為重要。在近日對(duì)外透露的斑馬5計(jì)劃中,「對(duì)話(huà)式導(dǎo)航」將成為下一項(xiàng)語(yǔ)音交互黑科技。不久的將來(lái),影視劇中如霹靂游俠那般的人車(chē)對(duì)話(huà)也終將會(huì)實(shí)現(xiàn)。
編輯:jq
-
物聯(lián)網(wǎng)
+關(guān)注
關(guān)注
2911文章
44840瀏覽量
375249 -
ASR
+關(guān)注
關(guān)注
2文章
43瀏覽量
18759 -
5G
+關(guān)注
關(guān)注
1356文章
48494瀏覽量
565117 -
自動(dòng)駕駛
+關(guān)注
關(guān)注
784文章
13902瀏覽量
166708
原文標(biāo)題:自然語(yǔ)音交互系統(tǒng) 帶來(lái)人機(jī)對(duì)話(huà)新體驗(yàn)
文章出處:【微信號(hào):AliOS,微信公眾號(hào):AliOS】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論