996热免费精品在视频久,91精品国产综合久久香蕉

不難發(fā)現(xiàn)，現(xiàn)在「車(chē)載語(yǔ)音交互」的體驗(yàn)越來(lái)越完善。它不僅能完成更多的指令，而且能和我們進(jìn)行情感交互，甚至還懂得一些基本的倫理綱常。AI語(yǔ)音交互，同樣正在占據(jù)我們生活應(yīng)用中的每一個(gè)入口，現(xiàn)在，被視作“第三空間”的汽車(chē)場(chǎng)景，通過(guò)自然連續(xù)對(duì)話(huà)完成人車(chē)之間的主動(dòng)交互，正在成為現(xiàn)實(shí)。

回顧發(fā)展之初，車(chē)載語(yǔ)音雖然能完整跑通 ASR、TTS 這些流程，能實(shí)現(xiàn)一些簡(jiǎn)單的 NLU/NLP 能力，但體驗(yàn)有很多漏洞，比如有可能識(shí)別失敗，指令完成緩慢，交互邏輯不合常理等等。如今來(lái)看，這些基礎(chǔ)能力正變得更強(qiáng)，基本可以稱(chēng)得上是一個(gè)「有價(jià)值的工具」。

另一方面，語(yǔ)音交互作為智能網(wǎng)聯(lián)汽車(chē)的“靈魂”，一直是車(chē)聯(lián)網(wǎng)公司和主機(jī)廠發(fā)力的重點(diǎn)領(lǐng)域。目前市面上常見(jiàn)的車(chē)載系統(tǒng)每次交互都得說(shuō)出喚醒詞，無(wú)法做到自然連續(xù)對(duì)話(huà)。相比市場(chǎng)同類(lèi)車(chē)載系統(tǒng)，基于AliOS底層技術(shù)開(kāi)發(fā)的斑馬智行VENUS系統(tǒng)，在AI語(yǔ)音功能智能化程度上有了更高突破，不僅具備人類(lèi)親和力的特質(zhì)和邏輯思維能力，同時(shí)，整個(gè)對(duì)話(huà)體驗(yàn)更加自然流暢，能帶給用戶(hù)更具情景化、更有溫度的用車(chē)體驗(yàn)。

實(shí)際上，新斑馬語(yǔ)音產(chǎn)品在快、準(zhǔn)、自然的交互體驗(yàn)基礎(chǔ)上，開(kāi)創(chuàng)了全雙工、全場(chǎng)景、全閉環(huán)的交互特色，并第一次在車(chē)內(nèi)實(shí)現(xiàn)了個(gè)性化聲音克隆的技術(shù)。

語(yǔ)音基礎(chǔ)能力方面，新斑馬語(yǔ)音背靠阿里巴巴達(dá)摩院，提供ECNR、VW、ASR、TTS等全鏈路語(yǔ)音基礎(chǔ)能力，并且在汽車(chē)語(yǔ)義上投入重兵與達(dá)摩院合作共建，保障在核心能力上的領(lǐng)先性和特色。

語(yǔ)音交互特性方面，重點(diǎn)演進(jìn)了全雙工交互能力，并且開(kāi)發(fā)了可見(jiàn)即可說(shuō)、全時(shí)喚醒、靈動(dòng)喚醒詞、多TTS引擎、雙模態(tài)交互、個(gè)性化聲音克隆等交互特色。其中聲音克隆技術(shù)可以將用戶(hù)的聲音復(fù)制到車(chē)內(nèi)，提供更加個(gè)性化的趣味體驗(yàn)。

同時(shí)，在與車(chē)場(chǎng)景結(jié)合方面，斑馬語(yǔ)音擁有全場(chǎng)景、全閉環(huán)的交互體驗(yàn)。在地圖導(dǎo)航、多媒體、通訊、車(chē)控車(chē)設(shè)四大場(chǎng)景上進(jìn)行了深度挖掘，與語(yǔ)音進(jìn)行深度結(jié)合，實(shí)現(xiàn)動(dòng)口不動(dòng)手的語(yǔ)音交互體驗(yàn)。同時(shí)為支付寶車(chē)載小程序開(kāi)放平臺(tái)提供語(yǔ)音開(kāi)放能力，讓接入汽車(chē)的支付寶車(chē)載小程序都可以使用語(yǔ)音進(jìn)行交互。

自然語(yǔ)音交互系統(tǒng)- 全雙工交互技術(shù)

一次喚醒多次輸入

更高效更接近人類(lèi)交互習(xí)慣

基于場(chǎng)景的上下文預(yù)測(cè)

邊說(shuō)邊聽(tīng)，邊聽(tīng)邊想

全雙工交互具有一次喚醒多次輸入、邊說(shuō)邊聽(tīng)邊聽(tīng)邊想、基于場(chǎng)景進(jìn)行上下文預(yù)測(cè)等能力。相比傳統(tǒng)語(yǔ)音交互方式，全雙工更接近人類(lèi)習(xí)慣，是語(yǔ)音交互到自然交互的必備階段。

實(shí)現(xiàn)全雙工語(yǔ)音交互，面臨著多項(xiàng)技術(shù)挑戰(zhàn)：如何在機(jī)器說(shuō)話(huà)的同時(shí)清楚地接收用戶(hù)說(shuō)話(huà)的信號(hào)？如何保證持續(xù)不斷地接收用戶(hù)完整的信息表達(dá)？如何在保證準(zhǔn)確理解的前提下控制誤觸發(fā)？這些問(wèn)題在汽車(chē)環(huán)境中會(huì)被不斷放大，阻礙技術(shù)的落地應(yīng)用。

斑馬依托達(dá)摩院降噪、回聲消除、流式ASR、流式NLU、專(zhuān)項(xiàng)NLU拒識(shí)模型等前沿技術(shù)，在大規(guī)模實(shí)車(chē)數(shù)據(jù)的訓(xùn)練下，實(shí)現(xiàn)了真正的全雙工交互技術(shù)在車(chē)內(nèi)的大規(guī)模使用。

自然語(yǔ)音交互系統(tǒng)- 聲音克隆技術(shù)

基于深度神經(jīng)網(wǎng)絡(luò)

快速生成TTS聲音模擬

個(gè)性化自然交互體驗(yàn)

讓最熟悉的聲音一路相伴

聲音克隆技術(shù)只需要提取用戶(hù)5-10分鐘的聲音片段，就可以提取出他的聲音特征，進(jìn)而訓(xùn)練出和他的聲音相似的TTS聲音。傳統(tǒng)的TTS技術(shù)需要獲得幾十小時(shí)的數(shù)據(jù)才能夠進(jìn)行TTS的發(fā)音人訓(xùn)練。而基于深度神經(jīng)網(wǎng)絡(luò)，斑馬聲音克隆系統(tǒng)在5-10分鐘的聲音片段中，就可以通過(guò)聲音特征提取訓(xùn)練、聲音合成器訓(xùn)練和聲碼器訓(xùn)練完成TTS聲音的模擬。

聲音克隆技術(shù)在車(chē)內(nèi)可以為你帶來(lái)更加個(gè)性化的自然交互體驗(yàn)，你可以把車(chē)內(nèi)的聲音設(shè)置成自己的愛(ài)人、子女、父母等親人的聲音，為自己的行車(chē)生活增添更多的溫暖。

有了聲音及語(yǔ)意上的天然優(yōu)勢(shì)，再加之AI大數(shù)據(jù)的后端支持，斑馬智行VENUS實(shí)現(xiàn)了“智商情商雙進(jìn)步，聊啥都懂”的突出能力。具體來(lái)看，斑馬智行VENUS AI語(yǔ)音技能將覆蓋500多個(gè)常用知識(shí)領(lǐng)域，無(wú)論是查天氣、查股票，還是幽默段子，都能“隨問(wèn)隨答”。

隨著5G、物聯(lián)網(wǎng)、自動(dòng)駕駛等技術(shù)的成熟，車(chē)載語(yǔ)音助手必然會(huì)替代我們現(xiàn)有的人車(chē)交互方式，一款好的車(chē)機(jī)語(yǔ)音對(duì)汽車(chē)而言，顯得尤為重要。在近日對(duì)外透露的斑馬5計(jì)劃中，「對(duì)話(huà)式導(dǎo)航」將成為下一項(xiàng)語(yǔ)音交互黑科技。不久的將來(lái)，影視劇中如霹靂游俠那般的人車(chē)對(duì)話(huà)也終將會(huì)實(shí)現(xiàn)。

編輯：jq

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

物聯(lián)網(wǎng)

物聯(lián)網(wǎng)

+關(guān)注

關(guān)注
2911

文章
44840

瀏覽量
375249
ASR

ASR

+關(guān)注

關(guān)注
2

文章
43

瀏覽量
18759
5G

5G

+關(guān)注

關(guān)注
1356

文章
48494

瀏覽量
565117
自動(dòng)駕駛

自動(dòng)駕駛

+關(guān)注

關(guān)注
784

文章
13902

瀏覽量
166708

原文標(biāo)題：自然語(yǔ)音交互系統(tǒng) 帶來(lái)人機(jī)對(duì)話(huà)新體驗(yàn)

文章出處：【微信號(hào)：AliOS，微信公眾號(hào)：AliOS】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

啟英泰倫新推出多意圖自然說(shuō)，重塑離線(xiàn)人機(jī)交互新標(biāo)準(zhǔn)！

智能語(yǔ)音識(shí)別技術(shù)作為人機(jī)交互領(lǐng)域的一場(chǎng)革命性突破，正逐步重塑我們與智能設(shè)備的交互方式。近期，啟英泰倫新推出了多意圖自然說(shuō)技術(shù)，進(jìn)一步增強(qiáng)了人機(jī)交互

發(fā)表于 01-03 16:01 ?160次閱讀

語(yǔ)音芯片賦能可穿戴設(shè)備：開(kāi)啟個(gè)性化音頻新體驗(yàn)

語(yǔ)音芯片與可穿戴設(shè)備合作，帶來(lái)定制化音效、智能降噪、個(gè)性化推薦、語(yǔ)音交互及跨設(shè)備共享等，引領(lǐng)個(gè)性化音頻時(shí)代，提升用戶(hù)聽(tīng)覺(jué)體驗(yàn)。

發(fā)表于 12-14 15:44 ?467次閱讀

語(yǔ)音識(shí)別與自然語(yǔ)言處理的關(guān)系

了人機(jī)交互的革命，使得機(jī)器能夠更加自然地與人類(lèi)溝通。 語(yǔ)音識(shí)別技術(shù)概述 語(yǔ)音識(shí)別，也稱(chēng)為自動(dòng)語(yǔ)音識(shí)別（ASR），是指將人類(lèi)的

發(fā)表于 11-26 09:21 ?508次閱讀

具身智能對(duì)人機(jī)交互的影響

在人工智能的發(fā)展歷程中，人機(jī)交互一直是研究的核心領(lǐng)域之一。隨著技術(shù)的進(jìn)步，人機(jī)交互的方式也在不斷演變。從最初的命令行界面，到圖形用戶(hù)界面，再到現(xiàn)在的自然語(yǔ)言處理和

發(fā)表于 10-27 09:58 ?396次閱讀

OpenAI發(fā)布ChatGPT高級(jí)語(yǔ)音版,付費(fèi)訂閱并設(shè)對(duì)話(huà)時(shí)長(zhǎng)限制

ChatGPT已邁入語(yǔ)音交互的新紀(jì)元，為付費(fèi)用戶(hù)解鎖了高級(jí)語(yǔ)音功能，旨在讓對(duì)話(huà)體驗(yàn)更加自然流暢。OpenAI在本周二宣布了這一消息，標(biāo)志著其

發(fā)表于 09-27 15:34 ?2001次閱讀

科大訊飛發(fā)布星火極速超擬人交互,重塑智能對(duì)話(huà)新體驗(yàn)

8月19日，科大訊飛震撼宣布了一項(xiàng)關(guān)于其明星產(chǎn)品——星火語(yǔ)音大模型的重大革新，即將推出的“星火極速超擬人交互”功能，預(yù)示著人機(jī)交互的新紀(jì)元。該功能定于8月30日正式登陸訊飛星火App，面向廣大用戶(hù)開(kāi)放體驗(yàn)，引領(lǐng)一場(chǎng)前所未有的智能

發(fā)表于 08-20 16:46 ?375次閱讀

樂(lè)鑫聲學(xué)前端算法：打造智能語(yǔ)音交互新體驗(yàn)，ESP32-S3 SOC技術(shù)方案

隨著人工智能技術(shù)的不斷進(jìn)步，智能語(yǔ)音設(shè)備正逐漸成為我們生活中不可或缺的一部分。然而，在嘈雜的現(xiàn)實(shí)環(huán)境中，如何實(shí)現(xiàn)清晰、準(zhǔn)確的語(yǔ)音交互，一直是業(yè)界面臨的一大挑戰(zhàn)。今天，我們要介紹的是樂(lè)鑫聲學(xué)前端算法

發(fā)表于 08-03 08:04 ?1067次閱讀

OpenAI提前解鎖GPT-4o語(yǔ)音模式，引領(lǐng)對(duì)話(huà)新紀(jì)元

OpenAI近日宣布了一項(xiàng)令人振奮的消息：即日起，部分ChatGPT Plus用戶(hù)將率先體驗(yàn)到GPT-4o的語(yǔ)音模式，這一創(chuàng)新功能標(biāo)志著自然語(yǔ)言處理與人工智能交互技術(shù)邁出了重要一步。GPT-4o的高級(jí)

發(fā)表于 08-01 18:24 ?1239次閱讀

疆程技術(shù)亮相2024汽車(chē)軟件與通信大會(huì)，智能顯示引領(lǐng)駕乘新體驗(yàn)

疆程技術(shù)亮相2024汽車(chē)軟件與通信大會(huì)，智能顯示引領(lǐng)駕乘新體驗(yàn)

發(fā)表于 05-30 09:59 ?465次閱讀

智能語(yǔ)音交互技術(shù)如何助力設(shè)備實(shí)現(xiàn)人機(jī)自然對(duì)話(huà)

隨著現(xiàn)代人工智能在各行業(yè)的普及，智能語(yǔ)音交互技術(shù)也越來(lái)越多的在日常工作、生活中應(yīng)用，智能語(yǔ)音交互的出現(xiàn)不僅僅大量節(jié)省了人工的工作時(shí)間提高了工作效率，為人們工作生活

發(fā)表于 05-23 15:16 ?742次閱讀

智能語(yǔ)音交互技術(shù)如何助力設(shè)備實(shí)現(xiàn)人機(jī)自然對(duì)話(huà)

智能語(yǔ)音交互技術(shù)是指通過(guò)語(yǔ)音識(shí)別、語(yǔ)音合成和自然語(yǔ)言理解等技術(shù)，實(shí)現(xiàn)人與機(jī)器之間自然語(yǔ)言的交流和

發(fā)表于 05-23 15:14 ?403次閱讀

訊維智能可視化綜合平臺(tái)：打造高效遠(yuǎn)程會(huì)議的新體驗(yàn)

訊維智能可視化綜合平臺(tái)在遠(yuǎn)程會(huì)議領(lǐng)域帶來(lái)了前所未有的新體驗(yàn)，它通過(guò)高度集成化的技術(shù)和創(chuàng)新設(shè)計(jì)，為遠(yuǎn)程會(huì)議參與者提供了高效、便捷、直觀的交流方式。以下是訊維智能可視化綜合平臺(tái)如何打造高效遠(yuǎn)程會(huì)議新體驗(yàn)

發(fā)表于 05-11 16:37 ?360次閱讀

**十萬(wàn)級(jí)口語(yǔ)識(shí)別，離線(xiàn)自然說(shuō)技術(shù)，讓智能照明更懂你**

NLP技術(shù)。該技術(shù)基于端到端語(yǔ)音識(shí)別技術(shù)及端側(cè)NLP技術(shù)，可識(shí)別端側(cè)十萬(wàn)級(jí)別口語(yǔ)說(shuō)法，打破傳統(tǒng)的固定詞條語(yǔ)音識(shí)別，為用戶(hù)提供更自然、更靈活、更智能的語(yǔ)音

發(fā)表于 04-29 17:09

人機(jī)交互的三個(gè)階段 人機(jī)交互的常用方式

機(jī)交互經(jīng)歷的三個(gè)階段：命令行界面交互階段、圖形用戶(hù)界面交互階段、自然和諧的人機(jī)交互階段。

發(fā)表于 03-13 17:25 ?3245次閱讀

人機(jī)交互技術(shù)有哪幾種 人機(jī)交互技術(shù)的發(fā)展趨勢(shì)

的幾種形式：圖形用戶(hù)界面（GUI）：圖形用戶(hù)界面是目前最為常見(jiàn)的人機(jī)交互技術(shù)形式。它通過(guò)圖形化的方式展示信息，用戶(hù)可通過(guò)鼠標(biāo)、鍵盤(pán)等設(shè)備進(jìn)行操作。GUI簡(jiǎn)單直觀，易于學(xué)習(xí)使用，適用于大眾用戶(hù)。 語(yǔ)音交互技術(shù)：

發(fā)表于 01-22 17:47 ?3869次閱讀