寶馬在設(shè)計iDrive (智能駕駛控制系統(tǒng))時,始終堅持的一個原則是“不分心”。2011年,當(dāng)時的寶馬人機(jī)界面負(fù)責(zé)人Bernarhd Neidermaier在一次交流中提到,設(shè)計師們心里其實有一條水平參考線——顯示相關(guān)的都在線上,控制相關(guān)的在線下。他們努力將兩者剝離,目的是盡可能地減少低頭看屏分散注意力的時間,并且保證駕駛員用按鈕控制時,不用傾斜身體或者抬起手臂。
這種把顯示與控制剝離的設(shè)計,一直被沿用了下來。
另一種讓駕駛員避免分心的辦法,就是在車內(nèi)引入語音交互。畢竟語言最接近人類的交流習(xí)慣,如果和你說話的系統(tǒng)足夠聰明,一句指令就能清楚地指向一個功能,反復(fù)查看屏幕和手動操作的時間,都可以節(jié)省下來。
2016年CES(消費電子展)時,寶馬帶來了為中國用戶開發(fā)的自然語音識別系統(tǒng)(NLU,Natural Language Understanding)。這項技術(shù)最先在3系和7系上應(yīng)用,之后又延伸到了品牌旗下的更多車型。過去幾天,車云菌體驗了一輛寶馬320i的自然語音識別,對這項功能的表現(xiàn)也有了更加直觀的體會,在這套語音系統(tǒng)常規(guī)表現(xiàn)之外,還給它布置了幾道小有挑戰(zhàn)的“附加題”,大家也可以看看這套系統(tǒng)的表現(xiàn)。
先來認(rèn)識一下寶馬的這套自然語音系統(tǒng)
自然語音技術(shù)不是一蹴而就,寶馬引入車載語音技術(shù)已經(jīng)有很多年了。因為語音識別本身就是iDrive系統(tǒng)的一部分,所以語音控制體驗和整個車載娛樂信息系統(tǒng)以及一些車輛輔助(比如空調(diào)等)緊緊聯(lián)系在了一起。
據(jù)資料顯示,第一代iDrive就可以用語音來控制導(dǎo)航和音樂,隨后寶馬又分別在2007年加入了語音撥號,2011年增加了文字轉(zhuǎn)語音讀電郵、短信等功能。
這個階段,寶馬使用的還是“條目式語音”,控制模式很像用鼠標(biāo)去逐個點開系統(tǒng)頁面,而且每次該說什么都要嚴(yán)格遵守規(guī)定。假如你要聽手機(jī)上ColdPlay演唱的Viva la Vida,那就請依次說出“USB-按藝術(shù)家-ColdPlay-按歌名-Viva la Vida”吧。
2012年,語音功能迎來了一次大更新。寶馬宣布開始使用Nuance的Dragon Drive(聲龍駕駛)。這是一套“本地+云端”的混合系統(tǒng)。因為獲得了云端強(qiáng)大的運(yùn)算能力,語音交互不再受限于本地的存儲和算力,語音識別率和速度都有了顯著提升。
當(dāng)時視頻展示的語音交互已經(jīng)開始簡化,雖然依舊需要先說出“導(dǎo)航”這個命令大類,但用戶已經(jīng)可以在地址頁面按要求,一次性輸入完整的目的地地址。
2018款寶馬320i的iDrive系統(tǒng),用戶可勾選是否通過服務(wù)器進(jìn)行語音識別,來提升語音交互的體驗
更重要的是,云服務(wù)讓語義理解變得更加容易。在2016年寶馬揭曉最新一代自然語音系統(tǒng)時,交互已經(jīng)在努力接近人與人之間的對話。導(dǎo)航時,系統(tǒng)已經(jīng)可以根據(jù)“附近的加油站”這類模糊指令,給出一個非常接近答案的地址列表。
而且交互邏輯中,完成某個任務(wù)期間的多輪語音溝通不用多次喚醒。只要界面左上角的語音標(biāo)識一直處于點亮狀態(tài),你就可以一直順著引導(dǎo),把任務(wù)完整布置給系統(tǒng)。因此在用戶端體驗上,寶馬早期語音交互的那種機(jī)械感已經(jīng)被大大稀釋。
2016年發(fā)布的寶馬自然語音識別通過方向盤上的語音按鈕喚醒,可以用于導(dǎo)航,搜索POI,打開音樂廣播,撥打電話,發(fā)送信息,查詢車輛和生活信息等。在每個大類中,語音還可以控制更加細(xì)分的小功能。
上面這個視頻可以讓你直觀感受一下整個語音交互過程,系統(tǒng)對答和提醒的女聲語音聽起來較為舒心,理解任務(wù)的成功率也比較高。在連接服務(wù)器的情況下,語音識別和語義理解的延遲可接受,系統(tǒng)思考的時間幾乎不易覺察。
4道語音考試“附加題”
除了常規(guī)體驗之外,我們?yōu)檫@套語音系統(tǒng)準(zhǔn)備了幾道附加題,更像是有趣的極限挑戰(zhàn),可以讓大家對系統(tǒng)有更深入的發(fā)現(xiàn)。
1. 打斷和修改
在熟悉和機(jī)器交談后,系統(tǒng)的語音回復(fù)顯得過于冗長。你會在機(jī)器說完所有內(nèi)容之前,就下意識地打斷它。寶馬的自然語音識別在一些環(huán)節(jié)支持打斷,可以兼顧需要解說和簡化溝通的需要。
同時在語音識別、語義理解難免出錯的時候,手動修改錯誤結(jié)果也是一個比較苦惱的問題。刪除和重輸入過程十分繁瑣,使用寶馬自然語音識別系統(tǒng)的語音修改,可以提高溝通效率。
在撥打電話這個任務(wù)中,我們隨機(jī)測試了連續(xù)打斷和修改方面的表現(xiàn),測試時是車窗關(guān)閉的駐車狀態(tài),同時云端識別開啟。
2. 強(qiáng)噪音
對于車載環(huán)境,降噪是一項很重要的命題。因為行車時特有的發(fā)動機(jī)聲,開窗時的風(fēng)噪,車內(nèi)其他人的說話聲,都會干擾最終的語音交互效果。
常規(guī)測試車載語音系統(tǒng)的降噪能力,是在高速行駛時開窗測試。我們選擇了更苛刻的條件——在駐車狀態(tài)空調(diào)風(fēng)力全開的時候,隨意使用車載語音功能。因為空調(diào)最大風(fēng)量時發(fā)出來的噪聲非常大,而車機(jī)和空調(diào)出風(fēng)口臨近,會受到很大的干擾。
下面是一個一鏡到底的視頻,云端識別處于開啟狀態(tài)。其中,打開關(guān)閉空調(diào)、按距離篩選POI結(jié)果是車載語音原本不支持的功能,返回結(jié)果失敗的原因不是噪音導(dǎo)致。總體看來,在非常惡劣的環(huán)境下,寶馬這套車載語音的表現(xiàn)不錯。
3. 不連網(wǎng)
這款車載語音產(chǎn)品是一個混合導(dǎo)航。目前這套系統(tǒng)的導(dǎo)航POI(興趣點)數(shù)據(jù)優(yōu)先從云端獲取。為了避免車處在隧道、停車場等信號不佳區(qū)域?qū)е碌捏w驗欠缺,車輛本地也會存放一部分導(dǎo)航數(shù)據(jù),但一般而言輸出結(jié)果需要更長的時間。
我們關(guān)閉網(wǎng)絡(luò),測試了非聯(lián)網(wǎng)狀態(tài)POI搜索的表現(xiàn)。結(jié)果發(fā)現(xiàn),本地處理時間有了明顯增加,系統(tǒng)思考的每個步驟都在屏幕上展示了出來。首先非聯(lián)網(wǎng)帶來的時延,車云菌覺得對駐車狀態(tài)的搜索不會造成太大困擾,但如果在行車過程操作,很有可能會導(dǎo)致錯過路口,路線重新規(guī)劃。對于把每一步都展示給用戶的做法,車云菌認(rèn)為反倒對用戶理解系統(tǒng)是一種幫助,畢竟在本地狀態(tài)下,語音識別過程的拉長,很容易造成“功能不可用”的誤解。
4. 多意圖指令
單一意圖的語言指令,寶馬的這套系統(tǒng)已經(jīng)有不錯的識別表現(xiàn)。但這并沒有滿足我們的好奇心。根據(jù)習(xí)慣,我們常常會使用多意圖的語音指令,比如“提醒我明天下午給車云菌打電話”,對系統(tǒng)來說,挑戰(zhàn)就是分辨該“打電話給車云菌”還是“給備忘錄中增加一個提醒”。
在下面這個視頻,我們試了這樣一組指令。通過不同地名的排列組合,讓系統(tǒng)試著去分辨我們的真實意圖。對于這道題,系統(tǒng)沒能成功給出邏輯上正確的結(jié)果。語義理解是目前語音技術(shù)在重點突破的方向,要讓語音系統(tǒng)真正識別駕駛員的意圖,還需要更多的數(shù)據(jù)和更強(qiáng)大的神經(jīng)網(wǎng)絡(luò)架構(gòu)。
- 導(dǎo)航到天安門
- 導(dǎo)航到西單
- 我要去天安門,不要去西單
- 我要去西單,不要去天安門
- 我不要去天安門,我要去西單
- 我不要去西單,我要去天安門
- 我不要去天安門,也不要去西單
- 我要去天安門和西單
小結(jié)
寶馬最早開始在量產(chǎn)車上使用語音交互的車企之一,并且這項功能已經(jīng)普及到了品牌旗下的眾多車型。語音技術(shù)的持續(xù)發(fā)展,為駕駛員創(chuàng)造了更智能化,情景化,以及更加主動的體驗。隨著智能汽車角色的轉(zhuǎn)變,語音會發(fā)揮的作用一定會越來越大。
評論
查看更多