0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌AI探索無障礙溝通

23gi_ifanr ? 來源:fqj ? 2019-05-12 09:14 ? 次閱讀

Steve Saling 罹患肌萎縮性脊髓側(cè)索硬化癥(ALS)已有 13 年光景,這是一段人生大門逐漸關(guān)閉的過程。

ALS 俗稱漸凍癥,發(fā)病后肌肉僵硬,抽搐,造成說話或吞咽困難,再逐漸到手臂和腿部無力,最終失去自主控制運(yùn)動的能力。英國著名物理學(xué)家霍金即患此病。Steve Saling 與人交流,是通過眼球追蹤技術(shù)來控制計算機(jī)上的虛擬鍵盤打字,溝通十分低效。

圖 | 漸凍癥患者 Steve Saling

如今,在新技術(shù)的幫助下,他在觀看運(yùn)動賽事的精彩瞬間時,竟然可以發(fā)出歡呼。只不過,聲音是通過臉部表情控制機(jī)器發(fā)出的。通過加入谷歌的 Project Euphonia 項目,Steve Saling 可以自主訓(xùn)練機(jī)器學(xué)習(xí)模型,當(dāng)模型更了解他的面部表情,不出聲即可操作 Google Home。

圖 | Steve Saling 正在自主訓(xùn)練機(jī)器學(xué)習(xí)模型

在 2019 谷歌開發(fā)者大會上,失聰設(shè)計師 Elise Roy 與谷歌科學(xué)家、哈佛教授 Michael Brenner 共同宣布 Project Euphonia 項目。Michael Brenner 博士確信 AI 技術(shù)能解決 ALS 患者這一特定的語言障礙問題,但同時也需要大眾的協(xié)助,提供更多的聲音樣本供模型訓(xùn)練。

生活中的方方面面都涉及到與他人溝通,以及被他人理解。

想象一下,如果旁人難以理解我們的說話或表達(dá)方式時,生活會變成什么樣,是不是會感到不便和心情沮喪?

然而,對上千萬的中風(fēng)、ALS 、多發(fā)性硬化、創(chuàng)傷性腦損傷和帕金森氏癥等神經(jīng)系統(tǒng)疾病而產(chǎn)生語言障礙的人士來說,這就是他們每天都必須面對的情況。

造成語言障礙的成因有很多,有些是聽力受損,有的是腦部控制語言的神經(jīng)系統(tǒng)受到創(chuàng)傷,還有的是臉部肌肉不受控制,導(dǎo)致發(fā)音模糊,含糊不清。

非營利組織 ALS-TDI(美國 ALS 研究機(jī)構(gòu))的臨床團(tuán)隊在過去幾年中發(fā)現(xiàn),即使有嚴(yán)重發(fā)音障礙(語言障礙)的 ALS 患者,也可以被親密朋友和家人理解。這說明,只要有足夠多的聲音樣本,AI 可以學(xué)習(xí)如何解釋受損的聲音。

看到這一技術(shù)實現(xiàn)的可能性后,谷歌在 2019 開發(fā)者大會上推出 Project Euphonia,計劃用 AI 來了解語言障礙者的講話方式,例如含糊不清、不完整的講話,從而實現(xiàn)精準(zhǔn)的語音轉(zhuǎn)寫。

此項目的聲音樣本主要通過與 ALS-TDI(美國 ALS 研究機(jī)構(gòu))與 ALS Residence Initiative(ALS 住宅計劃)合作獲得,錄下 ALS 患者的聲音,然后將錄下的語音轉(zhuǎn)成聲譜圖,或以更視覺化的圖像方式來呈現(xiàn)聲音。接著計算機(jī)用轉(zhuǎn)錄的聲譜圖拿來訓(xùn)練模型,以更準(zhǔn)確辨識這類非典型的語音。

目前設(shè)計的 AI 模型是以典型的 ALS 相關(guān)障礙的英語人士為目標(biāo)對象,相信不久后這項研究將可應(yīng)用到更大范圍的不同語言障礙人群。

谷歌語音研究員 Dimitri Kanevsky 是一名聽力障礙者,幼年失聰后才開始學(xué)的英文,他的主要語言障礙是發(fā)音不標(biāo)準(zhǔn),吐字模糊。

谷歌的語音轉(zhuǎn)錄程序顯然無法對非標(biāo)準(zhǔn)發(fā)音的句子進(jìn)行高精確識別。于是 Kanevsky 研究員錄入了 15000 條自己的語音數(shù)據(jù)來對模型訓(xùn)練,起初效果并不明顯,但在他的堅持下模型終于有了不錯的表現(xiàn),程序可以很準(zhǔn)確識別他的聲音,適應(yīng)了他講話的方式。

不同語言障礙的人群所需要的技術(shù)不同,技術(shù)實現(xiàn)的難度也不同,但最終實現(xiàn)的效果是一樣的,理解和被理解。這是人類溝通的快樂源泉。

目前谷歌的 Live Transcribe 轉(zhuǎn)錄技術(shù)也可以作為聽障人士的輔助交流工具。

圖 | Live Transcribe 轉(zhuǎn)錄過程

此次谷歌開發(fā)者大會上,谷歌也推出了 Live Relay 功能,可以讓設(shè)備在語音和文本之間進(jìn)行轉(zhuǎn)換,語音信息實時轉(zhuǎn)化成文本,并且以語音的形式轉(zhuǎn)換回來,可以幫助聽力障礙或失聰人士打電話。

Live Relay 是系統(tǒng)中原生功能,不需要聯(lián)網(wǎng)就可以在終端上運(yùn)行,因此能確保通話的隱私性。

雖然 Live Relay 還在早期研究階段,不過谷歌對 Live Relay 的長期發(fā)展十分樂觀,這項技術(shù)不光是給語言障礙人群提供方便,未來所有用戶都能因這項服務(wù)受益。比如,很多用戶都曾有需要接聽重要電話,但無法離開當(dāng)下手邊正在進(jìn)行的事項的經(jīng)歷,在 Live Relay 的幫助下,用戶不必實際與對方交談,也能隨時隨地通過輸入文本的方式接聽電話,甚至可集成即時翻譯功能,讓用戶能與世界各地的人通話,完全不必?fù)?dān)心語言隔閡。

谷歌 AI 在語音識別和轉(zhuǎn)錄技術(shù)上已達(dá)到非常領(lǐng)先的水準(zhǔn),雖然在理解語言障礙者的發(fā)音和講話方式還在探索中,但這無疑是離終極目標(biāo)——無障礙溝通最近的一次。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6171

    瀏覽量

    105504
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    31028

    瀏覽量

    269366

原文標(biāo)題:為了追求一個更真實的游戲世界,我們還缺乏什么?| 近未來 ⑤

文章出處:【微信號:ifanr,微信公眾號:愛范兒】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    數(shù)據(jù)采集與傳輸無障礙 簡化設(shè)備,解決隧道深部監(jiān)測難題 擺脫信號盲區(qū)的困擾

    數(shù)據(jù)采集與傳輸無障礙 簡化設(shè)備,解決隧道深部監(jiān)測難題 擺脫信號盲區(qū)的困擾 根據(jù)實際情況和工程環(huán)境,我們特別推出了一種一站式現(xiàn)場監(jiān)測方案,旨在方便快捷地完成隧道深部及信號盲區(qū)部分的施工監(jiān)測。我們利用
    的頭像 發(fā)表于 12-21 17:29 ?124次閱讀
    數(shù)據(jù)采集與傳輸<b class='flag-5'>無障礙</b> 簡化設(shè)備,解決隧道深部監(jiān)測難題 擺脫信號盲區(qū)的困擾

    谷歌發(fā)布Gemini 2.0 AI模型

    谷歌近日正式推出了新一代AI模型——Gemini 2.0。此次更新引入了名為“深度研究”的新特性,旨在為用戶提供更加全面和深入的復(fù)雜主題探索與報告撰寫輔助。 Gemini 2.0通過高級推理和長上
    的頭像 發(fā)表于 12-12 10:13 ?247次閱讀

    HarmonyOS NEXT應(yīng)用元服務(wù)開發(fā)標(biāo)注屏幕朗讀內(nèi)容的場景

    控件包含顯示文本(text)、無障礙文本(accessibilityText)2個屬性,其中,顯示文本為用戶界面上呈現(xiàn)的信息,無障礙文本為無障礙專有的朗讀信息,不在界面上顯示。屏幕朗讀提取信息進(jìn)行
    發(fā)表于 10-12 15:52

    開發(fā)者大會成功舉辦 vivo用科技搭建人與數(shù)字世界的無障礙橋梁

    2024年10月10日,vivo開發(fā)者大會在深圳舉辦,其中信息無障礙分會場受到外界廣泛關(guān)注。vivo副總裁、OS產(chǎn)品副總裁、vivo AI全球研究院院長周圍及全國政協(xié)委員,中國殘疾人聯(lián)合會理事,中國
    發(fā)表于 10-12 14:18 ?150次閱讀
    開發(fā)者大會成功舉辦 vivo用科技搭建人與數(shù)字世界的<b class='flag-5'>無障礙</b>橋梁

    HarmonyOS NEXT應(yīng)用元服務(wù)開發(fā)Accessibility(信息無障礙)介紹

    Accessibility(信息無障礙),是指任何人在任何情況下都能平等、方便地獲取信息并利用信息。其目的是縮小全社會不同階層、不同地區(qū)、不同年齡、不同健康狀況的人群在信息理解、信息交互、信息利用
    發(fā)表于 10-09 10:29

    蘋果承認(rèn)使用谷歌芯片來訓(xùn)練AI

    蘋果公司最近在一篇技術(shù)論文中披露,其先進(jìn)的人工智能系統(tǒng)Apple Intelligence背后的兩個關(guān)鍵AI模型,是在谷歌設(shè)計的云端芯片上完成預(yù)訓(xùn)練的。這一消息標(biāo)志著在尖端AI訓(xùn)練領(lǐng)域,大型科技公司正積極
    的頭像 發(fā)表于 07-30 17:03 ?741次閱讀

    華為致力于推動無障礙技術(shù)發(fā)展

    的智能生活新紀(jì)元。這場聚焦前沿科技的盛會并未止步于技術(shù)的展示,而是進(jìn)一步拓展至人文情懷與平等包容,用一場“湖畔對談”無障礙活動以及TECH4ALL數(shù)字包容展館,為我們呈現(xiàn)了一次科技與人文的對話。 ? 今年已經(jīng)是第三年,華為在HDC現(xiàn)場舉辦與華為無障礙用戶交流
    的頭像 發(fā)表于 06-29 16:13 ?748次閱讀

    鴻蒙ArkTS聲明式開發(fā):跨平臺支持列表【無障礙屬性】 通用屬性

    組件可以設(shè)置相應(yīng)的無障礙屬性和事件來更好地使用無障礙能力。
    的頭像 發(fā)表于 06-11 17:30 ?415次閱讀
    鴻蒙ArkTS聲明式開發(fā):跨平臺支持列表【<b class='flag-5'>無障礙</b>屬性】 通用屬性

    榮耀新品將搭載谷歌AI功能,提升生成式AI體驗

    榮耀于5月22日宣布,將在新款智能手機(jī)上集成谷歌AI功能,實現(xiàn)生成式AI體驗。此外,新機(jī)還將得到谷歌云服務(wù)的支持。
    的頭像 發(fā)表于 05-23 08:51 ?500次閱讀

    谷歌增強(qiáng)安卓無障礙體驗:用AI描述周圍環(huán)境等

     據(jù)悉,Lookout是谷歌專為盲人與低視力Android用戶設(shè)計的應(yīng)用,旨在協(xié)助他們識別周邊環(huán)境并閱讀文檔。此次升級后,Lookout新增了一種查找模式,可識別包括座椅、桌子等在內(nèi)的七大類物品,并告知用戶距離及行走方向。
    的頭像 發(fā)表于 05-17 10:18 ?420次閱讀

    谷歌發(fā)布多模態(tài)AI新品,加劇AI巨頭競爭

    在全球AI競技場上,谷歌與OpenAI一直穩(wěn)居領(lǐng)先地位。近日,谷歌在I/O開發(fā)者大會上掀起了一股新的技術(shù)浪潮,發(fā)布了多款全新升級的多模態(tài)AI產(chǎn)品。
    的頭像 發(fā)表于 05-16 09:28 ?458次閱讀

    交通運(yùn)輸部大力推廣適老化無障礙交通服務(wù)

    4月3日,交通運(yùn)輸部發(fā)布了關(guān)于2024年適老化無障礙交通出行服務(wù)擴(kuò)容提質(zhì)增效的實施方案。方案明確了出租車電動召回和網(wǎng)絡(luò)預(yù)約車輛的“一鍵召喚”服務(wù)要在地級市以上的所有城市實現(xiàn)全區(qū)覆蓋;
    的頭像 發(fā)表于 04-03 16:15 ?918次閱讀

    基于STM32H743IIT6開發(fā)的代碼,是否能不經(jīng)修改無障礙地運(yùn)行在STM32H753IIT6上?

    基于 STM32H743IIT6 開發(fā)的代碼,是否能不經(jīng)修改無障礙地運(yùn)行在STM32H753IIT6上?
    發(fā)表于 03-29 06:19

    蘋果iOS 18和macOS 15無障礙功能升級

    Adaptive Voice Shortcuts功能可讓用戶把獨(dú)特的口語短語綁定到無障礙設(shè)定中。用戶能自行設(shè)定定制化短語,只需講述這段話便能啟動他們所需的輔助功能設(shè)置; 例如VoiceOver,語音控制,縮放等諸多現(xiàn)有輔助功能都能用此方法進(jìn)行快速切換。
    的頭像 發(fā)表于 03-08 11:08 ?736次閱讀

    谷歌AI大模型Gemma全球開放使用

    谷歌公司近日宣布,其全新的AI大模型Gemma現(xiàn)已在全球范圍內(nèi)開放使用。這一重要舉措不僅彰顯了谷歌AI領(lǐng)域的領(lǐng)先地位,還為其在全球范圍內(nèi)的競爭力增添了新
    的頭像 發(fā)表于 02-28 18:12 ?1164次閱讀