0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌宣布開源Android語音識別轉(zhuǎn)錄工具 —— Live Transcribe的語音引擎

SwM2_ChinaAET ? 來源:lq ? 2019-10-01 17:03 ? 次閱讀

谷歌在其開源博客中宣布開源 Android 語音識別轉(zhuǎn)錄工具 —— Live Transcribe 的語音引擎(Live Transcribe Speech Engine),它旨在將語音或?qū)υ拰崟r轉(zhuǎn)錄為文字,還能夠為聽障人士提供幫助。

Live Transcribe 是谷歌于今年 2 月推出的一款 Android 應用程序,它的語音識別由谷歌最先進的 Cloud Speech API 提供。但是,依賴于云引入了一些復雜性,不斷變化的網(wǎng)絡連接、數(shù)據(jù)成本和延遲的魯棒性等等都帶來一些考驗。因此,谷歌把它開源出來, 希望開發(fā)人員在已有的基礎上進一步構建和開發(fā)。

Cloud Speech API 目前無法支持無限的音頻流,團隊目前采取了一些措施來解決這一難題,例如在達到超時之前關閉并重新啟動流式傳輸請求,這將有效減少會話中丟失的文本量。

無限流媒體音頻帶來了一大挑戰(zhàn)。在許多國家,網(wǎng)絡數(shù)據(jù)非常昂貴,并且在互聯(lián)網(wǎng)較差的地方,帶寬可能有限。Live Transcribe Speech Engine 的團隊對音頻編解碼器進行了大量實驗,并最終在不影響精度的情況下將數(shù)據(jù)使用量減少了 10 倍。

另外,由于是提供實時語音轉(zhuǎn)錄,轉(zhuǎn)錄出來的文本會隨著語音的輸入不斷發(fā)生變化,降低延遲自然十分必要。該引擎能夠大大降低延遲率,這都要歸功于它的自定義 Opus 編碼器

此外,值得一提的是,Live Transcribe 支持超過 70 種語言,并能夠根據(jù)語音自動識別語種,其中也包括中文。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 解碼器
    +關注

    關注

    9

    文章

    1144

    瀏覽量

    40827
  • 谷歌
    +關注

    關注

    27

    文章

    6176

    瀏覽量

    105677
  • 語音識別
    +關注

    關注

    38

    文章

    1742

    瀏覽量

    112745

原文標題:【業(yè)內(nèi)熱點】谷歌開源實時語音轉(zhuǎn)錄引擎 Live Transcribe Speech Engine

文章出處:【微信號:ChinaAET,微信公眾號:電子技術應用ChinaAET】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關推薦

    語音識別與自然語言處理的關系

    在人工智能的快速發(fā)展中,語音識別和自然語言處理(NLP)成為了兩個重要的技術支柱。語音識別技術使得機器能夠理解人類的語音,而自然語言處理則讓
    的頭像 發(fā)表于 11-26 09:21 ?502次閱讀

    語音識別技術的應用與發(fā)展

    語音識別技術的發(fā)展可以追溯到20世紀50年代,但直到近年來,隨著計算能力的提升和機器學習技術的進步,這項技術才真正成熟并廣泛應用于各個領域。語音識別技術的應用不僅提高了工作效率,也極大
    的頭像 發(fā)表于 11-26 09:20 ?597次閱讀

    ASR與傳統(tǒng)語音識別的區(qū)別

    ASR(Automatic Speech Recognition,自動語音識別)與傳統(tǒng)語音識別在多個方面存在顯著的區(qū)別。以下是對這兩者的對比: 一、技術基礎 ASR : 基于深度學習算
    的頭像 發(fā)表于 11-18 15:22 ?563次閱讀

    ASR語音識別技術應用

    ASR(Automatic Speech Recognition)語音識別技術,是計算機科學與人工智能領域的重要突破,能將人類語音轉(zhuǎn)換為文本,廣泛應用于智能家居、醫(yī)療、交通等多個領域。以下是對ASR
    的頭像 發(fā)表于 11-18 15:12 ?895次閱讀

    基于Arm Neoverse N2實現(xiàn)自動語音識別技術

    自動語音識別 (Automatic Speech Recognition) 技術已經(jīng)深入到現(xiàn)代生活的方方面面,廣泛應用于從語音助手、轉(zhuǎn)錄服務,到呼叫中心分析和
    的頭像 發(fā)表于 11-15 11:35 ?384次閱讀
    基于Arm Neoverse N2實現(xiàn)自動<b class='flag-5'>語音</b><b class='flag-5'>識別</b>技術

    物聯(lián)網(wǎng)系統(tǒng)智能控制產(chǎn)品的語音識別方案_離線語音識別芯片分析

    01 物聯(lián)網(wǎng)系統(tǒng)中為什么要使用離線語音識別芯片 物聯(lián)網(wǎng)系統(tǒng)中使用離線語音識別芯片的原因主要基于以下幾個方面: 1、實時性與可靠性 實時性好:離線語音
    的頭像 發(fā)表于 09-26 17:56 ?699次閱讀
    物聯(lián)網(wǎng)系統(tǒng)智能控制產(chǎn)品的<b class='flag-5'>語音</b><b class='flag-5'>識別</b>方案_離線<b class='flag-5'>語音</b><b class='flag-5'>識別</b>芯片分析

    WTK6900FC語音識別模塊

    語音識別
    WT-深圳唯創(chuàng)知音電子有限公司
    發(fā)布于 :2024年09月25日 17:35:07

    唯創(chuàng)知音WT2605C用在離在線語音識別方案# #語音芯片 #語音識別 #唯創(chuàng)知音

    語音識別
    WT-深圳唯創(chuàng)知音電子有限公司
    發(fā)布于 :2024年09月12日 17:24:28

    谷歌推出Gemini Live,開啟AI語音聊天新紀元

    在萬眾矚目的Pixel 9系列手機發(fā)布會上,谷歌震撼宣布了一項創(chuàng)新服務——Gemini Live,該服務自今日起,率先向使用英語的Gemini Advanced訂閱用戶敞開大門。這一舉措標志著
    的頭像 發(fā)表于 08-15 17:29 ?740次閱讀

    什么是離線語音識別芯片?與在線語音識別的區(qū)別

    離線語音識別芯片適用于智能家電等,特點為小詞匯量、低成本、安全性高、響應快,無需聯(lián)網(wǎng)。在線語音識別功能更廣泛、識別準確率高,但依賴穩(wěn)定網(wǎng)絡。
    的頭像 發(fā)表于 07-22 11:33 ?435次閱讀

    Transformer模型在語音識別語音生成中的應用優(yōu)勢

    隨著人工智能技術的飛速發(fā)展,語音識別語音生成作為人機交互的重要組成部分,正逐漸滲透到我們生活的各個方面。而Transformer模型,自其誕生以來,憑借其獨特的自注意力機制和并行計算能力,在
    的頭像 發(fā)表于 07-03 18:24 ?1216次閱讀

    車載語音識別系統(tǒng)語音數(shù)據(jù)采集標注案例

    車載語音識別系統(tǒng)是指利用機器學習算法實現(xiàn)的一種自然語言處理技術,載語音識別系統(tǒng)通過辨別聲音的語調(diào)、語速和音量,將所聽到的語音轉(zhuǎn)化成可讀取的語
    的頭像 發(fā)表于 06-19 15:52 ?385次閱讀
    車載<b class='flag-5'>語音</b><b class='flag-5'>識別</b>系統(tǒng)<b class='flag-5'>語音</b>數(shù)據(jù)采集標注案例

    車載語音識別系統(tǒng)語音數(shù)據(jù)采集標注案例

    車載語音識別系統(tǒng)是指利用機器學習算法實現(xiàn)的一種自然語言處理技術,載語音識別系統(tǒng)通過辨別聲音的語調(diào)、語速和音量,將所聽到的語音轉(zhuǎn)化成可讀取的語
    的頭像 發(fā)表于 06-19 15:49 ?534次閱讀

    語音數(shù)據(jù)集:智能駕駛中車內(nèi)語音識別技術的基石

    一、引言 在智能駕駛中,車內(nèi)語音識別技術發(fā)揮著越來越重要的作用。語音數(shù)據(jù)集作為這一技術的基石,其質(zhì)量和規(guī)模對語音識別的性能有著至關重要的影響
    的頭像 發(fā)表于 01-31 16:07 ?575次閱讀

    恩智浦發(fā)布新一代智能語音技術組合的語音識別引擎

    恩智浦發(fā)布新一代智能語音技術組合的語音識別引擎。本文將探討開發(fā)人員在嵌入式語音控制設計中面臨的挑戰(zhàn)、恩智浦新的Speech to Inten
    的頭像 發(fā)表于 01-26 09:15 ?791次閱讀
    恩智浦發(fā)布新一代智能<b class='flag-5'>語音</b>技術組合的<b class='flag-5'>語音</b><b class='flag-5'>識別</b><b class='flag-5'>引擎</b>