0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌AI語(yǔ)音服務(wù)新增7種語(yǔ)言和31種聲音

電子那些事兒 ? 2019-03-01 10:37 ? 次閱讀

2月24日消息,為了擴(kuò)展AI語(yǔ)音服務(wù)的市場(chǎng),谷歌除了加強(qiáng)語(yǔ)音辨識(shí)模型、語(yǔ)言支持?jǐn)?shù)量和聲音種類(lèi)之外,也調(diào)整了語(yǔ)音服務(wù)的價(jià)格。

谷歌更新文字轉(zhuǎn)語(yǔ)音和語(yǔ)音轉(zhuǎn)文字服務(wù),除了優(yōu)化語(yǔ)音辨識(shí)模型、新支持7種語(yǔ)言和31種聲音之外,也調(diào)整了語(yǔ)音服務(wù)的價(jià)格,在特定的應(yīng)用情境中,用戶(hù)最多可以省下約50%的支出,而谷歌也提供每月前60分鐘免費(fèi)的語(yǔ)言轉(zhuǎn)文字服務(wù)。

谷歌指出,語(yǔ)音辨識(shí)和生成技術(shù)在人機(jī)互動(dòng)的應(yīng)用中非常關(guān)鍵,要讓人機(jī)互動(dòng)更加自然、簡(jiǎn)單且普遍,并不容易,即便使用準(zhǔn)確度高達(dá)90%的語(yǔ)音辨識(shí)模型,還是很難真正達(dá)到有效的對(duì)話(huà),由于許多企業(yè)的語(yǔ)音辨識(shí)模型都是要在電話(huà)中運(yùn)行,受到噪音的干擾,產(chǎn)生的文字資訊讓模型難以處理,谷歌于去年4月針對(duì)這種應(yīng)用場(chǎng)景推出電話(huà)和影片的語(yǔ)音轉(zhuǎn)文字服務(wù)。

經(jīng)過(guò)不斷優(yōu)化,現(xiàn)在電話(huà)的文字錯(cuò)誤已降低了62%,而影片的語(yǔ)音轉(zhuǎn)文字模型錯(cuò)誤率也降低了64%,除此之外,影片的語(yǔ)音轉(zhuǎn)文字模型在辨識(shí)多個(gè)說(shuō)話(huà)者的情境中,像是會(huì)議或是廣播,也有很好的表現(xiàn)。

在價(jià)格方面,為了吸引更多用戶(hù),谷歌將影片語(yǔ)音轉(zhuǎn)文字模型收費(fèi)調(diào)降了25%,而在標(biāo)準(zhǔn)和影片模型服務(wù)中,選擇加入資料收集計(jì)畫(huà)的用戶(hù),收費(fèi)價(jià)格會(huì)減少33%,因此,若使用影片模型且選擇加入收集資料計(jì)畫(huà)的用戶(hù),將能夠減少約50%的支出。

此外,支持的語(yǔ)言也是企業(yè)使用語(yǔ)音轉(zhuǎn)文字辨識(shí)模型的一大考量,現(xiàn)在谷歌新增了7個(gè)語(yǔ)言和方言,包含丹麥語(yǔ)、葡萄牙語(yǔ)、俄語(yǔ)、波蘭語(yǔ)、斯洛伐克語(yǔ)、烏克蘭語(yǔ)和挪威語(yǔ),加上上述新增的語(yǔ)言,目前總共支持持21種語(yǔ)言,這些新增的語(yǔ)言都還是測(cè)試版。在語(yǔ)音生成模型方面,谷歌的語(yǔ)音生成系統(tǒng)WaveNet也新增了31種聲音,目前總共有包含21種語(yǔ)言的57種聲音。


聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    語(yǔ)言模型開(kāi)發(fā)語(yǔ)言是什么

    在人工智能領(lǐng)域,大語(yǔ)言模型(Large Language Models, LLMs)背后,離不開(kāi)高效的開(kāi)發(fā)語(yǔ)言和工具的支持。下面,AI部落小編為您介紹大語(yǔ)言模型開(kāi)發(fā)所依賴(lài)的主要編程
    的頭像 發(fā)表于 12-04 11:44 ?171次閱讀

    串口屏支持哪些編程語(yǔ)言和開(kāi)發(fā)環(huán)境?

    串口屏作為一常用的顯示和交互設(shè)備,支持多種編程語(yǔ)言和開(kāi)發(fā)環(huán)境。以下是對(duì)串口屏支持的編程語(yǔ)言和開(kāi)發(fā)環(huán)境的詳細(xì)歸納:
    的頭像 發(fā)表于 11-13 11:45 ?279次閱讀
    串口屏支持哪些編程<b class='flag-5'>語(yǔ)言和</b>開(kāi)發(fā)環(huán)境?

    HarmonyOS NEXT應(yīng)用元服務(wù)開(kāi)發(fā)Intents Kit(意圖框架服務(wù))技能調(diào)用方案概述

    一、概述 技能調(diào)用是意圖框架依托系統(tǒng)AI多模態(tài)大模型能力做深度用戶(hù)輸入理解,并通過(guò)解析的用戶(hù)意圖對(duì)接應(yīng)用或元服務(wù)內(nèi)的功能和內(nèi)容。 二、場(chǎng)景體驗(yàn) 用戶(hù)通過(guò)對(duì)小藝對(duì)話(huà)進(jìn)行自然語(yǔ)言輸入實(shí)現(xiàn)內(nèi)容查詢(xún),知識(shí)
    發(fā)表于 11-08 15:38

    MCU編程語(yǔ)言和開(kāi)發(fā)環(huán)境介紹

    微控制器單元(Microcontroller Unit,簡(jiǎn)稱(chēng)MCU)是嵌入式系統(tǒng)的核心,廣泛應(yīng)用于各種電子產(chǎn)品中。隨著技術(shù)的發(fā)展,MCU編程語(yǔ)言和開(kāi)發(fā)環(huán)境也在不斷進(jìn)步,以適應(yīng)不同的應(yīng)用需求。 1.
    的頭像 發(fā)表于 11-01 11:51 ?921次閱讀

    Waymo利用谷歌Gemini大模型,研發(fā)端到端自動(dòng)駕駛系統(tǒng)

    10月31日訊,自動(dòng)駕駛領(lǐng)域的先鋒Waymo,作為Alphabet旗下的一員,長(zhǎng)久以來(lái)將其與谷歌DeepMind的緊密合作及深厚的AI研究底蘊(yùn)視為其在自動(dòng)駕駛競(jìng)賽中脫穎而出的關(guān)鍵。如今,Waymo再
    的頭像 發(fā)表于 10-31 16:55 ?1111次閱讀

    C語(yǔ)言和C++中結(jié)構(gòu)體的區(qū)別

    同樣是結(jié)構(gòu)體,看看在C語(yǔ)言和C++中有什么區(qū)別?
    的頭像 發(fā)表于 10-30 15:11 ?300次閱讀

    什么是AI服務(wù)器?AI服務(wù)器的優(yōu)勢(shì)是什么?

    AI服務(wù)器是一專(zhuān)門(mén)為人工智能應(yīng)用設(shè)計(jì)的服務(wù)器,它采用異構(gòu)形式的硬件架構(gòu),通常搭載GPU、FPGA、ASIC等加速芯片,利用CPU與加速芯片的組合來(lái)滿(mǎn)足高吞吐量互聯(lián)的需求,為自然
    的頭像 發(fā)表于 09-21 11:43 ?943次閱讀

    谷歌推出Gemini Live,開(kāi)啟AI語(yǔ)音聊天新紀(jì)元

    在萬(wàn)眾矚目的Pixel 9系列手機(jī)發(fā)布會(huì)上,谷歌震撼宣布了一項(xiàng)創(chuàng)新服務(wù)——Gemini Live,該服務(wù)自今日起,率先向使用英語(yǔ)的Gemini Advanced訂閱用戶(hù)敞開(kāi)大門(mén)。這一舉措標(biāo)志著
    的頭像 發(fā)表于 08-15 17:29 ?740次閱讀

    nlp神經(jīng)語(yǔ)言和NLP自然語(yǔ)言的區(qū)別和聯(lián)系

    神經(jīng)語(yǔ)言(Neuro-Linguistic Programming,NLP) 神經(jīng)語(yǔ)言是一心理學(xué)方法,它研究人類(lèi)思維、語(yǔ)言和行為之間的關(guān)系。NLP的核心理念是,我們可以通過(guò)改變我們的
    的頭像 發(fā)表于 07-09 10:35 ?815次閱讀

    語(yǔ)音識(shí)別和自然語(yǔ)言處理的區(qū)別和聯(lián)系

    Recognition) 1. 定義 語(yǔ)音識(shí)別,又稱(chēng)為自動(dòng)語(yǔ)音識(shí)別(Automatic Speech Recognition, ASR),是指將人類(lèi)的語(yǔ)音信號(hào)轉(zhuǎn)換為計(jì)算機(jī)可識(shí)別的文本信息的過(guò)程。它是一
    的頭像 發(fā)表于 07-05 10:09 ?1905次閱讀

    PLC編程語(yǔ)言和C語(yǔ)言的區(qū)別

    在工業(yè)自動(dòng)化和計(jì)算機(jī)編程領(lǐng)域中,PLC(可編程邏輯控制器)編程語(yǔ)言和C語(yǔ)言各自扮演著重要的角色。盡管兩者都是編程語(yǔ)言,但它們?cè)诙鄠€(gè)方面存在顯著的區(qū)別。本文將從多個(gè)維度深入探討PLC編程語(yǔ)言和
    的頭像 發(fā)表于 06-14 17:11 ?3045次閱讀

    三星Galaxy AI將支持19語(yǔ)言,覆蓋粵語(yǔ)及法語(yǔ)等

     截止當(dāng)前,三星Galaxy AI共支持13個(gè)語(yǔ)言,此舉將讓全球更多三星用戶(hù)享受到該產(chǎn)品的便利。此外,三星計(jì)劃至今年底再增加對(duì)羅馬尼亞語(yǔ)、土耳其語(yǔ)等8語(yǔ)言的支持。
    的頭像 發(fā)表于 04-15 15:56 ?1036次閱讀

    谷歌Pixel 8將采用Gemini Nano模型,新增兩項(xiàng)AI功能

    經(jīng)谷歌披露,Pixel 8 在配備 Gemini Nano 后,首先將增加兩大創(chuàng)新 AI 功能:其中之一是 Recorder 應(yīng)用內(nèi)新增 Summarize 功能,無(wú)網(wǎng)絡(luò)情況下可記錄并歸納更多關(guān)于對(duì)話(huà)、采訪(fǎng)和演示的有用信息。
    的頭像 發(fā)表于 03-29 15:46 ?608次閱讀

    plc編程語(yǔ)言與c語(yǔ)言的聯(lián)系 c語(yǔ)言和PLC有什么區(qū)別

    PLC編程語(yǔ)言與C語(yǔ)言的聯(lián)系 PLC(可編程邏輯控制器)是一針對(duì)自動(dòng)化控制系統(tǒng)的特殊計(jì)算機(jī)。PLC編程語(yǔ)言是為了控制和管理自動(dòng)化生產(chǎn)過(guò)程中的各種設(shè)備而設(shè)計(jì)的。與之相比,C
    的頭像 發(fā)表于 02-05 14:21 ?4273次閱讀

    vb語(yǔ)言和c++語(yǔ)言的區(qū)別

    VB語(yǔ)言和C++語(yǔ)言是兩不同的編程語(yǔ)言,雖然它們都屬于高級(jí)編程語(yǔ)言,但在設(shè)計(jì)和用途上有很多區(qū)別。下面將詳細(xì)比較VB
    的頭像 發(fā)表于 02-01 10:20 ?2412次閱讀