人妻无码一区二区三区四区,日韩精品久久久毛片一区二区,欧美久久综合性欧美

Google 的使命是匯集全球資訊，并且讓所有人都能使用這些資訊，不過(guò)要能理解各式資訊，最困難的就是語(yǔ)言隔閡，因此在東京舉辦#MadeWithAI 亞太區(qū)媒體活動(dòng)請(qǐng)來(lái)了Google 語(yǔ)言研究計(jì)畫總經(jīng)理Linne Ha 來(lái)談?wù)勗趺磳I 應(yīng)用到語(yǔ)言翻譯上，進(jìn)而彌平語(yǔ)言不通的問題。

受惠于智慧型手機(jī)的普及，網(wǎng)路人口在最近這幾年高速成長(zhǎng)，不過(guò)網(wǎng)路上有接近50% 的內(nèi)容仍是以英文為主，對(duì)于非以英文為母語(yǔ)的人來(lái)說(shuō)，想要獲得資料就多了一道門檻，能讓每個(gè)人自在的用自己的原生語(yǔ)言在網(wǎng)路上搜集或提供資料是Google 的目標(biāo)，因此在推動(dòng)語(yǔ)言翻譯或發(fā)展上Google 做了非常多的努力。

▲Google語(yǔ)言研究計(jì)畫總經(jīng)理Linne Ha。

推動(dòng)各種語(yǔ)言上網(wǎng)，統(tǒng)一碼（Unicode）是重點(diǎn)

不同語(yǔ)言要能在網(wǎng)路上流動(dòng)，最重要的就是該語(yǔ)言要能被閱讀，若是出現(xiàn)亂碼或空白文字就容易成為閱讀或理解的障礙，因此Google 長(zhǎng)期和統(tǒng)一碼（Unicode）聯(lián)盟合作，鼓勵(lì)更多國(guó)家利用統(tǒng)一碼的編碼系統(tǒng)上網(wǎng)，例如Google 大力鼓勵(lì)緬甸不要再使用非統(tǒng)一碼的字型。

有了統(tǒng)一碼這項(xiàng)文字系統(tǒng)后，電腦文字編碼就有了一套標(biāo)準(zhǔn)，下一個(gè)挑戰(zhàn)就是要確保自行能正確地被轉(zhuǎn)為網(wǎng)路或手機(jī)上的文字，去年Google 推出開放的Noto 字型，可以支援800 種語(yǔ)言、11 億個(gè)文字，可呈現(xiàn)各式各樣的文字。

但這樣還不夠，雖然文字能呈現(xiàn)，但卻不是每個(gè)人都知道如何輸入文字，因此除了Gboard 提供300 多種鍵盤、 97 種手寫系統(tǒng)、語(yǔ)音輸入等方法讓使用者可以依照自己方便的方式來(lái)輸入文字。

在開發(fā)手寫系統(tǒng)上，Google 也花了一番心力，由于每個(gè)人的字跡都不同，因此Google 導(dǎo)入人工智慧技術(shù)，搜集很多自愿者的手寫范本，讓機(jī)器學(xué)習(xí)來(lái)辨認(rèn)文字和書寫風(fēng)格，進(jìn)而達(dá)到更精確的手寫辨識(shí)。語(yǔ)音輸入方面則是透過(guò)GOOG-411 的服務(wù)來(lái)搜集語(yǔ)音資料，類似我們的查號(hào)臺(tái)，當(dāng)有人打電話進(jìn)去問問題查電話，GOOG-411 就會(huì)幫忙轉(zhuǎn)接，在這樣的過(guò)程中Google 建立了大量的語(yǔ)音資料庫(kù)范本，英文語(yǔ)音搜集還算滿順利的。不過(guò)其他語(yǔ)言就沒這么容易了，雖然說(shuō)Google 有和專門經(jīng)營(yíng)文字和語(yǔ)音資料庫(kù)的業(yè)者合作，但有些語(yǔ)言本身的資料庫(kù)就較少，例如廣東話，因此Google 又開啟了下一階段的任務(wù)。

語(yǔ)音搜尋實(shí)驗(yàn)，搜集準(zhǔn)確的語(yǔ)音資料

既然缺乏語(yǔ)音資料，Google 就開始想方法來(lái)搜集各種語(yǔ)言的語(yǔ)音訊息，比方說(shuō)2010 年Google 推出了荷蘭語(yǔ)的Word of Mouth 計(jì)畫，提供參與實(shí)驗(yàn)的使用者手機(jī)來(lái)搜集他們和親友間的對(duì)話樣本，進(jìn)而得到準(zhǔn)確的語(yǔ)音資料。

有了語(yǔ)音資料之后下個(gè)問題則是口音和俗語(yǔ)，關(guān)于這方面的資料目前Google 仍正在努力發(fā)展中，不過(guò)經(jīng)過(guò)過(guò)去這么長(zhǎng)一段時(shí)間的努力，到2012 年之后，語(yǔ)音搜尋已可支援到50 種語(yǔ)言，Google 也導(dǎo)入了深度神經(jīng)網(wǎng)路提升語(yǔ)音辨識(shí)的準(zhǔn)確性，今年則再新增30 多種的語(yǔ)音輸入，甚至包含了非洲兩種主要語(yǔ)言，斯瓦希里語(yǔ)（Swahili）和阿姆哈拉語(yǔ)（Amharic），對(duì)于彌平語(yǔ)言隔閡來(lái)說(shuō)，這是一個(gè)重要的里程碑。

怎么將機(jī)器學(xué)習(xí)應(yīng)用在語(yǔ)音服務(wù)上

既然有了機(jī)器學(xué)習(xí)這項(xiàng)技術(shù)，也就意味著Google 能透過(guò)演算以及建構(gòu)更有效的模型來(lái)解決語(yǔ)音辨識(shí)問題。

Google 這回用了一個(gè)超級(jí)低成本的預(yù)算（2000 美金）來(lái)增加孟加拉語(yǔ)的文字轉(zhuǎn)語(yǔ)音服務(wù)，首先先準(zhǔn)備一套麥克風(fēng)、USB 轉(zhuǎn)接器和前置聲音放大器，并建立一組便攜式的錄音工作室「ChitChat」讓實(shí)驗(yàn)者可以錄音。

工具有了，下一步就是找來(lái)15 名孟加拉的Googler，錄制了2000 多個(gè)從維基百科擷取出來(lái)的孟加拉語(yǔ)和英語(yǔ)，實(shí)驗(yàn)者每隔30 分鐘至60 分鐘就錄制250 多個(gè)句子，平衡的混音成幾個(gè)不同的聲音后，再交給Google 社群投票看看大家最偏好哪一個(gè)聲音，最終產(chǎn)出的聲學(xué)模型剛好就可以代表平均型的人聲，成功推出了孟加拉語(yǔ)的文字轉(zhuǎn)語(yǔ)音服務(wù)。

除了把更多語(yǔ)言放到網(wǎng)路上，Google 也著手發(fā)展方言領(lǐng)域，像是英文就分成美式英文、英式英文、澳洲英文等等，最近Google 正著手處理新加坡式英語(yǔ)，另外，西班牙語(yǔ)、阿拉伯語(yǔ)也是Google 努力的方向。

Google 的中文語(yǔ)音什么時(shí)候會(huì)有更多突破？

至于***人最常用的中文呢？Google 語(yǔ)言研究計(jì)畫總經(jīng)理Linne Ha 不諱言，中文真的是很有挑戰(zhàn)的語(yǔ)言，比方說(shuō)中國(guó)人說(shuō)著中文、寫著簡(jiǎn)體中文，***人說(shuō)也說(shuō)著中文、但寫的是繁體中文，香港人寫的也是繁體中文、不過(guò)說(shuō)的是廣東話，繁體中文、簡(jiǎn)體中文、廣東話間各有連結(jié)但又不盡相似。

過(guò)去Google 是使用「單一語(yǔ)言模式」來(lái)處理，比方說(shuō)***人說(shuō)的中文就套用繁體中文資料庫(kù)，香港人說(shuō)廣東話則套用另外一個(gè)繁體中文資料庫(kù)，但這樣的語(yǔ)音辨識(shí)效果發(fā)展有限，近期Google 嘗試著將相近的語(yǔ)言加進(jìn)同一個(gè)模型中，目前的實(shí)驗(yàn)結(jié)果還不錯(cuò)。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴