久久精品国产亚洲av麻豆蜜芽,精品久久久久久亚洲偷窥

翻譯是很重要的一件事情，中國有13億人，是最大的漢語群體。我們非常有意愿和英語世界以及其他的語言做更多的交流。

5月19日，在2018全球人工智能技術(shù)大會上，搜狗首席執(zhí)行官、清華大學(xué)天工智能計算研究院聯(lián)席院長王小川發(fā)表了題為“搜狗的AI之路與挑戰(zhàn)”的演講。

下為王小川在本次大會中的演講實錄，經(jīng)整理后發(fā)布。

王小川：剛才朱老師說接地氣，我覺得在這個會議上我們就沒地氣。為了這個地氣是有損失的，所以大家在99年、2000年開始進入到互聯(lián)網(wǎng)，當時有機會可以繼續(xù)在清華大學(xué)讀博士，現(xiàn)在有機會來彌補這樣的不足。

今天的報告給大家介紹的是“搜狗的AI之路與挑戰(zhàn)”。和今天的主題非常貼切，不僅是人工智能，核心是圍繞我們的語言展開。

提到搜狗公司，大家更多知道的是搜狗輸入法。

從用戶規(guī)模來看，我們在中國互聯(lián)網(wǎng)排在第四位，僅次于騰訊、百度和阿里巴巴。我們的搜索引擎在中國也是第二位，有超過18%的市場份額，而且每一年還會增加2%-3%。在全球應(yīng)該是第三大，除了Google、百度，我們的用戶規(guī)模和搜索量是第三。更自豪的是搜狗輸入法是當之無愧的第一名。

這兩個產(chǎn)品都有一個特點，輸入法是幫助你表達信息，把你的想法變成文字。而搜索引擎是幫你獲得信息，把你的文字變成更多你需要的知識。這兩個產(chǎn)品的核心點是在語言上，我們不排斥有語音或者其他的因素，但最終的核心是在語言。因此圍繞語言我們會展開很多的工作，包括語音識別、語音合成、聲紋識別、個性化語音合成等等。也有視覺方面的工作，包括OCR，包括我們跟清華合作的手寫體合成功能，自己寫幾個字，試圖把你寫的字變成機器模仿的體系，有識圖功能，尤其在狗臉識別做的特別好，拍一張狗就可以告訴你是什么樣的品種。搜狗嘛，在技術(shù)里面可以玩出花來。甚至是唇語識別，不用語音，只看你的嘴唇運動就可以知道你在說什么。這是在語音和圖像上和語言相關(guān)的工作。另外更多的是在做對話、翻譯、問答。

也許這些加起來還不能構(gòu)成一個完整的交互，但我們覺得這個方向我們展開了大量的研究，更多的是這個研究工作和我們的產(chǎn)品有高度的結(jié)合。

今天更多的想放在語言、翻譯、對話和問答上，簡單講一下在語音圖像方面干的有意思的活，唇語識別，我們有大量的主持人或者其他數(shù)據(jù)訓(xùn)練，現(xiàn)在在通用語義里，能到60%的唇語識別準確度。在專業(yè)領(lǐng)域里，比如說讀唐詩或者安防、電梯工作間，識別率可以超過90%。

把聲音過濾掉，核心就是用嘴唇的圖像的視覺能力來做。我們知道和語音識別有類似的基礎(chǔ)，一個是波形，一個是圖像，本身而言是相通的，只是看一下我們在能力上的思考。

今天的主題定位在語言處理，認知領(lǐng)域里自然語言處理的工作。

翻譯是很重要的一件事情，中國有13億人，是最大的漢語群體。我們非常有意愿和英語世界以及其他的語言做更多的交流，尤其剛才提到，我們是幫助大家表達和獲取信息。以前表達和獲取信息是和中文表達，未來是和世界做整個的連接。

我們在前面發(fā)布了我們同聲傳譯的系統(tǒng)，第一次發(fā)布是在烏鎮(zhèn)世界互聯(lián)網(wǎng)大會上。去年時我們做了升級，不僅用文字展示，開始把語音合成做了展示，去年用我個人的語音做了合成，我們甚至想嘗試是否能做情感的遷移。也就是說我今天在這里演講時，我有抑揚頓挫、重音、發(fā)怒、調(diào)侃的語氣，不是簡單的變成文字翻譯成英文，而是能夠把語音、語調(diào)、重音、熱情一塊兒翻譯過去，這個領(lǐng)域就可以超越人。工作進展到目前還有一些挑戰(zhàn)和困難，所以理想是希望做出一些工作，不止在文字里面。

這一塊我們在行業(yè)里相對是成熟的，很自豪來講，在現(xiàn)在能夠使用的翻譯和同聲傳譯系統(tǒng)，不管是從技術(shù)指標還是工程方面，我們走在世界最前面，甚至可以說是在第一名的位置。

同聲傳譯這個系統(tǒng)只能在大會里用，如果有翻譯人員，機器和翻譯人員還是有距離。我們內(nèi)部研發(fā)人員認為，在2020年時，可以在一些指標上和真人做平，一些地方更好，一些地方還有不足，有兩年的目標?，F(xiàn)在看起來還是很有挑戰(zhàn)的事情，尤其是在延遲方面。目前大會是搜狗提供的同聲傳譯系統(tǒng)，通常是中文已經(jīng)一整句話識別清楚之后再翻譯英文，而翻譯人員有更多的經(jīng)驗，能夠很快的做翻譯。但他們有時候會丟句子，比如說翻譯不了就丟掉，我們以前覺得那是一個錯誤。但我們和同聲傳譯的專業(yè)老師溝通之后知道那是他們的技巧。所以機器和人的處理還是有很大的差別。

我們今年連續(xù)發(fā)布了兩款和翻譯相關(guān)的產(chǎn)品，一款是搜狗的旅行翻譯寶，3月份上市的，售價在1498。第二款是五天前發(fā)布的第二款產(chǎn)品搜狗錄音翻譯筆，售價398塊。這兩個產(chǎn)品上市當天直接賣斷貨，有我們產(chǎn)能跟不上的問題，也可以看到大家的熱情。產(chǎn)品區(qū)別是，翻譯寶不需要聯(lián)網(wǎng)，把整個深度學(xué)習(xí)的模型，不管是語音還是圖像、翻譯，都集成在這個設(shè)備中，你出國的時候沒有網(wǎng)絡(luò)，不用交費也可以工作。

錄音翻譯筆是手機的配件，更多的是有很強的收音能力，比如說你在教室里，老師在前面講課，你坐在教室最后一排，中間可能相隔三四米，沒有問題，可以把聲音錄下來，這是可以取代今天的錄音筆。我內(nèi)心當中，這是錄音筆的顛覆。錄音筆錄的音，大家馬上想到需要做內(nèi)容的簡寫、存儲的管理和檢索，但傳統(tǒng)錄音筆是不智能的，我們做了很多這樣的功能。上市之后，老師自媒體學(xué)生很多人開始關(guān)注這樣的產(chǎn)品。

我們在硬件中希望通過這樣的做法，更快的把一些技術(shù)落地使用。

輸入法之間結(jié)合翻譯的能力，你用語音說時，說中文，可能上屏就是英文。也可以敲一段中文，點兩個鍵就翻譯成英文發(fā)出去。輸入法不僅是變成中文溝通的方式，利用它可以很方便的和英文、日文、韓文等溝通。

搜狗的搜索也支持翻譯的功能?，F(xiàn)在可以實現(xiàn)用中文輸入檢索全球的英文信息，最后再讓你用中文閱讀。尤其在醫(yī)療、娛樂方面獲得一個世界上最前沿的信息，已經(jīng)可以做到。搜狗的使命是表達和獲取，通過這樣的方式連接到整個世界，我們對翻譯這個系統(tǒng)非常認真。

當然有獨立的APP，有文本對話翻譯，尤其我們開始做拍照翻譯。實景你拍一張菜單，自己可以變成中文的菜單。中文變英文也可以。我們在努力開發(fā)離線計算能力，使得你AR翻譯，當你掃描到一個路牌時，實時變成中文，怎么樣降低延遲和準確性。Google之前發(fā)布了一個翻譯系統(tǒng)，速度很快，但準確率很低，我們在這方面也做了很多的投入。

所以，我們翻譯的挑戰(zhàn)：

第一，語音方面怎么做的更好，完成情感遷移。

第二，在搜索里有一個現(xiàn)象，把中文翻成英文檢索完了之后再翻譯成中文有可能出現(xiàn)翻譯成中文的詞和原始的詞對不上，這就是穩(wěn)定性的問題，也是搜索里獨有需要解決的事情。

另外我們還會做問答的系統(tǒng)，我自己有一個斷言：搜索的未來是問答。因為語音只是讓你表達更多的方便，但中間一定要有一種知識推理或者對知識檢索的能力，不是給你一個網(wǎng)頁，而是給你提供一個答案。

給大家看一個視頻，去年一個問答機器人汪仔參加了《一戰(zhàn)到底》的比賽。

我們這個系統(tǒng)能夠把整個互聯(lián)網(wǎng)當作它的數(shù)據(jù)庫，IBM的系統(tǒng)是一個本地的數(shù)據(jù)，它可以解決的是一些垂直領(lǐng)域、封閉領(lǐng)域的問題，你要告訴它這個問題是明星，這個問題問的是運動員。而搜狗的系統(tǒng)是純開放的，你可以問任何的問題，只要是跟事實類相關(guān)的就可以做回答。但節(jié)目里的水平是不斷的提高，確實看到最后已經(jīng)超越了頂尖的人類選手。《一站到底》中間也是選拔最優(yōu)秀的問答選手參加比賽，到最后比賽我們已經(jīng)做到了一開始讓人三分開始啟動。做這個系統(tǒng)的時候，不懂技術(shù)的會覺得很簡單，只是一個數(shù)據(jù)庫檢索。即便懂得也會擔心后面是不是有作弊？你和這樣的節(jié)目串通在一塊兒。

在今年年初國內(nèi)出現(xiàn)了一種很火熱的互相答題模式《直播答題》，一個網(wǎng)站拍100萬人民幣，12道題，如果你都答對了，一個人答對了100萬都給你，有100萬個人答對了就給你1塊錢，在今年年初成為一個現(xiàn)象級的活動。在這個活動當中，搜狗做了一個答題助手，從對方服務(wù)器直接把視頻流引到我們的服務(wù)器，在視頻流當中檢索主持人的問題，然后去找到答案，并且把答案推送給我們自己的應(yīng)用。所以如果用戶拿兩個手機，一個手機參加直播答題，一個手機打開搜狗的答題助手，它可以在出題后2-3秒的時間里把答案提供給用戶。這個產(chǎn)品非常成功，答題水平比大多數(shù)人好很多，大概有90%的準確性。使得每天有100萬人使用答題助手，甚至和一些網(wǎng)站產(chǎn)生了對抗，這個網(wǎng)站努力把題出的語句更加復(fù)雜，想讓你的機器聽不懂，我們的工程師更努力解碼你的題目，最后反映到這個題目長到用戶已經(jīng)看不懂機器還可以讀。我們公司有同學(xué)跟我說，這個事情是否足夠正義？我覺得這本來就是一個游戲的活動，又不是高考。兩三個人坐一塊兒答題也可以，為什么不可以機器幫助？只可以人嗎？我們要適應(yīng)，未來凡是機器擅長的事情讓機器做，這是今年答題助手更嚴肅論證了我們在問答領(lǐng)域里技術(shù)的領(lǐng)先性和可用性。

學(xué)術(shù)界做了非常多的關(guān)于答題研究，通常原來的測試題是默認你問的問題就是問題，而且你問題就是有答案，并且這個答案在之前給到你的數(shù)據(jù)集里面。對于做搜索的公司做這件事情的時候，不僅僅是做閱讀理解，因為里面有很多的問題是不確認的，所以我們的問答是搜索加上閱讀理解的技術(shù)。

這個上線之后會使得原來的準確度巨大下降，原來做到80%多，甚至90%。但如果對于開放性的搜索引擎，會瞬間掉到10%-20%。20多到頭了，有更大的努力空間

事實類的問題只占3%，還有口語化、相關(guān)化的問題。并且問的問題很難判斷，比如說“蒼天饒過誰”，這聽起來是一個問題，但對不起，其實它是一個電視劇。所以如果你沒有做好知識的準備就會判斷錯誤。“皮膚暗黃調(diào)理”，用戶問的是皮膚暗黃怎么調(diào)理？問題的判斷變得很困難，包括答案的判斷和相關(guān)Passage的檢索計算?？梢钥吹礁鞣N各樣的問題，這個問題和我們的測試題不一樣，是用戶真實問的問題，而且大家給的答案好像問不對題，但其實有我想要的。比如說“王者榮耀排位上分最好的時間段在哪？”最佳的答案完全不是考慮時間的問題，它說你一定要組團，有實力相當?shù)年犛选＞W(wǎng)絡(luò)上的數(shù)據(jù)和我們理想當中的答案是兩回事，怎么理解這樣的問題？這是搜索當中的問答和我們閱讀理解不一樣的地方，和網(wǎng)上數(shù)據(jù)有很大的差異化。

我們之前做了搜狗問答比賽，我們和學(xué)術(shù)界之外也有合作，做了最真實的中文問答的數(shù)據(jù)庫。如果你用這個數(shù)據(jù)庫，可能就能夠真實搜索里的問答環(huán)境。這是我們現(xiàn)在在搞的活動，現(xiàn)在和行業(yè)也做了更多的數(shù)據(jù)庫，之前和清華合作發(fā)布的搜狗數(shù)據(jù)，現(xiàn)在這個也可以公開，希望可以幫助到研究界解決問題，幫助到研究界，研究界也幫到我們。

之后談一下關(guān)于“對話”。

前兩周Google的I/O大會剛剛發(fā)布了一個讓大家非常震撼的語音幫助你訂餐的系統(tǒng)，這種對話系統(tǒng)有各種門類，有任務(wù)型的對話（如蘋果的SIRI）；也有聊天機器人的對話（如微軟的小冰）。Google發(fā)布的理念和搜狗非常一致，我們稱之為輔助人，幫人做這樣的對話。事實上這個系統(tǒng)之前已經(jīng)有很多的概念設(shè)計，并且已經(jīng)上線，給大家放一個小視頻。

這里面提到了一個大的概念，輸入法演化方向，大家會認為輸入是靠語音，靠說，這是一個方向，幫你更省力。另外我們提到的核心邏輯是輔助輸入，從填空題變成選擇題。機器幫你做選擇、侯選，然后你再點選。

這個和我們今天講到的無人駕駛概念更加接近，無人駕駛是機器取代人，幫你開車、說話。但其實在很長時間里需要一個輔助駕駛的階段，需要人機結(jié)合在一塊兒，所以我們強調(diào)的是機器和人一塊兒提升你的工作效率。尤其是人完全被機器取代幫你說話是一件非常可怕的事情。

我們做了很多年的工作，我們在三四年前啟動了輔助對話的研究項目。

輔助對話和聊天機器人有什么樣的區(qū)別？

聊天機器人不管是任務(wù)型還是純聊天的，其實是一個機器和一個人做溝通。而輔助對話是人加上一個機器跟人做溝通，你也可以說是機器幫助到人了，幫我做的更好，是人的輔助。但換一種視角，也是人在幫助機器，機器給了幾個答案，不確認哪個更好，人在點選的時候，也是輔助機器做這樣一個對話，這樣會非常美妙。

從用戶價值上來講，之前的純聊天機器人的目標不清楚，怎么叫做更好？而我們輔助對話很確認，是提升用戶的效率，不是取代人，是在幫助你改進你的效率。

評價方法上，傳統(tǒng)的聊天機器人基本上靠人工評測，沒有特別好的自動評價好不好的方法。微軟的小冰有一個方法，聊天聊的時間越長越好，對話的回合數(shù)更多。它的理論是別把天給聊死了，這個作為它的考評指標，我覺得也挺無聊的。而輔助對話的評價指標靠最后的覆蓋度點擊率，我提供了這個侯選之后，人是否點了，點了第一個還是第二個？或者一個也沒有點開始他自己的輸入？這個事情有明確的對它好不好的評價，能幫它做數(shù)據(jù)的積累和迭代。在數(shù)據(jù)積累和迭代中，傳統(tǒng)的方法比較困難。用輔助對話是在用戶的主動輸入、主動點擊行為都可以構(gòu)成到我們這樣的數(shù)據(jù)庫。

2014年10月份，我們在短信上推出我們自己的APP，集成了我們的聊天工具。2016年兩年后做到了日活800萬+，月活2000萬+的水平。這個功能核心是防止電話騷擾等。收集到了大量的數(shù)據(jù)，最終做到了展現(xiàn)率，對方說話之后，展現(xiàn)率超過54.02%，點擊率是8.59%，不算特別高，但是這個值已經(jīng)接近聯(lián)想的值。我認為還沒有展示出機器魅力。

后來從手機短信轉(zhuǎn)向了聊天軟件，核心是QQ。我們做數(shù)據(jù)分析對比這兩類大家的話題很不一樣。手機新還是以效率優(yōu)先，是一些簡單的事務(wù)，主要的聊天和事相關(guān)。到了聊天軟件之后，本身很發(fā)散，從句子的長度都非常發(fā)散，從原有的套過來，覆蓋率瞬間從50%降低到10%。用原來的不夠了，用戶更加追求趣味多樣化的表達。所以我們開始做一些復(fù)雜的模型，有檢索的模型、深度學(xué)習(xí)的模型等等開始做，用各種混合的方式來解決這個問題。

現(xiàn)在這個聊天軟件用了搜狗覆蓋的3%的QQ用戶用這個功能，只開3%做嘗試。每天的數(shù)據(jù)集是4300萬，每個月會收集3億的對話數(shù)據(jù)，這個數(shù)據(jù)中既有人在里面怎么聊，也有機器聊的好不好和點擊率、展現(xiàn)率的反饋。現(xiàn)在回到好的效果，展現(xiàn)率52%，點擊率8%。我們希望這個值還能有5倍的提升。這是輔助聊天軟件做的嘗試。

除此之外，我們會把這個系統(tǒng)用到以后的垂直領(lǐng)域，比如客服領(lǐng)域。今天大家說是機器取代人去客服，我們的理念是機器和人是協(xié)作的，可能一開始坐席用的是搜狗定制版的輸入法，它幫你做客服，以后慢慢工位上開始使用機器，不要脫離環(huán)境，總是保持一部分的工位上是人機結(jié)合，一部分是自動的。這是我們做的一個技術(shù)，今年年底前會看到很有意思的效果。

之前是上下文做的訓(xùn)練，往下的幾個要點要考慮：

第一，知識放上去。這個系統(tǒng)有一個問題，機場安檢的充電寶最大容量是多少？在你以前的聊天環(huán)境中沒有這個數(shù)據(jù)，是否把問答的引擎接進去？或者晚上在哪里吃飯？再把你個性化地址接進去。最愛習(xí)慣的餐廳。過敏性鼻炎犯了怎么辦？商業(yè)化能力怎么介入推薦電影去哪里看？把超越用戶自己的知識放進去，甚至用戶自己都想不到的答案，提供一個更好的答案，這是我們努力的方向。

第二，挑戰(zhàn)。包括用戶個性化風格的問題。之前我們給的通用系統(tǒng)問問題了之后有四個答案，不認識、不認得、認不得、我不認識啊。你給了這四個答案，怎么說也沒錯，但其實對用戶來說是一個很大的騷擾或者他覺得你很笨，怎么學(xué)會用戶自己的口頭表達方式？這是中間的一個挑戰(zhàn)。

另外是用戶的自己，比如用戶問我你在哪？第一次回復(fù)是否記住了？第二次被人問到你在哪的時候，就知道給你生成侯選答案?？梢园盐业牧?xí)慣和行為作為一個學(xué)習(xí)。去年10月份搜狗IPO的時候，上市之后特別多的祝福短信微信過來到我的手機上，我有強迫癥，我覺得人家既然問候了你上市成功這件事情我就應(yīng)該有一個回復(fù)，我每天要處理2000-3000條的回復(fù)，處理了之后就睡覺，第二天爬起來手機就爆掉了。我就說手機能不能幫我回復(fù)？老師來了怎么回復(fù)，同學(xué)來了怎么回復(fù)同事來了怎么回復(fù)。

然后是能否在客戶端上訓(xùn)練數(shù)據(jù)，一個是上下文里有多個上下文，也就是長文章里訓(xùn)練。現(xiàn)在有時候在群里或者用戶聊天中，聊的可能是多線程的。兩個人聊好幾個事，對方問的話，你回答的是前面一個問題，這種情況下怎么樣做數(shù)據(jù)的訓(xùn)練和抽取。

最后是策略問題，今天做的工作核心還是放在服務(wù)器上，這樣更好的迭代。但是這件事情對性能、隱私都有更大的挑戰(zhàn)，怎么樣把模型壓縮小了放在設(shè)備里去，這是我們考慮的一個問題。

這是講到我們在對話里的努力方向是輔助對話，有別于大多數(shù)公司在做的任務(wù)。

這個任務(wù)首先和搜狗的特長結(jié)合的特別好。

第二，理念里面幫助到人，讓人更強。和Google最近發(fā)布的這件事情是非常一致的。

最后提到我們的模式，搜狗內(nèi)部有兩個做研究的機構(gòu)：

一、搜狗輸入法。自然交互。

二、搜狗搜索。知識計算。

第一，自然交互和人更好的溝通，搜狗每天有超過3億次的語音識別請求，這是我們在招股書里承諾的，不能含有水分，這個是全中國排名第一的，以前不敢說，百度最近財報里提到了，說的是語音請求數(shù)是2億次，搜狗每次做的在線識別量是全中國最大的。

自然交互用新的智能硬件做承載，包括像ECHO小音箱，一年內(nèi)我們還會有三款智能硬件的發(fā)布，一款比一款更加驚艷。超出大家想象。

第二，知識計算不僅來自于互聯(lián)網(wǎng)，在醫(yī)學(xué)知識、法律知識來自于知識圖譜和線下的特別文獻，可以在里面做更多精準的推理分析。從輸入和搜索兩個頭，一頭離用戶更近，一頭是更深的知識。

合在一塊兒，最后打造的還是虛擬的個人助理，一年之內(nèi)我們會不斷的發(fā)新的智能硬件產(chǎn)品，會在各種領(lǐng)域做垂直的個人助理，幫助你表達、更好獲取信息的一個新的產(chǎn)品平臺。這是搜狗基于現(xiàn)在的能力做的幾件事情。

今天給大家的報告到這里，謝謝！

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴