1
巢湖半湯溫泉,中國四大名泉之一,位于安徽巢湖市東北部的湯山腳下,因一熱一冷兩大溫泉匯聚而成冷熱各半的自然景觀而得名為半湯。
2000年的秋冬之際,CEO劉慶峰帶著科大訊飛最開始的近20名干將從科大訊飛所在城市合肥驅(qū)車一小時(shí)抵達(dá)半湯,召開為期兩天的年度會(huì)議,這被稱為科大訊飛公司歷史上著名的半湯會(huì)議。
半湯會(huì)議持續(xù)了兩天,因?yàn)?a target="_blank">公司財(cái)務(wù)情況已經(jīng)見衰,有人提出把公司解散了,有人說用科大的招牌和政府的支持炒房地產(chǎn)賺錢,十幾個(gè)人各抒己見,各方意見始終未能統(tǒng)一,最后劉慶峰直接拍板:繼續(xù)做語音,誰不樂意,直接走人。
這不是劉慶峰關(guān)于科大訊飛做出的第一個(gè)重要決定,之前的1999年6月,他也在眾多選擇中選擇了堅(jiān)持向前走的決定。
時(shí)間回溯到1999年6月,對(duì)于劉慶峰來說,當(dāng)時(shí)擺在他面前的有三個(gè)選擇:一是走學(xué)術(shù)路線出國讀博,已經(jīng)有學(xué)校愿意提供幾萬美元的獎(jiǎng)學(xué)金;二是接受剛剛組建微軟亞洲研究院的李開復(fù)提供的微軟獎(jiǎng)學(xué)金,到微軟實(shí)習(xí)一個(gè)月,作為日后投身產(chǎn)業(yè)界、進(jìn)入微軟這樣的大公司的跳板;三是帶領(lǐng)實(shí)驗(yàn)室的師兄弟們,一起做一番事業(yè)。
在這三條路中,劉慶峰選擇的是看起來難度最大的一條,他放棄了出國讀博的打算,婉拒了李開復(fù)的邀請(qǐng),提出了一邊攻讀博士、一邊創(chuàng)業(yè)的想法,在得到導(dǎo)師的首肯之后,劉慶峰以實(shí)驗(yàn)室為班底,成立了安徽硅谷天音信息科技有限公司,半年后,公司改名為科大訊飛。
科大訊飛早期創(chuàng)業(yè)團(tuán)隊(duì)
回顧這一足以改寫今日中國語音產(chǎn)業(yè)江湖市場(chǎng)格局的選擇,我們便會(huì)發(fā)現(xiàn)劉慶峰在當(dāng)時(shí)做出的決定并非偶然。當(dāng)時(shí)劉慶峰擔(dān)任福建中銀集團(tuán)與中科大建立的聯(lián)合實(shí)驗(yàn)室、中文語音合成第一個(gè)產(chǎn)業(yè)化的實(shí)體中銀天鷹智能多媒體實(shí)驗(yàn)室的總工程師,和師兄弟一起開始為中銀集團(tuán)提供技術(shù)支持。
在摸著石頭過河,將語音合成產(chǎn)業(yè)化的過程中,劉慶峰發(fā)現(xiàn)做產(chǎn)品與做技術(shù)有很大不同,做產(chǎn)品是需要迎合市場(chǎng)需求,但當(dāng)時(shí)市場(chǎng)上并不確定需要語音做什么。
中銀集團(tuán)有很多想法,今天想搞個(gè)語音PDA,明天又想做個(gè)語音聽寫軟件,后天又搞工商查詢系統(tǒng),搞得團(tuán)隊(duì)疲憊不堪。兄弟們受不了,便找到劉慶峰說,要么你出來當(dāng)CEO,要么我們就解散。
劉慶峰的博士生導(dǎo)師也對(duì)他說,這個(gè)事情可以成,這么多優(yōu)秀的年輕人能團(tuán)結(jié)在一起,在科大的歷史上還從來沒有過,要是解散就太可惜了。
劉慶峰的導(dǎo)師王仁華是國內(nèi)語音合成領(lǐng)域研究的泰斗,在當(dāng)時(shí)的語音界有南北“二王”之稱,其中南王指的就是中科大王仁華,王仁華最開始也擔(dān)任科大訊飛的董事長,但并非大股東,他的股份遠(yuǎn)比劉慶峰少,甚至一半都沒有,這在當(dāng)時(shí)蠻匪夷所思的,今天也不少人難以理解,但正是王仁華的高風(fēng)亮節(jié)成就了科大訊飛今天的輝煌,王仁華與劉慶峰模式也成為中國高校企業(yè)科技創(chuàng)新的重要模式創(chuàng)新,之后李澤湘與汪滔、王田苗與高祿峰都遵循這個(gè)模式。
王仁華從1967年開始任教于中國科學(xué)技術(shù)大學(xué)電子工程與信息科學(xué)系,長期從事人機(jī)語音通信,數(shù)字信號(hào)處理,多媒體通信方面的科研和教學(xué)工作,其研究的LPC語音合成技術(shù)在1985年獲中國科學(xué)院科技進(jìn)步三等獎(jiǎng),在語音合成方向多次獲國家科技獎(jiǎng)。科大訊飛的前十年,其業(yè)務(wù)也是基于語音合成技術(shù)。
王仁華(中)和科大訊飛團(tuán)隊(duì)
語音合成,又稱文語轉(zhuǎn)換(TTS,Text to Speech)技術(shù),是用人工的方式模擬人聲,從而將任意文字信息轉(zhuǎn)化為語音。1939年,貝爾實(shí)驗(yàn)室H· 杜德利(H . Dudley)利用共振峰原理制作的語音合成器是歷史上第一臺(tái)電子合成器;1960年,瑞典語言學(xué)家G.Fant提出用線性預(yù)測(cè)編碼(LPC)作為語音合成分析技術(shù),推動(dòng)了語音合成的發(fā)展;
1980年,D·克拉特(D. Klatt)設(shè)計(jì)出串/并聯(lián)混合型共振峰合成器,已經(jīng)可以模擬不同的嗓音;20世紀(jì)90年代,隨著計(jì)算和存儲(chǔ)能力大幅度提升,基于大語料庫的單元挑選與波形拼接合成方法出現(xiàn),可以合成出高質(zhì)量的自然人語音。王仁華正是這個(gè)時(shí)間開始深耕語音合成領(lǐng)域。
1993年,在中科大召開的全國語音識(shí)別與合成研討會(huì)上,王仁華教授提出了試用播音員錄音的基因片段加處理的方法獲得了當(dāng)時(shí)863專家組負(fù)責(zé)智能接口的專家高文的首肯,并撥給20萬元進(jìn)行研究,在此之后,王仁華教授的課題獲得了863計(jì)劃的滾動(dòng)支持。
多說一句,王仁華教授在1993年訪問美國麻省理工學(xué)院(MIT)時(shí),當(dāng)時(shí)在MIT任職的也是中科大校友的鄧力招待過他的訪問并交流了不少語音技術(shù)問題。而高文也在1992年在MIT計(jì)算機(jī)系做過訪問學(xué)者,這個(gè)世界不大。
而1992年考入中科大的劉慶峰因?yàn)槌煽儍?yōu)異,在大一就被王仁華看中吸收入人機(jī)語音通信實(shí)驗(yàn)室參與了相關(guān)863項(xiàng)目,1995年也就是劉慶峰大三那年起擔(dān)任語音合成項(xiàng)目的負(fù)責(zé)人。1995年和1997年,中科大在863專家組主持的文語轉(zhuǎn)換系統(tǒng)評(píng)測(cè)和中期檢查中獲得多項(xiàng)第一,劉慶峰均參與其中;
1998年,劉慶峰帶隊(duì)參加了在北京的863語音合成評(píng)測(cè),這一次中科大在評(píng)測(cè)中獲得了3分(5分是播音員水準(zhǔn),4分是普通人發(fā)音表現(xiàn),而3分則是勉強(qiáng)可以接受的),這是當(dāng)時(shí)語音合成獲得最高的分?jǐn)?shù),“唯一達(dá)到了可實(shí)用階段”。
隨后在1998年8月的“國家火炬計(jì)劃十周年成就暨高新技術(shù)產(chǎn)品博覽會(huì)”中,中科大的語音合成系統(tǒng)被選為唯一的軟件標(biāo)志性產(chǎn)品而列在特展位上;1998年12月,在新加坡舉行的國際漢語口語處理研討會(huì)(ISCSL)上,中科大的KD語音合成系統(tǒng)被與會(huì)各國專家高度評(píng)價(jià),劉慶峰介紹KD系統(tǒng)的論文也獲得了大會(huì)的最佳學(xué)生論文獎(jiǎng)(有意思的是,鄧力當(dāng)時(shí)是ISCSL的創(chuàng)始人之一,他向劉慶峰發(fā)了最佳學(xué)生論文獎(jiǎng))。不難想象,1999年的劉慶峰正是春風(fēng)得意時(shí),這時(shí)候的他更希望做的是能改變世界的大事。
一方面是國外的博士和微軟獎(jiǎng)學(xué)金,另一方面是7年順風(fēng)順?biāo)难芯亢蛯?dǎo)師的勉勵(lì)、師兄弟們的期盼,選擇創(chuàng)業(yè)也就順理成章了。就這樣,中科大、安徽省經(jīng)貿(mào)委出資,劉慶峰也出了十萬元,再和17個(gè)兄弟們一人湊了點(diǎn)錢,以300萬元將原來賣給中銀集團(tuán)的技術(shù)買回,成立了科大訊飛的前身硅谷天音。
雖然此前實(shí)驗(yàn)室已經(jīng)拿到了不少的榮譽(yù),但畢竟沒有市場(chǎng)化的產(chǎn)品,因此初創(chuàng)之時(shí)的硅谷天音仍然將主要精力放在語音合成引擎的開發(fā)上,有了這款引擎,才好去談投資和商務(wù)合作。
在研發(fā)過程中,科大訊飛遭遇了第一次資金短缺問題,每個(gè)月花的錢比掙的錢多,賬面上的資金越來越少。劉慶峰的壓力很大,劉慶峰他開始找投資方,但并不順利。
此時(shí),另一家語音企業(yè)金耳麥被當(dāng)時(shí)與Nuance齊名的Infotalk(以語音識(shí)別和語音搜索技術(shù)見長,2005年被賣給了新加坡的Creative公司)高價(jià)收購。金耳麥由沈康麒于1999年創(chuàng)立,由于研發(fā)出中文語音識(shí)別算法,在成立8個(gè)月即被Infotalk收購,沈康麒本人也進(jìn)入新公司擔(dān)任高管。沈康麒兜兜轉(zhuǎn)轉(zhuǎn)一圈后重新回到語音產(chǎn)業(yè)江湖,他現(xiàn)在是車載語音服務(wù)平臺(tái)公司車音網(wǎng)的CEO。
語音識(shí)別當(dāng)時(shí)在中國還比較少應(yīng)用在產(chǎn)業(yè)中,而科大訊飛當(dāng)時(shí)也只是有語音合成技術(shù),語音識(shí)別技術(shù)是從國外語音技術(shù)提供商N(yùn)uance采購的??吹浇鸲湵皇召?,劉慶峰幾次北上北京與沈康麒商議Infotalk收購科大訊飛的可能性。沈康麒非常看好兩家公司的互補(bǔ)性,遂向公司建議收購科大訊飛??上У氖?,Infotalk最后并沒有選擇科大訊飛,而是收購了另外一家境外公司。
被Infotalk放棄后,劉慶峰不氣餒的繼續(xù)尋求融資機(jī)會(huì)。好不容易有人有投資意向,不過他們卻都不希望科大訊飛繼續(xù)待在偏遠(yuǎn)的合肥,而應(yīng)該去北京或上海。
合肥市時(shí)任市長車俊聽到這一消息,嚇了一跳。雖然合肥有中科大,但當(dāng)時(shí)正是中國通信行業(yè)發(fā)展高峰期,培養(yǎng)的人才被華為、中興都包攬去了,留在合肥的少得可憐。如果科大訊飛這時(shí)候再轉(zhuǎn)移陣地,那就真的留不住人了。
要想把科大訊飛留在合肥,只有解決了他們的資金問題。于是在1999年底,車俊將合肥美菱股份有限公司、合肥永信信息產(chǎn)業(yè)有限公司以及安徽省信托投資公司的負(fù)責(zé)人帶到科大訊飛的辦公室,為其展示了語音合成技術(shù)。會(huì)后,三家企業(yè)分別出資1000萬投資科大訊飛,各占17%??拼笥嶏w的資金危機(jī)暫時(shí)解除了,也如車俊所愿留在了合肥,自此也開啟了科大訊飛與合肥政府之間20年緊密的聯(lián)系。
3000萬資金到位后,劉慶峰和兄弟們準(zhǔn)備大干一場(chǎng)。當(dāng)時(shí)電腦剛開始進(jìn)入許多中國家庭,很多用戶根本不會(huì)操作,科大訊飛看準(zhǔn)了這個(gè)“痛點(diǎn)”,推出了第一款產(chǎn)品“暢言2000”。這是一款基于IBM研發(fā)的語音識(shí)別系統(tǒng)ViaVoice研發(fā)的中文語音系統(tǒng),用上了科大訊飛多年來語音合成領(lǐng)域的技術(shù)積累,定價(jià)一千多元,功能上相當(dāng)于電腦上的Siri,借助語音方便電腦操作,還打出了“會(huì)說話就會(huì)用電腦”的廣告。劉慶峰將銷售渠道鋪到了全國10多個(gè)省,他們甚至預(yù)想了產(chǎn)品熱銷的豐滿夢(mèng)想,但由于語音輸入和控制并非硬需求,大多數(shù)人還是更習(xí)慣于使用鍵盤和鼠標(biāo),加之價(jià)格太高,暢言2000幾乎無人問津,科大訊飛也由此虧掉兩千多萬。
由于暢言2000的失利,科大訊飛再次陷入了資金缺失的困境,也讓團(tuán)隊(duì)開始懷疑語音產(chǎn)業(yè)的未來。痛定思痛,劉慶峰把隊(duì)伍拉到了巢湖半湯溫泉,希望在這樣一個(gè)放松的環(huán)境下,想清楚自己能夠做什么。
今天復(fù)盤,劉慶峰當(dāng)時(shí)之所以如此堅(jiān)持,是他知道還未到窮途末路的時(shí)候,雖然ToC市場(chǎng)出師不利,但在ToB市場(chǎng),基于語音合成技術(shù),公司還有數(shù)十家企業(yè)的訂單,他覺得重整山河發(fā)力ToB市場(chǎng),勝負(fù)依然為未可知。
1999年10月在中國國際高新技術(shù)成果交易會(huì)上,華為的一名員工對(duì)科大訊飛的語音合成技術(shù)很感興趣,并邀請(qǐng)其團(tuán)隊(duì)到華為在蛇口的辦公室做深入交談。科大訊飛總工程師陳濤帶領(lǐng)團(tuán)隊(duì)在華為住了一個(gè)多月,最終通過了華為的測(cè)試。
2000年初華為與科大訊飛簽訂了供貨商協(xié)議,購買語音合成技術(shù)。此時(shí),中國電信的168電話信息平臺(tái)開始鋪向全國,涉及到大量的客服工作,語音合成技術(shù)有望能解決這個(gè)問題,繼華為之后,在當(dāng)年年底中興、鑫泰、神州數(shù)碼等50多家企業(yè)都與科大訊飛簽訂了合同。
當(dāng)然,客服語音技術(shù)還是很復(fù)雜的,不是把語音轉(zhuǎn)化成文本就可以了。當(dāng)時(shí),科大訊飛做的只是語音轉(zhuǎn)接,即直接對(duì)著電話說找某個(gè)人,通過識(shí)別出人名而在事先獲取的通訊錄信息中進(jìn)行搜索匹配從而將電話轉(zhuǎn)接到該人的電話線。這涉及到信息數(shù)據(jù)問題。因?yàn)樵缙跀?shù)據(jù)還比較少,因此客服語音技術(shù)也只是在少范圍內(nèi)使用。
在半湯會(huì)議明確了發(fā)展方向后,劉慶峰編寫了一份“未來發(fā)展規(guī)劃”,繼續(xù)尋找投資,他們很快遇到了聯(lián)想創(chuàng)投。
這份規(guī)劃書在聯(lián)想創(chuàng)投眼中“還有些稚嫩”,但在柳傳志和劉慶峰談了兩個(gè)多小時(shí)后,柳傳志就確定了“這家公司一定要投”,并將聯(lián)想創(chuàng)投將第一個(gè)投資名額給了科大訊飛。
聯(lián)想之后,復(fù)星集團(tuán)和英特爾也選擇投資了科大訊飛。不同的是,聯(lián)想的300萬美元是以增資的方式真金白銀的給到了科大訊飛,而復(fù)星集團(tuán)和英特爾則是從安徽信托、美菱集團(tuán)、合肥永信三家第一輪投資人手中買的老股。
雖然拿到了投資,但科大訊飛的經(jīng)營狀況并沒有馬上改善。直到2004年聯(lián)想創(chuàng)投的一次投資項(xiàng)目總結(jié)會(huì)上,科大訊飛還被當(dāng)作不賺錢的反面教材。
2
轉(zhuǎn)機(jī)出現(xiàn)在2004年。科大訊飛的誕生是基于863計(jì)劃支持下的項(xiàng)目技術(shù)產(chǎn)業(yè)化,從一開始就得到了政府的資助與支持,科大訊飛也一直是安徽省政府和科技部等部委眼中的好學(xué)生:2000年6月,科大訊飛被科技部認(rèn)定為國家863計(jì)劃成果產(chǎn)業(yè)化基地,2002年,以中科大為第一完成單位的“KD系列漢語文語轉(zhuǎn)換系統(tǒng)”被評(píng)為國家科技進(jìn)步二等獎(jiǎng),是政府和相關(guān)部門眼中的“好學(xué)生”,而在最后,仍然是政府拯救了它。
2004年,時(shí)任教育部副部長的袁貴仁到科大訊飛視察,提出將訊飛的語音識(shí)別技術(shù)應(yīng)用于普通話考試,這對(duì)當(dāng)時(shí)的科大訊飛可謂量身定做,天下掉餡餅樣的好事。自此,訊飛以普通話測(cè)評(píng)切入智能教育。在這一年,科大訊飛終于扭虧為盈。
接下來的一年科大訊飛繼續(xù)被幸運(yùn)眷顧。2005年彩鈴從韓國引進(jìn)中國,受到消費(fèi)者的熱烈追捧。但令運(yùn)營商困擾的是,電話只能通過按鍵選擇1至9之間的9首彩鈴。語音成為解決這個(gè)問題的最優(yōu)選擇之一。
不過,要做這個(gè)事情,得有比較成熟的語音識(shí)別技術(shù),這個(gè)在當(dāng)時(shí)并非科大訊飛的專長,語音識(shí)別當(dāng)時(shí)國內(nèi)的正規(guī)軍和排頭兵是中科信利。
有意思的是,在投資科大訊飛之前,聯(lián)想還對(duì)比考察了中科信利。中科信利的強(qiáng)項(xiàng)在語音分類與檢索技術(shù)和語音識(shí)別,是曾任英特爾中國研究中心主任、首席研究員的顏永紅他麾下的英特爾中國研究中心語音部的幾名研究員回到中科院聲學(xué)所時(shí)在組建中科信利語音實(shí)驗(yàn)室的同時(shí)成立的企業(yè),方便對(duì)實(shí)驗(yàn)室的研究成果進(jìn)行商業(yè)運(yùn)作。
應(yīng)該說中科信利與科大訊飛各有特色,在二選一中,柳傳志因?yàn)閯c峰描繪的場(chǎng)景而投資了科大訊飛,而中科信利也很快成為當(dāng)時(shí)科大訊飛最大的競爭對(duì)手。
左林右貍團(tuán)隊(duì)拜訪中科信利聯(lián)合創(chuàng)始人趙慶衛(wèi)
幾乎在科大訊飛承接安徽聯(lián)通彩鈴業(yè)務(wù)的同時(shí),中科信利也承接了中國移動(dòng)的IVR(互動(dòng)式語音應(yīng)答)業(yè)務(wù),并在2005-2007年成為中國移動(dòng)的IVR業(yè)務(wù)合作伙伴。
于公于私,中科信利很難把語音識(shí)別技術(shù)給對(duì)手科大訊飛。
科大訊飛想到的辦法是借雞生蛋,他們找上了全球語音巨頭Nuance,成為Nuance的代理,但為了更好的拓展市場(chǎng),科大訊飛采取與Nuance建立聯(lián)合實(shí)驗(yàn)室的方式曲線入局。
得到Nuance的助力,科大訊飛開發(fā)了一套可以讓消費(fèi)者使用語音選擇彩鈴的系統(tǒng)“聲動(dòng)炫鈴”。這套系統(tǒng)被迅速從安徽聯(lián)通推廣到聯(lián)通總部,中國電信、中國移動(dòng)開通彩鈴業(yè)務(wù)后也選擇了這套系統(tǒng)。基于此,科大訊飛進(jìn)一步探索了個(gè)性化彩鈴、愛吼網(wǎng)等產(chǎn)品,當(dāng)時(shí)聯(lián)通的音樂、彩鈴相關(guān)語音業(yè)務(wù)平臺(tái)幾乎都由其包攬。
憑借上述業(yè)務(wù)和收入,科大訊飛開始了連續(xù)3年凈利潤130%的復(fù)合增長。2007年?duì)I收突破2億元。2008年5月12日,科大訊飛成功登陸深交所,成為中國第一個(gè)由在校大學(xué)生創(chuàng)業(yè)的上市公司,也是中國語音產(chǎn)業(yè)至今唯一的上市公司。
科大訊飛在深交所敲鐘
科大訊飛一上市受到諸多熱捧,一是發(fā)行市盈率為29.98倍,接近當(dāng)時(shí)證監(jiān)會(huì)允許的30倍的最高上限;二是首次發(fā)行超額認(rèn)購倍數(shù)卻高達(dá)2313倍,中簽率低至0.04%。
一片歡欣鼓舞之下,劉慶峰還是保持了冷靜。當(dāng)時(shí)的局面是,語音合成是科大訊飛的強(qiáng)項(xiàng),占據(jù)了語音合成70%以上的市場(chǎng)份額;而語音識(shí)別相對(duì)較弱,在識(shí)別類電信級(jí)語音平臺(tái)產(chǎn)品更是需要向Nuance公司購買語音識(shí)別授權(quán),嚴(yán)重影響了該業(yè)務(wù)的毛利率進(jìn)而影響整個(gè)公司的收益。很顯然,劉慶峰得建立起屬于科大訊飛自己的語音識(shí)別研發(fā)力量,而要單開語音識(shí)別這條線,劉慶峰得先找一個(gè)業(yè)務(wù)帶頭人,劉慶峰想到了胡郁。
劉慶峰和胡郁兩個(gè)人都是宣城同鄉(xiāng),劉慶峰報(bào)考高考志愿是找胡郁父親給的建議,兩人是世交。劉慶峰是以高于清華錄取線40多分的成績考的中科大,也是那年1990年宣城理科狀元,胡郁是1995年進(jìn)中科大的,他是1995年宣城理科狀元,科大訊飛還有一位宣城人,胡國平,科大訊飛研究院的副院長,他也是1995年進(jìn)中科大的,他是那一年的宣城理科榜眼。宣城離合肥不遠(yuǎn),當(dāng)時(shí)沒有高鐵,但也是一天來回。
當(dāng)時(shí)的一個(gè)契機(jī)是,胡郁老婆在香港大學(xué)霍強(qiáng)教授處讀博士后,想讓胡郁跟著去陪讀兩年,霍強(qiáng)教授也是王仁華的學(xué)生(1998年在日本京都ATR同當(dāng)時(shí)在那做sabbatical語音研究的鄧力教授共事過),當(dāng)時(shí)在語音識(shí)別領(lǐng)域已經(jīng)形成自己的江湖地位,劉慶峰去找老師王仁華商量,王仁華給了一個(gè)建議,胡郁在給老婆陪讀的同時(shí)給霍強(qiáng)做研究助理,借此開始建立起科大訊飛在語音識(shí)別的班底。
2007年,霍強(qiáng)從香港大學(xué)轉(zhuǎn)去微軟亞洲研究院后,胡郁又去找王仁華的另一個(gè)學(xué)生江輝合作,江輝也是科大訊飛創(chuàng)業(yè)18羅漢之一,是當(dāng)時(shí)中科大BBS上黑客版的版主,比劉慶峰高三屆,因東京大學(xué)讀博士離開。
江輝在東京大學(xué)得到博士之后,被當(dāng)時(shí)在加拿大滑鐵盧大學(xué)任教的鄧力教授招去做博士后。后來經(jīng)鄧力大力推薦江輝去了加拿大約克大學(xué)當(dāng)教授,江輝今天是訊飛超腦計(jì)劃的組長。
在語音識(shí)別領(lǐng)域,科大訊飛與清華王作英實(shí)驗(yàn)室也在合作,當(dāng)時(shí)王作英實(shí)驗(yàn)室與科大訊飛對(duì)接合作的是吳及老師。
就這樣,胡郁三箭齊發(fā),開始逐步組建起科大訊飛在語音識(shí)別領(lǐng)域的團(tuán)隊(duì),但外界對(duì)科大訊飛的認(rèn)知還是語音合成,胡郁和他的團(tuán)隊(duì)需要一次機(jī)會(huì)告知外界,科大訊飛不僅在語音合成上行,在語音識(shí)別上也行。
這個(gè)機(jī)會(huì)很快到來,就是由美國國家標(biāo)準(zhǔn)技術(shù)研究院舉辦的國際說話人識(shí)別評(píng)測(cè)大賽(NIST Speaker RecognitionEvaluation, NIST SRE)。2008年的NIST SRE評(píng)測(cè)提供了包含麥克風(fēng)語音、電話語音等在內(nèi)的不同來源的數(shù)據(jù),再加上訓(xùn)練集與數(shù)據(jù)集的排列組合,共計(jì)有13項(xiàng)評(píng)測(cè),是歷年來評(píng)測(cè)組數(shù)最多的一屆。
這也給了科大訊飛以突破的機(jī)會(huì),所提交的USTC-iFly系統(tǒng)也獲得識(shí)別等錯(cuò)誤率(EER)、最小檢測(cè)代價(jià)(minDCF)兩項(xiàng)第一名和檢測(cè)代價(jià)(DCF)第三名。為此,科大訊飛在2008年6月5日特地發(fā)表公告報(bào)喜,稱“語音識(shí)別與語音合成核心技術(shù)的共同進(jìn)步將對(duì)科大訊飛業(yè)務(wù)持續(xù)健康發(fā)展起到積極推動(dòng)作用。”
但這只是科大訊飛語音識(shí)別業(yè)務(wù)的一小步——NIST SRE評(píng)測(cè)的內(nèi)容是,給定目標(biāo)說話人以及包含六個(gè)說話人的測(cè)試語音片段,識(shí)別目標(biāo)說話人是否在測(cè)試語音片段中說話。這更多的反映的是代表說話人身份的相關(guān)特征(如反映聲門開合頻率的基頻特征、反映口腔大小形狀及聲道長度的頻譜特征等)的語音信號(hào)提取能力,而非具體內(nèi)容的識(shí)別。
此外,科大訊飛在NIST SRE評(píng)測(cè)所采取的GMM-UBM與GMM-SVM整合的模型在本次大賽中也被多家參賽機(jī)構(gòu)使用。如科大訊飛的友商、背靠清華大學(xué)語音和語言技術(shù)中心的得意音通,在NISTSRE評(píng)測(cè)中采取的也是同樣的模型,科大訊飛雖然在模型構(gòu)建、調(diào)參等細(xì)節(jié)上稍占上風(fēng),但大家基本在同一水平線上,并沒有拉開距離。
更困難的是語音識(shí)別技術(shù)在商業(yè)級(jí)別上的進(jìn)一步應(yīng)用:語音識(shí)別的主流方式是使用高斯混合模型(GMM)來建模,尤其以高斯混合模型+隱馬爾科夫模型(GMM-HMM)在很長時(shí)間內(nèi)都是占據(jù)壟斷地位的建模方式。
李開復(fù)的成名作、基于統(tǒng)計(jì)學(xué)原理開發(fā)的第一個(gè)“非特定人連續(xù)語音識(shí)別系統(tǒng)”SPHINX,其核心框架就是GMM-HMM,其中GMM用來對(duì)語音的觀察概率進(jìn)行建模,HMM則對(duì)語音的時(shí)序進(jìn)行建模。
Sphinx的出現(xiàn)打破了當(dāng)時(shí)主流的“計(jì)算機(jī)難以有效識(shí)別連續(xù)的、不同口音的口語”的觀點(diǎn),此后Sphinx開始顯示出一定的實(shí)用價(jià)值,也使得GMM-HMM成為語音識(shí)別的主要方向。
GMM-HMM的優(yōu)點(diǎn)是訓(xùn)練速度快,可有效降低語音識(shí)別的錯(cuò)誤率;聲學(xué)模型小,容易移植到嵌入式平臺(tái)中,但由于GMM沒有利用幀的上下文信息,不能學(xué)習(xí)深層非線性特征變換,在實(shí)際的有噪音的商業(yè)級(jí)別應(yīng)用中依然表現(xiàn)不佳,無法達(dá)到可用的級(jí)別。要想實(shí)現(xiàn)語音識(shí)別更廣泛的商用,必須采用與以往不同的技術(shù)。
鄧力(左)和何曉冬
在大洋彼岸,華人語音的大神級(jí)人物鄧力也在努力解決這一問題。在1994年,當(dāng)鄧力在加拿大滑鐵盧大學(xué)任教時(shí)與其指導(dǎo)的一名博士在博士論文中提出了一種增強(qiáng)神經(jīng)網(wǎng)絡(luò)記憶的新模型,但在效果上仍然無法超越其他統(tǒng)計(jì)學(xué)習(xí)方法。
就連這篇論文的外部評(píng)審、大名鼎鼎的神經(jīng)網(wǎng)絡(luò)之父GeoffreyHinton在看過這篇論文后都不得不承認(rèn),現(xiàn)階段想要在神經(jīng)網(wǎng)絡(luò)方面有所突破實(shí)在太難。這使得鄧力在隨后的十余年中遠(yuǎn)離了神經(jīng)網(wǎng)絡(luò)研究,而把精力放在GMM-HMM,貝葉斯統(tǒng)計(jì)方法和生成模型研究上。
但現(xiàn)在GMM-HMM在商業(yè)應(yīng)用上陷入瓶頸,鄧力又想到了神經(jīng)網(wǎng)絡(luò),他重新研究了Geoffrey Hinton在2006年發(fā)表在《Science》的那篇?jiǎng)潟r(shí)代論文《Reducingthe Dimensionality of Data with Neural Networks》, 于是他2009和2010年兩次邀請(qǐng)Hinton來到西雅圖的微軟雷德蒙研究院,看看如何將這篇文章提出的思路與其正在研究的深度Bayesian 語音識(shí)別模型結(jié)合起來。
值得一提的是,這篇論文“降維分層訓(xùn)練”的觀點(diǎn)雖然今天看起來是理所當(dāng)然,但在當(dāng)時(shí)這篇論文看起來還是晦澀的,而且只有短短3頁紙,很多原理沒有細(xì)講,因而也存在著很多的爭議。直到2012年AlexNet在ImageNet上以巨大優(yōu)勢(shì)奪冠,才興起了深度學(xué)習(xí)的浪潮,這是后話。
回到2009年底,在這一年的NIPS大會(huì)上,Hinton和鄧力、俞棟舉辦了一個(gè)Workshop,總結(jié)了深度學(xué)習(xí)各種不同的方法在語音識(shí)別上的應(yīng)用??傮w來說當(dāng)時(shí)鄧力的研究有了一個(gè)階段性的結(jié)果,但所有的深度學(xué)習(xí)在語音識(shí)別的應(yīng)用都是聚集在大概只有100萬幀左右的“小數(shù)據(jù)量”上,大規(guī)模的神經(jīng)網(wǎng)絡(luò)威力還沒有顯示出來。
大幕即將拉起,只是你我渾然不知。
3
在中國的語音產(chǎn)業(yè)江湖里,2010年是一個(gè)重要的年份。
在2010年2月和6月,鄧力作為團(tuán)隊(duì)經(jīng)理正式招聘了兩位Hinton的研究生Abdo Mohamed和George Dahl分別加入微軟西雅圖研究院作為實(shí)習(xí)生,研究人員開始探討如何利用深層神經(jīng)網(wǎng)絡(luò)改善大詞匯量語音識(shí)別。
Dahl在深層神經(jīng)網(wǎng)絡(luò)訓(xùn)練的豐富經(jīng)驗(yàn)對(duì)研究產(chǎn)生了很大的推動(dòng),負(fù)責(zé)該項(xiàng)目的鄧力和他手下的團(tuán)隊(duì)干將俞棟一道提出拋棄傳統(tǒng)的用英語的40個(gè)左右的基本音素建模的方法,而使用深層神經(jīng)網(wǎng)絡(luò),對(duì)一種比音素小很多、叫做senones的建模單元直接建模。
senones的數(shù)量多達(dá)數(shù)千個(gè),從音素到senones建模的要求自然高許多,如果做個(gè)類比,用senones建模大致相當(dāng)于材料科學(xué)的納米技術(shù),使得語音識(shí)別模型能夠更好地識(shí)別語音細(xì)節(jié),從而提高了辨析的準(zhǔn)確率。
隨后鄧力和俞棟將前饋神經(jīng)網(wǎng)絡(luò)(FeedForward Deep Neural Network,F(xiàn)FDNN)引入到聲學(xué)模型建模中,將FFDNN的輸出層概率用于替換之前GMM-HMM中使用GMM計(jì)算的輸出概率,引領(lǐng)了DNN-HMM混合系統(tǒng)的風(fēng)潮,并取得了很好的效果。
這一系列研究結(jié)果的相關(guān)論文《Deepneural networks for acoustic modeling in speech recognition: The shared viewsof four research groups》于2012年發(fā)表,講述了深度神經(jīng)網(wǎng)絡(luò)對(duì)語音識(shí)別產(chǎn)生的影響,怎么把不同的機(jī)器學(xué)習(xí)方法,包括深度神經(jīng)網(wǎng)絡(luò)的方法整合起來,使得大規(guī)模的語音識(shí)別得到進(jìn)展,文章被引用約5200次,是語音識(shí)別領(lǐng)域中的經(jīng)典論文之一。
對(duì)于這一改變語音識(shí)別業(yè)界格局的研究,科大訊飛成為了微軟總部之外,第一批了解這一信息并著手這方面研究的團(tuán)隊(duì),甚至早于微軟亞洲研究院——2010年9月21日,鄧力受邀回到母校中科大并與科大訊飛交流,他與俞棟分享了將神經(jīng)網(wǎng)絡(luò)應(yīng)用于語音識(shí)別的最新成果。
而在這一年的10月,俞棟才在微軟亞洲研究院聲學(xué)組的一次內(nèi)部討論中提及使用深度神經(jīng)網(wǎng)絡(luò)和senones建模的相關(guān)研究。
正是在這次內(nèi)部討論中,微軟亞洲研究院聲學(xué)組的高級(jí)研究員Frank Seide意識(shí)到了這一研究的價(jià)值,他隨即加入該項(xiàng)目,與俞棟一起,兩支團(tuán)隊(duì)精誠合作,推進(jìn)該項(xiàng)目的研究。
Richard Rashid
在2012年微軟大老板之一、負(fù)責(zé)全球技術(shù)的副總裁Richard Rashid在天津舉行的一次會(huì)議上當(dāng)場(chǎng)演示用深度學(xué)習(xí)做語音識(shí)別,將英文識(shí)別后,用機(jī)器翻譯成中文,再用語音合成的方法產(chǎn)生中文語音——也就是說,他在上面講英文,觀眾可以直接聽到和他音色很像的中文——整場(chǎng)演示非常成功,幾乎沒有錯(cuò)誤,這也引起了產(chǎn)業(yè)界的轟動(dòng),揭開了語音識(shí)別產(chǎn)業(yè)應(yīng)用的新一頁。
這也成為紐約時(shí)報(bào)2012年10月份頭版頭條的一大新聞。紐約時(shí)報(bào)這篇文章的作者John Markoff親自飛到西雅圖的微軟采訪鄧力, 也采訪了Hinton。
這時(shí)鄧力正代表微軟同谷歌鄧力正代表微軟同谷歌和百度竟?fàn)?,用高價(jià)全職招聘Hinton,最終敗給谷歌的故事,(代表人是Jeff Dean)和百度(代表人是余凱)竟?fàn)帲酶邇r(jià)全職招聘Hinton,最終敗給谷歌(這其中故事多多,有興趣的讀者可以關(guān)注幾個(gè)月內(nèi)【前紐約時(shí)報(bào)記者Cade Metz 】將出版的一本新書,左林右貍頻道也會(huì)組織讀書會(huì),敬請(qǐng)期待)。
Hinton雖然木有去成微軟,但與鄧力一直保持良好的私交,他在多次公開演講中高度評(píng)價(jià)他同鄧力的合作。在2013年5月Hinton即將開始到谷歌工作前夕,Hinton到溫哥華在由鄧力任大會(huì)主席,共3千人參加的IEEE-ICASSP語音國際大會(huì)上作了整一小時(shí)的主題演講。
2010年這一年,也是百度加入語音江湖的一年。2010年初,當(dāng)時(shí)剛剛加入百度并為其組建自然語言處理部的王海峰找到聲學(xué)所顏永紅的團(tuán)隊(duì),引進(jìn)了聲學(xué)所的語音技術(shù)后,百度于當(dāng)年2010年10月在掌上百度上推出語音搜索。
百度此舉是對(duì)谷歌的致敬和跟隨,2008年,谷歌重啟了6年前停止研發(fā)的語音項(xiàng)目。
谷歌最早在2002年著手開發(fā)語音搜索技術(shù),但正如前面結(jié)果所證實(shí)的,PC時(shí)代網(wǎng)民還不習(xí)慣對(duì)著大屏幕進(jìn)行語音交互,而智能手機(jī)的數(shù)量又比較少,因此語音搜索并無用武之地,谷歌也隨之停止這個(gè)項(xiàng)目的開發(fā)。
但6年之后的2008年,iPhone的走紅令谷歌意識(shí)到語音搜索的機(jī)會(huì)來臨了。谷歌決定重啟語音搜索開發(fā)項(xiàng)目,并首先針對(duì)iPhone推出了語音搜索應(yīng)用程序,隨后又向谷歌Android和RIM黑莓智能手機(jī)用戶免費(fèi)提供該應(yīng)用程序。
谷歌的這一動(dòng)作很自然而然引起了百度的注意,雖然此時(shí)谷歌已差不多在大陸無立足之地。
這一年的6月8日,蘋果發(fā)布了擁有“100 多項(xiàng)創(chuàng)新設(shè)計(jì)”的經(jīng)典產(chǎn)品iPhone 4,引發(fā)全球排隊(duì)購機(jī)熱潮。不過喬布斯不喜歡大屏,iPhone 4屏幕僅為3.5英寸,用全鍵盤打字時(shí)存在不少困難。
既然用手指輸入文字體驗(yàn)不好,可不可以用語音輸入?當(dāng)時(shí)科大訊飛移動(dòng)互聯(lián)事業(yè)部產(chǎn)品經(jīng)理翟吉博,用了三天時(shí)間寫出一個(gè)Demo,后被公司討論后決定正式推向市場(chǎng),迅速引爆市場(chǎng),這讓科大訊飛上下歡欣鼓舞,也成為年度的創(chuàng)新產(chǎn)品之一。
翟吉博之前在摩托羅拉工作,是葛勇的實(shí)習(xí)生。葛勇也是科大訊飛最早創(chuàng)業(yè)的18羅漢之一,2008年,恰逢摩托羅拉把語音部門賣給Nuance,葛勇帶翟吉博等一票人從摩托羅拉離開,胡郁借此把葛勇們找回來。和搜狗輸入法一樣,訊飛輸入法也是妙手偶得。
科大訊飛最開始有18個(gè)創(chuàng)始人,上市的時(shí)候有14人是一致行動(dòng)人,這14人中有13人是最早參與創(chuàng)業(yè)的,離開的5個(gè)人里,有前文提到的霍強(qiáng)和江輝,以及葛勇,另外兩人是吳義堅(jiān)和賴偉,這兩人也是王仁華老師的博士生,今天是兒童機(jī)器人元趣公司的兩位創(chuàng)始人,元趣也是市場(chǎng)上為數(shù)不多有自己語音合成和語音識(shí)別底層技術(shù)的公司,與之前他們超強(qiáng)的技術(shù)背景大有關(guān)聯(lián)。吳義堅(jiān)是少年大學(xué)生,讀博士期間在科大訊飛干活,活干得很好,博士畢業(yè)的時(shí)候,科大訊飛想讓吳義堅(jiān)留下來,但吳義堅(jiān)選擇去了微軟。
吳義堅(jiān)博士畢業(yè)照
雖然喬布斯不喜歡大屏,但他對(duì)于語音也同樣很感興趣。2010年初,一款名為“Siri”的應(yīng)用在Apple Store上線,這是一款虛擬助手,可以連接42個(gè)應(yīng)用,而不用用戶多次打開應(yīng)用。兩周后,喬布斯便給Siri的創(chuàng)始人AdamCheyer打電話,直接表達(dá)想要收購的意愿。
此時(shí),Siri剛成功拿到B輪融資,而且與Verizon(美國最大的本地電話公司)簽訂了一份協(xié)議,在新的一年里成為其旗下所有Android手機(jī)的默認(rèn)應(yīng)用。但最終喬布斯的堅(jiān)持還是打動(dòng)了Adam,以2億美元身價(jià)被其收購。Siri也從Android默認(rèn)應(yīng)用跳到了iOS專屬應(yīng)用陣營。
科大訊飛這一年發(fā)布了訊飛語點(diǎn)和語音云。2010年10月,科大訊飛推出集成了語音合成、語音搜索和語音聽寫等交互能力的“訊飛語音云”平臺(tái)。
2010年是個(gè)分水嶺,這一年后,中國語音江湖開始熱鬧起來。
4
在語音識(shí)別技術(shù)因?yàn)樯疃葘W(xué)習(xí)開始取得巨大突破后,工業(yè)界需要一個(gè)足夠流行有足夠多人用的產(chǎn)品來引爆之。
Siri成為這個(gè)引爆點(diǎn)應(yīng)運(yùn)而生的時(shí)代寵兒。
2011年10月4日,在蘋果的發(fā)布會(huì)上,Siri以語音助手的形式隨iPhone 4S發(fā)布。一開始Siri是沒有聲音的,只是以文本形式推送答案,加入語音技術(shù)是喬布斯的主意。iPhone4S讓語音助手被大眾所認(rèn)識(shí),但發(fā)布之時(shí)Siri沒有推出中文服務(wù),這給了很多中國創(chuàng)業(yè)者遐想的空間。
智臻智能開始就此迅速轉(zhuǎn)身,智臻智能的創(chuàng)始人袁輝沒有看完喬布斯2011年的發(fā)布會(huì),就給他的合伙人朱頻頻打電話,感慨這不就是他們想做的事情。袁輝曾經(jīng)在微軟工作過,他2001年創(chuàng)辦了智臻智能,朱頻頻則畢業(yè)于中科大,是劉慶峰的師弟。2004年,智臻智能在MSN上推出的聊天助手小i機(jī)器人曾風(fēng)靡一時(shí),并引進(jìn)數(shù)千萬美元的風(fēng)險(xiǎn)投資進(jìn)入。
2012年4月,小i機(jī)器人iOS版上線,在蘋果WWDC大會(huì)上發(fā)布全新的iOS 6操作系統(tǒng)并在Siri中增加中文服務(wù)后,率先發(fā)起對(duì)Siri的侵權(quán)官司,袁輝和朱頻頻聯(lián)合創(chuàng)辦的智臻智能向上海一中院提起侵權(quán)訴訟,稱蘋果公司的語音助手Siri侵犯了它持有的“聊天機(jī)器人系統(tǒng)”專利權(quán)。
此前智臻智能在2004年推出小i機(jī)器人之時(shí),申請(qǐng)了一份名為“一種聊天機(jī)器人系統(tǒng)”的專利,直到2009年7月22日獲準(zhǔn)授權(quán)。智臻智能據(jù)此要求禁售所有裝載Siri功能的iPod、iPhone以及iPad產(chǎn)品。如今這場(chǎng)官司還在最高法院,也阻礙了Siri的入華之路。
2012年3月,科大訊飛上線了Android版的中文語音助手訊飛語點(diǎn),只是iOS版在Apple Store上遲遲未能通過上線申請(qǐng)。到2013年1月,在刪減了包括語音撥號(hào)、發(fā)短信、搜索音樂以及設(shè)置提醒在內(nèi)的多項(xiàng)實(shí)用功能后,訊飛語點(diǎn)終于在AppleStore上線。
左林大叔&胡郁
胡郁對(duì)左林右貍頻道說,訊飛語點(diǎn)是全球第二、中國第一的語音助手,言語中充滿了無比的驕傲。訊飛語點(diǎn)不僅讓科大訊飛的小伙伴們感到驕傲,更重要的讓科大訊飛的發(fā)展迎來一個(gè)新的臺(tái)階,那就是中國移動(dòng)對(duì)科大訊飛的入股,這讓科大訊飛在之后的兩三年里成為中國最紅的科技股之一。
2011年年底,借中國移動(dòng)在安徽開會(huì),科大訊飛極力運(yùn)作了時(shí)任中國移動(dòng)CEO李躍到科大訊飛進(jìn)行考察,就是這次考察中,訊飛語點(diǎn)成功的打動(dòng)了李躍一行,此時(shí)在中國移動(dòng)看來語音是一門大生意,可能改變移動(dòng)互聯(lián)網(wǎng)的競爭格局。在中國,誰能讓機(jī)器更懂中文,成為關(guān)鍵。
2012年8月,中國移動(dòng)正式宣布向科大訊飛注資13.6億元,成為后者的第二大股東。中國移動(dòng)以入股形式投資的企業(yè)并不多,在此之前只有香港鳳凰衛(wèi)視和上海浦發(fā)銀行,科大訊飛是其投資的第一家技術(shù)型公司。
2012年12月5日,在中國移動(dòng)全球開發(fā)者開會(huì)上,中國移動(dòng)推出智能語音門戶產(chǎn)品“靈犀”。
中國移動(dòng)想通過這款應(yīng)用作為入口級(jí)的產(chǎn)品,把音樂、12580、導(dǎo)航、視頻等業(yè)務(wù)一一對(duì)接,從而盤活中國移動(dòng)的整個(gè)數(shù)據(jù)和業(yè)務(wù)。
中國移動(dòng)一直是科大訊飛的核心客戶,也一直想抓住移動(dòng)互聯(lián)網(wǎng)的入口,曾研發(fā)手機(jī)操作系統(tǒng)Ophone,推出移動(dòng)通信飛信、搜索引擎“盤古搜索”等,但這些項(xiàng)目最后基本上都失敗了。2011年Siri推出后,中國移動(dòng)想與蘋果合作搶占中國移動(dòng)互聯(lián)網(wǎng)市場(chǎng)未果后選擇了投資科大訊飛。
Siri令投資機(jī)構(gòu)對(duì)語音市場(chǎng)的激情高漲,很多語音企業(yè)如思必馳、捷通華聲都是在創(chuàng)業(yè)多年后首次拿到融資。也是在這一年,劉慶峰喊出千億市值的口號(hào)。
這一年,也是百度加速進(jìn)入語音行業(yè)的一年。李彥宏參加了內(nèi)部一個(gè)關(guān)于深度學(xué)習(xí)的會(huì)議,會(huì)議結(jié)束后他非常吃驚,并給全公司寫信,讓所有產(chǎn)品經(jīng)理都要了解人工智能技術(shù)的發(fā)展。
2012年11月,在王海峰推動(dòng)下,由賈磊擔(dān)當(dāng)?shù)陌俣日Z音團(tuán)隊(duì)上線了第一款基于DNN的漢語語音搜索系統(tǒng),這讓百度成為最早采用DNN技術(shù)進(jìn)行商業(yè)語音服務(wù)的公司之一。
賈磊
賈磊也是中國語音江湖里的重要變量,他師從中科院自動(dòng)化所徐波所長,自動(dòng)化所也是中國語音江湖的四大勢(shì)力之一(另外三是聲學(xué)所和二王),作為百度語音首席架構(gòu)師,在百度期間,賈磊先后帶隊(duì)完成了語音輸入法、語音搜索、智能手機(jī)語音助手等多個(gè)項(xiàng)目,并曾因?yàn)槠鋬?yōu)異的工作表現(xiàn)受到內(nèi)外部的無數(shù)獎(jiǎng)勵(lì),但在2016年卻悄然離開,而對(duì)應(yīng)的吳恩達(dá)帶領(lǐng)團(tuán)隊(duì)研發(fā)的深度語音識(shí)別系統(tǒng)DeepSpeech被美國某媒體評(píng)為2016年十大突破技術(shù)之一,該技術(shù)也被應(yīng)用在2016百度世界大會(huì)上發(fā)布的百度語音輸入法。
賈磊離開百度與當(dāng)時(shí)百度的首席科學(xué)家吳恩達(dá)關(guān)系頗大,種種信息表明,吳恩達(dá)與賈磊曾經(jīng)上演過一山不容二虎的對(duì)決,正是吳恩達(dá)在2015年底直接找了李彥宏,讓李彥宏做出了吳恩達(dá)in,賈磊out的決定。而在這之前,吳恩達(dá)和賈磊都向鄧力請(qǐng)教過如何處理和調(diào)和他們對(duì)語音識(shí)別產(chǎn)品觀念上的巨大分岐,鄧力真是華人語音江湖的如來真佛和超級(jí)錦鯉啊。
百度在擊退谷歌后,其最大的競爭對(duì)手搜狗的語音研發(fā)之路也是在2012年開始的。在外部看來,語音是搜狗在搜索上擊敗百度的機(jī)會(huì),但在王小川自己看來,語音是輸入法順延要做的事情,這位前信息奧賽金牌得主做任何事情,都強(qiáng)調(diào)順理成章,就像其覺得做翻譯棒是語音輸入法的延伸一樣。
王小川&左林大叔
2006年6月,搜狗輸入法正式推出,迅速擊敗紫光拼音、微軟拼音、智能ABC等輸入法,成為全球第一大漢字輸入法。到2008年,搜狗輸入法的市場(chǎng)占有率達(dá)到了40%。
2012年,察覺到語音的重要性后,搜狗也開始研發(fā)語音技術(shù),并于兩年后為搜狗輸入法引入語音搜索功能,又兩年后發(fā)布語音交互引擎“知音”。
如今,搜狗、科大訊飛、百度輸入法成為排名前三的中文輸入法,而語音則成為排名的格局變量。
Siri也讓一些語音從業(yè)者看到了新時(shí)代的到來,萌生了創(chuàng)業(yè)的念頭。黃偉是其中的代表性人物,在Siri發(fā)布后沒多久,也就是2012年春天,他從盛大創(chuàng)新院辭去了語音院院長的職位,創(chuàng)立了云知聲。
黃偉同樣是中科大畢業(yè),1994年入學(xué),他的另外一個(gè)聯(lián)合創(chuàng)始人梁家恩也是中科大本科,1996年入學(xué),好吧,如果一個(gè)語音團(tuán)隊(duì)里最核心成員里沒有中科大的,那就請(qǐng)出門右拐吧。一開始黃偉并非學(xué)語音的,研究生讀的圖像,直到博士才轉(zhuǎn)做語音。
2004年黃偉博士畢業(yè)的時(shí)候,正好趕上第二次人工智能浪潮瀕臨破滅,很多人都轉(zhuǎn)行了,黃偉很幸運(yùn),他加入了摩托羅拉中國研究中心(MCRC)語音識(shí)別部門,主導(dǎo)開發(fā)出世界第一款手機(jī)聲紋認(rèn)證系統(tǒng),當(dāng)時(shí)黃偉團(tuán)隊(duì)7個(gè)人,共做了幾十款手機(jī)的語音識(shí)別,支持13國語音,這些手機(jī)在摩托羅拉的銷售量中,大概超過了2億臺(tái)。
黃偉學(xué)生時(shí)代,這張照片中除了云知聲的兩個(gè)聯(lián)合創(chuàng)始人黃偉(后右二)和李霄寒(前中),還有計(jì)算機(jī)視覺獨(dú)角獸云從的兩個(gè)創(chuàng)始人周曦(后右一)和姚志強(qiáng)(前左一)。
2008年在iPhone的變革下,摩托羅拉的手機(jī)業(yè)務(wù)備受打擊。摩托羅拉將手機(jī)部門賣給了谷歌,而為手機(jī)而生的語音部門則被賣給了通過一路合并成為全球語音最大市場(chǎng)占有者Nuance。黃偉跟隨團(tuán)隊(duì)去了Nuance,但Nuance的核心團(tuán)隊(duì)在歐美,內(nèi)心驕傲且年輕的黃偉希望能有更大的作為。
這個(gè)時(shí)候,盛大創(chuàng)新研究院通過獵頭找到黃偉。
此時(shí),由陳天橋在1999年創(chuàng)立的盛大的網(wǎng)游業(yè)務(wù)達(dá)到頂點(diǎn),陳天橋希望擴(kuò)展到其他領(lǐng)域,由此創(chuàng)立了盛大創(chuàng)新院。盛大創(chuàng)新院由陳天橋胞弟陳大年一手負(fù)責(zé),他親自招攬了廣大人才,并給予寬松的環(huán)境。其中,黃偉是陳大年找來負(fù)責(zé)語音研究的。
那個(gè)年代中國互聯(lián)網(wǎng)企業(yè)還處于草莽時(shí)期,與摩托羅拉這樣的外企在軟硬件上都有很大差距。黃偉一開始對(duì)中國互聯(lián)網(wǎng)企業(yè)并無多大興趣,而且陳大年比自己還小兩歲,這讓黃偉在見陳大年前心里是無比抗拒的。但見完陳大年后黃偉卻當(dāng)場(chǎng)答應(yīng)加入,黃偉對(duì)左林右貍頻道說,陳大年身上有兩點(diǎn)特質(zhì),一個(gè)是人很友好,一個(gè)是頭腦聰明,這兩個(gè)特質(zhì)打動(dòng)了黃偉。
那個(gè)時(shí)候iPhone剛發(fā)布也不過一年多時(shí)間,在國內(nèi)智能手機(jī)的增長是在2008年底開始,基數(shù)也僅在百萬級(jí)別。而陳大年在此時(shí)和黃偉大談移動(dòng)互聯(lián)網(wǎng),令黃偉從內(nèi)心對(duì)陳大年刮目相看。
2009年7月,黃偉正式加入盛大創(chuàng)新研究院,并組建語音團(tuán)隊(duì)。
陳大年沒有給黃偉定什么KPI,隨他和團(tuán)隊(duì)怎么折騰,語音合成、識(shí)別,語義識(shí)別等等,今天AI里面跟語音相關(guān)的,那時(shí)候他們都做了,為盛大積累了大量的語音基數(shù)及專利,其語音團(tuán)隊(duì)在美國國家標(biāo)準(zhǔn)技術(shù)署(NIST)舉辦的聲紋識(shí)別評(píng)測(cè)(SRE)大賽中,力壓麻省理工、斯坦福研究中心、IBM等眾多名校、名企,在9個(gè)單項(xiàng)任務(wù)中獲得多個(gè)單項(xiàng)第一,整體綜合指標(biāo)第一。
黃偉也很早接觸到深度學(xué)習(xí),他在2011年的interspeech會(huì)上和俞棟討論之后就開始著手做深度學(xué)習(xí)語音識(shí)別系統(tǒng)。
2013年初,云知聲在創(chuàng)辦半年后馬上發(fā)布了基于深度學(xué)習(xí)的微信語音輸入插件,將語音識(shí)別率提高到90%以上,并稱自己是中國第一個(gè)基于深度學(xué)習(xí)的語音識(shí)別系統(tǒng),由此引發(fā)了與科大訊飛的口水戰(zhàn),但同時(shí)引起了投資機(jī)構(gòu)的關(guān)注,啟明的鄺子平最先找到黃偉,第二天就同意投資。同一時(shí)間,阿里巴巴想以6000萬美金收購云知聲,和黃偉談判的是同樣被阿里收購的猛犸科技創(chuàng)始人如今Rokid創(chuàng)始人Misa(祝銘明)。
阿里時(shí)期的Misa
2013年5月10日,馬云在黃龍?bào)w育場(chǎng)當(dāng)著數(shù)萬員工宣布不做CEO讓位給陸兆禧。云知聲黃偉作為觀禮嘉賓也在現(xiàn)場(chǎng),他在黃龍?bào)w育場(chǎng)扯著嗓子給三位合伙人打電話,說阿里愿意出價(jià)6000萬美金全資收購,他想征求下三位合伙人意見,賣還是不賣。黃偉對(duì)左林右貍頻道說,如果合伙人愿意賣他就賣,一圈電話下來,合伙人都說不賣,于是轉(zhuǎn)身拿了之前已經(jīng)給了offer也見過大老板鄺子平的啟明投資的錢。
右三為黃偉
也是2012年,在谷歌工作的李志飛看到了語音產(chǎn)業(yè)的創(chuàng)業(yè)機(jī)會(huì),產(chǎn)生了回國創(chuàng)業(yè)的沖動(dòng)。
李志飛曾在約翰霍普金斯大學(xué)攻讀博士學(xué)位時(shí)研究機(jī)器翻譯,開發(fā)的一個(gè)開源機(jī)器翻譯軟件Joshua曾經(jīng)是世界學(xué)術(shù)界兩大主流機(jī)器翻譯軟件之一。畢業(yè)之后,李志飛加入谷歌總部擔(dān)任科學(xué)家,從事機(jī)器翻譯的研究和開發(fā)工作,其間主要開發(fā)了谷歌的手機(jī)離線翻譯系統(tǒng)。
李志飛博士畢業(yè)照
2012年10月,在拿到紅杉資本和真格基金的天使投資之后,李志飛從谷歌離職回國創(chuàng)業(yè),帶著“谷歌研究院第一個(gè)回國創(chuàng)業(yè)的科學(xué)家”的頭銜以及雷欣等一批谷歌的同事,一起想在中國創(chuàng)立一個(gè)谷歌一樣的公司,打造下一代移動(dòng)語音搜索產(chǎn)品。
N年前在華僑城創(chuàng)意產(chǎn)業(yè)園在接受左林右貍頻道的采訪時(shí),李志飛坦誠他最開始的創(chuàng)業(yè)目標(biāo)就是做一家細(xì)分領(lǐng)域的Siri。各位鄰里會(huì)問,李志飛和雷欣不是做語義的嗎,怎么也跳進(jìn)語音江湖里?多說一句,李志飛和雷欣在美國讀博期間都被鄧力招聘過到他領(lǐng)導(dǎo)的微軟語音團(tuán)隊(duì)做過實(shí)習(xí)生。這個(gè)世界不大。
5
喬布斯在Siri發(fā)布的第二天溘然長逝,喬布斯去世后,Siri在蘋果內(nèi)部也并沒有得到重視,兩個(gè)聯(lián)合創(chuàng)始人在Siri發(fā)布后一年內(nèi)先后離開,再次聯(lián)合創(chuàng)立了VivLabs,后在2016年以2億美金賣給了三星,成為三星的手機(jī)助手。
Siri最終沒有大紅,當(dāng)然有內(nèi)部派系斗爭的緣故,但歸根結(jié)底還是因?yàn)檫@是一個(gè)超越時(shí)代的產(chǎn)品。雖然語音識(shí)別在此時(shí)已經(jīng)有很大進(jìn)展,但交互起來體驗(yàn)感仍然只是勉強(qiáng)而已??梢哉f,如果不是蘋果,語音助手很有可能還需要一段時(shí)間才會(huì)被大眾所熟知。
Siri雖然未成,但變相教育并統(tǒng)一了市場(chǎng)認(rèn)知,那就是光靠語音識(shí)別,技術(shù)上再先進(jìn)也無法商用,于是,在2014年這一年,整個(gè)工業(yè)界齊刷刷的從語音識(shí)別開始轉(zhuǎn)向語音交互以及認(rèn)知計(jì)算,又回到ToB。
2014年這一年,微軟發(fā)布了小冰,一個(gè)沒有語音交互功能但界面更友好,親和力更強(qiáng)的AI助手,雖然功能沒有小娜強(qiáng)大,但定位更清晰的小冰獲得了不比她姐姐少的關(guān)注。
2014年這一年,百度在谷歌推出谷歌大腦后很快宣布了百度大腦計(jì)劃,而科大訊飛也緊跟步伐在當(dāng)年年底的年度發(fā)布會(huì)上宣布正式啟動(dòng)“訊飛超腦”計(jì)劃,希望研發(fā)出第一個(gè)中文認(rèn)知智能計(jì)算引擎。
這些大腦計(jì)劃,與IBM Waston類似,后者是IBM研發(fā)的能夠使用自然語言來回答問題的人工智能系統(tǒng),2011年該系統(tǒng)在美國的電視問答節(jié)目Jeopardy!(危險(xiǎn)之旅?。┥蠐魯×藘擅祟惞谲娺x手,從此一戰(zhàn)成名。
Waston參加Jeopardy!(危險(xiǎn)之旅?。?/p>
Waston脫胎于語音識(shí)別系統(tǒng)ViaVoice,后者于1997年推出,是歷史上第一個(gè)連續(xù)聽寫產(chǎn)品,在當(dāng)時(shí)引起了很大轟動(dòng),次年被評(píng)為科技領(lǐng)域十大事件之一,亦促成了微軟、英特爾、摩托羅拉等在中國相繼成立研究院。
Waston每秒可以處理500GB的數(shù)據(jù),相當(dāng)于1秒閱讀100萬本書。經(jīng)過不斷的訓(xùn)練,系統(tǒng)能夠具備數(shù)據(jù)整理和分析的能力。而這也意味著,這個(gè)系統(tǒng)可以接入任何需要智能計(jì)算的行業(yè)。
2014年這一年,IBM投資10億美元專門建立“Watson Group (沃森集團(tuán))”,對(duì)外提供認(rèn)知解決服務(wù)方案,主要包括了Watson平臺(tái)、Watson醫(yī)療、Watson物聯(lián)網(wǎng)三大板塊。就在這一年,WatsonGroup為IBM貢獻(xiàn)197億美元,成為IBM五大業(yè)務(wù)收入板塊之中毛利最高的領(lǐng)域,在IBM總收入的占比也逐年不斷上升。
科大訊飛也看好醫(yī)療,不過前有Watson,后者Nuance,都是自己的老大哥??拼笥嶏w還是將最大的資源投入到最為公司賺錢的教育領(lǐng)域,此時(shí)正好遇到了在線教育的爆發(fā)。如今科大訊飛的教育產(chǎn)品包括課堂教學(xué)(在線課堂、暢言交互式多媒體教學(xué)系統(tǒng)、暢言智能語音等)、智能考試(標(biāo)準(zhǔn)考場(chǎng)、網(wǎng)上閱卷、招生考試、普通話測(cè)試、英語聽說測(cè)試等)、學(xué)習(xí)產(chǎn)品、教育評(píng)價(jià)、早教玩具(能力培養(yǎng)、趣味對(duì)話、故事機(jī)等)覆蓋從低到高各層面的產(chǎn)品組織。
同時(shí),科大訊飛收購了很多家語音評(píng)測(cè)公司,包括啟明科技等,持續(xù)的投入和連續(xù)的收購讓科大訊飛在教育市場(chǎng)形成了壟斷,目前所有省份的口語評(píng)測(cè)用的幾乎都是科大訊飛的引擎。
也就是在2014年,思必馳痛下決心將負(fù)責(zé)教育行業(yè)的部門聲馳剝離,以9000萬賣給了網(wǎng)龍,自己則把精力收縮專注智能硬件和物聯(lián)網(wǎng)。
思必馳是畢業(yè)于劍橋大學(xué)的高始興和俞凱等人于2007年在英國劍橋創(chuàng)立的,次年攜團(tuán)隊(duì)回國,早期注重教育市場(chǎng),2009年研發(fā)出了全世界第一個(gè)中文發(fā)音作業(yè)系統(tǒng)。
在語音識(shí)別技術(shù)上,就連胡郁也承認(rèn),在深度學(xué)習(xí)浪潮出來之前,劍橋的語音識(shí)別技術(shù)是領(lǐng)先的。俞凱的老板也是著名的語音公司VCallQ的創(chuàng)始人,該公司主要依托俞凱老板實(shí)驗(yàn)室的技術(shù)班底而成,俞凱本人在實(shí)驗(yàn)室是主力之一。VCallQ在2016年賣給了蘋果,這是后話。
思必馳在2014年把教育業(yè)務(wù)剝離出去,一方面當(dāng)然是因?yàn)橘Y源在教育領(lǐng)域是至關(guān)重要的,科大訊飛此時(shí)與政府的緊密關(guān)系令其輕松拿到市場(chǎng)的大半壁江山,甚至是壟斷??拼笥嶏w教育事業(yè)群副總裁丁鵬曾就競爭優(yōu)勢(shì)問題向媒體表示:就因?yàn)槲夷茏鋈珖氖袌?chǎng),那么安徽就會(huì)給我最大的支持;如果我能做全球的市場(chǎng),那么國家就會(huì)給我最大的支持。
另一方面,高始興和俞凱等人意識(shí)到,在教育領(lǐng)域雖然很難與科大訊飛抗衡,而語音可發(fā)揮的天地還很廣闊,特別是有交互場(chǎng)景的領(lǐng)域,而此時(shí),語音識(shí)別開始往語音交互走也成為思必馳團(tuán)隊(duì)的一致認(rèn)知。
認(rèn)可語音識(shí)別會(huì)向語音交互走這一趨勢(shì)的還有阿里巴巴。
2014年這一年,阿里巴巴的語音部門正式成立,掌舵者為初敏。初敏被稱為“木蘭之母”,其在微軟創(chuàng)建并領(lǐng)導(dǎo)語音合成研究小組研制出了第一個(gè)中英文雙語語音合成系統(tǒng)“木蘭”,這是當(dāng)時(shí)微軟唯一一個(gè)完全放在中國運(yùn)營的業(yè)務(wù)。
微軟曾經(jīng)在美國啟動(dòng)過語音合成相關(guān)技術(shù)的研究,但因成效不佳轉(zhuǎn)而選擇使用第三方的合成技術(shù)。正是由于初敏團(tuán)隊(duì)效果喜人,微軟才決定自研。
左林右貍團(tuán)隊(duì)拜訪初敏(中)
初敏在微軟做的“木蘭”,和科大訊飛當(dāng)年獲得國家科技進(jìn)步二等獎(jiǎng)的“KD漢語文語轉(zhuǎn)換系統(tǒng)”有異曲同工之妙。初敏在中科院聲學(xué)所讀的博士,師從著名語言聲學(xué)研究專家呂士楠,和科大王仁華一樣,呂士楠也是參加863項(xiàng)目語音測(cè)評(píng)的???,在幾個(gè)項(xiàng)目的評(píng)比中和科大訊飛互有勝負(fù);
在上個(gè)世紀(jì)90年代,呂士楠在漢語語音合成中,首次提出用“基音同步波形疊加技術(shù)”合成漢語,而王仁華在1993年得到863計(jì)劃的首筆資助時(shí)也正是在這個(gè)方向的研究打動(dòng)了專家組,才有了后來在1995年發(fā)布的KD系統(tǒng)。
按初敏的話說,呂士楠的學(xué)術(shù)范更濃,而王仁華則是一個(gè)更有商業(yè)意識(shí)的人,這也是科大訊飛技術(shù)從產(chǎn)品轉(zhuǎn)化做得比較好的原因。呂士楠和王仁華兩個(gè)團(tuán)隊(duì)的交流曾經(jīng)非常密切,2000年科大訊飛拿到3000萬元投資后,劉慶峰也拿了一筆錢出來與清華、聲學(xué)所做聯(lián)合研究,如今日科大訊飛的執(zhí)行總裁胡郁,在當(dāng)時(shí)就曾經(jīng)在聲學(xué)所呂士楠的實(shí)驗(yàn)室蹲點(diǎn)學(xué)習(xí)過。
聲學(xué)所的孫金城老師曾經(jīng)與劉慶峰一起參加了1998年的863語音合成的比賽,那次比賽,劉慶峰是第一名,孫金城是第二名,比賽完后,劉慶峰找到孫金城,說服孫金城與其合作,一起做語音合成,他們合作后的語音合成方案也成為中國最好的語音合成方案,劉慶峰請(qǐng)孫金城以顧問的身份加入創(chuàng)始團(tuán)隊(duì),并送了孫金城兩個(gè)點(diǎn)的股份,這部分股份在上市后也有千分之五左右,孫金城據(jù)說也是聲學(xué)所乃至整個(gè)北京聲學(xué)圈子的首富,身家最多的時(shí)候有四五億人民幣。
2009年,初敏受此時(shí)她的前上司今天阿里巴巴首席架構(gòu)師王堅(jiān)邀請(qǐng),加入阿里。初敏從微軟去阿里,一開始并非是奔著語音去的——在微軟亞洲研究院開發(fā)完“木蘭”系統(tǒng)的過程中,初敏注意可以接觸、收集的數(shù)據(jù)量迅速增長,如何對(duì)大規(guī)模數(shù)據(jù)進(jìn)行挖掘、分析和再利用成為了一個(gè)極富挑戰(zhàn)的研究難題。
由于感覺自己把所有語音合成能玩的都玩得差不多了,2007年,初敏做了一個(gè)重要決定,從語音組轉(zhuǎn)到了以數(shù)據(jù)為中心的計(jì)算組,開始了一段新的研究歷程,而初敏對(duì)云計(jì)算背后的大數(shù)據(jù)應(yīng)用非常感興趣,于是王堅(jiān)去了阿里云后,就跟著王堅(jiān)去了剛成立的阿里云。
2014年阿里正式成立語音部門IDST,初敏轉(zhuǎn)回語音方向,并開始組建語音團(tuán)隊(duì)(初敏在微軟亞研的舊同事鄢志杰就是她這個(gè)時(shí)候找來的),為Yun OS、支付寶、手機(jī)淘寶、釘釘?shù)犬a(chǎn)品加入了語音交互能力。之后在2017年初敏在阿里萌生退意想換個(gè)環(huán)境,思必馳首席科學(xué)家俞凱聽說后,和創(chuàng)始人高始興三顧茅廬,最終說動(dòng)初敏加入。
坊間曾經(jīng)認(rèn)為,思必馳游說初敏加入,看中的是初敏在阿里的背景,其實(shí)不然,思必馳與阿里合作的主要對(duì)口人是阿里語音的另一位女強(qiáng)人淺雪,初敏和淺雪在阿里語音體系里一時(shí)瑜亮,各成體系,也屢有紛爭,思必馳邀請(qǐng)初敏加入,更多是兩位創(chuàng)始人和初敏在語音產(chǎn)業(yè)發(fā)展理念上有諸多共通之處,比如都認(rèn)為基于場(chǎng)景的語音交互會(huì)產(chǎn)生很多新的機(jī)會(huì)和孕育新的可能,都認(rèn)為與高校實(shí)驗(yàn)室的緊密合作會(huì)形成源源不斷的創(chuàng)新能力(思必馳與上海交大的合作是科技企業(yè)與高校緊密合作的又一典范)。
相比阿里巴巴和思必馳,科大訊飛要激進(jìn)不少,他們不僅僅認(rèn)為語音識(shí)別會(huì)向語音交互走,更重要的還會(huì)向認(rèn)知計(jì)算走,這也是他們發(fā)布訊飛超腦的原因所在。
通過訊飛超腦,科大訊飛形成縱橫戰(zhàn)略,科大訊飛將主要業(yè)務(wù)分為八大部分,從最新的財(cái)務(wù)報(bào)表中營業(yè)額高低來劃分,包括教育領(lǐng)域、智慧城市、政法業(yè)務(wù)、開放平臺(tái)及消費(fèi)者、汽車、智能業(yè)務(wù)以及其他。其中與政府關(guān)系密切的教育、智慧城市、政法位居前三,而汽車上升勢(shì)頭最為迅猛。
當(dāng)然,光靠領(lǐng)先的語音合成和語音識(shí)別技術(shù),訊飛超腦還難以名副其實(shí),訊飛超腦得整合包括人臉識(shí)別等技術(shù)提供給客戶。
這對(duì)科大訊飛不是什么難事情,2014年科大訊飛在A股呼風(fēng)喚雨,幾次定增也得到熱捧,有了資金后,除了在全國各地開設(shè)子公司,科大訊飛也開始自己做投資。
科大訊飛的投資體系還包括安徽省訊飛產(chǎn)業(yè)投資有限責(zé)任公司,以及安徽省信息產(chǎn)業(yè)投資控股有限責(zé)任公司。其中,前者為科大訊飛全資控股企業(yè),后者為國有控股的投資公司,科大訊飛作為出資方參與其中,而二者的董事長均為原科大訊飛副總裁、董事會(huì)秘書徐景明。
科大訊飛的這三家企業(yè)投資了近70家企業(yè),其中包括優(yōu)必選、商湯科技、寒武紀(jì)等獨(dú)角獸,分別是服務(wù)機(jī)器人、人臉識(shí)別、AI芯片等領(lǐng)域的翹楚,也在多方面支持科大訊飛的生態(tài)。
這些獨(dú)角獸中商湯科技與科大訊飛的聯(lián)系最為緊密。商湯科技的創(chuàng)始成員大多來自港中大多媒體實(shí)驗(yàn)室湯曉鷗教授團(tuán)隊(duì),湯曉鷗本人也是創(chuàng)始人之一。同時(shí),湯曉鷗也是科大訊飛語音及語言信息處理國家工程實(shí)驗(yàn)室技術(shù)委員會(huì)的副主任。
訊飛發(fā)布超腦計(jì)劃,與劉慶峰從來不甘于讓科大訊飛只是做一個(gè)技術(shù)提供商的企圖心暗合,更有Nuance的前車之鑒。早科大訊飛7年成立,如今全球語音市場(chǎng)最大占有者Nuance曾經(jīng)是各大巨頭友好的合作伙伴,蘋果的Siri、亞馬遜的Alexa早期都使用過其技術(shù),甚至科大訊飛早期是其中國代理商,如今各大巨頭均自主開發(fā)自己的語音技術(shù),Nuance已被互聯(lián)網(wǎng)巨頭們拋棄,現(xiàn)只能專注于語音醫(yī)療領(lǐng)域偏安一隅,并且人才也被大量挖墻腳。
在中國,想只是靠提供技術(shù)而成為一家大企業(yè),更是妄談。這些年,科大訊飛也面臨類似Nuance同樣的局面,曾經(jīng)的合作伙伴紛紛建立自己的語音團(tuán)隊(duì)。而在醫(yī)療領(lǐng)域,國內(nèi)還并未發(fā)展那么快,而通過政府資源獲取的教育市場(chǎng)也終究還是格局略小了些。
因此,科大訊飛從來沒放棄做C端產(chǎn)品。
2014年這一年年底,科大訊飛做出新的組織結(jié)構(gòu)調(diào)整,拆分成三個(gè)事業(yè)部,消費(fèi)者事業(yè)部赫然在列,劉慶峰的親密戰(zhàn)友胡郁又一次被推到前臺(tái),擔(dān)任消費(fèi)者事業(yè)部的負(fù)責(zé)人。
6
如前所言,語音的第二個(gè)高潮是iPhone掀起的,但就像當(dāng)初PC時(shí)代一樣,Siri的后續(xù)發(fā)展并未達(dá)到預(yù)期,它只是作為附屬品而不是必需品而存在,于是大家開始懷疑,是不是手機(jī)同樣并不是最好的語音交互設(shè)備。
那么,用戶用語音交互的終端設(shè)備到底是什么呢?智能手表、音箱等一大批面向C端的硬件產(chǎn)品開始粉墨登場(chǎng),各家開始在嘗試,賭哪個(gè)形態(tài)的產(chǎn)品會(huì)成為移動(dòng)互聯(lián)網(wǎng)后下一個(gè)AIoT時(shí)代的開啟者。
最早開始這種嘗試的是出門問問。2012年回國創(chuàng)業(yè)時(shí),李志飛從擅長的語音交互入手,為其他產(chǎn)品提供適配方案,在這一時(shí)期,出門問問做出了針對(duì)GoogleGlass和Android Wear的中文智能語音交互應(yīng)用,然而這些讓出門問問頗為值得的技術(shù)方案只能用叫好不叫座來形容,無法讓普通用戶形成共鳴。
按李志飛接受左林右貍頻道采訪時(shí)所說的,如果出門問問繼續(xù)做AI解決方案公司固然很難死掉,但好死不如賴活著絕不是他想要的狀態(tài)。所以在創(chuàng)業(yè)兩年后,出門問問做了首次轉(zhuǎn)型,從純算法公司開始做軟硬件結(jié)合,并發(fā)布全球首款中文智能手表操作系統(tǒng)TicWear,以替代國內(nèi)功能不全的Google服務(wù);
半年后,又從軟件切入硬件,推出智能手表TicWatch。李志飛和團(tuán)隊(duì)沒有一個(gè)人懂硬件,正值諾基亞中國區(qū)大裁員,趕緊第一時(shí)間去搶了幾個(gè)硬件工程師。值得一提的是,2015年,谷歌投資了李志飛創(chuàng)辦的出門問問,并達(dá)成戰(zhàn)略合作關(guān)系,采用出門問問為谷歌智能手表操作系統(tǒng)WearOS(原Android Wear)提供中文語音助手。
左林大叔&李志飛
從此出門問問一發(fā)不可收拾地走上了硬件的不歸路,從智能手表、汽車后視鏡、智能耳機(jī),出門問問保持著一年推出一個(gè)新產(chǎn)品系列的節(jié)奏,不斷探索人工智能語音技術(shù)更適合的消費(fèi)級(jí)應(yīng)用場(chǎng)景。
其中,2016年立項(xiàng)并持續(xù)預(yù)熱的出門問問的智能音箱曾經(jīng)被李志飛寄予厚望。也就是在2016年這一年,出門問問邀請(qǐng)到了2018年新晉IEEE Fellow 華人科學(xué)家黃美玉博士加入,幫助建立了MobvoiAI Lab,用三個(gè)月時(shí)間領(lǐng)導(dǎo)完成給***遠(yuǎn)傳電信的一整套本地化語音助手的開發(fā)。
黃美玉師從美國卡耐基梅隆大學(xué)的Raj Reddy(1994年圖靈獎(jiǎng)獲得者),跟李開復(fù)、洪小文、黃學(xué)東一個(gè)組,后加入微軟研究院,在微軟工作18年,參與bing機(jī)器翻譯以及cortana等產(chǎn)品研發(fā),是微軟亞洲研究院語音識(shí)別和語義分析研究的主導(dǎo)者之一。
整個(gè)智能音箱的故事則要從亞馬遜說起。2014年11月7日,亞馬遜的先進(jìn)技術(shù)研發(fā)部門Lab 126突然丟出了一款智能音箱Echo。或許是前一款產(chǎn)品FirePhone敗走麥城的陰影尚未散去,這款脫胎于Lab 126 Project C的產(chǎn)品發(fā)布相當(dāng)?shù)驼{(diào),不僅沒有舉辦一場(chǎng)單獨(dú)的發(fā)布會(huì),甚至沒有去蹭在4天后的雙十一召開的亞馬遜年度開發(fā)者大會(huì)Re:Invent2014的場(chǎng)子。
但就是這款當(dāng)初未被寄予厚望的產(chǎn)品在2015年6月正式發(fā)售后,當(dāng)年出貨量達(dá)250萬臺(tái)。到2016年,Echo的出貨量更是達(dá)到520萬臺(tái),擊敗傳統(tǒng)音箱巨頭Sonos,取得在線音箱份額第一的霸主地位,占據(jù)了全球智能音箱88%的市場(chǎng)。
也就是2016年起,此前一直押注語音助手的各大巨頭也開始反應(yīng)過來,紛紛推出智能音箱。2016年11月,谷歌推出GoogleHome,用了一個(gè)季度的時(shí)間,搶下全球智能音箱10%的份額;2017年6月,蘋果為Siri找到一個(gè)安放的軀體,推出智能音箱HomePod。
而在國內(nèi),由于軟銀、富士康以及阿里巴巴三大巨頭押注的服務(wù)機(jī)器人Pepper上市后的表現(xiàn)大大低于市場(chǎng)預(yù)期,加上市面上一大堆和音箱外形功能一樣卻在講機(jī)器人故事的產(chǎn)品并沒有出現(xiàn)爆款,因此國內(nèi)巨頭對(duì)智能音箱的態(tài)度不是很積極,除了一直將亞馬遜作為對(duì)標(biāo)對(duì)象的京東。
2015年3月,京東與科大訊飛成立合資公司靈隆,并在三個(gè)月后也就是2015年6月就推出智能音箱叮咚。
到2016年,Echo在市場(chǎng)上的驚艷表現(xiàn)讓更多國內(nèi)互聯(lián)網(wǎng)公司加速在智能音箱市場(chǎng)的布局,并且用價(jià)格戰(zhàn)的方式讓這場(chǎng)競爭變成只有巨頭才有入場(chǎng)券的游戲。
盡管BAT、小米、360等大公司在2016年就開始了智能音箱的項(xiàng)目討論和立項(xiàng),但真正產(chǎn)品化的步伐要謹(jǐn)慎得多。2017年7月份,阿里和小米先后發(fā)布了第一款智能音箱天貓精靈和小愛同學(xué);
2017年11月份,百度在自己的開發(fā)者大會(huì)上通過9個(gè)月前全資收購的初創(chuàng)公司渡鴉科技推出智能音箱ravenH,4個(gè)月后又與其投資的企業(yè)小魚在家聯(lián)合發(fā)布小度在家智能視頻音箱,7個(gè)月后發(fā)布首款自有品牌智能音箱小度,與渡鴉音箱1699元、小度在家699元相比,這款音箱價(jià)格低至89元;騰訊的步伐直到18年4月才姍姍來遲,推出了智能音箱聽聽。
何曉冬(左)和俞棟
相比之下,推出最早的叮咚算是起了個(gè)大早趕了個(gè)晚集,在占據(jù)了先天優(yōu)勢(shì)的情況下并沒有帶來像Echo一樣的市場(chǎng)效應(yīng)。這讓京東對(duì)科大訊飛產(chǎn)生了質(zhì)疑,于是開始自己研發(fā)語音技術(shù),其中最標(biāo)志性的動(dòng)作是招募美國微軟雷德蒙德研究院主任研究員、深度學(xué)習(xí)技術(shù)中心負(fù)責(zé)人何曉冬博士加入,何曉東博士也是鄧力團(tuán)隊(duì)的核心成員之一(一段時(shí)間,何曉東與俞棟一起向鄧力匯報(bào))。
如今京東與科大訊飛的合資公司靈隆已宛若空殼,CEO魏強(qiáng)也于2018年11月初低調(diào)離職。當(dāng)然,這并不意味著京東放棄了智能音箱的市場(chǎng),而是會(huì)獨(dú)立研發(fā)。就在2018年12月4日,京東召開了IOT戰(zhàn)略發(fā)布會(huì),發(fā)布兩款智能耳機(jī)、兩款智能音箱,以及智能家居套裝,語音交互完全由何曉冬團(tuán)隊(duì)研發(fā)。
也就是說,在智能音箱這個(gè)事情上,科大訊飛起了個(gè)大早,趕了個(gè)晚集。這里面原因很多,合資公司這樣的機(jī)制很難成事有其客觀原因,但更多還是在于ToC這個(gè)事情,2015-2016年的科大訊飛還沒有準(zhǔn)備好,也沒有拼刺刀的心理建設(shè)。
在智能音箱這個(gè)市場(chǎng)上,2016年也有很多新生力量加入,其中最引人注目的是Misa。
2016年這一年,離開阿里兩年后的Misa發(fā)布了蛋形機(jī)器人Rokid,殺入智能音箱這個(gè)江湖。Rokid可謂是含著金鑰匙而生的,聯(lián)合創(chuàng)始人是金山的前CFO,天使投資人里有Misa的伯克利校友91前CEO JOE,有剛從阿里準(zhǔn)備離職去IDG的樓軍,有他在阿里的老上級(jí)吳泳銘,還有線性資本的王淮。
Misa(C位)和團(tuán)隊(duì)
Rokid 一亮相就得到小圈子的廣泛好評(píng),不論產(chǎn)品設(shè)計(jì)和還是場(chǎng)景的考量都很見功夫,當(dāng)然還讓人吐槽的是它的價(jià)格,但即便如此,1399的價(jià)格Rokid居然能出掉六位數(shù)的貨,還是讓人驚嘆的。
有意思的是,2018年, Rokid不再對(duì)外公布自己的音箱出貨量,公司的重點(diǎn)也轉(zhuǎn)變?yōu)榻o其他音箱公司提供交互等方案提供上來,Misa用了賦能一詞描述他在智能音箱這個(gè)江湖的角色和定位。
Misa這樣的超級(jí)產(chǎn)品經(jīng)理在音箱這個(gè)產(chǎn)品上的轉(zhuǎn)身和退讓也是中國智能音箱市場(chǎng)的一個(gè)真相,那就是在大公司戰(zhàn)略前面,產(chǎn)品很重要,但不是最重要的事情。
左林大叔&Misa
智能音箱大戰(zhàn)的邏輯在于,在語音的應(yīng)用場(chǎng)景中,智能音箱所代表的家居場(chǎng)景是僅次于通訊的第二大市場(chǎng),如果再進(jìn)一步看,無論是可穿戴設(shè)備、機(jī)器人,還是智能音箱,巨頭爭奪的是背后的平臺(tái)控制權(quán),在人工智能迅速發(fā)展的大背景下,語音平臺(tái)有機(jī)會(huì)成為物聯(lián)網(wǎng)時(shí)代下新的“操作系統(tǒng)”,這也是為何百度阿里以及小米在這個(gè)市場(chǎng)上血戰(zhàn)到底的原因所在。
在這樣的一個(gè)市場(chǎng)里,其實(shí)就是寡頭的游戲。
7
左林右貍頻道在采訪中被告知,在智能音箱以及更多的消費(fèi)類產(chǎn)品市場(chǎng)上,科大訊飛的角色多少有些擰不清楚,一方面是裁判員,是很多公司的技術(shù)提供商,另一方面是運(yùn)動(dòng)員,跑步下場(chǎng)。這種既做裁判員又做運(yùn)動(dòng)員的雙重身份讓其進(jìn)退維谷。
而隨著人工智能的爆發(fā)下,大企業(yè)紛紛自研語音技術(shù),加上初創(chuàng)企業(yè)的出現(xiàn),語音方案的選擇越來越多,科大訊飛開始逐步丟失了在價(jià)格和服務(wù)上的優(yōu)勢(shì)。
在價(jià)格上,智能音箱市場(chǎng)競爭日趨激烈,目前出貨量大的都是走低成本產(chǎn)品市場(chǎng),而科大訊飛的語音方案價(jià)格并不低,比如小米在做智能音箱之初找了科大訊飛,但科大訊飛要求一個(gè)音箱給10塊錢的技術(shù)授權(quán)費(fèi),這對(duì)于小米來說成本太高了,而百度的服務(wù)幾乎是免費(fèi);
在服務(wù)上,科大訊飛希望做生態(tài),提供的都是通用方案,而不同的產(chǎn)品有不同的用戶人群,比如音箱目前核心功能是播放音樂,那么為用戶提供好的音樂搜索服務(wù)是至關(guān)重要的,而兒童機(jī)器人注重教育,為不同年齡層不同需求的小孩兒提供優(yōu)質(zhì)的人機(jī)交互尤為關(guān)鍵。左林右貍頻道接觸過不少做這類產(chǎn)品的公司,大多數(shù)都從最開始選擇科大訊飛方案到如今做了其它選擇。
科大訊飛就像一棵樹,以語音技術(shù)為根,在各個(gè)領(lǐng)域開枝散葉。語音的應(yīng)用場(chǎng)景越多,對(duì)語音的技術(shù)要求也越細(xì)分,也給了初創(chuàng)企業(yè)機(jī)會(huì),聲智科技便是其一。
2016年,在聲學(xué)所待了十幾年的陳孝良在看到人工智能的爆發(fā)和市場(chǎng)前景后下定決心出來創(chuàng)業(yè)。陳孝良清楚如今語音交互平臺(tái)方面巨頭的機(jī)會(huì)更大一些,因此他選擇了以語音交互的底層方案作為突破口,著重解決遠(yuǎn)場(chǎng)語音交互的前端標(biāo)準(zhǔn)化和通用性問題,也獲得了與巨頭合作的機(jī)會(huì)。如今,BATMH等均為聲智科技合作對(duì)象,其中百度還成為其投資方。2018年年底最新的消息是聲智科技獲得新的一輪融資,可喜可賀。
陳孝良在中科院聲學(xué)所匯報(bào)工作
搶科大訊飛飯吃的還有ROOBO。
ROOBO創(chuàng)始人劉穎博并非做技術(shù)出身,他畢業(yè)于北京交通大學(xué)會(huì)計(jì)專業(yè)。畢業(yè)后劉穎博創(chuàng)業(yè)做過一些互聯(lián)網(wǎng)項(xiàng)目,包括Koomail、食神搖搖。2014年,當(dāng)劉穎博想再度創(chuàng)業(yè)時(shí),他發(fā)現(xiàn)當(dāng)初只要是個(gè)APP就有人投的時(shí)代已經(jīng)過去,只能做硬件了。他找來了兩個(gè)朋友:前360手機(jī)助手、搜狗手機(jī)輸入法創(chuàng)始人尹方鳴,前360安全衛(wèi)士負(fù)責(zé)人雷宇,幾個(gè)互聯(lián)網(wǎng)人開始做硬件。
ROOBO的定位是人工智能解決方案。最開始劉穎博沒想自己做硬件,他連模組是什么都不懂。為了驗(yàn)證方案,ROOBO做了機(jī)器人布丁,一開始經(jīng)人介紹他找到深圳一家做供應(yīng)鏈的公司老板,想讓對(duì)方負(fù)責(zé)ROOBO所有的供應(yīng)鏈?zhǔn)马?xiàng),但對(duì)方不認(rèn)為一群互聯(lián)網(wǎng)人能做什么硬件,沒答應(yīng)。無奈之下,劉穎博只能自己組建團(tuán)隊(duì)做硬件,從華為挖了一批人。如今深圳的硬件團(tuán)隊(duì)已經(jīng)有近百人。
劉穎博帶隊(duì)殺回深圳
2018年7月,ROOBO在深圳舉辦了一場(chǎng)發(fā)布會(huì),會(huì)上劉穎博宣布使用ROOBO平臺(tái)的機(jī)器人出貨量已經(jīng)達(dá)500萬臺(tái),提前完成了一年的出貨目標(biāo)。對(duì)于這個(gè)結(jié)果,劉穎博也是沒想到的,他覺得很大原因是因?yàn)楫?dāng)初被迫做硬件,從而讓團(tuán)隊(duì)對(duì)于硬件的理解能更加深厚。
當(dāng)然,內(nèi)心流淌著互聯(lián)網(wǎng)基因的劉穎博還是更喜歡研究軟件部門,他希望在機(jī)器人交互上能有更多的摸索和玩法。而因?yàn)樽鰴C(jī)器人人機(jī)交互解決方案,也讓ROOBO成為科大訊飛的競爭對(duì)手之一。
有意思的是,ROOBO初創(chuàng)的時(shí)候曾經(jīng)找科大訊飛要過融資,還進(jìn)入過科大訊飛多輪投委會(huì),劉穎博也飛到合肥去朝圣過劉慶峰,但雙方最終沒有走到一起,一說是ROOBO要的金額過多,超過了科大訊飛的射程,另一說是科大訊飛當(dāng)時(shí)在二選一中選了優(yōu)必選。
從左至右為雷宇、尹方鳴、胡郁、劉穎博、于繼棟
在科大訊飛起家的語音合成TTS領(lǐng)域,也遇到了獵戶的強(qiáng)力阻擊。
2016年9月,傅盛以個(gè)人身份投資成立了獵戶星空,2017年5月,傅盛推動(dòng)獵豹給獵戶星空投了4000萬美金,把自己名下的大部分股份轉(zhuǎn)給了獵豹,對(duì)應(yīng)換來了傅盛在獵豹的更多表決權(quán),同時(shí)獵戶星空也演變成為獵豹的控股子公司,傅盛借此全面掌控了獵戶星空。
2018年3月,傅盛為獵戶星空在水立方舉行了一場(chǎng)盛大發(fā)布會(huì),推出3款服務(wù)機(jī)器人、小豹音箱以及機(jī)械臂,并發(fā)布自主研發(fā)獵戶機(jī)器人平臺(tái)Orion OS。
傅盛成立獵戶星空,是想奔著做機(jī)器人去的,由此積累了諸多技術(shù),但最多的是語音合成相關(guān)的技術(shù)積累,獵戶先后為喜馬拉雅的小雅、小米的小愛同學(xué)、美的的小美以及華為音箱等多款智能音箱提供語音合成技術(shù),按照傅盛的說法,市場(chǎng)上30%的智能音箱都在用獵戶的TTS服務(wù),刨除BAT都在用自己的TTS服務(wù)后,在這個(gè)細(xì)分市場(chǎng)上,獵戶確實(shí)壓科大訊飛一頭。
在翻譯棒這個(gè)市場(chǎng)上,獵豹翻譯筆也與科大訊飛打起誰是第一的口水戰(zhàn),還有搜狗以及準(zhǔn)兒等多家公司,雖然量都不大,但這個(gè)領(lǐng)域木有巨頭進(jìn)入,更多是拼產(chǎn)品和服務(wù),還算良性。
傅盛&左林大叔
更多語音公司在汽車這個(gè)領(lǐng)域與科大訊飛短兵相接。
2017年4月,大眾汽車集團(tuán)(中國)宣布與出門問問成立一家合資公司,其中大眾汽車集團(tuán)(中國)將投資1.8億美金,用于支持雙方在智能出行領(lǐng)域的業(yè)務(wù)合作以及出門問問未來的發(fā)展。
在智能可穿戴、智能家居硬件產(chǎn)品之外,車載設(shè)備也是出門問問將人工智能應(yīng)用落地的場(chǎng)景之一。2016年11月22 日,出門問問舉行以“智駕新鏡界”為主題的冬季新品發(fā)布會(huì),發(fā)布車載機(jī)器人問問魔鏡TicMirror和ADAS高級(jí)駕駛輔助系統(tǒng)問問魔眼TicEye。
在與大眾汽車集團(tuán)(中國)成立合資公司后,這些車載產(chǎn)品將由合資公司進(jìn)行后續(xù)的開發(fā)和運(yùn)營。2018年,出門問問僅用一年通過了車規(guī)級(jí)前裝語音測(cè)試,躋身車載前裝語音交互第一梯隊(duì)。而這些技術(shù)成果已落地出門問問與大眾旗下的合資公司。目前,合資公司提供的語音與車內(nèi)互聯(lián)系統(tǒng)已被納入江淮大眾的一款新能源電動(dòng)汽車前裝中,合資公司還與賽德西威聯(lián)合打造并發(fā)布了智能車機(jī)產(chǎn)品。
2018年9月19日,云知聲與吉利集團(tuán)旗下億咖通科技(ECARX)宣布共同出資成立一家合資公司,開展面向汽車前裝市場(chǎng)的車規(guī)級(jí)AI芯片研發(fā),合資公司落地合肥高新區(qū)。
思必馳目前主要是靠車蘿卜搶占后裝市場(chǎng),在前裝市場(chǎng)則選擇了奇點(diǎn)汽車、小鵬汽車等互聯(lián)網(wǎng)汽車品牌進(jìn)行合作。阿里是思必馳的投資方,這樣的布局也在情理之中。
關(guān)于市場(chǎng)占有率,思必馳和云知聲也都宣稱自己在后裝市場(chǎng)占有70%。由于重點(diǎn)業(yè)務(wù)的高度重疊,雙方多次在朋友圈掐架。
云知聲和思必馳另一個(gè)步伐一致的是AI芯片。這一次云知聲要搶先一步,在2018年5月就發(fā)布了面向物聯(lián)網(wǎng)的AI系列芯片UniOne以及第一代芯片“雨燕”。思必馳則是在2018年6月宣布融資消息時(shí)透露AI語音芯片將在下半年流片。
思必馳在2018年12月13日公布要開芯片發(fā)布會(huì),云知聲在2018年12月21日公布要開芯片發(fā)布會(huì)。2019年1月4號(hào)思必馳開發(fā)布會(huì),而云知聲在1月2日搶先召開了發(fā)布會(huì),這一動(dòng)作挺耐人尋味的,難怪思必馳的市場(chǎng)人員在和左林右貍頻道聊天時(shí)不禁感慨,“挺心疼他們的市場(chǎng)人員的”。
AI芯片被認(rèn)為是搶占市場(chǎng)的關(guān)鍵。除了云知聲和思必馳,出門問問也在2018年5月發(fā)布了已經(jīng)量產(chǎn)的AI語音芯片模組“問芯”,Rokid也有自己的語音芯片。
黃偉&左林大叔
而據(jù)左林右貍頻道獲悉,中科信利也在計(jì)劃與外部企業(yè)合作推出AI芯片。中科信利面臨著科大訊飛同樣的問題,隨著BAT等企業(yè)都組建自己的語音實(shí)驗(yàn)室,漸漸失去了技術(shù)優(yōu)勢(shì),目前業(yè)務(wù)還是以國家信息安全以及客服為主。中科信利早期員工趙慶衛(wèi)向左林右貍頻道表示,目前他們也在計(jì)劃引入外部資本,將企業(yè)資本化從而尋求長期發(fā)展。
科大訊飛倒很決絕的不做AI芯片,這很大原因在于,科大訊飛的ToB服務(wù)更多是高舉高打,而不像思必馳云知聲這樣要能提供幫助客戶能解決問題的從云到端再到芯片模組的一整套解決方案。
在車載市場(chǎng)科大訊飛動(dòng)得也很早,2013年,在奔馳公司組織的全球中文語音識(shí)別系統(tǒng)測(cè)試中科大訊飛榮獲第一的成績,也成為科大訊飛進(jìn)軍車載市場(chǎng)的契機(jī)。
如今,科大訊飛在汽車領(lǐng)域的產(chǎn)品包括三種:車載智能語音助手小飛魚、向車機(jī)供應(yīng)商提供的語音技術(shù)解決方案,直接向車企提供整個(gè)車機(jī)系統(tǒng)。
目前在第二種產(chǎn)品即后裝產(chǎn)品的落地上,科大訊飛的語音技術(shù)在200多款車型累計(jì)1000萬輛車上應(yīng)用。但在第三種的前裝市場(chǎng)上,目前并未看到科大訊飛比較好的成績。不過,科大訊飛也在汽車領(lǐng)域投入了400人,明顯也是相當(dāng)卯足了勁。有意思的是,科大訊飛總裁胡郁在接受左林右貍頻道采訪時(shí)表示稱,科大訊飛在整個(gè)車機(jī)語音市場(chǎng)占80%。
好吧,肯定有人在說謊,只是誰是長鼻子的匹諾曹呢。
語音說到底是一種交互方式,就像Dos時(shí)代的鍵盤、Windows時(shí)代的鼠標(biāo)、iPhone時(shí)代的觸摸屏,語音會(huì)不會(huì)成為下一代人機(jī)交互的方式。誰也不知道答案,但這些人都堅(jiān)信不疑,他們都期待開創(chuàng)一個(gè)新時(shí)代。
-
科大訊飛
+關(guān)注
關(guān)注
19文章
818瀏覽量
61450 -
語音交互
+關(guān)注
關(guān)注
3文章
287瀏覽量
28065
原文標(biāo)題:中國語音產(chǎn)業(yè)江湖和科大訊飛的前半生
文章出處:【微信號(hào):xinpianlaosiji,微信公眾號(hào):芯世相】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論