作為市值超過兩萬億美元、現(xiàn)金流領(lǐng)跑業(yè)界的科技巨頭,蘋果擁有十分雄厚的學(xué)術(shù)研究后盾。不過,在人工智能和機(jī)器學(xué)習(xí)(AI & ML)學(xué)術(shù)領(lǐng)域,我們更多聽到的是來自谷歌、Facebook、微軟、亞馬遜團(tuán)隊(duì)的研究發(fā)布的成果和頻繁在各大頂會(huì)拿獎(jiǎng)的消息,或者在自家的發(fā)布會(huì)上給 AI技術(shù)保絕對(duì)的留C位。而蘋果似乎給人一種掉隊(duì)的感覺。
也正因如此,業(yè)內(nèi)有一種說法認(rèn)為,蘋果在人工智能領(lǐng)域?qū)儆凇昂髞碚摺薄?/p>
蘋果正在修正這種錯(cuò)覺。
蘋果AI觀念的改變
時(shí)至今日,AI 已經(jīng)幾乎成為每家科技公司吸引消費(fèi)者的標(biāo)配說辭,仿佛推出新產(chǎn)品時(shí)如果不提到機(jī)器學(xué)習(xí)或神經(jīng)網(wǎng)絡(luò),就像在兜售手搖計(jì)算器。盡管這種做法可能導(dǎo)致對(duì)消費(fèi)者做出過度承諾。
蘋果在這一點(diǎn)上似乎并無什么事業(yè)心:既然可以用產(chǎn)品本身的便利來吸引用戶,為什么要給他們列數(shù)學(xué)公式和數(shù)據(jù)圖表?
在2017年的一次媒體采訪中,蘋果 CEO 庫(kù)克回應(yīng)了蘋果很少談及AI以及外界不看好蘋果做AI的問題。他表示:“蘋果的 AI 不被看好,是因?yàn)槲覀儾幌矚g談?wù)摬⑽磳?shí)現(xiàn)的功能”。
在那次采訪中,他列出了蘋果公司使用機(jī)器學(xué)習(xí)技術(shù)的一個(gè)清單:對(duì)照片進(jìn)行圖像識(shí)別;Apple Music 能夠從我們的音樂記錄中學(xué)習(xí)我們的音樂偏好,以此向我們推薦相應(yīng)的歌曲;甚至, iPhone 的電源管理系統(tǒng)也使用機(jī)器學(xué)習(xí)來研究我們的使用情況并做出相應(yīng)的優(yōu)化,以延長(zhǎng) iPhone 電池的待機(jī)時(shí)間。
其實(shí),想想蘋果在計(jì)算硬件上下的工夫——比如近期宣布由外部采購(gòu)走向完全自有的A系列芯片,也可推測(cè)它要用多少AI 技術(shù)去“消耗”掉這些算力:蘋果多次公布的 iOS、iPadOS 和 macOS 更新中,有許多以機(jī)器學(xué)習(xí)為核心的功能,例如 iPhone、iPad 和手表的實(shí)時(shí)翻譯、健康數(shù)據(jù)收集、iPad 防誤觸等功能。有些功能甚至沒有標(biāo)識(shí)用了 AI技 術(shù),但我們可以很肯定蘋果用了與之相關(guān)的技術(shù),例如iPad的手寫識(shí)別功能,它在圖像識(shí)別任務(wù)方面非常出色,特別是頗有難度的中英文字符識(shí)別。
AI成果與自家產(chǎn)品深度綁定,但又比較“藏著掖著”,無論是產(chǎn)品發(fā)布會(huì)還是開發(fā)者大會(huì),蘋果都傾向于突出產(chǎn)品的創(chuàng)新,其次才是背后的AI技術(shù)。這是2018年之前的蘋果典型做派。
相比之下,谷歌和 Facebook 等巨頭們則是更為開放和高調(diào)的主流派,因此也吸引了更多的關(guān)注度。用庫(kù)克的話來說,他們喜歡談?wù)撨€處在“未來”當(dāng)中的東西。
比較顯著的改變出現(xiàn)在2018年底前后,這家公司開始更積極介入到學(xué)術(shù)圈,包括參加和贊助各種大會(huì),發(fā)表預(yù)印本論文,公開的研究成果也逐漸不再局限于自家產(chǎn)品。
發(fā)生這樣變化的主要原因之一在于,那個(gè)時(shí)間段,蘋果招募了多名AI大牛人物,例如 John Giannandrea 和 Ian Goodfellow(GANs之父,蘋果的第一篇機(jī)器學(xué)習(xí)論文便是關(guān)于GANs,如下圖)。
蘋果的第一篇機(jī)器學(xué)習(xí)論文 | Apple
兩人均來自谷歌AI 團(tuán)隊(duì),前者是谷歌的人工智能和搜索主管,加入蘋果后負(fù)責(zé)公司的人工智能戰(zhàn)略,后者是谷歌大腦的明星研究科學(xué)家,加入蘋果之后則負(fù)責(zé)機(jī)器學(xué)習(xí)小組。兩人為蘋果帶去了積極建設(shè)AI科研社區(qū)的精神。
“(2018年底)剛加入蘋果時(shí),我去軟件部門尋找做手寫技術(shù)的機(jī)器學(xué)習(xí)團(tuán)隊(duì),竟然沒找到,”Giannandrea在一次采訪中表示。
“我當(dāng)時(shí)就知道,蘋果在機(jī)器學(xué)習(xí)領(lǐng)域有太多應(yīng)該做的事情,但都沒有行動(dòng)。在過去的2-3年里,這個(gè)現(xiàn)象發(fā)生了巨大改變,未來還會(huì)繼續(xù)?!?/p>
目前,蘋果正在人工智能領(lǐng)域發(fā)力,來提升其軟件和硬件能力,應(yīng)用的最主要產(chǎn)品是 FaceID 、 Siri 和自動(dòng)駕駛技術(shù)。
與上述故事線平行進(jìn)行的另一個(gè)線索,是蘋果于2017年年中悄悄上線的官方AI博客——Apple Machine Learning Journal。
這個(gè)開設(shè)時(shí)間晚于業(yè)界大部分巨頭的AI博客,自然不能和 DeepMind AI Blog 這樣的老牌博客相提并論,但也是蘋果為提升自身公眾關(guān)注度做的努力。
真正有趣的事情還是這個(gè)博客的內(nèi)容。我們能看到蘋果正在嘗試用AI解決哪些問題,或許下一個(gè)十年最具顛覆性的應(yīng)用就藏身其中。
Apple Machine Learning Journal
蘋果AI團(tuán)隊(duì)都在做什么研究?
Apple Machine Learning Journal的“開門之作”,是重發(fā)了一遍蘋果2016年12月發(fā)布的一篇論文,內(nèi)容與蘋果AI研究的一個(gè)核心弱點(diǎn)有關(guān):缺少數(shù)據(jù)來源。
蘋果長(zhǎng)期標(biāo)榜的商業(yè)模式是“不窺探用戶”、靠賣硬件盈利(近幾年軟硬兼顧),因而在獲取大量數(shù)據(jù)的渠道上受到了限制。這項(xiàng)名為“Improving the Realism of Synthetic Images”的研究,便描述了一種創(chuàng)建可用于訓(xùn)練面部識(shí)別系統(tǒng)的圖像合成方法。雖不是開創(chuàng)性的研究,但也象征著蘋果AI研究如何響應(yīng)眼前需求。
在那之后,這個(gè)博客的內(nèi)容也越來越多:從圖像到語(yǔ)音到自然語(yǔ)言處理,從深度強(qiáng)化學(xué)習(xí)到隱私計(jì)算到智能代理,Siri團(tuán)隊(duì)、手寫識(shí)別團(tuán)隊(duì)、隱私團(tuán)隊(duì)輪番登場(chǎng),覆蓋的頂會(huì)也已經(jīng)囊括CVPR、ACL、Interspeech、KDD。
博客的論文數(shù)量也由2017年的9篇,發(fā)展至2020年年初至今的32篇。顯然,蘋果的AI研究輸出越來越密集。
那么,蘋果的AI團(tuán)隊(duì)都在關(guān)心哪些AI方向?
以2020年年初至今的32篇文章為樣本,18篇與語(yǔ)音和自然語(yǔ)言處理有關(guān),占比最大。其次是機(jī)器學(xué)習(xí)方法和算法相關(guān)論文,共計(jì)10篇。余下的涉獵領(lǐng)域包括計(jì)算機(jī)視覺、健康、人機(jī)交互、平臺(tái)和框架,以及知識(shí)庫(kù)和搜索,各有1-3篇不等。有的論文還會(huì)同時(shí)涉獵多個(gè)領(lǐng)域。
這些論文都是預(yù)印本,以公布科研成果為主,其中不乏“造輪子”的理論研究和機(jī)器學(xué)習(xí)新框架。另一方面,一些實(shí)用性較強(qiáng)的技術(shù)很可能已經(jīng)應(yīng)用到了蘋果產(chǎn)品中,比如 Siri 和 iOS 中。
最新的一篇是關(guān)于糖尿病的研究,被主打機(jī)器學(xué)習(xí)用于醫(yī)療健康的會(huì)議MLHC(machine learning for health care) 所接收。根據(jù)介紹,團(tuán)隊(duì)開發(fā)了一種預(yù)測(cè)1型糖尿病患者血糖的胰島素動(dòng)力學(xué)模型,通過引入由機(jī)器學(xué)習(xí)序列模型驅(qū)動(dòng)的動(dòng)力學(xué)來擴(kuò)充現(xiàn)有的生物醫(yī)學(xué)模型。
今年的5篇有趣研究
在所有 2020 年蘋果技術(shù)團(tuán)隊(duì)發(fā)表的論文中,我們挑選了 5 篇最具有代表性和實(shí)用性的論文。
1、實(shí)時(shí)識(shí)別手寫漢字
在針對(duì)手寫漢字的研究中,蘋果 AI 團(tuán)隊(duì)利用CNN神經(jīng)網(wǎng)絡(luò)模型,打造了一個(gè)漢字識(shí)別系統(tǒng)。它可以識(shí)別多達(dá) 3 萬個(gè)手寫體漢字,在多個(gè)移動(dòng)設(shè)備上實(shí)時(shí)運(yùn)行。
該任務(wù)的難點(diǎn)在于漢字書寫的獨(dú)特性。每個(gè)人的書寫習(xí)慣不同,導(dǎo)致每個(gè)字都有很多樣式,或許還與標(biāo)準(zhǔn)體存在較大差距。同時(shí),AI 還要面對(duì)龐大的漢字詞庫(kù),甚至還有簡(jiǎn)繁之分。這對(duì)系統(tǒng)的運(yùn)算速度提出了很高的要求。
以書寫風(fēng)格為例。在現(xiàn)實(shí)生活中,人們習(xí)慣用簡(jiǎn)化和連筆來提高書寫速度。但 AI 想要準(zhǔn)確識(shí)別“王和五”,“的和以”之類的十分相似的連筆寫法并不容易。更何況,它還要在不同語(yǔ)種之間切換,分辨用戶寫的是連筆“二”還是“Z”或“2”。
為了兼顧速度和準(zhǔn)確度,研究團(tuán)隊(duì)格外注意了訓(xùn)練數(shù)據(jù)的收集條件,書寫風(fēng)格的代表性和訓(xùn)練技巧。比如他們特意收集了“花”字的多種寫法,以訓(xùn)練模型學(xué)會(huì)區(qū)分不同的風(fēng)格:避免把草字頭錯(cuò)誤地認(rèn)成十十。
圖 | 研究團(tuán)隊(duì)收集的“花”字寫法
這些字出自不同地區(qū),年齡,性別和教育背景的中國(guó)用戶。在碰到生僻字時(shí),有的人還會(huì)寫錯(cuò)筆畫順序,或者是寫出不協(xié)調(diào)的字體結(jié)構(gòu)。這些意外情況無疑增加了模型的學(xué)習(xí)難度,但也更符合實(shí)際應(yīng)用情景。
研究團(tuán)隊(duì)在MobileNetV2 CNN的基礎(chǔ)上進(jìn)行了優(yōu)化和改良。結(jié)果顯示,無論是應(yīng)對(duì)3755個(gè)常用字,還是3萬漢字詞庫(kù),模型的準(zhǔn)確率始終穩(wěn)定在96.6%以上,而體積最大只有19MB,在移動(dòng)端運(yùn)行完全不成問題。
雖然研究人員沒有提到該技術(shù)是否已經(jīng)實(shí)裝,但今年6月的WWDC上,蘋果展示了iPadOS 14的實(shí)時(shí)手寫識(shí)別功能,漢字識(shí)別出現(xiàn)在了現(xiàn)場(chǎng)演示中?;蛟S其背后就用到了這篇論文中的技術(shù)。
2、Hey Siri關(guān)鍵詞觸發(fā)檢測(cè)
如前文所說,語(yǔ)音識(shí)別和自然語(yǔ)言處理是蘋果發(fā)表論文最多的領(lǐng)域,而Siri 必然是從中受益的產(chǎn)品之一。僅今年一年,就有至少3篇論文討論的技術(shù)和模型可以應(yīng)用于Siri上。
最典型的應(yīng)用場(chǎng)景是降低喚醒詞 Hey Siri(你好,Siri)的誤識(shí)別率。
在一篇論文中,研究團(tuán)隊(duì)為服務(wù)器端的大詞匯量連續(xù)語(yǔ)音識(shí)別(LVCSR)構(gòu)建了一個(gè) RNN 神經(jīng)網(wǎng)絡(luò),用于后處理設(shè)備端發(fā)回的語(yǔ)音數(shù)據(jù)。目的是對(duì)其進(jìn)行二次分析,確認(rèn)用戶是否真的說出了激活詞。
理論上,我們可以直接改進(jìn) LVCSR,讓它識(shí)別語(yǔ)音數(shù)據(jù)的開頭是否存在激活詞。但在實(shí)際操作中,LVCSR 傾向于判定開頭存在激活詞,效果不佳。
為此,研究團(tuán)隊(duì)創(chuàng)造了一個(gè) 1500 個(gè)參數(shù)的雙向 LatticeRNN 神經(jīng)網(wǎng)絡(luò)模型,用于從統(tǒng)計(jì)角度推理關(guān)鍵詞觸發(fā)的概率,還要保證不能增加太多延遲。
該模型可以很好地補(bǔ)強(qiáng) LVCSR 不足的地方。由于信息的傳輸有特定的方向,因此在明確給出激活詞的時(shí)候,Hey 和 Siri 與執(zhí)行任務(wù)的關(guān)系更加緊密(需要用到后驗(yàn)概率),而在誤判的情況下,語(yǔ)音數(shù)據(jù)中各個(gè)詞匯的關(guān)系很松散。
舉個(gè)例子,當(dāng)你讓Siri查詢天氣時(shí),Hey Siri 和后面的查詢天氣存在清晰的聯(lián)系。但如果是一段電視廣告,或者是發(fā)音相似的詞匯激活了 Siri,那么詞匯的關(guān)系大概率是隨機(jī)的,找不到太大的關(guān)聯(lián)。訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)就可以利用這點(diǎn)來判斷。
結(jié)果顯示,引入雙向LatticeRNN之后,誤觸發(fā)幾率比只用LVCSR大幅下降60%。
類似的技術(shù)也可以應(yīng)用在智能音箱上。在另一篇論文中,另一隊(duì)研究人員就采用多任務(wù)學(xué)習(xí)策略,改進(jìn)了現(xiàn)有的 biLSTM 模型,以提升智能音箱在不同環(huán)境下捕捉激活關(guān)鍵詞的準(zhǔn)確率。也許日后會(huì)在蘋果升級(jí)版HomePod 上見到。
3、預(yù)測(cè)糖尿病患者血糖變化
今年8月6日,蘋果AI發(fā)表了第一篇健康領(lǐng)域的論文,討論如何利用機(jī)器學(xué)習(xí)模型預(yù)測(cè)1型糖尿病患者的血糖水平。這有助于制定更有效的血糖控制策略和閉環(huán)治療方案。
由于身體無法產(chǎn)生足夠的胰島素,糖尿病患者必須終身依賴胰島素治療。但研究表明,胰島素的注射量最好與血糖變化水平吻合,才能最大程度上發(fā)揮作用,并且避免胰島素過多導(dǎo)致的低血糖等問題。
為了找到“恰到好處”的劑量,研究人員在現(xiàn)有的生物醫(yī)學(xué)模型基礎(chǔ)上,引入了機(jī)器學(xué)習(xí)技術(shù),構(gòu)建了一套血糖-胰島素動(dòng)態(tài)模型,可以預(yù)測(cè)1型糖尿病患者的血糖變化水平,時(shí)長(zhǎng)最多可以達(dá)到6個(gè)小時(shí)。
他們采用的深度狀態(tài)空間模型(Deep State-Space Model)可以在胰島素敏感性,時(shí)間和血糖數(shù)據(jù)等參數(shù)之間建立動(dòng)態(tài)聯(lián)系。這既保證了算法的靈活性,也保證了臨床上的可解釋性。
在與 LSTM 和 ARMA 等基準(zhǔn)模型對(duì)比時(shí),該模型的預(yù)測(cè)表現(xiàn)超出它們30%以上,而且與胰島素和碳水化合物形成的生理效應(yīng)一致。
論文中用到的血糖變化數(shù)據(jù)收集自蘋果健康套件 HealthKit ,但不清楚是不是由蘋果手表完成的。最近已有多家媒體報(bào)道,蘋果正在研發(fā)非侵入式血糖測(cè)量技術(shù),還有消息人士披露,CEO 庫(kù)克還親自佩戴了原型產(chǎn)品。
HealthKit是蘋果進(jìn)軍健康產(chǎn)業(yè)的重要基石,拓展它的能力范圍,就相當(dāng)于拓展未來的業(yè)務(wù)范疇。如果未來手表可以預(yù)測(cè)血糖水平,一定會(huì)成為很多糖尿病患者的福音。
4、利用GAN改進(jìn)虛擬鍵盤滑行輸入
虛擬鍵盤滑行輸入,是蘋果在 iOS13 新加入的功能,但其實(shí)很多第三方輸入法早就開發(fā)了相同的功能。熟練掌握后,它可以顯著提高輸入速度。不過預(yù)測(cè)滑行輸入的詞匯更為復(fù)雜,因?yàn)榛袔в懈嗟牟淮_定性。
蘋果 AI 團(tuán)隊(duì)今年4月發(fā)表了一篇論文,討論了使用基于 Bi-LSTM 的對(duì)抗生成網(wǎng)絡(luò) GAN 改進(jìn)滑行輸入預(yù)測(cè)。
這是一種十分新穎的解決思路。傳統(tǒng)方法需要大量訓(xùn)練數(shù)據(jù),而真實(shí)的滑行輸入軌跡很難收集和注釋。利用 GAN,可以模擬出更加真實(shí)的軌跡,幫助改進(jìn)滑行輸入法的預(yù)測(cè)模型。
研究團(tuán)隊(duì)首先收集了 665 名用戶的真實(shí)滑動(dòng)輸入軌跡。他們的年齡在18-70歲之間,大約20%是左撇子。每人都被要求在6個(gè)不同布局和尺寸的屏幕上輸入,最終共收集5.5萬個(gè)英文單詞,平均每人畫出了3300條軌跡。
這些數(shù)據(jù)被用來訓(xùn)練GAN,同時(shí)還涉及到風(fēng)格轉(zhuǎn)移技術(shù)。結(jié)果顯示,GAN生成的滑動(dòng)軌跡的確更像真實(shí)用戶的操作。
單詞“Anybody”的滑行軌跡:真實(shí)用戶軌跡(上),普通合成軌跡(左下),GAN生成軌跡(右下)
例如,在連接兩個(gè)距離較遠(yuǎn)的字母時(shí),人類的軌跡會(huì)出現(xiàn)自然的弧度,而不是一條直線。原因可能是屏幕尺寸較小,人們有時(shí)會(huì)轉(zhuǎn)動(dòng)手腕帶動(dòng)手指移動(dòng)。此外,在單詞結(jié)尾處,人類偶爾受慣性影響會(huì)稍微滑過一些,不會(huì)100%停留在正確的字母上。
這些小細(xì)節(jié)都被GAN捕捉到了。最終測(cè)試顯示,將GAN生成的軌跡用于訓(xùn)練預(yù)測(cè)模型后,該模型的準(zhǔn)確率最高提升了4.6%。
5、預(yù)測(cè)詞語(yǔ)流行度,提高語(yǔ)音助手準(zhǔn)確率
對(duì)于Siri之類的虛擬語(yǔ)音助手來說,當(dāng)用戶只給出一個(gè)名詞時(shí),往往是最困難的時(shí)刻。缺少背景資料和動(dòng)詞,不僅會(huì)讓它不知所措,還會(huì)降低識(shí)別準(zhǔn)確率,混淆發(fā)音相似的詞。
可是在日常生活中,很多人偏偏喜歡只說一個(gè)詞或者人名。通常是想查詢有關(guān)該實(shí)體的基本信息,但也帶著一絲考驗(yàn)。
蘋果AI團(tuán)隊(duì)專門研究了這種情況。在今年5月發(fā)表的論文中,他們探索了如何提升虛擬語(yǔ)音助手對(duì)此類問題的應(yīng)對(duì)能力。
具體來說,論文討論了三大課題:
1.能否從虛擬助手的查詢記錄中預(yù)測(cè)某個(gè)詞語(yǔ)或?qū)嶓w的流行度,并用預(yù)測(cè)結(jié)果改善語(yǔ)音識(shí)別準(zhǔn)確率?
2.添加更多的歷史數(shù)據(jù)能否改善實(shí)體流行度的預(yù)測(cè)準(zhǔn)確度?
3.不同信號(hào)(模型特征)在相互獨(dú)立的狀態(tài)下能否有好的表現(xiàn)?
針對(duì)上述課題,研究團(tuán)隊(duì)首先開發(fā)了一套框架,用于在自動(dòng)語(yǔ)音識(shí)別系統(tǒng)(ASR)中找出經(jīng)常出現(xiàn)的詞語(yǔ)主體。這實(shí)際上是對(duì)歷史語(yǔ)音數(shù)據(jù)的的檢索,因此用到了機(jī)器學(xué)習(xí)和信息檢索技術(shù)。
他們使用了兩套機(jī)器學(xué)習(xí)模型:AdaBoost和前饋神經(jīng)網(wǎng)絡(luò)。模型本身并不復(fù)雜,但足以勝任該任務(wù)的分類器。
至于訓(xùn)練數(shù)據(jù),他們收集了超過30萬個(gè)不同實(shí)體名詞的語(yǔ)音數(shù)據(jù)。論文提到它們來自“某款美國(guó)流行的語(yǔ)音助手”,鑒于這是蘋果自家的研究團(tuán)隊(duì),十有八九是來自Siri的數(shù)據(jù)。
結(jié)果顯示,無論是AdaBoost和前饋神經(jīng)網(wǎng)絡(luò),都能有效降低單詞識(shí)別錯(cuò)誤率。
歷史數(shù)據(jù)越多,準(zhǔn)確率越高,但最明顯的是歷史數(shù)據(jù)時(shí)長(zhǎng)從1周增加到2周,準(zhǔn)確率提升了20%,隨后每增加1周數(shù)據(jù),帶來的提升只有1%左右。此外,表現(xiàn)最好的模型是將所有特征集合起來,而非獨(dú)立狀態(tài)。
當(dāng)然,除了5篇論文,蘋果還有很多論文值得一讀,例如用語(yǔ)音數(shù)據(jù)檢測(cè)用戶情緒元素,創(chuàng)造新的問題查詢分析框架Tempura,提升智能音箱的多語(yǔ)種處理能力等等。
責(zé)編AJX
-
蘋果
+關(guān)注
關(guān)注
61文章
24429瀏覽量
199165 -
人工智能
+關(guān)注
關(guān)注
1792文章
47425瀏覽量
238964 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8425瀏覽量
132771
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論