“我現(xiàn)在就在做一線的事情,防止(人工智能)冷下去?!碑?dāng)被問及眼下這一波人工智能熱潮是否會(huì)像歷史上的幾波一樣曇花一現(xiàn),國(guó)際人工智能理事會(huì)(IJCAI)主席、香港科技大學(xué)計(jì)算機(jī)科學(xué)與工程系主任楊強(qiáng)這樣告訴澎湃新聞?dòng)浾摺?/p>
在他看來(lái),如今的人工智能雖已突破了計(jì)算能力和數(shù)據(jù)資源的瓶頸,但隱患埋伏在一個(gè)“偏”字上。例如學(xué)術(shù)研究方面,國(guó)內(nèi)高校雖然開始設(shè)立人工智能學(xué)院和專業(yè),五年內(nèi)有望培育出一批AI人才,但不少大學(xué)直接將機(jī)器學(xué)習(xí)等同于人工智能,邏輯學(xué)、神經(jīng)學(xué)等冷門領(lǐng)域研究和國(guó)外的差距很大。
類似地,人工智能產(chǎn)業(yè)發(fā)展迅速,卻過多地偏重計(jì)算機(jī)視覺在安防領(lǐng)域的布局,許多需求未得到充分挖掘。
近年來(lái),楊強(qiáng)所做的就是超越深度學(xué)習(xí)專用于一個(gè)領(lǐng)域的框架,開拓出遷移學(xué)習(xí)、聯(lián)邦學(xué)習(xí)等在兩個(gè)或兩個(gè)以上的領(lǐng)域之間進(jìn)行的機(jī)器學(xué)習(xí)方法。
他希望能讓多方在不泄露各自數(shù)據(jù)隱私的情況下實(shí)現(xiàn)數(shù)據(jù)的共享和模型的共建,打破數(shù)據(jù)割裂的孤島。在這樣的合作框架下,各方享有平等的地位和一定的“主權(quán)”,但走向“共同富?!保拖褚粋€(gè)聯(lián)邦國(guó)家。
楊強(qiáng)正與微眾銀行等機(jī)構(gòu)合作,試圖用聯(lián)邦學(xué)習(xí)打通人工智能應(yīng)用的最后一公里,促進(jìn)人工智能在金融、城市管理等領(lǐng)域的落地。“人工智能算法的數(shù)據(jù)得不到更新,就像一臺(tái)好車沒有汽油?!?/p>
這位1961年出生的計(jì)算機(jī)科學(xué)家是首位當(dāng)選國(guó)際人工智能協(xié)會(huì)(AAAI)院士的華人。他似乎很擅長(zhǎng)跳出主流偏重的視角來(lái)看問題。例如,當(dāng)許多人在討論機(jī)器能否像人一樣實(shí)現(xiàn)無(wú)監(jiān)督的學(xué)習(xí),楊強(qiáng)卻認(rèn)為無(wú)監(jiān)督學(xué)習(xí)是一種假象,人類的監(jiān)督學(xué)習(xí)隱藏得很深。如果算法做得足夠好,就能像人類一樣從簡(jiǎn)單的一張照片上提取到無(wú)數(shù)個(gè)標(biāo)簽。
此外,人類的大腦“軟件”得到無(wú)數(shù)稱頌,但“硬件”優(yōu)勢(shì)卻往往被忽略。楊強(qiáng)注意到,人渾身上下都是精妙的傳感器,幫助人腦獲取信息。在硬件發(fā)展沒有跟上的情況下,光用算法實(shí)現(xiàn)通用的強(qiáng)人工智能只能是奢望。
“只不過大家現(xiàn)在都在摘比較低垂的果子,還沒有深入去想。”楊強(qiáng)說道。
以下為澎湃新聞?dòng)浾吲c楊強(qiáng)的對(duì)話實(shí)錄。
聯(lián)邦學(xué)習(xí):人工智能應(yīng)用的最后一公里
澎湃新聞:可以說從深度學(xué)習(xí)到遷徙學(xué)習(xí)、聯(lián)邦學(xué)習(xí),存在一種遞進(jìn)的關(guān)系?
楊強(qiáng):遷移學(xué)習(xí)和聯(lián)邦學(xué)習(xí)之間的共性都是在兩個(gè)或兩個(gè)以上的領(lǐng)域之間進(jìn)行,這和深度學(xué)習(xí)是截然不同的。深度學(xué)習(xí)和以前的各種學(xué)習(xí)都是在一個(gè)領(lǐng)域進(jìn)行。
在兩個(gè)領(lǐng)域進(jìn)行,第一層的考慮是知識(shí)的遷移共享,第二層考慮就是加密和安全。
比如說原來(lái)有一個(gè)保險(xiǎn)公司,它對(duì)車險(xiǎn)的定價(jià)基于一些很粗的維度,像駕駛員的年齡和車齡。為什么只能做這么粗的定價(jià)?因?yàn)樗鼘?duì)用戶的了解非常少。如果有一個(gè)碼農(nóng)張三年紀(jì)很輕,但開車卻很小心,這一點(diǎn)它就無(wú)法了解,也無(wú)法進(jìn)行個(gè)性化。
現(xiàn)在它可以和一個(gè)移動(dòng)互聯(lián)網(wǎng)公司合作。運(yùn)營(yíng)商那邊有張三的行為數(shù)據(jù),但對(duì)保險(xiǎn)領(lǐng)域并不了解。它們兩邊需要合作,但又不愿意把數(shù)據(jù)暴露給對(duì)方,以防失控和監(jiān)管不嚴(yán)的問題。
聯(lián)邦學(xué)習(xí)恰恰就是在這可以幫忙,不交換數(shù)據(jù),但可以在重疊的數(shù)據(jù)上建立一個(gè)更好的模型。
澎湃新聞:目前聯(lián)邦學(xué)習(xí)有哪些落地場(chǎng)景?
楊強(qiáng):橫向聯(lián)邦學(xué)習(xí)的場(chǎng)景是各方都有一部分用戶數(shù)據(jù),這些用戶都不一樣,他們可以利用加密的共享共建模型來(lái)得到一個(gè)更好的模型。但是這個(gè)模型不必用到所有用戶的數(shù)據(jù),我們假設(shè)有1000萬(wàn)的手機(jī)用戶,你可以在里面選比較有用的300萬(wàn),建立起橫向的模型,分散到上千萬(wàn)的用戶。
還有一個(gè)是縱向聯(lián)邦學(xué)習(xí),意思是兩個(gè)機(jī)構(gòu)同樣進(jìn)入這個(gè)數(shù)據(jù),但是維護(hù)不一樣。比如一個(gè)收集用戶的年齡性別,另一方收集用戶的學(xué)習(xí)成績(jī)和平時(shí)的衣食住行。
具體到金融領(lǐng)域的案例,橫向聯(lián)邦學(xué)習(xí)的場(chǎng)景是很多家不同銀行的維度是一樣的,都了解信用、還款情況等信息,但用戶是不一樣的,因?yàn)樗鼈兾挥诓煌某鞘小?/p>
而縱向聯(lián)邦學(xué)習(xí)是同一個(gè)城市,同樣一個(gè)用戶,但是他在接受不同的金融服務(wù)。比如面對(duì)小微企業(yè)的貸款,我們需要了解這些企業(yè)的稅收情況和經(jīng)營(yíng)情況,但銀行沒有這部分?jǐn)?shù)據(jù)。我們就可以找一些專門處理發(fā)票的機(jī)構(gòu)來(lái)合作。
除此之外,我們也在探索一些非常不一樣的業(yè)務(wù)。舉個(gè)例子,我們跟一個(gè)深圳的公司合作,他們是做工地安全的視頻檢測(cè),有沒有著火、工人有沒有戴帽子等等。但不同的工地、不同的公司不愿意交換這種數(shù)據(jù),就可以用聯(lián)邦學(xué)習(xí)來(lái)建立一個(gè)聯(lián)邦模型,這樣一個(gè)工具要比單獨(dú)的數(shù)據(jù)更靠譜。
澎湃新聞:從實(shí)驗(yàn)室走向產(chǎn)業(yè)落地的困難主要有哪些?
楊強(qiáng):聯(lián)邦學(xué)習(xí)是一個(gè)多方參與,所以首先要在機(jī)制設(shè)計(jì)上保證每個(gè)聯(lián)盟都覺得受益,才有參與的興趣。其次是大家各自數(shù)據(jù)的維度不同,大小不同,質(zhì)量也不一樣,做算法設(shè)計(jì)的時(shí)候就要考慮到異構(gòu)框架,比同構(gòu)框架更難。最后是要達(dá)成一個(gè)共識(shí),就是什么才算成功?
這就像是從一個(gè)人打乒乓到五人團(tuán)隊(duì)打籃球,我們希望能形成一個(gè)滾雪球的效果,可以說聯(lián)邦學(xué)習(xí)在算法上已經(jīng)鋪墊好了,關(guān)鍵要看多方的投入。
澎湃新聞:在AI賦能產(chǎn)業(yè)的過程中,聯(lián)邦學(xué)習(xí)會(huì)扮演一個(gè)怎樣的角色?
楊強(qiáng):我管這個(gè)叫人工智能應(yīng)用的最后一公里。最后一公里的意思是說,除非你能到用戶的那一段,不然你搭得再好最后還是沒有銜接上。那么什么東西沒有銜接上?就是數(shù)據(jù)。
人工智能算法都需要很多數(shù)據(jù),數(shù)據(jù)得不到更新,最后就像一臺(tái)好車沒有汽油。
所以在我看來(lái),這最后一公里確實(shí)特別關(guān)鍵。只有通過這種合作的方式,才能把大數(shù)據(jù)真正建立起來(lái)。
無(wú)監(jiān)督學(xué)習(xí)是“假象”
澎湃新聞:人工智能是否有一天能做到舉一反三、融會(huì)貫通?
楊強(qiáng):路還很長(zhǎng),但我們現(xiàn)在做的一些實(shí)驗(yàn)證明是可以的。像遷移學(xué)習(xí)之前都是一些博士生、研究人員來(lái)設(shè)計(jì),現(xiàn)在有個(gè)算法叫自動(dòng)機(jī)器學(xué)習(xí),和遷移學(xué)習(xí)結(jié)合就變成自動(dòng)遷移學(xué)習(xí)。
自動(dòng)遷移學(xué)習(xí)是怎樣的?比如在自然語(yǔ)言領(lǐng)域看到一個(gè)新的需求,它會(huì)把自己建好的模型和新的應(yīng)用之間的差別變成一個(gè)目標(biāo)函數(shù),從而設(shè)計(jì)算法。整個(gè)過程是可以自動(dòng)化的。如果這個(gè)可以做,讓機(jī)器最終學(xué)會(huì)舉一反三是可能的,但路還很長(zhǎng)。
澎湃新聞:針對(duì)現(xiàn)在大家比較關(guān)注的一些深度學(xué)習(xí)的瓶頸,你有什么看法?
楊強(qiáng):其實(shí)現(xiàn)在大家比較關(guān)注的一個(gè)問題是可解釋性,因?yàn)樯疃葘W(xué)習(xí)是個(gè)黑箱。我覺得這個(gè)問題遲早會(huì)解決。為什么呢?你看人腦其實(shí)在某種程度上也在做深度學(xué)習(xí),每個(gè)人的大腦都有好多神經(jīng)元在做肉體的深度學(xué)習(xí),同時(shí)我們可以對(duì)自己的某些決策作解釋。醫(yī)生可以給病人解釋為什么開這個(gè)藥,老師也可以給學(xué)生解釋說錯(cuò)在哪里。人有這個(gè)功能,我相信機(jī)器一定可以發(fā)展出類似的功能,只不過我們現(xiàn)在沒有找到路子。
除此之外,深度學(xué)習(xí)的穩(wěn)定性問題也是國(guó)際上的研究熱點(diǎn),現(xiàn)在有很多人工智能可以通過假數(shù)據(jù)來(lái)欺騙,這說明現(xiàn)在人工智能的魯棒性還不是很好。
這是很自然的,一個(gè)技術(shù)出現(xiàn)后,大家就會(huì)開始關(guān)注魯棒性、可擴(kuò)展性、透明性等非功能性性質(zhì),引起第二波研究。以前的數(shù)據(jù)庫(kù)和互聯(lián)網(wǎng)技術(shù)也是這樣。
澎湃新聞:有沒有可能實(shí)現(xiàn)無(wú)監(jiān)督的深度學(xué)習(xí)?
楊強(qiáng):我覺得無(wú)監(jiān)督是一個(gè)假象。大家都在類比人會(huì)做無(wú)監(jiān)督學(xué)習(xí),但我的觀點(diǎn)是人做的是有監(jiān)督學(xué)習(xí),只不過監(jiān)督藏得很深。
比方說給人看一朵花,以后看到花都能認(rèn)出來(lái)。這是因?yàn)檫@個(gè)例子里面其實(shí)包含了很多的信息,現(xiàn)在的算法只能從上面得到一個(gè)表面信息,但是還有一些深層的信息。
所以這是算法的不足。算法做好了以后,會(huì)看到所有的無(wú)監(jiān)督數(shù)據(jù)其實(shí)是有標(biāo)簽的。包括小孩為什么學(xué)得很快?這是因?yàn)樗改钢白隽祟A(yù)訓(xùn)練,這和遷移學(xué)習(xí)的方式非常像。
我覺得以后一定可以從一幅圖像中找到很多深層信息,然后也能訓(xùn)練個(gè)八九不離十。只不過大家現(xiàn)在都在摘比較低垂的果子,還沒有深入去想。
澎湃新聞:你對(duì)強(qiáng)人工智能有怎樣的展望?
楊強(qiáng):強(qiáng)人工智能就是通用的,一個(gè)模型可以做N件事。人肯定是一個(gè)模型做N件事,但機(jī)器現(xiàn)在是一個(gè)模型只做一件事。我覺得強(qiáng)人工智能未來(lái)是可以實(shí)現(xiàn),但可能不是用我們現(xiàn)在這種方式。
為什么呢?現(xiàn)在的方式是我們準(zhǔn)備很多數(shù)據(jù),然后去訓(xùn)練出一個(gè)模型,這是人的運(yùn)作方法。人渾身上下都是傳感器,這些傳感器比現(xiàn)在的物聯(lián)網(wǎng)要強(qiáng)很多。所以除非硬件到了這個(gè)程度,否則只談人工智能算法就是奢望?,F(xiàn)在的情況是硬件遠(yuǎn)遠(yuǎn)落后,要等那邊跟上來(lái)。
要去研究一些冷門領(lǐng)域
澎湃新聞:從學(xué)術(shù)到產(chǎn)業(yè),你對(duì)現(xiàn)在國(guó)內(nèi)的人工智能生態(tài)有哪些宏觀的觀察?
楊強(qiáng):首先,我覺得國(guó)內(nèi)在人才培養(yǎng)上出現(xiàn)了非??上驳木置?,好多大學(xué)在建人工智能學(xué)院、人工智能專業(yè)。五年之后會(huì)涌現(xiàn)一大批人工智能從業(yè)者,可能會(huì)出現(xiàn)良莠不齊的情況,但沒關(guān)系,里面肯定會(huì)出現(xiàn)一些精英。其次,國(guó)內(nèi)人工智能產(chǎn)業(yè)發(fā)展也比較興旺,許多公司設(shè)立了人工智能部門,這些都是特別好的事。
但在比較冷門的研究領(lǐng)域,國(guó)內(nèi)和國(guó)外還有很大的差距。比如果很多國(guó)外的大學(xué)都有邏輯推理這方面的教授,但國(guó)內(nèi)一般就把機(jī)器學(xué)習(xí)等同于人工智能。另外,國(guó)內(nèi)研究神經(jīng)學(xué)和人工智能結(jié)合的也比國(guó)外少。在這些方面,我希望還是不要那么功利,要去研究一些眼下沒有大的進(jìn)展、比較冷門、好奇心驅(qū)使的方向。
澎湃新聞:總體來(lái)說,眼下這一波人工智能熱潮會(huì)冷下去嗎?如果冷下去可能是因?yàn)槟男┰颍?/p>
楊強(qiáng):我現(xiàn)在就在做一線的事情,防止它們冷下去。過去冷下去有好幾個(gè)主要原因,一個(gè)是計(jì)算能力跟不上,一個(gè)是數(shù)據(jù)資源不夠?,F(xiàn)在計(jì)算資源和數(shù)據(jù)資源都有了,但案例制造還不夠。
比如說,現(xiàn)在計(jì)算機(jī)視覺主要還是用在政府安防等領(lǐng)域。其實(shí)產(chǎn)業(yè)里有大量的需求,但大家做得太偏了,沒有充分地挖掘。一個(gè)產(chǎn)業(yè)如果只有一個(gè)支柱,那么它是很危險(xiǎn)的。人工智能如果只有視覺、或者政府安防這個(gè)支柱也很危險(xiǎn)。
所以你說有沒有危險(xiǎn)進(jìn)入到另一個(gè)寒冬?是有的。下一個(gè)寒冬可能是大家一蜂窩做的那件事沒有真的做出來(lái),這一批人可能就會(huì)很失望。但現(xiàn)在努力做不同的事情的,也許會(huì)有新的驚喜。
來(lái)源:澎湃新聞
評(píng)論
查看更多