斯坦福大學(xué)AI實(shí)驗(yàn)室主任、人工智能和計(jì)算語言學(xué)領(lǐng)域的權(quán)威專家Christopher Manning教授,在美國長(zhǎng)灘CVPR大會(huì)現(xiàn)場(chǎng)分享了人工智能研究的最新趨勢(shì)和挑戰(zhàn),以及他參加本次大會(huì)的思考。
Christopher Manning是斯坦福大學(xué)計(jì)算機(jī)與語言學(xué)教授,也是將深度學(xué)習(xí)應(yīng)用于自然語言處理領(lǐng)域的領(lǐng)軍者。
他在斯坦福大學(xué)獲得博士學(xué)位之后,曾先后執(zhí)教于卡耐基梅隆大學(xué)和悉尼大學(xué)。Manning教授的研究專注于利用機(jī)器學(xué)習(xí)方法處理計(jì)算語言學(xué)問題,以使計(jì)算機(jī)能夠智能處理、理解并生成人類語言。Manning教授是ACM Fellow,AAAI Fellow 和ACL Fellow,他的多部著作,如《統(tǒng)計(jì)自然語言處理基礎(chǔ)》、《信息檢索導(dǎo)論》等成為經(jīng)典教材。
今年是Manning教授第一次參加CVPR大會(huì)。他受邀作為主講嘉賓參加了“視覺問題問答”研討會(huì)。他指導(dǎo)的論文“GQA, a new dataset for compositional question answering over real-world images”也在大會(huì)發(fā)表。
Chris Manning:受隔壁吳恩達(dá)影響,開始關(guān)注深度學(xué)習(xí)
Robin.ly主持人Margaret Laffan:Chris,很高興能在CVPR邀請(qǐng)到你參加我們的訪談!今天你參加了哪些討論?
Chris Manning:
謝謝!我今天參加了視覺問答研討會(huì),聽到了一些非常有意思的報(bào)告,還參與了很多互動(dòng)環(huán)節(jié)。參加問答研討會(huì)的都是這個(gè)領(lǐng)域中非常優(yōu)秀研究人員,我很高興成為這個(gè)群體中的一員,也讓我受益匪淺。
主持人:你最開始是一名計(jì)算語言學(xué)研究員,后來在自然語言處理和機(jī)器學(xué)習(xí)方面獲得了非常多的成就。能簡(jiǎn)要介紹一下您在深度學(xué)習(xí)領(lǐng)域的一些經(jīng)歷嗎?
Chris Manning:
好的。我的年紀(jì)比較大了,見證了神經(jīng)網(wǎng)絡(luò)的第二次浪潮,即80年代末到90年代初的并行分布式處理或連接主義時(shí)代。那個(gè)時(shí)候我還是斯坦福大學(xué)的研究生,大衛(wèi)·魯姆哈特(David Rumelhart)還在斯坦福大學(xué)任教,我參加了他的神經(jīng)網(wǎng)絡(luò)課程,對(duì)這個(gè)領(lǐng)域有了一點(diǎn)了解,但并沒有把它作為我的研究領(lǐng)域。在過去的十幾年,我漸漸對(duì)深度學(xué)習(xí)產(chǎn)生了興趣。當(dāng)時(shí)我的辦公室就在吳恩達(dá)(Andrew Ng)的隔壁,而Andrew非常熱衷于利用這方面的技術(shù)來促進(jìn)通用認(rèn)知的發(fā)展。我受到了他的影響,開始關(guān)注深度學(xué)習(xí)領(lǐng)域的研究。
Manning教授(圖片來源:Stanford University School of Engineering)
主持人:從學(xué)術(shù)界的角度來看,你覺得當(dāng)時(shí)面臨的最大的挑戰(zhàn)是什么?
Chris Manning:
我不確定我跟學(xué)術(shù)界的想法是否一致。但對(duì)我來說,這個(gè)問題可以追溯到上世紀(jì)80年代,關(guān)于將神經(jīng)網(wǎng)絡(luò)作為人類語言模型的是否有效存在很多爭(zhēng)議。我們一直沒有搞清楚人類語言的成分結(jié)構(gòu),單詞如何組成短語,短語如何組成從句,從句又如何組成完整的句子。因?yàn)槿藗兯坪鯖]有任何方法可以很好地模擬這種人類語言的層次遞歸結(jié)構(gòu),80年代包含全連接層的扁平神經(jīng)網(wǎng)絡(luò)架構(gòu)在本世紀(jì)頭十年再次引起了人們的關(guān)注,所以我最初非常熱衷于這方面的研究。我于2009年至2013年間在斯坦福大學(xué)所完成的工作,很多都是跟Richard Socher合作的,主要目的就是了解如何構(gòu)建樹形結(jié)構(gòu)和遞歸神經(jīng)網(wǎng)絡(luò),并深入探索這些概念。
從研究到產(chǎn)品
主持人:與此同時(shí),我們也看到了行業(yè)技術(shù)的發(fā)展,誕生了Alexa之類的語音助手產(chǎn)品。你如何看待從學(xué)術(shù)研究到產(chǎn)品開發(fā)的轉(zhuǎn)化趨勢(shì)?
Chris Manning:
像Alexa和Siri那樣的對(duì)話助手對(duì)自然語言處理產(chǎn)生了巨大的影響。最開始這些變化跟深度學(xué)習(xí)和自然語言處理關(guān)系不大,因?yàn)榛旧嫌玫亩际侨斯ぞ庉嫷哪_本。所以這些積極的影響是得益于基于規(guī)則的自然語言處理的再度出現(xiàn),跟機(jī)器學(xué)習(xí)和我從1995年到2010年主要研究的那種概率自然語言處理關(guān)系都不是很大。隨著時(shí)間推移,人們對(duì)這個(gè)領(lǐng)域的興趣日漸濃厚,我自己也開始研究如何構(gòu)建基于神經(jīng)網(wǎng)絡(luò)的對(duì)話助手。我認(rèn)為這是一個(gè)值得進(jìn)一步推進(jìn)的領(lǐng)域,不過難度很高。
上周末,在長(zhǎng)灘舉行了ICML機(jī)器學(xué)習(xí)會(huì)議,來自微軟的幾位研究人員演示了如何打造對(duì)話助手。他們的觀點(diǎn)是,人們?nèi)匀粺o法訓(xùn)練端到端的完善的神經(jīng)網(wǎng)絡(luò)對(duì)話助手,也不應(yīng)該指望它們能夠正常工作。事實(shí)上,所有已經(jīng)部署在商業(yè)領(lǐng)域的系統(tǒng)都是機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)部件相結(jié)合的產(chǎn)物,許多功能仍然需要手工編碼。
斯坦福AI實(shí)驗(yàn)室:研究方向五花八門
主持人:你現(xiàn)在負(fù)責(zé)管理斯坦福大學(xué)人工智能實(shí)驗(yàn)室??紤]到人工智能的廣度和深度,能否介紹一下該實(shí)驗(yàn)室當(dāng)前的研究重點(diǎn)?
Chris Manning:
斯坦福AI實(shí)驗(yàn)室實(shí)際上是一個(gè)結(jié)構(gòu)相當(dāng)松散的部門,并不需要一個(gè)負(fù)責(zé)人來告訴各個(gè)實(shí)驗(yàn)室要做什么樣的研究。各個(gè)下屬實(shí)驗(yàn)室的負(fù)責(zé)人可以自行決定研究課題。
但是你仍然可以看到明顯的趨勢(shì)。雖然有少數(shù)幾個(gè)方向仍然在使用手動(dòng)搭建的控制系統(tǒng)進(jìn)行機(jī)器人操作,但是深度學(xué)習(xí)的影響,甚至整個(gè)機(jī)器學(xué)習(xí)領(lǐng)域的影響是普遍存在的,幾乎覆蓋了所有領(lǐng)域。自然語言處理和視覺領(lǐng)域更是備受關(guān)注,幾乎成為了斯坦福人工智能實(shí)驗(yàn)室的主要研究領(lǐng)域,這種情況跟十年前相比已經(jīng)大不相同。
在過去幾年中發(fā)生的另一個(gè)積極的變化是,我們聘請(qǐng)了幾位頂尖的機(jī)器人專家,開展了一些機(jī)器人相關(guān)的研究項(xiàng)目。機(jī)器學(xué)習(xí)依然是實(shí)驗(yàn)室的重中之重,其中一些應(yīng)用包括可持續(xù)計(jì)算之類特定的問題,以及強(qiáng)化學(xué)習(xí)在教育領(lǐng)域的應(yīng)用等等。總的來說研究方向涉獵很廣,五花八門。
斯坦福大學(xué)計(jì)算機(jī)系
計(jì)算機(jī)視覺的趨勢(shì)和挑戰(zhàn)
主持人:我們來聊一聊計(jì)算機(jī)視覺。這個(gè)領(lǐng)域一直在不斷發(fā)展、進(jìn)步和成熟,那么你認(rèn)為計(jì)算機(jī)視覺未來的趨勢(shì)和挑戰(zhàn)是什么?
Chris Manning:
沒錯(cuò),計(jì)算機(jī)視覺在近些年取得了巨大的進(jìn)步。這個(gè)領(lǐng)域在十年前只能簡(jiǎn)單的識(shí)別人臉,功能遠(yuǎn)遠(yuǎn)沒有現(xiàn)在這么強(qiáng)大;然而現(xiàn)在,計(jì)算機(jī)視覺已經(jīng)可以在很多領(lǐng)域發(fā)揮重要作用,盡管很多應(yīng)用還比較初級(jí)?,F(xiàn)在這個(gè)領(lǐng)域已經(jīng)出現(xiàn)了巨大的商業(yè)機(jī)會(huì),在醫(yī)療領(lǐng)域有著大規(guī)模的應(yīng)用。比如我們現(xiàn)在可以收集很多醫(yī)學(xué)影像數(shù)據(jù),建立深度學(xué)習(xí)系統(tǒng),可以達(dá)到甚至超過人類醫(yī)生的水準(zhǔn)。從這個(gè)角度來說是一個(gè)很大進(jìn)步。
但從某種意義上說,計(jì)算機(jī)視覺領(lǐng)域的大多數(shù)應(yīng)用仍然相對(duì)比較初級(jí)。我們還需要完成更多的解釋性任務(wù),可以稱之為更高級(jí)別的計(jì)算機(jī)視覺,也就是看到一個(gè)場(chǎng)景,可以理解其中所發(fā)生的事情。比如如果有人經(jīng)過這里,就會(huì)知道有人在接受采訪。但是如果你把這個(gè)相同的場(chǎng)景展示給計(jì)算機(jī)視覺系統(tǒng),它會(huì)識(shí)別出有兩個(gè)人、有泛光燈、有攝像機(jī),可能會(huì)知道這兩個(gè)人正在互相看著對(duì)方,但卻無法理解這個(gè)場(chǎng)景代表了一個(gè)什么樣的事件。因此,我認(rèn)為推動(dòng)更高語義層面的理解是視覺領(lǐng)域一個(gè)重要前沿課題。在這個(gè)層面,自然語言處理和視覺的關(guān)系更加緊密,無論是從文本還是圖像入手,要解決的問題都變得更加相似。我認(rèn)為另一個(gè)重要領(lǐng)域是對(duì)世界上正在發(fā)生的事情有一個(gè)更全面的理解,將我們看到的二維場(chǎng)景以及三維模型聯(lián)系起來,可以幫助我們預(yù)測(cè)未來會(huì)發(fā)生什么。
Manning教授在CVPR2019接受專訪
主持人:我最近在意大利的一家博物館看到,他們可以讓訪客跟史前時(shí)代的立體景象進(jìn)行互動(dòng),這樣的進(jìn)步讓我覺得非常不可思議。自動(dòng)駕駛領(lǐng)域在過去的幾年中取得的進(jìn)展也非常驚人,你對(duì)此有什么看法?
Chris Manning:
這顯然是一個(gè)巨大的進(jìn)步,讓人們看到了大范圍的商業(yè)應(yīng)用。但我們?nèi)孕枰3忠欢ǖ闹?jǐn)慎態(tài)度。一方面,要認(rèn)可所取得的巨大進(jìn)步,事情正在往好的方向發(fā)展,像Waymo那樣的自動(dòng)駕駛汽已經(jīng)可以在灣區(qū)的道路上進(jìn)行測(cè)試。另一方面,它也讓我們認(rèn)識(shí)到現(xiàn)實(shí)世界存在很多特殊情況。人類對(duì)處理特殊的情況經(jīng)驗(yàn)很豐富,因?yàn)槲覀儗?duì)周圍的環(huán)境非常熟悉,了解很多常識(shí)。但是自動(dòng)駕駛系統(tǒng)還遠(yuǎn)沒有達(dá)到這樣的程度,它們非常善于在一切正常的情況下沿著車道行駛,對(duì)一些特殊情況卻無法做出判斷。比如路中央有一個(gè)人在揮舞旗子,車輛就很難判斷這個(gè)人到底是在干什么。
自然語言處理的技術(shù)挑戰(zhàn)
主持人:我接下來有一些技術(shù)性的問題。如您所知,許多基于特征的方法中會(huì)使用句法解析?,F(xiàn)在的趨勢(shì)是,句法解析在特征工程中的使用得越來越少了,更多時(shí)候是用在端到端系統(tǒng)中。那么你如何看待句法解析研究的未來?
Chris Manning:
這個(gè)問題問得很好,這種說法也是正確的??v觀自然語言處理的歷史,句法解析被視為基礎(chǔ)性的工作,有助于后續(xù)的研發(fā),比如打造機(jī)器翻譯工具。包括我在內(nèi)的許多自然語言處理領(lǐng)域的研究人員花了很多時(shí)間,想要找到更好的句法解析方法。實(shí)際上,針對(duì)當(dāng)前的很多任務(wù),句法解析的效果不一定是最好的。目前,人們已經(jīng)用最新的深度學(xué)習(xí)系統(tǒng)完成了一些任務(wù),無論是問答系統(tǒng),還是機(jī)器翻譯。如果你正在訓(xùn)練大型神經(jīng)網(wǎng)絡(luò)模型,其中并不包括明確的句法結(jié)構(gòu)訓(xùn)練,但是這樣的模型所呈現(xiàn)的數(shù)據(jù)仍然比我們之前獲得的任何結(jié)果都要好。這樣一來,你可能會(huì)覺得所有關(guān)于句法解析的研究可能都是有誤導(dǎo)性的。
我對(duì)此有幾點(diǎn)想法。一個(gè)是,如果你有一個(gè)包含大量數(shù)據(jù)的任務(wù),你已經(jīng)可以在沒有明確句法結(jié)構(gòu)信息的情況下端到端的訓(xùn)練模型了,還能得到比較好的結(jié)果。為什么這種方法能夠獲得比較好的結(jié)果?事實(shí)上,我最近與一名學(xué)生John Hewitt一起研究了一些深層語境語言模型,如ELMo(“嵌入語言模型”)和BERT,它們都是基于大量文本數(shù)據(jù)進(jìn)行訓(xùn)練的,其中不涉及任何句法結(jié)構(gòu)。而事實(shí)上,我們已經(jīng)能夠確定,像ELMo和BERT這樣的模型正在學(xué)習(xí)句法結(jié)構(gòu),它們接受了數(shù)十億字的文本訓(xùn)練,已經(jīng)開始識(shí)別模式并理解其功能,并自動(dòng)進(jìn)行歸納。因此從某種意義上說,這些模型證明了語言學(xué)家對(duì)句法的看法基本上是正確的:識(shí)別結(jié)構(gòu)信號(hào)的類型并理解什么是關(guān)系從句對(duì)于能夠用語言進(jìn)行預(yù)測(cè)和讓這些模型學(xué)習(xí)句法結(jié)構(gòu)是非常重要的。從某種意義上說,這是一種進(jìn)步,因?yàn)槲覀兪褂脵C(jī)器學(xué)習(xí)能夠獲得更好的結(jié)果,并且最終可能會(huì)得到比人類的手動(dòng)添加符號(hào)結(jié)構(gòu)更豐富的表現(xiàn)方式。
但另一方面,這一切的前提是擁有大量文本。我認(rèn)為在很多情況下,你擁有的數(shù)據(jù)事實(shí)上很有限,無法進(jìn)行端到端訓(xùn)練,而具有句法結(jié)構(gòu)是一個(gè)非常好的先決條件。例如今天我聽了一個(gè)視覺問答報(bào)告,他們將視覺場(chǎng)景圖與句子結(jié)構(gòu)中的非獨(dú)立部分進(jìn)行了匹配,展示了如何為視覺問答任務(wù)提供輔助信息。幾乎在任何訓(xùn)練數(shù)據(jù)量有限的地方,你都可以利用句子結(jié)構(gòu)以及單詞相互關(guān)聯(lián)的額外信息來得到重要的結(jié)論。所以我認(rèn)為在很多情況下,明確的規(guī)則和句法結(jié)構(gòu)仍然適用。
主持人:能不能談一談我們應(yīng)該如何將知識(shí)庫整合到基于神經(jīng)網(wǎng)絡(luò)的自然語言系統(tǒng)中?
Chris Manning:
這也是一個(gè)很好的問題。我認(rèn)為這個(gè)問題還沒有完全解決。在我看來一個(gè)比較簡(jiǎn)單的答案,也是目前最好的答案就是:就像我們?cè)谧銎渌蝿?wù)時(shí)可以學(xué)習(xí)和參考一些文本數(shù)據(jù)一樣,我們也可以在做其他任務(wù)時(shí)試圖構(gòu)建一個(gè)知識(shí)庫。目前,實(shí)現(xiàn)這一目標(biāo)的最簡(jiǎn)單的方法是將注意力機(jī)制引入到知識(shí)庫元素中??梢哉f注意力機(jī)制模式是自然語言處理中非常成功的技術(shù),已經(jīng)被用在在新一代的神經(jīng)網(wǎng)絡(luò)翻譯系統(tǒng)中。對(duì)于諸如推理和獲取知識(shí)之類的工作,使用注意力機(jī)制就是比較好的方法。很多人在試圖打造類似鍵值神經(jīng)網(wǎng)絡(luò),用一個(gè)鍵值信息來查看知識(shí)庫中的內(nèi)容,并將該內(nèi)容傳遞回神經(jīng)網(wǎng)絡(luò)。雖然我們始終感覺應(yīng)該有其他方法可以更直接的獲取知識(shí),但目前這是獲得神經(jīng)網(wǎng)絡(luò)所能學(xué)習(xí)或參考的外部知識(shí)最成功的方法了。
自然語言處理的商業(yè)化進(jìn)程
主持人:下一個(gè)問題是,你認(rèn)為自然語言處理中哪些成果比較容易商業(yè)化?
Chris Manning:
我認(rèn)為這很大程度上取決于你所處的領(lǐng)域和你的目標(biāo)。比如,最近神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯已經(jīng)取得了巨大的成功,但只有一小部分公司對(duì)這一成果感興趣。我認(rèn)為對(duì)于更一般的應(yīng)用實(shí)例,最受歡迎的應(yīng)該是對(duì)話助手。因?yàn)閷?duì)于許多公司來說,吸引新客戶,或者與已有的客戶進(jìn)行互動(dòng)交流蘊(yùn)含著巨大的機(jī)會(huì),但是從事這些工作的人力還比較有限。如果這些工作可以通過對(duì)話助手完成,那么從吸引潛在客戶到客服工作就能實(shí)現(xiàn)一個(gè)巨大的進(jìn)步。這樣的工作很有意義,但跟人類相比,打造成功的、具備豐富的專業(yè)知識(shí)的對(duì)話助手難度很大。從另一個(gè)角度來看,其中涉及到的有很多問題都比較簡(jiǎn)單,或者會(huì)重復(fù)性很高。因此,只要讓一個(gè)對(duì)話助手能處理80%的簡(jiǎn)單問題,或者吸引一些新的客戶,就能夠滿足大部分要求,并且適用于各個(gè)領(lǐng)域的公司。
主持人:現(xiàn)實(shí)中有沒有結(jié)合了計(jì)算機(jī)視覺和自然語言處理的應(yīng)用場(chǎng)景讓您覺得比較有意思的?
Chris Manning:
坦率的說,目前能夠?qū)崿F(xiàn)商業(yè)化的技術(shù)并不多,能夠?qū)⒍呓Y(jié)合產(chǎn)生商業(yè)效益的就更少了。但是實(shí)際上這樣的機(jī)會(huì)還是有的,比如描述用手機(jī)攝像頭拍攝到的場(chǎng)景能夠幫助盲人和游客了解身處的環(huán)境。不過目前我還沒看到充分結(jié)合了兩種技術(shù)的比較成功的應(yīng)用場(chǎng)景。(完)
-
人工智能
+關(guān)注
關(guān)注
1791文章
47282瀏覽量
238534 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5503瀏覽量
121175 -
自然語言處理
+關(guān)注
關(guān)注
1文章
618瀏覽量
13561
原文標(biāo)題:斯坦福AI Lab主任、NLP大師Manning:我的第一次CVPR
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論