迄今為止,大部分人工智能落地的技術(shù)都在預(yù)測技術(shù)方面,而不是決策技術(shù),目前決策技術(shù)的應(yīng)用落地還很少。對此,俞揚(yáng)以診斷報告作比喻,形象地指出,日常生活中想達(dá)到目的,比如看到診斷報告識別問題,我們不可能等著病的發(fā)生,而是想辦法將病治愈。但是決策方面落地的技術(shù)非常少,據(jù)俞揚(yáng)介紹,以往決策的途徑可以分成以下三種。
南京大學(xué)人工智能學(xué)院俞揚(yáng)教授
第一種是寫規(guī)則,即通過程序員將決策方式或企業(yè)決策的解決方法寫入系統(tǒng)中,這是決策技術(shù)的現(xiàn)狀;第二種是做規(guī)劃,將要解決的目標(biāo)寫下來,用機(jī)器找到?jīng)Q策,雖然機(jī)器自動解決問題,但問題的定義還是由人來做,一旦定義出現(xiàn)錯誤,定義的和真實(shí)的情況不符合,那么系統(tǒng)就沒有任何途徑能夠修正這個定義。第三種途徑是基于學(xué)習(xí)的途徑,即基于數(shù)據(jù)驅(qū)動的途徑,通過環(huán)境感知來定義應(yīng)該解決什么樣的問題。俞揚(yáng)表示,第三種方法看起來更有可能解決真實(shí)環(huán)境中做決策的問題。
機(jī)器學(xué)習(xí)的三大技術(shù)
若將機(jī)器做決策放在學(xué)習(xí)的框架上,則可以分為無監(jiān)督學(xué)習(xí)、監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)三大類技術(shù)。其中,無監(jiān)督學(xué)習(xí)的數(shù)據(jù)沒有任何標(biāo)記,它所做的事是分析數(shù)據(jù),從中發(fā)現(xiàn)數(shù)據(jù)結(jié)構(gòu)是什么。而監(jiān)督學(xué)習(xí)是目前落地最多的技術(shù),通過很多標(biāo)注的數(shù)據(jù),告訴機(jī)器圖像中是什么樣的對象,讓機(jī)器可以在數(shù)據(jù)中預(yù)測、識別到對象。
強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)中的一個重要研究領(lǐng)域,從大量數(shù)據(jù)中反復(fù)學(xué)習(xí)找到最優(yōu)解,只從最終產(chǎn)生的結(jié)果來倒推模型應(yīng)該是什么,正好對應(yīng)做決策。俞揚(yáng)指出,實(shí)際上這兩年強(qiáng)化學(xué)習(xí)在做決策方面有很大突破,突破主要是在規(guī)模上,此前大熱的AlphaGo與AlphaGo Zero都是經(jīng)過深度強(qiáng)化學(xué)習(xí)后,在游戲中“碾壓”了人類。
強(qiáng)化學(xué)習(xí)面臨的困境
雖然強(qiáng)化學(xué)習(xí)發(fā)展較快,但目前所有的成功案例都發(fā)生在電子環(huán)境下。俞揚(yáng)認(rèn)為,主要原因是現(xiàn)在的算法效率太低。因此也出現(xiàn)很多批評的聲音,說強(qiáng)化學(xué)習(xí),特別在引入深度學(xué)習(xí)后,需要的數(shù)據(jù)樣本量更大,導(dǎo)致這種方法無法直接應(yīng)用于實(shí)際中。
俞揚(yáng)指出,在很多傳統(tǒng)工業(yè),特別是機(jī)器人設(shè)計中,大家可能會很熟悉做模擬器。模擬器通常用于高成本的行業(yè),在傳統(tǒng)工業(yè)里,為了減少和真正環(huán)境的交互,通常在模擬器里先進(jìn)行設(shè)計。那么,能否讓機(jī)器在模擬器中學(xué)習(xí)決策呢?俞揚(yáng)以購物平臺為例,指出機(jī)器在了解買家行為的過程中,通過多代理模仿學(xué)習(xí),根據(jù)買家數(shù)據(jù)進(jìn)行觀察再行動。他表示,機(jī)器學(xué)習(xí)決策所面臨的環(huán)境更大程度上更困難,因為它是一個開放環(huán)境,而不是和固定的物理定律打交道。
-
人工智能
+關(guān)注
關(guān)注
1792文章
47424瀏覽量
238947 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8425瀏覽量
132769
原文標(biāo)題:【峰暴】南京大學(xué)教授俞揚(yáng):讓機(jī)器幫你做決策!強(qiáng)化學(xué)習(xí)助力機(jī)器更智能
文章出處:【微信號:robotop2025,微信公眾號:每日機(jī)器人峰匯】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論