在人們意識當中,機器人按照開發(fā)者的意愿而做出指定的動作似乎是一件理所應當?shù)氖?,而且,機器人完成任務還要做到精準、迅速。然而,F(xiàn)acbook 的研究人員卻不走尋常路,他們有意讓機器人“犯錯誤”,這到底是為什么呢?
”
“明知故犯”是“智”也
在 Facebook 位于硅谷的新實驗室里,有一個叫作 Sawyer 的機器人(來自已經(jīng)倒閉的 Rethink Robotics 公司),它紅黑相間的手臂揮舞著,試圖完成研究人員交給它的任務。
按照指令,Sawyer 的手臂應該移動到右邊一處固定位置,然而,Sawyer 把手臂抬高,然后偏離軌道,錯開了指定位置,重新回到了原點;研究人員只好將 Sawyer 重置,讓它繼續(xù)完成之前的任務。這一次,Sawyer 的手臂確實往右移了,但就在非常接近指定位置的時候,它再一次偏離了運動軌道,回到了起始位置。兩次任務都失敗了。
或許有人會覺得 Sawyer 的“頑劣”行為令人抓狂。但就像兔子為了躲避獵鷹而迂回前進一樣,Sawyer 看似笨拙的行為實際上是一種特殊的聰明。
Facebook 認為,無論是對于機器人的開發(fā),還是 AI 的開發(fā)來說,這種聰明都至關重要。
強化學習讓機器人更“聰明”
一般來說,開發(fā)者會編程機器人,讓他們通過這些設定好的指令來執(zhí)行動作,不過從某種程度上來說,這種方式有點死板。
而我們人類在學習上則要聰明得多。因為,即使是嬰兒也明白,物體從視野中消失并不代表從世界上消失;玩具球可以滾來滾去,沙發(fā)卻不行;長大后,人們能夠學習駕駛,而不是撞車。
這一切都要歸功于人類大腦里建立起來的世界模型。
Facebook 首席 AI 科學家 Yann LeCun 表示:
如果我們在懸崖邊開車,方向盤只要往右轉,汽車就會掉下去,所以,我們絕不會這樣做。我們大腦里的世界模型會阻止我們自己做傻事。
Facebook 也在嘗試為機器提供這種模式,Yann LeCun 補充道說,建立世界模型的系統(tǒng)是 AI 取得重大進展的下一個挑戰(zhàn)。
實際上,F(xiàn)acebook 并不是第一個嘗試讓機器人學會自我移動的團隊。
在加州大學伯克利分校,研究人員使用了一種名為強化學習(reinforcement learning)的技術,讓雙臂機器人 Brett 把方形釘子塞進一個方形洞里。
在此過程中,研究人員會讓 Brett 嘗試許許多多隨機的動作:如果 Brett 更接近目標,系統(tǒng)就會給它“獎勵”;如果 Brett 搞砸了,系統(tǒng)會給它“記過”。
這些記錄,Brett 都會保存下來,然后經(jīng)過多次迭代,它會越來越精準地找到方洞,并把釘子放進去。
創(chuàng)新的自我監(jiān)督學習
而 Facebook 的嘗試有點不同,F(xiàn)acebook AI 研究科學家 Franziska Meier 表示:
我們想嘗試的是給機器人灌輸好奇心的概念。
人類就是通過好奇心來認識世界的,比如,孩子們想知道猛拽貓尾巴會發(fā)生什么,所以他們會去做這種嘗試。因此,Brett 是通過一點一點地靠近目標,來改進自己的動作,而 Facebook 的 Sawyer 則是靠近目標,然后故意偏離軌道。
Facebook 研究人員旨在讓 Sawyer 自由地嘗試非最佳動作,而不是獎勵它不斷取得的成功,即使這在當時看起來并不理性。Meier 說:
雖然 Sawyer 沒有完成任務,但它給了我們更多的數(shù)據(jù),我們通過這種方式獲得的數(shù)據(jù)比傳統(tǒng)的方式要多。
這個概念被稱為自我監(jiān)督學習——機器人嘗試新行為并更新軟件模型,從而幫助它預測自己的行為后果。
這樣做的目的是讓機器能夠更加靈活地去完成任務,或者說,更容易適應動態(tài)的人類環(huán)境。
比如,機器人要將架子上的杯子放到旁邊的架子,最好的方法是將杯子直接平移,然而兩個架子之間有隔板,這就需要機器人反復試驗、反復犯錯,直到它探索出更好的解決方案。
正如奧斯陸大學的機器人專家 Tonnes Nygaard 所說的那樣:
如果我們一直執(zhí)著于一個解決方案,我們可能會走進死胡同;我們更應該專注于探索更多新的解決方案。
模擬與現(xiàn)實之間的差距
一些研究人員通過模擬來教機器人完成任務——建立一個數(shù)字世界,再讓其中的動畫對象通過“犯錯”的方式來完成任務。這種方法相對較快,因為當數(shù)字“機器”不受現(xiàn)實世界物理定律的約束,它們迭代的速度要快得多。
不過,雖然模擬更高效,但它并不能完美地反映真實世界,模擬動態(tài)人類環(huán)境的復雜性。
這就導致,機器人在模擬環(huán)境中能夠完美匹配的理論,在現(xiàn)實世界中卻不適用。在現(xiàn)實世界中做任何事情都可能更慢、更費力,但好處是,機器人能獲得的數(shù)據(jù)更純粹。
Facebook的人工智能研究科學家 Roberto Calandra 表示:
如果它在現(xiàn)實世界中行得通,那它就真的行得通。
畢竟,機器人在現(xiàn)實世界中要面對各種意想不到的麻煩,程序員不可能對每一個都預先進行編碼。
AI 和機器人相得益彰
從某種程度上來說,F(xiàn)acebook 的項目是 AI 和機器人的偉大融合。
雖然谷歌和亞馬遜和 Facebook 等科技巨頭已經(jīng)大大推動了 AI 的發(fā)展,比如讓機器進行圖像識別,不過這個任務仍基于人們事先給圖片貼好標簽。不得不承認,機器還是不夠聰明。
隨著 AI 研究人員開始使用機器人作為平臺來改進軟件算法,這種情況開始發(fā)生變化。
例如,F(xiàn)acebook 教機器人獨立完成一系列任務,這反過來可能會對開發(fā) AI 助手有所啟發(fā),讓它們能夠更好地為用戶服務。LeCun 說道:
如果機器人解決了一個問題,同理,它也能在另一種情況下解決這個問題。
簡而言之就是,AI 正在讓機器人變得更聰明,而機器人也在幫助推進 AI 的發(fā)展。
不過,F(xiàn)acebook 表示,目前,公司的這項研究并沒有連接到特定的產品。不過,LeCun 說:
我們認為,機器人將在遠程呈現(xiàn)中發(fā)揮重要作用。畢竟,F(xiàn)acebook 擁有 Portal 和 Oculus VR 系統(tǒng)。
-
機器人
+關注
關注
211文章
28501瀏覽量
207468 -
AI
+關注
關注
87文章
31097瀏覽量
269423
原文標題:【前沿科技】獨家研究“犯錯”機器人,facebook葫蘆里賣的什么藥?
文章出處:【微信號:robotn,微信公眾號:產業(yè)大視野】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論