人類每天都在進(jìn)行高層次的規(guī)劃來(lái)指導(dǎo)自己的各種活動(dòng),但對(duì)于機(jī)器人來(lái)說(shuō)這并不容易。幸運(yùn)的是,越來(lái)越多的工作表明,層級(jí)抽象(即視覺(jué)運(yùn)動(dòng)子程序)可以提高強(qiáng)化學(xué)習(xí)中的樣本效率,這是一種人工智能訓(xùn)練技術(shù),它利用獎(jiǎng)勵(lì)來(lái)推動(dòng)智能體實(shí)現(xiàn)目標(biāo)。
傳統(tǒng)上,這些層次結(jié)構(gòu)必須通過(guò)端到端訓(xùn)練進(jìn)行手動(dòng)編程或者獲取,這需要大量的時(shí)間、持續(xù)的注意力和足夠的耐心。但是在 Arxiv.org 上新發(fā)布的論文「通過(guò)觀看視頻學(xué)習(xí)導(dǎo)航子程序」中,F(xiàn)acebookAI Research、加州大學(xué)伯克利分校和伊利諾伊大學(xué)厄巴納 - 香檳分校的科學(xué)家描述了一個(gè)通過(guò)使用逆機(jī)器學(xué)習(xí)模型攝取視頻“偽標(biāo)記”來(lái)學(xué)習(xí)層次結(jié)構(gòu)。
這讓人想起去年 Facebook 開(kāi)源的一對(duì)模型Talk the Walk。該模型可以使用 360 度圖像、自然語(yǔ)言以及具有標(biāo)志性地標(biāo)(如銀行、餐廳等)的地圖來(lái)指導(dǎo)紐約市的街道,能夠在不知道用戶位置的情況下提供步行路線。
早上來(lái)杯咖啡成為很多都市白領(lǐng)每天必不可少的“自我喚醒”環(huán)節(jié)。坐在辦公室的人類如果想去茶水間倒杯咖啡,你會(huì)從門廳走到底,拐向左邊的走廊,然后再進(jìn)入右邊的房間。當(dāng)人類在做這一系列思考與動(dòng)作的時(shí)候,我們不是決定具體需要調(diào)動(dòng)哪塊肌肉,而是通過(guò)組合這些可重復(fù)使用的低級(jí)視覺(jué)運(yùn)動(dòng)子程序來(lái)達(dá)到目標(biāo),從而達(dá)成更高抽象水平的規(guī)劃。
研究人員表示,這些視覺(jué)運(yùn)動(dòng)子程序,使規(guī)劃能夠減輕傳統(tǒng)規(guī)劃中的高計(jì)算成本和強(qiáng)化學(xué)習(xí)中的高樣本復(fù)雜性等已知問(wèn)題。
Facebook的系統(tǒng)包含兩個(gè)階段。第一階段,研究人員通過(guò)運(yùn)行訓(xùn)練模型,使用隨機(jī)勘探數(shù)據(jù)的自我監(jiān)督來(lái)生成偽標(biāo)簽。模型學(xué)習(xí)了分布在四個(gè)不同環(huán)境中的1500個(gè)位置點(diǎn),然后隨機(jī)執(zhí)行30個(gè)步驟的動(dòng)作,產(chǎn)生45,000個(gè)交互樣本。
在第二階段,大約217,000個(gè)偽標(biāo)記視頻被切成220萬(wàn)個(gè)互相獨(dú)立的剪輯片段然后被輸入一個(gè)模型,這個(gè)模型預(yù)測(cè)參考視頻中采取的相應(yīng)動(dòng)作的模型,而一個(gè)單獨(dú)的網(wǎng)絡(luò)檢查參考視頻中的動(dòng)作序列并將行為編碼為矢量(例如數(shù)學(xué)表示)。另一個(gè)模型通過(guò)預(yù)測(cè)來(lái)自第一幀的軌跡的推斷編碼,針對(duì)任何給定視頻幀選擇調(diào)用哪些學(xué)習(xí)子例程。
在一個(gè)實(shí)驗(yàn)中,機(jī)器人被部署在真實(shí)的辦公環(huán)境中。研究表明,學(xué)習(xí)視頻(比如如何最有效的方式前往目標(biāo)位置)能夠讓機(jī)器人的表現(xiàn)比用純交互方法學(xué)習(xí)達(dá)到更好的效果,至少能夠顧及到以前看不見(jiàn)的環(huán)境。
也許最令人印象深刻的是,這個(gè)訓(xùn)練有素的模型學(xué)會(huì)了有利于前進(jìn)導(dǎo)航并避免障礙物,導(dǎo)航任務(wù)比曾經(jīng)的最佳基準(zhǔn)快4倍,這使得它能夠完全自主地進(jìn)行長(zhǎng)距離行進(jìn)。
-
AI
+關(guān)注
關(guān)注
87文章
31027瀏覽量
269363 -
Facebook
+關(guān)注
關(guān)注
3文章
1429瀏覽量
54799
原文標(biāo)題:如何在辦公室不動(dòng)聲色地繞過(guò)老板視線?Facebook的AI通過(guò)看視頻自學(xué)成才
文章出處:【微信號(hào):thejiangmen,微信公眾號(hào):將門創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論