當只需要把大規(guī)模標注圖像數(shù)據(jù)庫塞給深度神經(jīng)網(wǎng)絡(luò)就可以得到高準確率的物體分類模型之后,有很多研究人員開始考慮更深入的問題:人類的視覺識別學習過程是怎樣的?以及既然人類視覺系統(tǒng)與計算機視覺系統(tǒng)之間表現(xiàn)出了種種不同,我們能否研究這些不同的來源?這是否能給我們帶來新的啟示?
與深度學***不同的是,人類幼兒正是靠少量物體、少量面容的反復多視角觀察培養(yǎng)出了穩(wěn)定、通用的物體識別能力。
視覺學習同時依賴于算法和訓練材料。這篇文章考慮了嬰幼兒以自我為中心視覺的自然統(tǒng)計特性。這些用于人類視覺目標識別的自然訓練集與輸入機器視覺系統(tǒng)的訓練數(shù)據(jù)有很大的不同。比起通過平均經(jīng)歷所有事情來進行學習,幼兒經(jīng)歷的分布偏向明顯:有很多事情重復發(fā)生。雖然從整體上看變化很大,但個體對事物的看法是按照特定的順序來體驗的——從每時每刻變化的緩慢、流暢的視覺,到場景內(nèi)容發(fā)展有序的過渡。我們認為,嬰幼兒偏向明顯、有序、有偏向的視覺體驗是一種訓練數(shù)據(jù),它使人類學習者能夠開發(fā)出一種方法來識別所有事物,包括隨處可見的實體和很少見到的實體。人類和機器學習研究人員將真實世界統(tǒng)計的學習數(shù)據(jù)聯(lián)合起來考慮,似乎有可能為這兩個學科帶來進步。
引言
學習是人類認知的核心屬性,是人工智能長期追求的目標。我們正處于在人類和人工智能領(lǐng)域產(chǎn)生出新見解的臨界點,這些見解將通過明確地將人類認知、人類神經(jīng)科學和機器學習的進步聯(lián)系起來而更快地顯現(xiàn)出來?!窽hought-papers」呼吁機器學習的研究人員利用來自人類和神經(jīng)的靈感來建造像人一樣學習的機器(例如Kriegeskorte, 2015;Marblestone et al., 2016),并呼吁人類認知和神經(jīng)科學的研究人員把機器學習算法作為關(guān)于認知、視覺和神經(jīng)機制的假設(shè)(Yamins and DiCarlo, 2016)。這種新萌發(fā)出的興趣的推動力之一使深度學習網(wǎng)絡(luò)在解決非常困難的學習問題方面取得了巨大的成功。這些問題是以前無法解決的(例如Silver et al., 2016)。在神經(jīng)感知器和連接主義網(wǎng)絡(luò)的譜系中,深度學習網(wǎng)絡(luò)將原始的感官信息作為輸入,并使用多層的分層組織結(jié)構(gòu),每一層的輸出作為下一層的輸入,從而形成特征提取和轉(zhuǎn)換的級聯(lián)。這些網(wǎng)絡(luò)特別成功的一個應(yīng)用是機器視覺。這些卷積深度學習網(wǎng)絡(luò)(CNNs)的分層結(jié)構(gòu)和空間匯聚不僅產(chǎn)生了最先進的圖像識別技術(shù),而且通過特征提取的分層組織來實現(xiàn)這一功能,這種特征提取近似于人類視覺系統(tǒng)皮層的功能(Cadieu et al., 2014)。
在人類認知方面,頭戴式攝像機和頭戴式眼球追蹤技術(shù)的最新進展,已經(jīng)在自然學習環(huán)境方面取得了令人興奮的發(fā)現(xiàn)。人類日常視覺環(huán)境的結(jié)構(gòu)和規(guī)律——尤其是嬰兒和兒童的視覺環(huán)境——一點也不像最先進的機器視覺中使用的訓練集。機器學習的訓練圖像是由成人拍攝并組織起來的照片。因此,他們偏向于成熟系統(tǒng)的「看起來有用」的東西,反映的是感知發(fā)展的結(jié)果,而不一定是驅(qū)動這種發(fā)展的場景(例如,F(xiàn)athi et al., 2011;Foulsham et al., 2011;Smith et al., 2015)。真實世界的感知體驗并不是由攝像機來框定的,而是與身體在世界上的活動聯(lián)系在一起的。因此,學習者對視覺環(huán)境的視角是高度選擇性的,取決于瞬間的位置、空間中的方位、姿勢以及頭部和眼睛的運動(參見Smith et al., 2015., 2015, 待審)。圖1顯示了以自我為中心的視域的選擇性:并不是環(huán)境中的所有內(nèi)容都在嬰兒的視域范圍中;除非嬰兒轉(zhuǎn)過頭去看,否則看不到貓、窗戶、時鐘、站著的人的臉。感知者的姿勢、位置、運動、興趣和社會互動使視覺信息的觀點產(chǎn)生系統(tǒng)性偏向。
圖1 自我中心視域的選擇性。陰影指示的視場對應(yīng)嬰兒頭部視角。
隨著個人成長,對不同類別的視覺體驗會產(chǎn)生偏向。從而使所有這些——姿勢、位置、動作、興趣——都發(fā)生了巨大的變化。特別是在生命的前兩年,每一項新的感官運動的成就——翻身、伸展、爬行、行走(以及更多)——都會為新的視覺體驗類別打開大門。因此,人類視覺系統(tǒng)的發(fā)展不是通過成批的處理,而是通過一套系統(tǒng)、有序的視覺體驗課程來完成的,這套課程是通過嬰兒自身的感覺運動發(fā)展而設(shè)計的。以自我為中心的視覺系統(tǒng)為研究人員提供了直接訪問這些發(fā)展受到制約的視覺環(huán)境屬性的途徑。在這里,我們考慮了真實世界視覺學習數(shù)據(jù)集的新發(fā)現(xiàn)與機器學習的潛在相關(guān)性。
有人可能會問,鑒于當代計算機視覺的所取得的成功,機器學習者為什么要關(guān)心孩子們是如何做到這一點的呢?Schank 是人工智能早期的一位開創(chuàng)性人物,他寫道:「我們希望能夠開發(fā)出一個可以學習的程序,就像一個孩子所做的那樣……」(Schank, 1972)。這似乎仍然是自主人工智能的一個合適目標。最近,在一個大型的機器學習會議上,Malik(2016年,私人交流,參見Agrawal et al., 2016)告訴想為機器學習下一個大的進步做準備的年輕學習者「認真學習發(fā)展心理學,然后運用這些知識構(gòu)建新的更好的算法?!褂需b于此,我們從一個例子開始,說明為什么機器學習者應(yīng)該關(guān)注兒童學習環(huán)境中的規(guī)律:有充分的證據(jù)表明,一個兩歲兒童在視覺學習方面的能力是當代計算機視覺中尚無法匹敵的(見Ritter et al., 2017)。
兩歲小孩能做什么
人類可以在不同條件下下識別多種類別的大量物體實例(Kourtzi and DiCarlo, 2006;Gauthier and Tarr, 201)。識別所有這些實例和類別需要視覺訓練;人們必須曾經(jīng)見過狗、汽車和烤面包機才能在視覺上識別這些類別的實例(例如,Gauthier et al., 2000;Malt and Majid, 2013;Kovack-Lesh et al., 2014)。這對人類和計算機視覺算法都適用。但目前兒童的發(fā)展軌跡和算法有很大的不同。對于兒童來說,早期學習是緩慢且充滿錯誤的(例如,MacNamara, 1982;Mervis et al., 1992)。的確,1-2 歲的兒童在視覺目標識別任務(wù)中的表現(xiàn)可能比表現(xiàn)最好的計算機視覺算法要差一些,因為 1-2 歲兒童在進行類別判斷時具有許多抽象過度和抽象不足的特點,有時在視覺擁擠的場景中完全不能識別已知的物體(Farzin et al., 2010)。然而,兩歲之后情況就不一樣了。此時,孩子們可以從一個實例推斷出整個類別。只要給定一個新類別的實例及其名稱,兩歲的兒童就會立即以成人的方式概括該名稱。例如,如果一個兩歲的孩子遇到第一個拖拉機——比如說,一個綠色的 John Deere 拖拉機在地里工作——而當聽到它的名字,孩子從這一點會認識所有的各種各樣的拖拉機——紅色的 Massey-Fergusons,古董拖拉機,割草機——但不是挖掘機或卡車。這種現(xiàn)象在發(fā)展文獻中被稱為「形狀偏向」,是在兒童的自然類別學習中觀察到的「單樣本」學習的一個例子。這已經(jīng)在實驗室中得到了復制和廣泛研究(例如,Rosch et al., 1976;Landau et al., 1988;Samuelson and Smith, 2005)。
研究人員如今已經(jīng)非常了解「形狀偏向」及其發(fā)展,下面列舉一些相關(guān)研究成果。形狀偏向的出現(xiàn)與兒童物體名稱詞匯量的快速增長是同時發(fā)生的。這種偏向是關(guān)于感知到的事物的形狀,當兒童能夠從主要部分的關(guān)系結(jié)構(gòu)中識別出已知的物體時,這種偏向就會出現(xiàn)(Gershkoff-Stowe and Smith, 2004)。形狀偏向本身是通過對一組初始對象名稱的緩慢學習而習得的(據(jù)估計,其中可以包括 50 到 150 個學習到的類別,Gershkoff-Stowe and Smith, 2004)。在實體游戲的背景下,對基于形狀的對象類別辨別進行早期強化訓練,會導致 1-2 歲的兒童比一般兒童更早出現(xiàn)形狀偏向,而且這些兒童詞匯量的增長速度也會更早 (Samuelson, 2002;Smith et al., 2002;Yoshida and Smith, 2005;Perry et al., 2010)。形狀偏向不僅與兒童對物體名稱的學習有關(guān),還與對的物體操作有關(guān) (Smith, 2005;James et al., 2014a),并隨著兒童從三維形狀的抽象表征中識別物體的能力逐漸增強(Smith, 2003,2013;Yee et al., 2012)。學習語言有困難的兒童——晚說話者、有特殊語言障礙的兒童、自閉癥兒童——不會形成強烈的形狀偏向(Jones, 2003;Jones and Smith, 2005;Tek et al., 2008;Collisson et al., 2015;Potrzeba et al., 2015)。簡而言之,典型的成長中的兒童在緩慢地學習一組對象類別名稱的過程中,也會學習到如何以某種方式直觀地表示對象形狀。這種方式使他們能夠在只提供一個新類別實例的情況下,估計出一個新對象類別的邊界。最先進的機器視覺運作方式則不同。沒有哪種機器學習的方法能夠改變其學習的本質(zhì);相反,每一個需要學習的類別都需要大量的訓練和例子。
區(qū)別在哪里?所有的學習都依賴于學習機制和訓練數(shù)據(jù)。幼兒是非常成功的視覺分類學習者;因此,他們的內(nèi)部算法必須能夠利用日常經(jīng)驗中的規(guī)律,不管這些規(guī)律是什么。因此,了解嬰兒的日常視覺環(huán)境——以及他們?nèi)绾坞S著發(fā)展而變化——不僅有助于揭示相關(guān)的訓練數(shù)據(jù),而且還提供了有關(guān)學習的內(nèi)部機制的信息。
發(fā)展變化的視覺環(huán)境
對嬰兒頭部攝像機獲得的數(shù)據(jù)進行研究,非常清楚地表明:人類視覺學習的訓練集在成長過程中發(fā)生了很大的變化。圖 2 顯示了頭攝像頭捕獲的示例圖像。一個例子涉及到嬰兒對周圍人的以自我為中心的視角。對嬰兒在日常生活中采集的大量頭部相機圖像進行分析(Jayaraman et al., 2015,2017;Fausey et al., 2016)研究表明,人物總是出現(xiàn)在嬰兒頭部相機圖像中,新生兒和兩歲兒童的這一比例是相同的。這并不奇怪,因為不能把嬰幼兒單獨留下。然而,在頭部攝相機的圖像中,年齡較大和較小的嬰兒的具體身體部位是不一樣的。對于3個月以下的嬰兒來說,人臉無處不在,在每小時的視覺體驗中,人臉占15分鐘以上。此外,這些臉始終靠近年幼的嬰兒(在距離頭部攝像機2英尺以內(nèi)),并顯示出兩只眼睛。然而,當嬰兒接近 1 歲生日時,頭部攝像機記錄下的面部圖像已經(jīng)很少見了,在醒著的每一個小時里,只有大約6分鐘的時間有面部出現(xiàn)。相反,對于 1- 2 歲的孩子來說,他們可以看到其他人的手(Fausey et al., 2016)。這些手主要(超過85%的手的圖像中)會接觸和操作一些物體。這種嬰兒面前視覺場景內(nèi)容的變化是由他們的感覺運動能力的變化、父母相應(yīng)的行為以及嬰兒興趣的變化所驅(qū)動的。在所有這些相互聯(lián)系的力的作用下最終產(chǎn)生了用于視覺學習的數(shù)據(jù)。這些數(shù)據(jù)會發(fā)生變化——從許多全景式和近距離的面孔到許多作用于物體的手。我們強烈懷疑這個順序——早期的面孔,后來的物體——這關(guān)系到人類視覺物體識別如何以及為什么以這種方式發(fā)展。
圖2 頭部相機的樣本捕捉了三個不同年齡的嬰兒的圖像。
在構(gòu)型人臉處理中,「沉睡效應(yīng)」體現(xiàn)了早期密集的人臉視覺體驗的重要性。Maurer et al. (2007)將沉睡效應(yīng)定義為一種在發(fā)展后期出現(xiàn)的永久性缺失,但這是由于早期體驗不足造成的。一個例子涉及嬰兒在 2 至 6 個月大時因先天性白內(nèi)障而喪失早期視力輸入的情況。根據(jù)多項視力發(fā)展指標(包括敏銳度、對比敏感度),這些嬰兒在白內(nèi)障摘除后,開始追趕上同齡人,呈現(xiàn)出視力發(fā)展的典型軌跡。但隨著年齡的增長,這些個體在人類視覺面部處理的成熟特征之一「構(gòu)型面部處理」(configural face processing)中表現(xiàn)出永久性的缺失。構(gòu)形處理是指基于一種類似格式塔的表征,它壓制個體特征信息對個體面孔進行區(qū)分和識別的過程。這是人類視覺處理的一個方面,直到 5 - 7 歲時才開始出現(xiàn)(Mondloch et al., 2002)。Maurer et al. (2007)假設(shè),早期的經(jīng)驗保存和/或建立了神經(jīng)基質(zhì),用于較晚發(fā)展的面部處理能力(另見Byrge et al., 2014)。我們推測,嬰幼兒密集的近距離、全視角面部體驗是先天性白內(nèi)障嬰幼兒早期體驗缺失的部分。因為這些經(jīng)歷與嬰兒自身不斷變化的偏向和感覺運動技能有關(guān),所以當嬰兒的白內(nèi)障后來被摘除時,這些經(jīng)歷不會被他們的社交伙伴帶來的經(jīng)驗所取代。因為到那時,嬰兒自身的行為和自主性將產(chǎn)生非常不同的社交互動。因此,根據(jù)假設(shè),早期密集的面部體驗對于建立或維持大腦皮層回路可能是必要的,而大腦皮層回路支持后期出現(xiàn)的專門的面部處理。
有可能早期的面部體驗只對面部處理重要,這是針對特定領(lǐng)域的結(jié)果的特定領(lǐng)域的體驗。然而,我們有理由提出另一種觀點。人類視覺皮層通過一系列特征提取和轉(zhuǎn)換的層級系統(tǒng)構(gòu)建我們所看到的世界(例如,Hochstein and Ahissar, 2002)。所有的輸入都在相同的低層和所有較高的表示層中通過并進行調(diào)優(yōu)——面孔、對象、字母——在低層的活動上進行計算。這樣,對人臉的學習和對非人臉對象類別的學習都依賴于相同底層的精度、調(diào)優(yōu)和激活模式。較低層次的簡單視覺識別在較高層次的視覺過程中具有深遠的普遍性(例如,Ahissar and Hochstein, 1997)。來自人類嬰兒的頭部攝像機圖像表明,較低層次的最初調(diào)諧和發(fā)育是通過視覺場景完成的,其中包括許多閉著眼睛的面孔。正因為如此,兒童以后對非人臉物體特征的學習和提取至少在一定程度上是由較低層次的早期調(diào)諧形成的,這種調(diào)諧嚴重偏重于近距離人臉的低層次視覺特征。
雖然Maurer et al. (2007)使用「沉睡效應(yīng)」一詞來指代經(jīng)驗的缺失,但早期視覺體驗對后來發(fā)展的作用同時具有消極和積極兩方面的意義。個人早期經(jīng)驗中的結(jié)構(gòu)規(guī)律性會對層次化的神經(jīng)系統(tǒng)進行訓練和調(diào)優(yōu),這樣做可能建立潛在的隱藏能力,而這些能力對以后的學習起著至關(guān)重要的作用。人類發(fā)展的相關(guān)研究提供了許多目前無法解釋的例子,它們說明了過去的學習對未來的學習有多么深遠的影響。例如,通過點陣列視覺識別的準確性可以預測日后的數(shù)學成績(Halberda et al., 2008),通過幼兒的形狀偏向可以預測學習字母的能力(Augustine et al., 2015; 參見Zorzi et al., 2013)。與人類視覺系統(tǒng)相似,深度學習網(wǎng)絡(luò)是「深度」的,因為它們包含層疊的層次結(jié)構(gòu)。這種結(jié)構(gòu)意味著,與人類視覺類似,在一個任務(wù)中形成的早期層表征將被重用。理論上它可以對在其他學習任務(wù)同時產(chǎn)生消極和積極的影響。對于這種分層學習系統(tǒng),有序訓練集的計算價值還沒有得到很好的理解。從面部到手觸物體的受限、但逐步發(fā)展的訓練集的整個組合,是否就是解釋 2 歲兒童只需要一個或幾個實例就能夠?qū)W會分類一種新的非面部物體的部分原因呢?
幼兒如何觸類旁通
對 2 歲嬰兒的頭部相機圖像的分析也告訴我們,這些圖像中實體的分布既不是世界上實體的隨機樣本,也不是這些以自我為中心的圖像中均勻分布的實體。相反,經(jīng)驗是極其右傾的。嬰兒頭部相機圖像中的物體是高度選擇性的——很少有哪個種類是普遍的,大多數(shù)物體是很少出現(xiàn)的。那么,這里有一個關(guān)鍵問題:通過廣泛地(可能是緩慢地)學習某些東西,如何產(chǎn)生一個能夠快速學習所有類別、包括一些不常見事物的學習系統(tǒng)呢?冪律分布既體現(xiàn)在嬰兒對獨特個體面孔的體驗(Jayaraman et al., 2015),也體現(xiàn)在嬰兒對物體的體驗(Clerkin et al., 2017)。在嬰兒出生后的一整年里,他們看到的面孔高度集中在少數(shù)幾個人上,其中最頻繁出現(xiàn)的三個人大約占頭部相機圖像中所有面孔的 80%。同樣,嬰兒視覺環(huán)境中的物體分布也極其右偏,一些物體類別比其他類別更頻繁(Clerkin et al., 2017)。圖 3 顯示了 8- 10 個月大的嬰兒在 147 次不同的餐桌時間(Clerkin et al., 2017)中,頭部相機圖像分析中常見物體類別的分布情況。很少有對象類別是普遍存在的,而大多數(shù)物體是很少出現(xiàn)的。有趣的是,最常見的物體類別的名稱也是很早就獲得的,但要在 8 到 10 個月,也就是第一個生日之后。這表明,早期密集的視覺體驗為以后學習這些特定物體的標簽做好了準備。
圖3 8-10個月大嬰兒頭部相機圖像中常見物體類別的分布(Clerkin et al., 2017)。對象類別根據(jù)其獲取年齡進行著色(Fenson et al., 1994):第一名詞(對象名稱為至少50% 16個月嬰兒的接受詞匯),早期名詞(對象名稱不是第一名詞和至少50% 30個月兒童的產(chǎn)出性詞匯),以及后來的名詞(所有其他對象名稱)。
極右偏態(tài)分布的一個可能優(yōu)勢是,相對較小的個體對象和對象類別的普遍性,使嬰兒能夠定義學習的初始目標集(Clerkin et al., 2017;參見Salakhutdinov et al., 2011),然后掌握與在許多不同的觀看條件下識別這些少數(shù)物體相關(guān)的視覺不變性。這可能是關(guān)鍵的一步——完成對一部分事物的學習——從而掌握從有限的經(jīng)驗中快速學習的通用能力,例如 2 歲兒童的形狀偏差(Smith, 2013)。這種對一部分事物的完全了解可能不僅依賴于經(jīng)驗的數(shù)量,而且還依賴于經(jīng)驗在時間上的持續(xù)。當一個物體被長時間觀察時,與該物體有關(guān)的視網(wǎng)膜信息必然會不斷變化,顯示出相關(guān)的轉(zhuǎn)換和識別的不變性,這種不變性可擴展到識別新事物(F?ldiák, 1991;Wiskott and Sejnowski, 2002;Li and DiCarlo, 2008)。
控制飼養(yǎng)雛雞的研究(Wood, 2013;Wood and Wood, 2016)為這一觀點提供了一個論證:物體的緩慢變化轉(zhuǎn)換為小雞對物體形狀的泛化學習提供了足夠的輸入。在這些研究中,新生的雛雞在嚴格控制的視覺環(huán)境中長大,給它們觀察移動和旋轉(zhuǎn)的單個物體。通過一系列的控制飼養(yǎng)實驗,研究人員們實驗了不同的運動和旋轉(zhuǎn)特性。結(jié)果表明,隨著時間的推移,單個物體的觀察經(jīng)驗就足以讓小雞建立健壯的物體識別技能,可以識別這個物體的未見過的視角以及從未見過的其它物體(Wood, 2013,2015)??刂骑曫B(yǎng)試驗(Wood, 2016;Wood et al., 2016)也指出了小雞學習的兩個主要限制因素:緩慢和流暢。觀察視角的變化需要緩慢而平穩(wěn)地進行,并遵循物理對象在世界上的時空屬性。不過,雞的大腦和視覺系統(tǒng)與人類非常不同,因此小雞數(shù)據(jù)的相關(guān)性不是人類視覺系統(tǒng)的動物模型。相反,這些發(fā)現(xiàn)的相關(guān)性在于,它們清楚地顯示了單個視覺對象的時間上持續(xù)的體驗中可用的信息。這可能也暗示了某種目前仍未開發(fā)出的算法,可以從對極少(或許只有一個)對象的擴展視覺體驗中迅速學會識別對象類別。
自我生成的視覺體驗
要測試幼兒對物體名稱的了解程度,一種方法是向他們詢問不同的物體名稱,看他們表現(xiàn)出怎樣的喜好,另一種方法是給他們展示一個物體,看他們是否會自發(fā)地說出它的名字。因此,幼兒的對象名稱詞匯是衡量他們視覺識別對象能力的一個很好的指標。在一歲之前,對象名稱的學習開始得非常緩慢,兒童對單個對象名稱的知識逐漸增長,最初以錯誤為特征(例如,MacNamara, 1982;Mervis et al., 1992, 參見Bloom, 2000)。大約 18 到 24 個月(不同的孩子學習時間不同),學習特性和學習速度會發(fā)生變化。大約 2 歲時,對象名稱的學習變得似乎很容易,因為典型的成長中兒童只需要非常少的經(jīng)驗,通常只需要一個命名對象的單一經(jīng)驗,就而已適當?shù)貙⒚Q推廣到新實例(Landau et al., 1988;Smith, 2003)。從緩慢的漸進式學習向快速的幾乎「一次性」學習的轉(zhuǎn)變反映了學習本身所帶來的內(nèi)部機制的變化 (Smith et al., 2002)。然而,越來越多的證據(jù)表明,用于學習的視覺數(shù)據(jù)也發(fā)生了巨大的變化。
對于 8-10 個月大的嬰兒來說,頭部攝像頭拍攝的場景往往雜亂不堪(Clerkin et al., 2017)。12 個月后的場景仍然經(jīng)常是雜亂的,但是這些場景被一系列連續(xù)的場景打斷。在這些場景中只有一個物體在視覺上占主導地位(例如Yu and Smith, 2012)。場景構(gòu)成的變化是幼兒動手能力發(fā)展的直接結(jié)果。早在一歲之前,嬰兒就會伸手拿東西,但他們?nèi)狈﹂L時間玩耍所需要的軀干穩(wěn)定性(Rochat, 1992;Soska et al., 2010)。他們?nèi)狈πD(zhuǎn)、堆疊或插入對象的動手能力(Pereira et al., 2010;Street et al., 2011)。此外,他們最感興趣的是把物體放進嘴里,這并不是理想的視覺學習。因此,他們經(jīng)常從遠處看這個世界。而從遠處看,這個世界是許多雜亂的東西。在他們的第一個生日之后,這一切都改變了。幼兒在積極地處理物體時,并會近距離地觀察它們。這種動手活動會促進更高級的視覺對象記憶和區(qū)分(Ruff, 1984;Soska et al., 2010;M?hring and Frick, 2013;James et al., 2014a)以及對象名字學習 (例如Yu and Smith, 2012;LeBarton and Iverson, 2013;James et al., 2014a)。
幼兒的視覺系統(tǒng)生成的畫面視角有三個特性,可能是這些進步的基礎(chǔ)。
首先,幼兒對物體的處理創(chuàng)造出的視覺場景比年紀更小的嬰兒(Yu and Smith, 2012;Clerkin et al., 2017)和成人(Smith et al., 2011;Yu and Smith, 2012)的都要整潔。幼兒胳膊短,身體前傾,仔細看著手中的東西。在此過程中,它們創(chuàng)建一個對象填充視野的場景。這解決了許多基本問題,包括分割,競爭,以及參考對象不明。一項研究(Bambach et al., 2017)直接比較了一個常用的 CNN(Simonyan and Zisserman, 2014)在給定的由幼兒和成人頭部攝像機圖像組成的訓練集(相同的真實世界事件)中學習識別物體的能力。該網(wǎng)絡(luò)不提供待訓練對象的裁剪圖像,而是完整的場景,沒有目標對象在場景中的相關(guān)位置信息。根據(jù)幼兒階段畫面學習到的系統(tǒng)比成人階段的更健壯,并且表現(xiàn)出更好的泛化能力。這與當代計算機視覺的實踐相吻合,計算機視覺的算法通常會在裁剪的圖像或場景中加入邊框,以指定要學習的對象。幼兒做到這一點的方式則是借助自己的手和頭。
初學走路的孩子處理物體的第二個特點是,他們會生成單一物體的可變性很強的圖像。圖 4 顯示了一個 15 個月大的幼兒在玩耍時生成的單個對象的視圖(Slone et al., 審稿中)。在這項研究中,頭戴式眼球追蹤器被用來捕捉第一人稱場景中的固定物體。一種單一的算法測量,掩膜取向(mask orientation,MO)被用來捕捉嬰兒注視的物體的逐幀圖像變異性:MO是圖像中物體像素最細長軸的方向。至關(guān)重要的是,這不是一個面向真實世界或?qū)ο笮螤畹姆椒?,也不以任何直接的方式涉及的形狀特性遠端刺激,而是通過衡量近端圖像屬性的視覺系統(tǒng)來確定遠端對象。主要結(jié)果是:15個月大的嬰兒在玩玩具時所產(chǎn)生的MO變化量可以預測在6個月后,也就是21個月大的時候嬰兒掌握物體名稱詞匯量。簡而言之,更大的差異性導致更好的學習。在一項相關(guān)的計算研究(Bambach et al., 2017)中,研究人員們向 CNN 提供了一組訓練集,這些訓練集由父母或孩子佩戴的頭部攝像機拍攝的共同玩耍事件的圖像組成。相對于從父母佩戴的相機中看到的相同物體的變化較小的圖像,從兒童佩戴的相機中看到的變化較多的物體圖像導致了更強的學習能力和學習泛化能力。這些發(fā)現(xiàn)應(yīng)該會改變我們對一次性學習的看法。幼兒對一個物體的視覺體驗不是單一的體驗,而是對同一事物的一系列非常不同的觀察。這樣的一系列對單個實例的不同觀察能否引導年輕的學習者使用生成原則來識別某個類別所有成員(例如,所有的拖拉機)?
圖4 一個15個月大的嬰兒在玩耍時用頭部照相機捕捉到的單個物體的樣本圖像。
幼兒自生成對象視圖的第三個屬性是他們傾向于(Pereira et al., 2010)讓大多數(shù)對象的長軸垂直于視線(簡單的握持方法),也會讓(盡管更弱)長軸平行于視線(最簡單的將一個對象插入另一個對象的方法)。幼兒通過旋轉(zhuǎn)物體的主軸,在這些喜歡的視圖之間轉(zhuǎn)換。這些不同的視角和旋轉(zhuǎn)突出了非偶然的形狀特征。由手握物體的方式所產(chǎn)生的不同視角可能有一個視覺來源,因為當幼兒握著并查看透明球體中包含的物體時,這種偏差會更強(James et al., 2014b)。這樣所有的視圖對于手來說都是等勢的。Wood (2016)在對小雞的研究中提出了平滑性和緩慢變化的約束條件,但是,無論是正確的分析還是正確的實驗都沒有將這些自生成的物體視圖的屬性與這些約束條件進行比較。但是,考慮到物理世界和物理身體的時空限制,我們完全有理由相信,幼兒會遵從自生成的視圖。
幼兒的全身視覺訓練方法創(chuàng)造了獨特的視覺訓練集,這些訓練集的結(jié)構(gòu)似乎是為了教授一門非常具體的課程:獨立于視覺的三維形狀識別。單個對象在圖像中是孤立的,因為它填充了圖像。不同的視圖通過時間上的接近和手的接觸相互連接,這提供了一個強有力的學習信號,表明兩個不同的視圖屬于同一個對象。視圖的動態(tài)結(jié)構(gòu)突出顯示了非偶然的形狀屬性。這是視覺目標識別中的一個難題,可以通過數(shù)據(jù)本身的結(jié)構(gòu)來解決。
幼兒成長和機器學習之間的互相借鑒
嬰幼兒的視覺環(huán)境會隨著發(fā)展而變化,他們會將不同的學習任務(wù)進行分類和排序,這樣以后的學習就可以建立在之前在不同領(lǐng)域?qū)W習的基礎(chǔ)上。在每個領(lǐng)域中,訓練集集中于有限樣本的個人實體—— 2 到 3 個人的臉,一個小的普遍的對象集,一個對象的多個視圖——但這些經(jīng)驗構(gòu)建了如何識別和了解許多不同種類的東西的通用知識。這不是從有限的數(shù)據(jù)中學習的情況;數(shù)據(jù)是巨大的——關(guān)于你母親的臉,關(guān)于你的吸嘴杯的所有視圖。這些訓練集的整體結(jié)構(gòu)與計算機視覺中常用的訓練集有很大的不同。它們能成為更強大的機器學習的下一個進步的一部分嗎?
機器學習沒有采用發(fā)展的多階段方法進行訓練,但已經(jīng)取得了巨大的進步。有爭議的是,不需要這種輔導和結(jié)構(gòu)化課程的學習機是否更強大。事實上,使用有序訓練集(Rumelhart and McClelland, 1986)并在學習過程中增加難度的連接主義語言發(fā)展理論被強烈批評為作弊(Pinker and Prince, 1988)。但是,被批評的觀點從發(fā)展的角度看是正確的(Elman, 1993)。目前有一些機器學習方法(例如課程學習和迭代教學)試圖通過有序和結(jié)構(gòu)化的訓練集來優(yōu)化學習(例如Bengio et al., 2009;Krueger and Dayan, 2009)。這些努力并沒有過多地擔心嬰兒自然學習環(huán)境中的結(jié)構(gòu);這可能是人類和機器學習的有益結(jié)合。然而,嬰幼兒學習的數(shù)據(jù)不僅是在發(fā)展過程中有序排列的,而且是由學習者自己的活動實時動態(tài)構(gòu)建的。輸入在任何時刻都取決于學習者的當前狀態(tài),并且會隨著學習者內(nèi)部系統(tǒng)作為學習功能的變化而實時變化。這樣,在任何時間點提供的信息可能是最適合當前學習狀態(tài)的,在正確的時間提供正確的信息。目前機器學習的一種相關(guān)方法是在學習過程中對深度網(wǎng)絡(luò)中的注意力進行訓練,使選擇的學習數(shù)據(jù)隨著學習的變化而變化(Mnih et al., 2014;Gregor et al., 2015)。另一種方法是在學習過程中利用好奇心將注意力轉(zhuǎn)移到新的學習問題上(Oudeyer, 2004;Houthooft et al., 2016; 參見Kidd and Hayden, 2015)。我們?nèi)绾螌l(fā)展洞察力融入機器學習?Ritter et al. (2017)以機器學習者為研究對象的「認知心理學」實驗,研究了機器學習者如何從緩慢漸進的學習者成長為具有兒童所表現(xiàn)出的形狀偏向的「一次性」學習者。這些實驗可以操縱結(jié)構(gòu)的訓練集(見Liu et al., 2017)以及算法。這些算法用于理解早期學習如何限制后期學習,以及一點點的學習如何泛化,大量的學習對比很多事情卻只學一點。
當然,沒有人能保證,通過追求這些理念,機器學習者就能建立強大的算法,贏得當前的競爭。但是,這樣的努力似乎肯定會產(chǎn)生新的學習原則。這些原則——以算法形式表達——將構(gòu)成理解人類學習和智力的一大進步。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4777瀏覽量
100988 -
人工智能
+關(guān)注
關(guān)注
1793文章
47539瀏覽量
239391 -
視覺識別
+關(guān)注
關(guān)注
3文章
89瀏覽量
16770
原文標題:機器學習如何借鑒人類的視覺識別學習?讓我們從嬰幼兒的視覺學習說起
文章出處:【微信號:AItists,微信公眾號:人工智能學家】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論