接觸機(jī)器學(xué)習(xí)有一年了,是從上張敏老師的課開(kāi)始的。后來(lái)師兄推薦了一本《統(tǒng)計(jì)學(xué)習(xí)理論的本質(zhì)》,還記得第一印象覺(jué)得“統(tǒng)計(jì)”二字很奇怪。之后就漸漸習(xí)以為常了,接觸到的機(jī)器學(xué)習(xí)方法都是基于統(tǒng)計(jì)的,以至于統(tǒng)計(jì)學(xué)習(xí)與機(jī)器學(xué)習(xí)成了一個(gè)概念,以至于最近看了一些東西突然覺(jué)得自己長(zhǎng)見(jiàn)識(shí)了。
與統(tǒng)計(jì)(數(shù)字化)機(jī)器學(xué)習(xí)相對(duì)的,可以叫做符號(hào)(數(shù)學(xué)化、形式化)機(jī)器學(xué)習(xí):統(tǒng)計(jì)學(xué)習(xí)的質(zhì)料是數(shù)字,而它的質(zhì)料是符號(hào);統(tǒng)計(jì)學(xué)習(xí)學(xué)的是模型參數(shù),它學(xué)的是模型結(jié)構(gòu);統(tǒng)計(jì)學(xué)習(xí)的搜索空間是連續(xù)的,它的搜索空間是離散的。常聽(tīng)說(shuō)有基于統(tǒng)計(jì)與基于規(guī)則的區(qū)別,那么符號(hào)機(jī)器學(xué)習(xí)就是要自動(dòng)學(xué)習(xí)那些規(guī)則。如果說(shuō)統(tǒng)計(jì)機(jī)器學(xué)習(xí)是黑箱子,參數(shù)的意義難以解釋,目的只是能夠根據(jù)x輸出合理的y,那么符號(hào)機(jī)器學(xué)習(xí)的目標(biāo)就是能找出人能夠理解的對(duì)象的規(guī)律,讓人能夠直接增加對(duì)事物的認(rèn)識(shí)。
事實(shí)上唯一被保留下來(lái)的符號(hào)機(jī)器學(xué)習(xí)方法就是決策樹(shù)。他學(xué)習(xí)的就是一個(gè)離散表示的樹(shù)的結(jié)構(gòu),其分類(lèi)過(guò)程可以寫(xiě)成命題邏輯的形式,即其結(jié)果是符號(hào)的??梢钥吹揭?yàn)橥瑸闄C(jī)器學(xué)習(xí),所以也有過(guò)學(xué)習(xí)的現(xiàn)象,也有結(jié)構(gòu)風(fēng)險(xiǎn)的概念,也受著奧坎姆剃刀的審視。決策樹(shù)是自頂向下的,而符號(hào)學(xué)習(xí)中的AQ算法就是自低向上的,它期望用盡量少的規(guī)則覆蓋所有正例而不包括負(fù)例(可見(jiàn)其對(duì)噪音更敏感)。
既然有命題邏輯的學(xué)習(xí),就有謂詞邏輯的學(xué)習(xí)。FOIL系統(tǒng)是比較有名的。他可以根據(jù)某一個(gè)家族成員間滿足parent(x,y)的實(shí)例與滿足grandparent(x,y)的實(shí)例,學(xué)習(xí)到grandparent與parent這兩個(gè)謂詞形式上的關(guān)系,這樣的結(jié)果就是人類(lèi)可以理解的知識(shí)——“a是b的grandparent,就是指a是b父母的父母”。
還有個(gè)有趣的叫Bacon的系統(tǒng)。通過(guò)物理實(shí)驗(yàn)數(shù)據(jù),再次發(fā)現(xiàn)了理想氣體方程等物理定律。他與普通的回歸分析不同,因?yàn)槭孪人恢酪獢M合的是什么形式的曲線,方程的形式是他通過(guò)啟發(fā)式搜索得到的。
還有兩個(gè)理論叫粗糙集與概念格。他們的對(duì)象也是樣本與樣本的特征,目標(biāo)也是分類(lèi),跟統(tǒng)計(jì)機(jī)器學(xué)習(xí)完全一樣。他們也是要做“特征選擇”,分出哪些對(duì)分類(lèi)是必須的,哪些是可以用的,哪些是多余的。概念格有意思的地方是他給“概念”了一個(gè)形式化的定義,還包括“外延”與“內(nèi)涵”都形式化了,真是個(gè)模仿真實(shí)情況的模型玩具。之所以是玩具,因?yàn)榇植诩c概念格都太形式化了太漂亮了以至于更難與復(fù)雜的現(xiàn)實(shí)結(jié)合,比如用它來(lái)做人臉識(shí)別簡(jiǎn)直是噩夢(mèng)。不過(guò)我對(duì)他們的了解也不深入,需要更多的考察。
做機(jī)器人腦識(shí)別沒(méi)聽(tīng)說(shuō)用基于規(guī)則推理的,做機(jī)器定理證明也沒(méi)聽(tīng)說(shuō)用基于統(tǒng)計(jì)的。他們一個(gè)是復(fù)雜的現(xiàn)實(shí)對(duì)象,一個(gè)是抽象的符號(hào)對(duì)象。而有趣的是自然語(yǔ)言是介于兩者之間的。
有人說(shuō)學(xué)計(jì)算機(jī)的去單獨(dú)搞生物信息學(xué)很難,必須要一個(gè)生物科班出身的給其專業(yè)知識(shí)方面的指導(dǎo),如同瞎子背瘸子。而計(jì)算語(yǔ)言學(xué)的語(yǔ)言學(xué)門(mén)檻很低,有計(jì)算機(jī)背景的很容易上手。我想符號(hào)學(xué)習(xí)對(duì)統(tǒng)計(jì)學(xué)習(xí)的啟示大概就是如此。如同目前的文本分類(lèi)、分詞的統(tǒng)計(jì)模型,都沒(méi)有使用一點(diǎn)語(yǔ)言學(xué)知識(shí)。svm,crf結(jié)構(gòu)沒(méi)有一點(diǎn)為應(yīng)對(duì)語(yǔ)言問(wèn)題而做出的專門(mén)的改動(dòng)。LDA是一個(gè)啟示,既然統(tǒng)計(jì)學(xué)習(xí)弱于結(jié)構(gòu),我們似乎就應(yīng)該考慮語(yǔ)言的本質(zhì)在模型結(jié)構(gòu)上下功夫,使其更適合語(yǔ)言問(wèn)題。
-
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8490瀏覽量
134022
發(fā)布評(píng)論請(qǐng)先 登錄
寫(xiě)6周AD加強(qiáng)班學(xué)習(xí)心得 免費(fèi)領(lǐng)取鄭振宇原版書(shū)籍!
嵌入式基礎(chǔ)學(xué)習(xí)心得
嵌入式系統(tǒng)開(kāi)發(fā)學(xué)習(xí)心得體會(huì)_經(jīng)驗(yàn)總結(jié)
ARM9入門(mén)學(xué)習(xí)心得分享
嵌入式學(xué)習(xí)心得

單片機(jī)學(xué)習(xí)心得

【學(xué)習(xí)心得】學(xué)習(xí)SDRAM課程體會(huì)

評(píng)論