接觸機(jī)器學(xué)習(xí)有一年了,是從上張敏老師的課開始的。后來師兄推薦了一本《統(tǒng)計(jì)學(xué)習(xí)理論的本質(zhì)》,還記得第一印象覺得“統(tǒng)計(jì)”二字很奇怪。之后就漸漸習(xí)以為常了,接觸到的機(jī)器學(xué)習(xí)方法都是基于統(tǒng)計(jì)的,以至于統(tǒng)計(jì)學(xué)習(xí)與機(jī)器學(xué)習(xí)成了一個(gè)概念,以至于最近看了一些東西突然覺得自己長見識了。
與統(tǒng)計(jì)(數(shù)字化)機(jī)器學(xué)習(xí)相對的,可以叫做符號(數(shù)學(xué)化、形式化)機(jī)器學(xué)習(xí):統(tǒng)計(jì)學(xué)習(xí)的質(zhì)料是數(shù)字,而它的質(zhì)料是符號;統(tǒng)計(jì)學(xué)習(xí)學(xué)的是模型參數(shù),它學(xué)的是模型結(jié)構(gòu);統(tǒng)計(jì)學(xué)習(xí)的搜索空間是連續(xù)的,它的搜索空間是離散的。常聽說有基于統(tǒng)計(jì)與基于規(guī)則的區(qū)別,那么符號機(jī)器學(xué)習(xí)就是要自動(dòng)學(xué)習(xí)那些規(guī)則。如果說統(tǒng)計(jì)機(jī)器學(xué)習(xí)是黑箱子,參數(shù)的意義難以解釋,目的只是能夠根據(jù)x輸出合理的y,那么符號機(jī)器學(xué)習(xí)的目標(biāo)就是能找出人能夠理解的對象的規(guī)律,讓人能夠直接增加對事物的認(rèn)識。
事實(shí)上唯一被保留下來的符號機(jī)器學(xué)習(xí)方法就是決策樹。他學(xué)習(xí)的就是一個(gè)離散表示的樹的結(jié)構(gòu),其分類過程可以寫成命題邏輯的形式,即其結(jié)果是符號的??梢钥吹揭?yàn)橥瑸闄C(jī)器學(xué)習(xí),所以也有過學(xué)習(xí)的現(xiàn)象,也有結(jié)構(gòu)風(fēng)險(xiǎn)的概念,也受著奧坎姆剃刀的審視。決策樹是自頂向下的,而符號學(xué)習(xí)中的AQ算法就是自低向上的,它期望用盡量少的規(guī)則覆蓋所有正例而不包括負(fù)例(可見其對噪音更敏感)。
既然有命題邏輯的學(xué)習(xí),就有謂詞邏輯的學(xué)習(xí)。FOIL系統(tǒng)是比較有名的。他可以根據(jù)某一個(gè)家族成員間滿足parent(x,y)的實(shí)例與滿足grandparent(x,y)的實(shí)例,學(xué)習(xí)到grandparent與parent這兩個(gè)謂詞形式上的關(guān)系,這樣的結(jié)果就是人類可以理解的知識——“a是b的grandparent,就是指a是b父母的父母”。
還有個(gè)有趣的叫Bacon的系統(tǒng)。通過物理實(shí)驗(yàn)數(shù)據(jù),再次發(fā)現(xiàn)了理想氣體方程等物理定律。他與普通的回歸分析不同,因?yàn)槭孪人恢酪獢M合的是什么形式的曲線,方程的形式是他通過啟發(fā)式搜索得到的。
還有兩個(gè)理論叫粗糙集與概念格。他們的對象也是樣本與樣本的特征,目標(biāo)也是分類,跟統(tǒng)計(jì)機(jī)器學(xué)習(xí)完全一樣。他們也是要做“特征選擇”,分出哪些對分類是必須的,哪些是可以用的,哪些是多余的。概念格有意思的地方是他給“概念”了一個(gè)形式化的定義,還包括“外延”與“內(nèi)涵”都形式化了,真是個(gè)模仿真實(shí)情況的模型玩具。之所以是玩具,因?yàn)榇植诩c概念格都太形式化了太漂亮了以至于更難與復(fù)雜的現(xiàn)實(shí)結(jié)合,比如用它來做人臉識別簡直是噩夢。不過我對他們的了解也不深入,需要更多的考察。
做機(jī)器人腦識別沒聽說用基于規(guī)則推理的,做機(jī)器定理證明也沒聽說用基于統(tǒng)計(jì)的。他們一個(gè)是復(fù)雜的現(xiàn)實(shí)對象,一個(gè)是抽象的符號對象。而有趣的是自然語言是介于兩者之間的。
有人說學(xué)計(jì)算機(jī)的去單獨(dú)搞生物信息學(xué)很難,必須要一個(gè)生物科班出身的給其專業(yè)知識方面的指導(dǎo),如同瞎子背瘸子。而計(jì)算語言學(xué)的語言學(xué)門檻很低,有計(jì)算機(jī)背景的很容易上手。我想符號學(xué)習(xí)對統(tǒng)計(jì)學(xué)習(xí)的啟示大概就是如此。如同目前的文本分類、分詞的統(tǒng)計(jì)模型,都沒有使用一點(diǎn)語言學(xué)知識。svm,crf結(jié)構(gòu)沒有一點(diǎn)為應(yīng)對語言問題而做出的專門的改動(dòng)。LDA是一個(gè)啟示,既然統(tǒng)計(jì)學(xué)習(xí)弱于結(jié)構(gòu),我們似乎就應(yīng)該考慮語言的本質(zhì)在模型結(jié)構(gòu)上下功夫,使其更適合語言問題。
-
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8418瀏覽量
132630
發(fā)布評論請先 登錄
相關(guān)推薦
評論