什么是機器學(xué)習(xí)?機器學(xué)習(xí)是英文名稱MachineLearning(簡稱ML)的直譯。機器學(xué)習(xí)涉及概率論、統(tǒng)計學(xué)、逼近論、凸分析、算法復(fù)雜度理論等多門學(xué)科。專門研究計算機怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識或技能,重新組織已有的知識結(jié)構(gòu)使之不斷改善自身的性能。它是人工智能的核心,是使計算機具有智能的根本途徑,其應(yīng)用遍及人工智能的各個領(lǐng)域,它主要使用歸納、綜合而不是演繹。相對于傳統(tǒng)的計算機工作,我們給它一串指令,然后它遵照這個指令一步步執(zhí)行下去即可。機器學(xué)習(xí)根本不接受你輸入的指令,相反,它只接受你輸入的數(shù)據(jù)!也就是說它某種意義上具有了我們?nèi)颂幚硎虑榈哪芰Α?/p>
機器學(xué)習(xí)發(fā)展史
機器學(xué)習(xí)是人工智能研究較為年輕的分支,它的發(fā)展過程大體上可分為4個時期。第一階段是在20世紀50年代中葉到60年代中葉,屬于熱烈時期。第二階段是在20世紀60年代中葉至70年代中葉,被稱為機器學(xué)習(xí)的冷靜時期。第三階段是從20世紀70年代中葉至80年代中葉,稱為復(fù)興時期。機器學(xué)習(xí)的最新階段始于1986年。機器學(xué)習(xí)進入新階段的重要表現(xiàn)在下列諸方面:
?。?)機器學(xué)習(xí)已成為新的邊緣學(xué)科并在高校形成一門課程。它綜合應(yīng)用心理學(xué)、生物學(xué)和神經(jīng)生理學(xué)以及數(shù)學(xué)、自動化和計算機科學(xué)形成機器學(xué)習(xí)理論基礎(chǔ)。
(2)結(jié)合各種學(xué)習(xí)方法,取長補短的多種形式的集成學(xué)習(xí)系統(tǒng)研究正在興起。特別是連接學(xué)習(xí)符號學(xué)習(xí)的耦合可以更好地解決連續(xù)性信號處理中知識與技能的獲取與求精問題而受到重視。
?。?)機器學(xué)習(xí)與人工智能各種基礎(chǔ)問題的統(tǒng)一性觀點正在形成。例如學(xué)習(xí)與問題求解結(jié)合進行、知識表達便于學(xué)習(xí)的觀點產(chǎn)生了通用智能系統(tǒng)SOAR的組塊學(xué)習(xí)。類比學(xué)習(xí)與問題求解結(jié)合的基于案例方法已成為經(jīng)驗學(xué)習(xí)的重要方向。
?。?)各種學(xué)習(xí)方法的應(yīng)用范圍不斷擴大,一部分已形成商品。歸納學(xué)習(xí)的知識獲取工具已在診斷分類型專家系統(tǒng)中廣泛使用。連接學(xué)習(xí)在聲圖文識別中占優(yōu)勢。分析學(xué)習(xí)已用于設(shè)計綜合型專家系統(tǒng)。遺傳算法與強化學(xué)習(xí)在工程控制中有較好的應(yīng)用前景。與符號系統(tǒng)耦合的神經(jīng)網(wǎng)絡(luò)連接學(xué)習(xí)將在企業(yè)的智能管理與智能機器人運動規(guī)劃中發(fā)揮作用。(5)與機器學(xué)習(xí)有關(guān)的學(xué)術(shù)活動空前活躍。國際上除每年一次的機器學(xué)習(xí)研討會外,還有計算機學(xué)習(xí)理論會議以及遺傳算法會議。
機器學(xué)習(xí)的范圍
機器學(xué)習(xí)跟模式識別,統(tǒng)計學(xué)習(xí),數(shù)據(jù)挖掘,計算機視覺,語音識別,自然語言處理等領(lǐng)域有著很深的聯(lián)系。從范圍上來說,機器學(xué)習(xí)跟模式識別,統(tǒng)計學(xué)習(xí),數(shù)據(jù)挖掘是類似的,同時,機器學(xué)習(xí)與其他領(lǐng)域的處理技術(shù)的結(jié)合,形成了計算機視覺、語音識別、自然語言處理等交叉學(xué)科。因此,一般說數(shù)據(jù)挖掘時,可以等同于說機器學(xué)習(xí)。同時,我們平常所說的機器學(xué)習(xí)應(yīng)用,應(yīng)該是通用的,不僅僅局限在結(jié)構(gòu)化數(shù)據(jù),還有圖像,音頻等應(yīng)用。
模式識別
模式識別=機器學(xué)習(xí)。兩者的主要區(qū)別在于前者是從工業(yè)界發(fā)展起來的概念,后者則主要源自計算機學(xué)科。在著名的《PatternRecognitionAndMachineLearning》這本書中,ChristopherM.Bishop在開頭是這樣說的“模式識別源自工業(yè)界,而機器學(xué)習(xí)來自于計算機學(xué)科。不過,它們中的活動可以被視為同一個領(lǐng)域的兩個方面,同時在過去的10年間,它們都有了長足的發(fā)展”。
數(shù)據(jù)挖掘
數(shù)據(jù)挖掘=機器學(xué)習(xí)+數(shù)據(jù)庫,記得大學(xué)的最后一學(xué)期開了一門數(shù)據(jù)挖掘的課,何為數(shù)據(jù)挖掘,就是從海量的數(shù)據(jù)中挖掘出有用的數(shù)據(jù),其實從某種意義上來說和大數(shù)據(jù)分析很像。數(shù)據(jù)挖掘通常與計算機科學(xué)有關(guān),并通過統(tǒng)計、在線分析處理、情報檢索、機器學(xué)習(xí)、專家系統(tǒng)(依靠過去的經(jīng)驗法則)和模式識別等諸多方法來實現(xiàn)上述目標。
統(tǒng)計學(xué)習(xí)
統(tǒng)計學(xué)習(xí)近似等于機器學(xué)習(xí)。統(tǒng)計學(xué)習(xí)是個與機器學(xué)習(xí)高度重疊的學(xué)科。因為機器學(xué)習(xí)中的大多數(shù)方法來自統(tǒng)計學(xué),甚至可以認為,統(tǒng)計學(xué)的發(fā)展促進機器學(xué)習(xí)的繁榮昌盛。例如著名的支持向量機算法,就是源自統(tǒng)計學(xué)科。但是在某種程度上兩者是有分別的,這個分別在于:統(tǒng)計學(xué)習(xí)者重點關(guān)注的是統(tǒng)計模型的發(fā)展與優(yōu)化,偏數(shù)學(xué),而機器學(xué)習(xí)者更關(guān)注的是能夠解決問題,偏實踐,因此機器學(xué)習(xí)研究者會重點研究學(xué)習(xí)算法在計算機上執(zhí)行的效率與準確性的提升。
計算機視覺
計算機視覺=圖像處理+機器學(xué)習(xí)。圖像處理技術(shù)用于將圖像處理為適合進入機器學(xué)習(xí)模型中的輸入,機器學(xué)習(xí)則負責(zé)從圖像中識別出相關(guān)的模式。隨著機器學(xué)習(xí)的新領(lǐng)域深度學(xué)習(xí)的發(fā)展,大大促進了計算機圖像識別的效果,因此未來計算機視覺界的發(fā)展前景不可估量。
語音識別
語音識別=語音處理+機器學(xué)習(xí)。語音識別就是音頻處理技術(shù)與機器學(xué)習(xí)的結(jié)合。語音識別技術(shù)一般不會單獨使用,一般會結(jié)合自然語言處理的相關(guān)技術(shù)。目前的相關(guān)應(yīng)用有蘋果的語音助手siri,訊飛等國內(nèi)很多的科技公司和機構(gòu)。
自然語言處理
自然語言處理=文本處理+機器學(xué)習(xí)。自然語言處理技術(shù)主要是讓機器理解人類的語言的一門領(lǐng)域。在自然語言處理技術(shù)中,大量使用了編譯原理相關(guān)的技術(shù),例如詞法分析,語法分析等等,除此之外,在理解這個層面,則使用了語義理解,機器學(xué)習(xí)等技術(shù)。
機器學(xué)習(xí)算法
監(jiān)督式學(xué)習(xí)
監(jiān)督式學(xué)習(xí)算法包括一個目標變量(因變量)和用來預(yù)測目標變量的預(yù)測變量(自變量)。通過這些變量我們可以搭建一個模型,從而對于一個已知的預(yù)測變量值,我們可以得到對應(yīng)的目標變量值。重復(fù)訓(xùn)練這個模型,直到它能在訓(xùn)練數(shù)據(jù)集上達到預(yù)定的準確度。屬于監(jiān)督式學(xué)習(xí)的算法有:回歸模型,決策樹,隨機森林,K鄰近算法,邏輯回歸等。
無監(jiān)督式學(xué)習(xí)
與監(jiān)督式學(xué)習(xí)不同的是,無監(jiān)督學(xué)習(xí)中我們沒有需要預(yù)測或估計的目標變量。無監(jiān)督式學(xué)習(xí)是用來對總體對象進行分類的。它在根據(jù)某一指標將客戶分類上有廣泛應(yīng)用。屬于無監(jiān)督式學(xué)習(xí)的算法有:關(guān)聯(lián)規(guī)則,K-means聚類算法等。
強化學(xué)習(xí)
這個算法可以訓(xùn)練程序做出某一決定。程序在某一情況下嘗試所有的可能行動,記錄不同行動的結(jié)果并試著找出最好的一次嘗試來做決定。屬于這一類算法的有馬爾可夫決策過程。
常見算法
常見的機器學(xué)習(xí)算法以下是最常用的機器學(xué)習(xí)算法,大部分數(shù)據(jù)問題都可以通過它們解決:1.線性回歸(LinearRegression)2.邏輯回歸(LogisticRegression)3.決策樹(DecisionTree)4.支持向量機(SVM)5.樸素貝葉斯(NaiveBayes)6.K鄰近算法(KNN)7.K-均值算法(K-means)8.隨機森林(RandomForest)9.降低維度算法(DimensionalityReductionAlgorithms)10.GradientBoost和Adaboost算法
機器學(xué)習(xí)分類
基于學(xué)習(xí)策略的分類
學(xué)習(xí)策略是指學(xué)習(xí)過程中系統(tǒng)所采用的推理策略。一個學(xué)習(xí)系統(tǒng)總是由學(xué)習(xí)和環(huán)境兩部分組成。由環(huán)境(如書本或教師)提供信息,學(xué)習(xí)部分則實現(xiàn)信息轉(zhuǎn)換,用能夠理解的形式記憶下來,并從中獲取有用的信息。在學(xué)習(xí)過程中,學(xué)生(學(xué)習(xí)部分)使用的推理越少,他對教師(環(huán)境)的依賴就越大,教師的負擔(dān)也就越重。學(xué)習(xí)策略的分類標準就是根據(jù)學(xué)生實現(xiàn)信息轉(zhuǎn)換所需的推理多少和難易程度來分類的,依從簡單到復(fù)雜,從少到多的次序分為以下六種基本類型:
1)機械學(xué)習(xí)(Rotelearning)
學(xué)習(xí)者無需任何推理或其它的知識轉(zhuǎn)換,直接吸取環(huán)境所提供的信息。如塞繆爾的跳棋程序,紐厄爾和西蒙的LT系統(tǒng)。這類學(xué)習(xí)系統(tǒng)主要考慮的是如何索引存貯的知識并加以利用。系統(tǒng)的學(xué)習(xí)方法是直接通過事先編好、構(gòu)造好的程序來學(xué)習(xí),學(xué)習(xí)者不作任何工作,或者是通過直接接收既定的事實和數(shù)據(jù)進行學(xué)習(xí),對輸入信息不作任何的推理。
2)示教學(xué)習(xí)(Learningfrominstruction或Learningbybeingtold)
學(xué)生從環(huán)境(教師或其它信息源如教科書等)獲取信息,把知識轉(zhuǎn)換成內(nèi)部可使用的表示形式,并將新的知識和原有知識有機地結(jié)合為一體。所以要求學(xué)生有一定程度的推理能力,但環(huán)境仍要做大量的工作。教師以某種形式提出和組織知識,以使學(xué)生擁有的知識可以不斷地增加。這種學(xué)習(xí)方法和人類社會的學(xué)校教學(xué)方式相似,學(xué)習(xí)的任務(wù)就是建立一個系統(tǒng),使它能接受教導(dǎo)和建議,并有效地存貯和應(yīng)用學(xué)到的知識。不少專家系統(tǒng)在建立知識庫時使用這種方法去實現(xiàn)知識獲取。示教學(xué)習(xí)的一個典型應(yīng)用例是FOO程序。
3)演繹學(xué)習(xí)(Learningbydeduction)
學(xué)生所用的推理形式為演繹推理。推理從公理出發(fā),經(jīng)過邏輯變換推導(dǎo)出結(jié)論。這種推理是“保真”變換和特化(specialization)的過程,使學(xué)生在推理過程中可以獲取有用的知識。這種學(xué)習(xí)方法包含宏操作(macro-operation)學(xué)習(xí)、知識編輯和組塊(Chunking)技術(shù)。演繹推理的逆過程是歸納推理。
4)類比學(xué)習(xí)(Learningbyanalogy)
利用二個不同領(lǐng)域(源域、目標域)中的知識相似性,可以通過類比,從源域的知識(包括相似的特征和其它性質(zhì))推導(dǎo)出目標域的相應(yīng)知識,從而實現(xiàn)學(xué)習(xí)。類比學(xué)習(xí)系統(tǒng)可以使一個已有的計算機應(yīng)用系統(tǒng)轉(zhuǎn)變?yōu)檫m應(yīng)于新的領(lǐng)域,來完成原先沒有設(shè)計的相類似的功能。類比學(xué)習(xí)需要比上述三種學(xué)習(xí)方式更多的推理。它一般要求先從知識源(源域)中檢索出可用的知識,再將其轉(zhuǎn)換成新的形式,用到新的狀況(目標域)中去。類比學(xué)習(xí)在人類科學(xué)技術(shù)發(fā)展史上起著重要作用,許多科學(xué)發(fā)現(xiàn)就是通過類比得到的。例如著名的盧瑟福類比就是通過將原子結(jié)構(gòu)(目標域)同太陽系(源域)作類比,揭示了原子結(jié)構(gòu)的奧秘。
5)基于解釋的學(xué)習(xí)(Explanation-basedlearning,EBL)
學(xué)生根據(jù)教師提供的目標概念、該概念的一個例子、領(lǐng)域理論及可操作準則,首先構(gòu)造一個解釋來說明為什該例子滿足目標概念,然后將解釋推廣為目標概念的一個滿足可操作準則的充分條件。EBL已被廣泛應(yīng)用于知識庫求精和改善系統(tǒng)的性能。著名的EBL系統(tǒng)有迪喬恩(G.DeJong)的GENESIS,米切爾(T.Mitchell)的LEXII和LEAP,以及明頓(S.Minton)等的PRODIGY。
6)歸納學(xué)習(xí)(Learningfrominduction)
歸納學(xué)習(xí)是由教師或環(huán)境提供某概念的一些實例或反例,讓學(xué)生通過歸納推理得出該概念的一般描述。這種學(xué)習(xí)的推理工作量遠多于示教學(xué)習(xí)和演繹學(xué)習(xí),因為環(huán)境并不提供一般性概念描述(如公理)。從某種程度上說,歸納學(xué)習(xí)的推理量也比類比學(xué)習(xí)大,因為沒有一個類似的概念可以作為“源概念”加以取用。歸納學(xué)習(xí)是最基本的,發(fā)展也較為成熟的學(xué)習(xí)方法,在人工智能領(lǐng)域中已經(jīng)得到廣泛的研究和應(yīng)用。
基于所獲取知識的表示形式分類
學(xué)習(xí)系統(tǒng)獲取的知識可能有:行為規(guī)則、物理對象的描述、問題求解策略、各種分類及其它用于任務(wù)實現(xiàn)的知識類型。對于學(xué)習(xí)中獲取的知識,主要有以下一些表示形式:
1)代數(shù)表達式參數(shù)
學(xué)習(xí)的目標是調(diào)節(jié)一個固定函數(shù)形式的代數(shù)表達式參數(shù)或系數(shù)來達到一個理想的性能。
2)決策樹
用決策樹來劃分物體的類屬,樹中每一內(nèi)部節(jié)點對應(yīng)一個物體屬性,而每一邊對應(yīng)于這些屬性的可選值,樹的葉節(jié)點則對應(yīng)于物體的每個基本分類。
3)形式文法
在識別一個特定語言的學(xué)習(xí)中,通過對該語言的一系列表達式進行歸納,形成該語言的形式文法。
4)產(chǎn)生式規(guī)則
產(chǎn)生式規(guī)則表示為條件—動作對,已被極為廣泛地使用。學(xué)習(xí)系統(tǒng)中的學(xué)習(xí)行為主要是:生成、泛化、特化(Specialization)或合成產(chǎn)生式規(guī)則。
5)形式邏輯表達式
形式邏輯表達式的基本成分是命題、謂詞、變量、約束變量范圍的語句,及嵌入的邏輯表達式。
6)圖和網(wǎng)絡(luò)
有的系統(tǒng)采用圖匹配和圖轉(zhuǎn)換方案來有效地比較和索引知識。
7)框架和模式(schema)
每個框架包含一組槽,用于描述事物(概念和個體)的各個方面。
8)計算機程序和其它的過程編碼
獲取這種形式的知識,目的在于取得一種能實現(xiàn)特定過程的能力,而不是為了推斷該過程的內(nèi)部結(jié)構(gòu)。
9)神經(jīng)網(wǎng)絡(luò)
這主要用在聯(lián)接學(xué)習(xí)中。學(xué)習(xí)所獲取的知識,最后歸納為一個神經(jīng)網(wǎng)絡(luò)。
10)多種表示形式的組合
根據(jù)表示的精細程度,可將知識表示形式分為兩大類:泛化程度高的粗粒度符號表示、??泛化程度低的精粒度亞符號(sub-symbolic)表示。像決策樹、形式文法、產(chǎn)生式規(guī)則、形式邏輯表達式、框架和模式等屬于符號表示類;而代數(shù)表達式參數(shù)、圖和網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)等則屬亞符號表示類。
按應(yīng)用領(lǐng)域分類
最主要的應(yīng)用領(lǐng)域有:專家系統(tǒng)、認知模擬、規(guī)劃和問題求解、數(shù)據(jù)挖掘、網(wǎng)絡(luò)信息服務(wù)、圖象識別、故障診斷、自然語言理解、機器人和博弈等領(lǐng)域。從機器學(xué)習(xí)的執(zhí)行部分所反映的任務(wù)類型上看,大部分的應(yīng)用研究領(lǐng)域基本上集中于以下兩個范疇:分類和問題求解。(1)分類任務(wù)要求系統(tǒng)依據(jù)已知的分類知識對輸入的未知模式(該模式的描述)作分析,以確定輸入模式的類屬。相應(yīng)的學(xué)習(xí)目標就是學(xué)習(xí)用于分類的準則(如分類規(guī)則)。(2)問題求解任務(wù)要求對于給定的目標狀態(tài),??尋找一個將當(dāng)前狀態(tài)轉(zhuǎn)換為目標狀態(tài)的動作序列;機器學(xué)習(xí)在這一領(lǐng)域的研究工作大部分集中于通過學(xué)習(xí)來獲取能提高問題求解效率的知識(如搜索控制知識,啟發(fā)式知識等)。
綜合分類
1)經(jīng)驗性歸納學(xué)習(xí)(empiricalinductivelearning)
經(jīng)驗性歸納學(xué)習(xí)采用一些數(shù)據(jù)密集的經(jīng)驗方法(如版本空間法、ID3法,定律發(fā)現(xiàn)方法)對例子進行歸納學(xué)習(xí)。其例子和學(xué)習(xí)結(jié)果一般都采用屬性、謂詞、關(guān)系等符號表示。它相當(dāng)于基于學(xué)習(xí)策略分類中的歸納學(xué)習(xí),但扣除聯(lián)接學(xué)習(xí)、遺傳算法、加強學(xué)習(xí)的部分。
2)分析學(xué)習(xí)(analyticlearning)
分析學(xué)習(xí)方法是從一個或少數(shù)幾個實例出發(fā),運用領(lǐng)域知識進行分析。其主要特征為:·推理策略主要是演繹,而非歸納;·使用過去的問題求解經(jīng)驗(實例)指導(dǎo)新的問題求解,或產(chǎn)生能更有效地運用領(lǐng)域知識的搜索控制規(guī)則。分析學(xué)習(xí)的目標是改善系統(tǒng)的性能,而不是新的概念描述。分析學(xué)習(xí)包括應(yīng)用解釋學(xué)習(xí)、演繹學(xué)習(xí)、多級結(jié)構(gòu)組塊以及宏操作學(xué)習(xí)等技術(shù)。
3)類比學(xué)習(xí)
它相當(dāng)于基于學(xué)習(xí)策略分類中的類比學(xué)習(xí)。在這一類型的學(xué)習(xí)中比較引人注目的研究是通過與過去經(jīng)歷的具體事例作類比來學(xué)習(xí),稱為基于范例的學(xué)習(xí)(case_basedlearning),或簡稱范例學(xué)習(xí)。
責(zé)任編輯人:CC
評論
查看更多