0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

人工智能如何處理數(shù)據(jù)?長期共存的方式大概有兩種

OaXG_jingzhengl ? 來源:未知 ? 作者:李倩 ? 2018-07-12 15:26 ? 次閱讀

人工智能如何處理數(shù)據(jù)?如果把重點(diǎn)放在數(shù)據(jù)的處理方式上,那么長期共存的方式大概有兩種:

特征學(xué)習(xí)(feature learning),又叫表示學(xué)習(xí)(representation learning)或者表征學(xué)習(xí) 。

特征工程(feature engineering),主要指對于數(shù)據(jù)的人為處理提取,有時(shí)候也代指“洗數(shù)據(jù)” 。

不難看出,兩者的主要區(qū)別在于前者是“學(xué)習(xí)的過程”,而后者被認(rèn)為是一門“人為的工程”。用更加白話的方式來說,特征學(xué)習(xí)是從數(shù)據(jù)中自動(dòng)抽取特征或者表示的方法,這個(gè)學(xué)習(xí)過程是模型自主的。而特征工程的過程是人為的對數(shù)據(jù)進(jìn)行處理,得到我們認(rèn)為的、適合后續(xù)模型使用的樣式。

舉個(gè)簡單的例子,深度學(xué)習(xí)就是一種表示學(xué)習(xí),其學(xué)習(xí)過程是一種對于有效特征的抽取過程。有用的特征在層層學(xué)習(xí)后抽取了出來,最終交給了后面的分類層進(jìn)行預(yù)測。

一種比較不嚴(yán)謹(jǐn)?shù)庇^的理解可以是,假設(shè)一個(gè)n層的深度學(xué)習(xí)網(wǎng)絡(luò),那么輸入數(shù)據(jù)在被網(wǎng)絡(luò)逐層抽象化,靠前的層(1~k)學(xué)到了低階特征(low level features),中間層(k+1~m)學(xué)到了中階特征(middle level features),而靠后的層上(m+1~n-1)特征達(dá)到了高度的抽象化獲得了高階特征(high level features),最終高度的抽象化的特征被應(yīng)用于分類層(n)上,從而得到了良好的分類結(jié)果。

一個(gè)常用例子是說卷積網(wǎng)絡(luò)的前面幾層可以學(xué)到“邊的概念”,之后學(xué)到了“角的概念”,并逐步學(xué)到了更加抽象復(fù)雜的如“圖形的概念”。

下圖就給出了一個(gè)直觀的例子,即圖像經(jīng)過深度網(wǎng)絡(luò)學(xué)習(xí)后得到了高度抽象的有效特征,從而作為預(yù)測層的輸入數(shù)據(jù),并最終預(yù)測目標(biāo)是一只貓。

另一個(gè)常見的例子就是下圖中,深度信念網(wǎng)絡(luò)(deep belief network)通過堆疊的受限玻爾茲曼機(jī)(Stacked RBM)來學(xué)習(xí)特征,和cnn不同這個(gè)過程是無監(jiān)督的。將RBF堆疊的原因就是將底層RBF學(xué)到的特征逐漸傳遞的上層的RBF上,逐漸抽取復(fù)雜的特征。比如下圖從左到右就可以是低層RBF學(xué)到的特征到高層RBF學(xué)到的復(fù)雜特征。在得到這些良好的特征后就可以傳入后端的傳統(tǒng)神經(jīng)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)。

換個(gè)不嚴(yán)謹(jǐn)?shù)陌自捳f法,深度學(xué)習(xí)的層層網(wǎng)絡(luò)可以從數(shù)據(jù)中自動(dòng)學(xué)習(xí)到有用的、高度抽象的特征,而最終目的是為了幫助分類層做出良好的預(yù)測。而深度學(xué)習(xí)為什么效果好?大概和它能夠有效的抽取到特征脫不了關(guān)系。

當(dāng)然,深度學(xué)習(xí)的一大特點(diǎn)是其對數(shù)據(jù)的分布式表示(distributed representation)(*也和稀疏性表示等其他特性有關(guān)),最直觀的例子可以是nlp中的word2vec,每個(gè)單詞不再是割裂的而互相有了關(guān)聯(lián)。類似的,不少網(wǎng)絡(luò)中的參數(shù)共享就是分布式表示,不僅降低了參數(shù)量需求也提高對于數(shù)據(jù)的描述能力。僅看分類層的話,深度學(xué)習(xí)和其他的機(jī)器學(xué)習(xí)似乎沒有天壤之別,但正因?yàn)橛辛朔N種良好的表示學(xué)習(xí)能力使其有了過人之處。

下圖直觀的對比了我們上文提到的兩種特征的學(xué)習(xí)方式,傳統(tǒng)的機(jī)器學(xué)習(xí)方法主要依賴人工特征處理與提取,而深度學(xué)習(xí)依賴模型自身去學(xué)習(xí)數(shù)據(jù)的表示。

綜上,機(jī)器學(xué)習(xí)模型對于數(shù)據(jù)的處理可以被大致歸類到兩個(gè)方向: 表示學(xué)習(xí):模型自動(dòng)對輸入數(shù)據(jù)進(jìn)行學(xué)習(xí),得到更有利于使用的特征(*可能同時(shí)做出了預(yù)測)。

代表的算法大致包括: 深度學(xué)習(xí),包括大部分常見的模型如cnn/rnn/dbn,也包括遷移學(xué)習(xí)等 某些無監(jiān)督學(xué)習(xí)算法,如主成分分析(PCA)通過對數(shù)據(jù)轉(zhuǎn)化而使得輸入數(shù)據(jù)更有意義 某些樹模型可以自動(dòng)的學(xué)習(xí)到數(shù)據(jù)中的特征并同時(shí)作出預(yù)測 特征工程:模型依賴人為處理的數(shù)據(jù)特征,而模型的主要任務(wù)是預(yù)測,比如簡單的線性回歸期待良好的輸入數(shù)據(jù)(如離散化后的數(shù)據(jù)) 需要注意的是,這種歸類方法是不嚴(yán)謹(jǐn)?shù)?,僅為了直觀目的而已。并沒有一種劃分說a算法是表示學(xué)習(xí),而b算法不是,只是為了一種便于理解的劃分。

因此,大部分的模型都處于純粹的表示學(xué)習(xí)和純粹的依賴人工特征之間,程度不同而已,很少有絕對的自動(dòng)學(xué)習(xí)模型。

那么好奇的讀者會(huì)問:

1. 是不是自動(dòng)的特征抽取(表示學(xué)習(xí))總是更好?

答案是不一定的:

在數(shù)據(jù)量不夠的時(shí)候,自動(dòng)特征抽取的方法往往不如人為的特征工程。

當(dāng)使用者對于數(shù)據(jù)和問題有深刻的理解時(shí),人工的特征工程往往效果更好。

一個(gè)極端的例子是,在kaggle比賽中的特征工程總能帶來一些提升,因此人工的特征抽取和處理依然有用武之地。

同時(shí)也值得注意,表示學(xué)習(xí)的另一好處是高度抽象化的特征往往可以被應(yīng)用于相關(guān)的領(lǐng)域上,這也是我們常說的遷移學(xué)習(xí)(transfer learning)的思路。比如有了大量貓的圖片以后,不僅可以用于預(yù)測一個(gè)物體是不是貓,也可以用于將抽取到的特征再運(yùn)用于其他類似的領(lǐng)域從而節(jié)省數(shù)據(jù)開銷。

2. 特征學(xué)習(xí)(表示學(xué)習(xí)),特征工程,特征選擇,維度壓縮之間有什么關(guān)系?

從某個(gè)角度來看,表示學(xué)習(xí)有“嵌入式的特征選擇”(embedded feature selection)的特性,其表示學(xué)習(xí)嵌入到了模型中。

舉個(gè)簡單的例子,決策樹模型在訓(xùn)練過程中可以同時(shí)學(xué)習(xí)到不同特征的重要性,而這個(gè)過程是建模的一部分,是一種嵌入式的特征選擇。

巧合的看,表示學(xué)習(xí)也是一種嵌入表示(embedded representation)。如維度壓縮方法PCA,也是一種將高維數(shù)據(jù)找到合適的低維嵌入的過程,前文提到的word2vec也是另一種“嵌入”。至于這種“嵌入”是否必須是高維到低維,不一定但往往是因?yàn)樘卣鞅怀橄蠡恕R陨咸岬降膬煞N嵌入一種是對于模型的嵌入,一種是在維度上嵌入,主要是名字上的巧合。

3. 理解不同數(shù)據(jù)處理方法對于我們有什么幫助?

首先對于模型選擇有一定的幫助: 當(dāng)我們數(shù)據(jù)量不大,且對于數(shù)據(jù)非常理解時(shí),人為的特征處理也就是特征工程是合適的。比如去掉無關(guān)數(shù)據(jù)、選擇適合的數(shù)據(jù)、合并數(shù)據(jù)、對數(shù)據(jù)做離散化等。 當(dāng)數(shù)據(jù)量較大或者我們的人為先驗(yàn)理解很有限時(shí),可以嘗試表示學(xué)習(xí),如依賴一氣呵成的深度學(xué)習(xí),效果往往不錯(cuò)。

4. 為什么有的模型擁有表示學(xué)習(xí)的能力,而有的沒有?

這個(gè)問題需要分模型討論。以深度學(xué)習(xí)為例,特征學(xué)習(xí)是一種對于模型的理解,并不是唯一的理解,而為什么泛化效果好,還缺乏系統(tǒng)的理論研究。

5. 特征工程指的是對于數(shù)據(jù)的清理,和學(xué)習(xí)有什么關(guān)系?

此處我們想再次強(qiáng)調(diào)的是,這個(gè)不是一個(gè)嚴(yán)謹(jǐn)?shù)目茖W(xué)劃分,是一種直觀的理解。如果所使用的模型擁有對于數(shù)據(jù)的簡化、特征表示和抽取能力,我們都可以認(rèn)為它是有表示學(xué)習(xí)的特性。

至于哪個(gè)模型算,哪個(gè)模型不算,不必糾結(jié)這點(diǎn)。而狹義的特征工程指的是處理缺失值、特征選擇、維度壓縮等各種預(yù)處理手段,而從更大的角度看主要目的是提高數(shù)據(jù)的表示能力。對于數(shù)據(jù)的人為提煉使其有了更好的表達(dá),這其實(shí)是人工的表示學(xué)習(xí)。

寫在最后是,這篇回答僅僅是一種對于機(jī)器學(xué)習(xí)中數(shù)據(jù)處理方法的理解,并不是唯一正確的看法。有鑒于機(jī)器學(xué)習(xí)領(lǐng)域的知識(shí)更迭速度很快,個(gè)人的知識(shí)儲(chǔ)備也有限,僅供參考。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1793

    文章

    47532

    瀏覽量

    239306
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8429

    瀏覽量

    132854
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5511

    瀏覽量

    121355

原文標(biāo)題:人工智能是如何處理數(shù)據(jù)的?

文章出處:【微信號(hào):jingzhenglizixun,微信公眾號(hào):機(jī)器人博覽】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    人工智能是什么?

    海量的數(shù)據(jù)中通過不斷優(yōu)化的算法來組建適合的數(shù)據(jù)群組。單從這一點(diǎn)就可以看出,數(shù)據(jù)的大量積累也是需要經(jīng)過長時(shí)間才能做到的,這也是為什么人工智能領(lǐng)域只有大公司、企業(yè)以及科研機(jī)構(gòu)才能有時(shí)間、
    發(fā)表于 09-16 15:40

    人工智能技術(shù)—AI

      人工智能技術(shù)的概念從出來到現(xiàn)在已經(jīng)很多年的歷史了,其實(shí)所謂的人工智能技術(shù)本身就是一模擬人類大腦的思考方式的一
    發(fā)表于 10-21 12:03

    如何在人工智能機(jī)器人領(lǐng)域應(yīng)用大數(shù)據(jù)?

    這個(gè)事情。簡單來分的話類:一類是機(jī)器人載體,不管是實(shí)體機(jī)器人還是虛擬機(jī)器人;一是云端的人工智能大腦,它是智能的系統(tǒng)和服務(wù)。從層級(jí)、形態(tài)
    發(fā)表于 11-13 16:37

    人工智能事實(shí)上是一生物進(jìn)化歷程的壓縮

    。為了得到相同智能效果,兩種方式通常都可使用。采用前一方法,需要人工詳細(xì)規(guī)定程序邏輯,如果游戲簡單,還是方便的。如果游戲復(fù)雜,角色數(shù)量和活
    發(fā)表于 03-08 10:56

    百度人工智能大神離職,人工智能的出路在哪?

    和專家系統(tǒng)等。不少人都在說,下一波科技浪潮的核心--人工智能。據(jù)《人民日報(bào)》報(bào)道,在剛剛結(jié)束的會(huì)上,人工智能首次出現(xiàn)在***工作報(bào)告中,成為新實(shí)體經(jīng)濟(jì)發(fā)展的最大的動(dòng)力。有數(shù)據(jù)顯示,
    發(fā)表于 03-23 17:00

    人工智能成熱潮,嵌入式如何分杯羹?

    以來,形形色色的人工智能就在我的周圍,我們卻視而不見。為什么會(huì)出現(xiàn)這種現(xiàn)象?則要從個(gè)領(lǐng)域的人工智能說起。所說的人工智能,就是以人工
    發(fā)表于 09-06 18:14

    人工智能就業(yè)前景

    據(jù)相關(guān)招聘機(jī)構(gòu)數(shù)據(jù)顯示,2018年AI領(lǐng)域仍然是大部分資深技術(shù)人才轉(zhuǎn)崗的首選目標(biāo),在人才最緊缺的前十大職位中,時(shí)下最火的大數(shù)據(jù)人工智能、算法類崗位占據(jù)半壁江山。據(jù)調(diào)查指出,2017年技術(shù)研發(fā)類崗位
    發(fā)表于 03-29 15:46

    解讀人工智能的未來

    `已歷經(jīng)60多年的人工智能在物聯(lián)網(wǎng)以及大數(shù)據(jù)的推動(dòng)下,實(shí)現(xiàn)飛躍式的發(fā)展,并且迎來了第三個(gè)黃金周期。必優(yōu)傳感今天和大家解讀一下關(guān)于人工智能的未來。自從
    發(fā)表于 11-14 10:43

    人工智能:超越炒作

    。對于人工智能用例在當(dāng)前物聯(lián)網(wǎng)環(huán)境中變?yōu)楝F(xiàn)實(shí),必須滿足三個(gè)條件:非常大的真實(shí)數(shù)據(jù)集具有重要處理能力的硬件架構(gòu)和環(huán)境開發(fā)新的強(qiáng)大算法和人工神經(jīng)網(wǎng)絡(luò)(ANN)以充分利用上述內(nèi)容很明顯,后
    發(fā)表于 05-29 10:46

    請問IC的型號(hào)大概有多少?

    請問IC的型號(hào)大概有多少?
    發(fā)表于 06-27 01:37

    人工智能改變客戶體驗(yàn)的10方式

    個(gè)性化在當(dāng)今消費(fèi)者的購物場所中發(fā)揮著重要作用,使您有機(jī)會(huì)為客戶改進(jìn)營銷策略?! ?0)數(shù)據(jù)支持的營銷策略  人工智能為您提供了機(jī)器學(xué)習(xí)數(shù)據(jù)分析,以就您的業(yè)務(wù)做出更好的決策。AI通過各種方式
    發(fā)表于 06-19 11:20

    人工智能的應(yīng)用領(lǐng)域哪些?

    ` 本帖最后由 cdhqyj 于 2020-10-23 11:09 編輯 人工智能的應(yīng)用領(lǐng)域哪些?人工智能的定義可以分為部分,即“人工
    發(fā)表于 10-23 11:07

    什么是人工智能、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和自然語言處理?

    領(lǐng)域,包括機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、數(shù)據(jù)挖掘、計(jì)算機(jī)視覺、自然語言處理和其他幾個(gè)學(xué)科。首先,人工智能涉及使計(jì)算機(jī)具有自我意識(shí),利用計(jì)算機(jī)視覺、自然語言理解和模仿其他感官。其次,人工智能涉及模
    發(fā)表于 03-22 11:19

    《移動(dòng)終端人工智能技術(shù)與應(yīng)用開發(fā)》人工智能的發(fā)展與AI技術(shù)的進(jìn)步

    人工智能的發(fā)展是隨著人類生活需要,產(chǎn)業(yè)需求不斷提升的,其中人工智能的發(fā)展很大程度上受到了計(jì)算機(jī)算力的影響,隨著數(shù)據(jù)處理量的增大,人工智能算法對算力的要求逐年增加,而且沒過
    發(fā)表于 02-17 11:00

    5G和WiFi可以做到長期共存

    5G和WiFi長期共存已經(jīng)是一個(gè)不爭的趨勢,開個(gè)玩笑專家有可能是家庭小基站商家的臥底。
    發(fā)表于 11-13 10:46 ?1377次閱讀