準(zhǔn)備好開始AI了嗎?可能你已經(jīng)開始了在機(jī)器學(xué)習(xí)領(lǐng)域的實(shí)踐學(xué)習(xí),但是依然想要擴(kuò)展你的知識(shí)并進(jìn)一步了解那些你聽過卻沒有時(shí)間了解的話題。
這些機(jī)器學(xué)習(xí)的專業(yè)術(shù)語能夠簡要地介紹最重要的機(jī)器學(xué)習(xí)概念—包括商業(yè)界和科技界都感興趣的話題。在你遇到一位AI指導(dǎo)者之前,這是一份不詳盡,但清楚易懂又方便在工作、面試前快速瀏覽的內(nèi)容。
1 自然語言處理
自然語言處理對(duì)于許多機(jī)器學(xué)習(xí)方法來說是一個(gè)常用的概念,它使得計(jì)算機(jī)理解并使用人所讀或所寫的語言來執(zhí)行操作成為了可能。
自然語言處理最重要的最有用的實(shí)例:
① 文本分類和排序這項(xiàng)任務(wù)的目標(biāo)是對(duì)一個(gè)文本進(jìn)行預(yù)測標(biāo)簽(類別)或?qū)α斜碇邢嚓P(guān)聯(lián)的文本進(jìn)行排序。它能夠用于過濾垃圾郵件(預(yù)測一封電子郵件是否是垃圾郵件),或進(jìn)行文本內(nèi)容分類(從網(wǎng)絡(luò)上篩選出那些與你的競爭者相關(guān)的文章)。
② 情感分析句子分析是為了確定一個(gè)人對(duì)某個(gè)主題的看法或情感反應(yīng),如正面或負(fù)面情緒,生氣,諷刺等。它廣泛應(yīng)用于用戶滿意度調(diào)查(如對(duì)產(chǎn)品的評(píng)論進(jìn)行分析)。
③ 文件摘要文件摘要是用一些方法來得到長文本(如文檔,研究論文)短且達(dá)意的描述。對(duì)自然語言處理方向感興趣嗎?
④ 命名實(shí)體識(shí)別命名實(shí)體識(shí)別算法是用于處理一系列雜亂的文本并識(shí)別目標(biāo)(實(shí)體)預(yù)定義的類別,如人,公司名稱,日期,價(jià)格,標(biāo)題等等。它能夠?qū)㈦s亂的文本信息轉(zhuǎn)換成規(guī)則的類表的格式,來實(shí)現(xiàn)文本的快速分析。
⑤ 語音識(shí)別語音識(shí)別技術(shù)是用于得到人所講的一段語音信號(hào)的文本表達(dá)。你可能聽說過Siri助手?這就是語音識(shí)別應(yīng)用的一個(gè)最好的例子。
⑥ 自然語言的理解和生成自然語言的理解是通過計(jì)算機(jī),將人類生成的文本轉(zhuǎn)換成更正式的表達(dá)。反過來,自然語言生成技術(shù)是將一些正式又有邏輯性的表達(dá)轉(zhuǎn)換成類人的生成文本。如今,自然語言理解和生成主要用于聊天機(jī)器人和報(bào)告的自動(dòng)生成。
從概念上來說,它與實(shí)體命名識(shí)別任務(wù)是相反的。
⑦ 機(jī)器翻譯機(jī)器翻譯是將一段文本或語音自動(dòng)從一種語言翻譯成另一種語言的一項(xiàng)任務(wù)。
2 數(shù)據(jù)庫
數(shù)據(jù)庫是機(jī)器學(xué)習(xí)一個(gè)必要的組成部分。如果你想構(gòu)建一個(gè)機(jī)器學(xué)習(xí)系統(tǒng),你要么可以從公眾資源中得到數(shù)據(jù),要么需要自己收集數(shù)據(jù)。所有的用于構(gòu)建和測試機(jī)器學(xué)習(xí)模型的數(shù)據(jù)集合成為數(shù)據(jù)庫?;旧?,數(shù)據(jù)科學(xué)家會(huì)將數(shù)據(jù)劃分為三個(gè)部分:
訓(xùn)練數(shù)據(jù):訓(xùn)練數(shù)據(jù)是用于訓(xùn)練模型。這意味著機(jī)器學(xué)習(xí)模型需要認(rèn)識(shí)并通過學(xué)習(xí)得到數(shù)據(jù)的模式以及確定預(yù)測過程中最重要的數(shù)據(jù)特征。
驗(yàn)證數(shù)據(jù):驗(yàn)證數(shù)據(jù)是用于微調(diào)模型參數(shù)和比較不同模型來確定最優(yōu)的模型。驗(yàn)證數(shù)據(jù)應(yīng)該不同于訓(xùn)練數(shù)據(jù),且不能用于訓(xùn)練階段。否則,模型將出現(xiàn)過擬合現(xiàn)象,且對(duì)新的數(shù)據(jù)泛化不佳。
測試數(shù)據(jù):這看起來似乎有些單調(diào),但這通常是第三個(gè)也是最后的測試集(經(jīng)常也被稱為對(duì)抗數(shù)據(jù))。一旦最終的模型確定,它就用于測試模型在從未見過的數(shù)據(jù)集上的表現(xiàn),如這些數(shù)據(jù)從未在構(gòu)建模型或確定模型時(shí)使用過。
圖像:混合使用t-SNE和Jonker-Volgenant算法得到的MNIST數(shù)據(jù)庫的可視化結(jié)果。T-SNE是一種廣泛使用的降維算法,通過壓縮數(shù)據(jù)的表達(dá)來得到更好的可視化和進(jìn)一步處理。
計(jì)算機(jī)視覺是一個(gè)專注于分析并深層次理解圖像和視頻數(shù)據(jù)的人工智能領(lǐng)域。計(jì)算機(jī)視覺領(lǐng)域最常見的問題包括:
① 圖像分類圖像分類是教模型去識(shí)別給定的圖像的一種計(jì)算機(jī)視覺任務(wù)。例如,訓(xùn)練一個(gè)模型去識(shí)別公共場景下的多個(gè)物體(這可以應(yīng)用于自動(dòng)駕駛)。
② 目標(biāo)檢測目標(biāo)檢測是教模型從一系列預(yù)定義的類別中檢測出某一類別的實(shí)例,并用矩形框框注出來的一種計(jì)算機(jī)視覺任務(wù)。例如,利用目標(biāo)檢測來構(gòu)建人臉識(shí)別系統(tǒng)。模型可以在圖片中檢測出每張臉并畫出對(duì)應(yīng)的矩形框(順便說下,圖像分類系統(tǒng)只能識(shí)別出一張圖片中是否有臉的存在,而不能檢測出臉的位置,而目標(biāo)檢測系統(tǒng)就可以)。
③ 圖像分割圖像分割是訓(xùn)練模型去標(biāo)注類的每一個(gè)像素值,并能大致確定給定像素所屬的預(yù)定義類別的一種計(jì)算機(jī)視覺任務(wù)。
顯著性檢測
顯著性檢測是訓(xùn)練模型產(chǎn)生最顯著區(qū)域的一種計(jì)算機(jī)視覺任務(wù)。這可以用于確定視頻中廣告牌的位置。
4 監(jiān)督學(xué)習(xí)
監(jiān)督學(xué)習(xí)是用實(shí)例來教模型學(xué)習(xí)的一類機(jī)器學(xué)習(xí)模型集合。這意味著用于監(jiān)督學(xué)習(xí)任務(wù)的數(shù)據(jù)需要被標(biāo)注(指定正確的,真實(shí)類別)。例如,如果我們想要構(gòu)建一個(gè)機(jī)器學(xué)習(xí)模型用于識(shí)別一個(gè)給定的文本是否被標(biāo)記過的,我們需要給模型提供一個(gè)標(biāo)記過的樣本集 (文本+信息,是否該文本被標(biāo)記過)。給定一個(gè)新的,未見過的例子,模型能夠預(yù)測它的目標(biāo),例如,規(guī)定樣本的標(biāo)簽,1表示標(biāo)記過的而0表示未標(biāo)記的。
5 無監(jiān)督學(xué)習(xí)
相比于監(jiān)督學(xué)習(xí),無監(jiān)督學(xué)習(xí)模型是通過觀察來進(jìn)行自我學(xué)習(xí)。算法所用的數(shù)據(jù)是未標(biāo)記過的(即提供給算法的是沒有真實(shí)標(biāo)簽值的數(shù)據(jù))。無監(jiān)督學(xué)習(xí)模型能夠發(fā)現(xiàn)不同輸入之間的相關(guān)關(guān)系。最重要的無監(jiān)督學(xué)習(xí)技術(shù)是聚類方法。對(duì)于給定的數(shù)據(jù),模型能夠得到輸入的不同聚類(對(duì)于相似的數(shù)據(jù)聚合在同一類中),并能將新的、未見過的輸入歸入到相似的聚類中。
6 強(qiáng)化學(xué)習(xí)
強(qiáng)化學(xué)習(xí)區(qū)別于先前我們提到的那些方法。強(qiáng)化學(xué)習(xí)算法一種“游戲”的過程,其目標(biāo)是最大化 “游戲獎(jiǎng)勵(lì)”。該算法通過反復(fù)的實(shí)驗(yàn)來嘗試確定不同的 “走法”,并查看哪種方式能夠最大化 “游戲收益”
最廣為人知的強(qiáng)化學(xué)習(xí)例子就是教計(jì)算機(jī)來解決魔方問題或下象棋,但是強(qiáng)化學(xué)習(xí)能解決的問題不僅只有游戲。最近,強(qiáng)化學(xué)習(xí)大量地應(yīng)用于實(shí)時(shí)競價(jià),其模型負(fù)責(zé)為一個(gè)廣告競拍價(jià)格而它的報(bào)酬是用戶的轉(zhuǎn)換率。
想要學(xué)習(xí)人工智能在實(shí)時(shí)競價(jià)和程序化廣告中的應(yīng)用嗎?
神經(jīng)網(wǎng)絡(luò)是一個(gè)非常廣泛的機(jī)器學(xué)習(xí)模型集合。它的主要思想是模擬人類大腦的行為來處理數(shù)據(jù)。就像大腦中真實(shí)神經(jīng)元之間相互連接形成的網(wǎng)絡(luò)一樣,人工神經(jīng)網(wǎng)絡(luò)由多層組成。每層都是一系列神經(jīng)元的集合,這些神經(jīng)元負(fù)責(zé)檢測不同的食物。一個(gè)神經(jīng)網(wǎng)絡(luò)能夠連續(xù)地處理數(shù)據(jù),這意味著只有第一層才與輸入直接相連,隨著模型層數(shù)的增加,模型將學(xué)到越來越復(fù)雜的數(shù)據(jù)結(jié)構(gòu)。當(dāng)層數(shù)大量地增加,模型通常就是一個(gè)所謂的深度學(xué)習(xí)模型。很難給一個(gè)深度網(wǎng)絡(luò)確定一個(gè)特定的網(wǎng)絡(luò)層數(shù),10年前通常3層神經(jīng)網(wǎng)絡(luò)就可謂深,而如今通常需要20層。
神經(jīng)網(wǎng)絡(luò)有許許多多不同的變體,最常用的是:
? 卷積神經(jīng)網(wǎng)絡(luò)—它給計(jì)算機(jī)視覺任務(wù)帶來了巨大的突破(而如今,它同樣對(duì)于解決自然語言處理問題有很大幫助)。
? 循環(huán)神經(jīng)網(wǎng)絡(luò)—被設(shè)計(jì)為處理具有序列特征的數(shù)據(jù),如文本或股票票價(jià)。這是個(gè)相對(duì)古老的神經(jīng)網(wǎng)絡(luò),但隨著過去20年現(xiàn)代計(jì)算機(jī)計(jì)算能力的突飛猛進(jìn),使得它的訓(xùn)練變得容易并在很多時(shí)候得以應(yīng)用。
? 全連接神經(jīng)網(wǎng)絡(luò)—這是處理靜態(tài)/表格式數(shù)據(jù)最簡單的模型。
8 過擬合
當(dāng)模型從不充分的數(shù)據(jù)中學(xué)習(xí)會(huì)產(chǎn)生偏差,這對(duì)模型會(huì)有負(fù)面的影響。這是個(gè)很常見,也很重要的問題。
當(dāng)你在不同的時(shí)間進(jìn)入一個(gè)面包坊,而每一次所剩下的蛋糕都沒有你喜歡的,那么你可能會(huì)對(duì)這個(gè)面包坊失望,即使有很多其他的顧客可能會(huì)對(duì)剩下的蛋糕滿意。如果你是個(gè)機(jī)器學(xué)習(xí)模型,可以說你對(duì)這一小數(shù)量樣本產(chǎn)生了過擬合現(xiàn)象—要構(gòu)建一個(gè)具有偏置量的模型,其得到的表示才不會(huì)過度擬合真實(shí)數(shù)據(jù)。
當(dāng)過擬合現(xiàn)象發(fā)生,它通常意味著模型將隨機(jī)噪聲當(dāng)作數(shù)據(jù),并作為一個(gè)重要的信號(hào)去擬合它,這就是為什么模型在新數(shù)據(jù)上的表現(xiàn)會(huì)出現(xiàn)退化(噪聲也有差異)。這在一些非常復(fù)雜的模型如神經(jīng)網(wǎng)絡(luò)或加速梯度模型上是很常見的。
想象構(gòu)建一個(gè)模型來檢測文章中出現(xiàn)的有關(guān)奧運(yùn)的特定體育項(xiàng)目。由于所用的訓(xùn)練集與文章是由偏差的,模型可能學(xué)習(xí)到諸如 “奧運(yùn)”這樣詞的特征,而無法檢測到那些未包含該詞的文章。
-
AI
+關(guān)注
關(guān)注
87文章
30898瀏覽量
269132 -
數(shù)據(jù)庫
+關(guān)注
關(guān)注
7文章
3800瀏覽量
64402 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8418瀏覽量
132655 -
自然語言
+關(guān)注
關(guān)注
1文章
288瀏覽量
13351
原文標(biāo)題:先搞懂這八大基礎(chǔ)概念,再談機(jī)器學(xué)習(xí)入門!
文章出處:【微信號(hào):Imgtec,微信公眾號(hào):Imagination Tech】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論