0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

模型訓(xùn)練擬合的分類和表現(xiàn)

電子設(shè)計(jì) ? 來(lái)源:電子設(shè)計(jì) ? 作者:電子設(shè)計(jì) ? 2022-02-12 15:49 ? 次閱讀

在進(jìn)行數(shù)據(jù)挖掘或者機(jī)器學(xué)習(xí)模型建立的時(shí)候,因?yàn)樵诮y(tǒng)計(jì)學(xué)習(xí)中,假設(shè)數(shù)據(jù)滿足獨(dú)立同分布(i.i.d,independently and identically distributed),即當(dāng)前已產(chǎn)生的數(shù)據(jù)可以對(duì)未來(lái)的數(shù)據(jù)進(jìn)行推測(cè)與模擬,因此都是使用歷史數(shù)據(jù)建立模型,即使用已經(jīng)產(chǎn)生的數(shù)據(jù)去訓(xùn)練,然后使用該模型去擬合未來(lái)的數(shù)據(jù)。 在我們機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的訓(xùn)練過(guò)程中,經(jīng)常會(huì)出現(xiàn)過(guò)擬合和欠擬合的現(xiàn)象。訓(xùn)練一開(kāi)始,模型通常會(huì)欠擬合,所以會(huì)對(duì)模型進(jìn)行優(yōu)化,然而等到訓(xùn)練到一定程度的時(shí)候,就需要解決過(guò)擬合的問(wèn)題了。

一、模型訓(xùn)練擬合的分類和表現(xiàn)

如何判斷過(guò)擬合呢?我們?cè)谟?xùn)練過(guò)程中會(huì)定義訓(xùn)練誤差,驗(yàn)證集誤差,測(cè)試集誤差(泛化誤差)。訓(xùn)練誤差總是減少的,而泛化誤差一開(kāi)始會(huì)減少,但到一定程序后不減反而增加,這時(shí)候便出現(xiàn)了過(guò)擬合的現(xiàn)象。

如下圖所示,從直觀上理解,欠擬合就是還沒(méi)有學(xué)習(xí)到數(shù)據(jù)的特征,還有待繼續(xù)學(xué)習(xí),而過(guò)擬合則是學(xué)習(xí)進(jìn)行的太徹底,以至于把數(shù)據(jù)的一些局部特征或者噪聲帶來(lái)的特征都給學(xué)到了,所以在進(jìn)行測(cè)試的時(shí)候泛化誤差也不佳。

o4YBAGAIdCKAMtFRAACEPgMcu6w711.png

從方差和偏差的角度來(lái)說(shuō),欠擬合就是在訓(xùn)練集上高方差、高偏差,過(guò)擬合也就是訓(xùn)練集上高方差、低偏差。為了更加生動(dòng)形象的表示,我們看一些經(jīng)典的圖:

o4YBAGAIdGKAFOVQAAH9BmO4Gh4488.png

對(duì)比這幾個(gè)圖,發(fā)現(xiàn)圖一的擬合并沒(méi)有把大體的規(guī)律給擬合出來(lái),這個(gè)就是欠擬合。圖三則是擬合的太細(xì)致了,用的擬合函數(shù)太復(fù)雜了,在這些數(shù)據(jù)集上的效果很好,但是換到另外的一個(gè)數(shù)據(jù)集效果肯定可預(yù)見(jiàn)的不好。只有圖二是最好的,把數(shù)據(jù)的規(guī)律擬合出來(lái)了,同時(shí)在更換數(shù)據(jù)集后,效果也不會(huì)很差。

仔細(xì)想想圖片三中的模型,擬合函數(shù)肯定是一個(gè)高次函數(shù),其參數(shù)個(gè)數(shù)肯定肯定比圖二的要多,可以說(shuō)圖三的擬合函數(shù)比圖二的要大,模型更加復(fù)雜。這也是過(guò)擬合的一個(gè)判斷經(jīng)驗(yàn),模型是否太復(fù)雜。另外,針對(duì)圖三,我們把一些高次變量對(duì)應(yīng)的參數(shù)值變小,也就相當(dāng)于把模型變簡(jiǎn)單了。這個(gè)角度上看,可以減小參數(shù)值,也就是一般模型過(guò)擬合,參數(shù)值整體比較大。從模型復(fù)雜性來(lái)講,可以是:1、模型的參數(shù)個(gè)數(shù);2、模型的參數(shù)值的大小。個(gè)數(shù)越多,參數(shù)值越大,模型就越復(fù)雜。

二、欠擬合

1、欠擬合的表現(xiàn)

針對(duì)模型過(guò)擬合這個(gè)問(wèn)題,有沒(méi)有什么方法來(lái)判定模型是否過(guò)擬合呢?其實(shí)一般都是依靠模型在訓(xùn)練集和驗(yàn)證集上的表現(xiàn)有一個(gè)大體的判斷就行了。如果要有一個(gè)具體的方法,可以參考機(jī)器學(xué)中,學(xué)習(xí)曲線來(lái)判斷模型是否過(guò)擬合。如下圖:

pIYBAGAIdKGADvtxAADDt9mGzMU153.png

也就是看訓(xùn)練集合驗(yàn)證集隨著樣本數(shù)量的增加,他們之間的差值變化。如果訓(xùn)練集和測(cè)試集的準(zhǔn)確率都很低,那么說(shuō)明模型欠擬合。

2、欠擬合的解決方案

欠擬合是由于學(xué)習(xí)不足,可以考慮添加特征,從數(shù)據(jù)中挖掘出更多的特征,有時(shí)候還需要對(duì)特征進(jìn)行變換,使用組合特征和高次特征。
模型簡(jiǎn)單也會(huì)導(dǎo)致欠擬合,例如線性模型只能擬合一次函數(shù)的數(shù)據(jù)。嘗試使用更高級(jí)的模型有助于解決欠擬合,如使用SVM,神經(jīng)網(wǎng)絡(luò)等。
正則化參數(shù)是用來(lái)防止過(guò)擬合的,出現(xiàn)欠擬合的情況就要考慮減少正則化參數(shù)。

三、過(guò)擬合

1、過(guò)擬合的定義

模型在訓(xùn)練集上的表現(xiàn)很好,但在測(cè)試集和新數(shù)據(jù)上的表現(xiàn)很差。

o4YBAGAIdN6AJ69yAAAV5-QGMcQ608.png

2、過(guò)擬合的原因

1)數(shù)據(jù)量太小

這個(gè)是很容易產(chǎn)生過(guò)擬合的一個(gè)原因。設(shè)想,我們有一組數(shù)據(jù)很好的吻合3次函數(shù)的規(guī)律,現(xiàn)在我們局部的拿出了很小一部分?jǐn)?shù)據(jù),用機(jī)器學(xué)習(xí)或者深度學(xué)習(xí)擬合出來(lái)的模型很大的可能性就是一個(gè)線性函數(shù),在把這個(gè)線性函數(shù)用在測(cè)試集上,效果可想而知肯定很差了。

2)訓(xùn)練集和驗(yàn)證集分布不一致

訓(xùn)練集訓(xùn)練出一個(gè)適合訓(xùn)練集那樣分布的數(shù)據(jù)集,當(dāng)你把模型運(yùn)用到一個(gè)不一樣分布的數(shù)據(jù)集上,效果肯定大打折扣。這個(gè)是顯而易見(jiàn)的。

3)模型復(fù)雜度太大

在選擇模型算法的時(shí)候,首先就選定了一個(gè)復(fù)雜度很高的模型,然后數(shù)據(jù)的規(guī)律是很簡(jiǎn)單的,復(fù)雜的模型反而就不適用了。

4)數(shù)據(jù)質(zhì)量很差

數(shù)據(jù)還有很多噪聲,模型在學(xué)習(xí)的時(shí)候,肯定也會(huì)把噪聲規(guī)律學(xué)習(xí)到,從而減小了具有一般性的規(guī)律。這個(gè)時(shí)候模型用來(lái)預(yù)測(cè)肯定效果也不好。

5)過(guò)度訓(xùn)練

這個(gè)是同第4個(gè)是相聯(lián)系的,只要訓(xùn)練時(shí)間足夠長(zhǎng),那么模型肯定就會(huì)吧一些噪聲隱含的規(guī)律學(xué)習(xí)到,這個(gè)時(shí)候降低模型的性能是顯而易見(jiàn)的。

3、解決方案

1)降低模型復(fù)雜度

處理過(guò)擬合的第一步就是降低模型復(fù)雜度。為了降低復(fù)雜度,我們可以簡(jiǎn)單地移除層或者減少神經(jīng)元的數(shù)量使得網(wǎng)絡(luò)規(guī)模變小。與此同時(shí),計(jì)算神經(jīng)網(wǎng)絡(luò)中不同層的輸入和輸出維度也十分重要。雖然移除層的數(shù)量或神經(jīng)網(wǎng)絡(luò)的規(guī)模并無(wú)通用的規(guī)定,但如果你的神經(jīng)網(wǎng)絡(luò)發(fā)生了過(guò)擬合,就嘗試縮小它的規(guī)模。

2)數(shù)據(jù)集擴(kuò)增

在數(shù)據(jù)挖掘領(lǐng)域流行著這樣的一句話,“有時(shí)候往往擁有更多的數(shù)據(jù)勝過(guò)一個(gè)好的模型”。因?yàn)槲覀冊(cè)谑褂糜?xùn)練數(shù)據(jù)訓(xùn)練模型,通過(guò)這個(gè)模型對(duì)將來(lái)的數(shù)據(jù)進(jìn)行擬合,而在這之間又一個(gè)假設(shè)便是,訓(xùn)練數(shù)據(jù)與將來(lái)的數(shù)據(jù)是獨(dú)立同分布的。即使用當(dāng)前的訓(xùn)練數(shù)據(jù)來(lái)對(duì)將來(lái)的數(shù)據(jù)進(jìn)行估計(jì)與模擬,而更多的數(shù)據(jù)往往估計(jì)與模擬地更準(zhǔn)確。因此,更多的數(shù)據(jù)有時(shí)候更優(yōu)秀。但是往往條件有限,如人力物力財(cái)力的不足,而不能收集到更多的數(shù)據(jù),如在進(jìn)行分類的任務(wù)中,需要對(duì)數(shù)據(jù)進(jìn)行打標(biāo),并且很多情況下都是人工得進(jìn)行打標(biāo),因此一旦需要打標(biāo)的數(shù)據(jù)量過(guò)多,就會(huì)導(dǎo)致效率低下以及可能出錯(cuò)的情況。所以,往往在這時(shí)候,需要采取一些計(jì)算的方式與策略在已有的數(shù)據(jù)集上進(jìn)行手腳,以得到更多的數(shù)據(jù)。

通俗得講,數(shù)據(jù)機(jī)擴(kuò)增即需要得到更多的符合要求的數(shù)據(jù),即和已有的數(shù)據(jù)是獨(dú)立同分布的,或者近似獨(dú)立同分布的。

一般有以下方法:

從數(shù)據(jù)源頭采集更多數(shù)據(jù)

復(fù)制原有數(shù)據(jù)并加上隨機(jī)噪聲

重采樣

根據(jù)當(dāng)前數(shù)據(jù)集估計(jì)數(shù)據(jù)分布參數(shù),使用該分布產(chǎn)生更多數(shù)據(jù)等

3)數(shù)據(jù)增強(qiáng)

使用數(shù)據(jù)增強(qiáng)可以生成多幅相似圖像。這可以幫助我們?cè)黾訑?shù)據(jù)集規(guī)模從而減少過(guò)擬合。因?yàn)殡S著數(shù)據(jù)量的增加,模型無(wú)法過(guò)擬合所有樣本,因此不得不進(jìn)行泛化。計(jì)算機(jī)視覺(jué)領(lǐng)域通常的做法有:翻轉(zhuǎn)、平移、旋轉(zhuǎn)、縮放、改變亮度、添加噪聲等等

4)正則化

正則化方法是指在進(jìn)行目標(biāo)函數(shù)或代價(jià)函數(shù)優(yōu)化時(shí),在目標(biāo)函數(shù)或代價(jià)函數(shù)后面加上一個(gè)正則項(xiàng),一般有L1正則與L2正則等。

L1懲罰項(xiàng)的目的是使權(quán)重絕對(duì)值最小化。公式如下:

pIYBAGAIdRyAVGG0AAALYQA7GuI956.png

L2懲罰項(xiàng)的目的是使權(quán)重的平方最小化。公式如下:

pIYBAGAIdVqAD7eHAAALcUAzw3M284.png

以下表格對(duì)兩種正則化方法進(jìn)行了對(duì)比:

o4YBAGAIdZiAaK-NAAAiv_f2RL4751.png

如果數(shù)據(jù)過(guò)于復(fù)雜以至于無(wú)法準(zhǔn)確地建模,那么L2是更好的選擇,因?yàn)樗軌驅(qū)W習(xí)數(shù)據(jù)中呈現(xiàn)的內(nèi)在模式。而當(dāng)數(shù)據(jù)足夠簡(jiǎn)單,可以精確建模的話,L1更合適。對(duì)于我遇到的大多數(shù)計(jì)算機(jī)視覺(jué)問(wèn)題,L2正則化幾乎總是可以給出更好的結(jié)果。然而L1不容易受到離群值的影響。所以正確的正則化選項(xiàng)取決于我們想要解決的問(wèn)題。

總結(jié)

正則項(xiàng)是為了降低模型的復(fù)雜度,從而避免模型區(qū)過(guò)分?jǐn)M合訓(xùn)練數(shù)據(jù),包括噪聲與異常點(diǎn)(outliers)。從另一個(gè)角度上來(lái)講,正則化即是假設(shè)模型參數(shù)服從先驗(yàn)概率,即為模型參數(shù)添加先驗(yàn),只是不同的正則化方式的先驗(yàn)分布是不一樣的。這樣就規(guī)定了參數(shù)的分布,使得模型的復(fù)雜度降低(試想一下,限定條件多了,是不是模型的復(fù)雜度降低了呢),這樣模型對(duì)于噪聲與異常點(diǎn)的抗干擾性的能力增強(qiáng),從而提高模型的泛化能力。還有個(gè)解釋便是,從貝葉斯學(xué)派來(lái)看:加了先驗(yàn),在數(shù)據(jù)少的時(shí)候,先驗(yàn)知識(shí)可以防止過(guò)擬合;從頻率學(xué)派來(lái)看:正則項(xiàng)限定了參數(shù)的取值,從而提高了模型的穩(wěn)定性,而穩(wěn)定性強(qiáng)的模型不會(huì)過(guò)擬合,即控制模型空間。

另外一個(gè)角度,過(guò)擬合從直觀上理解便是,在對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行擬合時(shí),需要照顧到每個(gè)點(diǎn),從而使得擬合函數(shù)波動(dòng)性非常大,即方差大。在某些小區(qū)間里,函數(shù)值的變化性很劇烈,意味著函數(shù)在某些小區(qū)間里的導(dǎo)數(shù)值的絕對(duì)值非常大,由于自變量的值在給定的訓(xùn)練數(shù)據(jù)集中的一定的,因此只有系數(shù)足夠大,才能保證導(dǎo)數(shù)的絕對(duì)值足夠大。

如下圖(引用知乎):

pIYBAGAIddWABuZtAAAuzvwzT-Y232.png

另外一個(gè)解釋,規(guī)則化項(xiàng)的引入,在訓(xùn)練(最小化cost)的過(guò)程中,當(dāng)某一維的特征所對(duì)應(yīng)的權(quán)重過(guò)大時(shí),而此時(shí)模型的預(yù)測(cè)和真實(shí)數(shù)據(jù)之間距離很小,通過(guò)規(guī)則化項(xiàng)就可以使整體的cost取較大的值,從而,在訓(xùn)練的過(guò)程中避免了去選擇那些某一維(或幾維)特征的權(quán)重過(guò)大的情況,即過(guò)分依賴某一維(或幾維)的特征(引用知乎)。

L2與L1的區(qū)別在于,L1正則是拉普拉斯先驗(yàn),而L2正則則是高斯先驗(yàn)。它們都是服從均值為0,協(xié)方差為1λ。當(dāng)λ=0時(shí),即沒(méi)有先驗(yàn))沒(méi)有正則項(xiàng),則相當(dāng)于先驗(yàn)分布具有無(wú)窮大的協(xié)方差,那么這個(gè)先驗(yàn)約束則會(huì)非常弱,模型為了擬合所有的訓(xùn)練集數(shù)據(jù),參數(shù)可以變得任意大從而使得模型不穩(wěn)定,即方差大而偏差小。λ越大,標(biāo)明先驗(yàn)分布協(xié)方差越小,偏差越大,模型越穩(wěn)定。即,加入正則項(xiàng)是在偏差bias與方差variance之間做平衡tradeoff(來(lái)自知乎)。

下圖即為L(zhǎng)2與L1正則的區(qū)別:

o4YBAGAIdhaAINHEAAMDgERzdRo992.png

上圖中的模型是線性回歸,有兩個(gè)特征,要優(yōu)化的參數(shù)分別是w1和w2,左圖的正則化是L2,右圖是L1。藍(lán)色線就是優(yōu)化過(guò)程中遇到的等高線,一圈代表一個(gè)目標(biāo)函數(shù)值,圓心就是樣本觀測(cè)值(假設(shè)一個(gè)樣本),半徑就是誤差值,受限條件就是紅色邊界(就是正則化那部分),二者相交處,才是最優(yōu)參數(shù)??梢?jiàn)右邊的最優(yōu)參數(shù)只可能在坐標(biāo)軸上,所以就會(huì)出現(xiàn)0權(quán)重參數(shù),使得模型稀疏。

其實(shí)拉普拉斯分布與高斯分布是數(shù)學(xué)家從實(shí)驗(yàn)中誤差服從什么分布研究中得來(lái)的。一般直觀上的認(rèn)識(shí)是服從應(yīng)該服從均值為0的對(duì)稱分布,并且誤差大的頻率低,誤差小的頻率高,因此拉普拉斯使用拉普拉斯分布對(duì)誤差的分布進(jìn)行擬合,如下圖:

pIYBAGAIdlSASSyzAAA0UNTflLM171.png

而拉普拉斯在最高點(diǎn),即自變量為0處不可導(dǎo),因?yàn)椴槐阌谟?jì)算,于是高斯在這基礎(chǔ)上使用高斯分布對(duì)其進(jìn)行擬合,如下圖:

pIYBAGAIdpOAUtPEAAAl0Y-MQDY348.png

5)dropout

正則是通過(guò)在代價(jià)函數(shù)后面加上正則項(xiàng)來(lái)防止模型過(guò)擬合的。而在神經(jīng)網(wǎng)絡(luò)中,有一種方法是通過(guò)修改神經(jīng)網(wǎng)絡(luò)本身結(jié)構(gòu)來(lái)實(shí)現(xiàn)的,其名為Dropout。該方法是在對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練時(shí)用一種技巧(trick),對(duì)于如下所示的三層人工神經(jīng)網(wǎng)絡(luò):

pIYBAGAIdtGAWeDzAAA_EGgbZv0727.png

對(duì)于上圖所示的網(wǎng)絡(luò),在訓(xùn)練開(kāi)始時(shí),隨機(jī)得刪除一些(可以設(shè)定為一半,也可以為1/3,1/4等)隱藏層神經(jīng)元,即認(rèn)為這些神經(jīng)元不存在,同時(shí)保持輸入層與輸出層神經(jīng)元的個(gè)數(shù)不變,這樣便得到如下的ANN:

pIYBAGAIdw-AFNpvAAA4XXM6f2E966.png

然后按照BP學(xué)習(xí)算法對(duì)ANN中的參數(shù)進(jìn)行學(xué)習(xí)更新(虛線連接的單元不更新,因?yàn)檎J(rèn)為這些神經(jīng)元被臨時(shí)刪除了)。這樣一次迭代更新便完成了。下一次迭代中,同樣隨機(jī)刪除一些神經(jīng)元,與上次不一樣,做隨機(jī)選擇。這樣一直進(jìn)行瑕疵,直至訓(xùn)練結(jié)束。

這種技術(shù)被證明可以減少很多問(wèn)題的過(guò)擬合,這些問(wèn)題包括圖像分類、圖像切割、詞嵌入、語(yǔ)義匹配等問(wèn)題。

6)早停

對(duì)模型進(jìn)行訓(xùn)練的過(guò)程即是對(duì)模型的參數(shù)進(jìn)行學(xué)習(xí)更新的過(guò)程,這個(gè)參數(shù)學(xué)習(xí)的過(guò)程往往會(huì)用到一些迭代方法,如梯度下降(Gradient descent)學(xué)習(xí)算法。Early stopping便是一種迭代次數(shù)截?cái)嗟姆椒▉?lái)防止過(guò)擬合的方法,即在模型對(duì)訓(xùn)練數(shù)據(jù)集迭代收斂之前停止迭代來(lái)防止過(guò)擬合。

Early stopping方法的具體做法是,在每一個(gè)Epoch結(jié)束時(shí)(一個(gè)Epoch集為對(duì)所有的訓(xùn)練數(shù)據(jù)的一輪遍歷)計(jì)算validation data的accuracy,當(dāng)accuracy不再提高時(shí),就停止訓(xùn)練。這種做法很符合直觀感受,因?yàn)閍ccurary都不再提高了,在繼續(xù)訓(xùn)練也是無(wú)益的,只會(huì)提高訓(xùn)練的時(shí)間。如下圖所示,在幾次迭代后,即使訓(xùn)練誤差仍然在減少,但測(cè)驗(yàn)誤差已經(jīng)開(kāi)始增加了。

o4YBAGAId02AQaFjAACERojcN2g386.png

那么該做法的一個(gè)重點(diǎn)便是怎樣才認(rèn)為validation accurary不再提高了呢?并不是說(shuō)validation accuracy一降下來(lái)便認(rèn)為不再提高了,因?yàn)榭赡芙?jīng)過(guò)這個(gè)Epoch后,accuracy降低了,但是隨后的Epoch又讓accuracy又上去了,所以不能根據(jù)一兩次的連續(xù)降低就判斷不再提高。一般的做法是,在訓(xùn)練的過(guò)程中,記錄到目前為止最好的validation accuracy,當(dāng)連續(xù)10次Epoch(或者更多次)沒(méi)達(dá)到最佳a(bǔ)ccuracy時(shí),則可以認(rèn)為accuracy不再提高了。此時(shí)便可以停止迭代了(Early Stopping)。這種策略也稱為“No-improvement-in-n”,n即Epoch的次數(shù),可以根據(jù)實(shí)際情況取,如10、20、30……

7)重新清洗數(shù)據(jù)

把明顯異常的數(shù)據(jù)剔除

8)使用集成學(xué)習(xí)方法

把多個(gè)模型集成在一起,降低單個(gè)模型的過(guò)擬合風(fēng)險(xiǎn)

本文轉(zhuǎn)自:博客園 - 早起的小蟲(chóng)子,轉(zhuǎn)載此文目的在于傳遞更多信息,版權(quán)歸原作者所有。
審核編輯:何安

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    BSDF數(shù)據(jù)導(dǎo)入與擬合

    簡(jiǎn)介 在FRED中,列表形式的BSDF數(shù)據(jù)可以使用如下兩種方式。 1.按照FRED可以識(shí)別的數(shù)據(jù)格式直接導(dǎo)入作為散射模型。 2.使用BSDF數(shù)據(jù)擬合工具來(lái)產(chǎn)生合適的函數(shù)模型。 數(shù)據(jù)文件的格式 在
    發(fā)表于 12-23 19:35

    AI模型部署邊緣設(shè)備的奇妙之旅:目標(biāo)檢測(cè)模型

    介紹了如何使用分類任務(wù)進(jìn)行手寫數(shù)字的分類。相信大家腦海中可能會(huì)產(chǎn)生如下疑問(wèn): 數(shù)據(jù)依賴性強(qiáng):分類模型表現(xiàn)通常依賴于大量的標(biāo)注數(shù)據(jù)進(jìn)行
    發(fā)表于 12-19 14:33

    BSDF數(shù)據(jù)導(dǎo)入與擬合

    簡(jiǎn)介 在FRED中,列表形式的BSDF數(shù)據(jù)可以使用如下兩種方式。 1.按照FRED可以識(shí)別的數(shù)據(jù)格式直接導(dǎo)入作為散射模型。 2.使用BSDF數(shù)據(jù)擬合工具來(lái)產(chǎn)生合適的函數(shù)模型。 數(shù)據(jù)文件的格式 在
    發(fā)表于 12-13 10:05

    什么是大模型、大模型是怎么訓(xùn)練出來(lái)的及大模型作用

    本文通俗簡(jiǎn)單地介紹了什么是大模型、大模型是怎么訓(xùn)練出來(lái)的和大模型的作用。 ? 什么是大模型模型
    的頭像 發(fā)表于 11-25 09:29 ?2091次閱讀
    什么是大<b class='flag-5'>模型</b>、大<b class='flag-5'>模型</b>是怎么<b class='flag-5'>訓(xùn)練</b>出來(lái)的及大<b class='flag-5'>模型</b>作用

    如何訓(xùn)練自己的LLM模型

    訓(xùn)練自己的大型語(yǔ)言模型(LLM)是一個(gè)復(fù)雜且資源密集的過(guò)程,涉及到大量的數(shù)據(jù)、計(jì)算資源和專業(yè)知識(shí)。以下是訓(xùn)練LLM模型的一般步驟,以及一些關(guān)鍵考慮因素: 定義目標(biāo)和需求 : 確定你的L
    的頭像 發(fā)表于 11-08 09:30 ?680次閱讀

    大語(yǔ)言模型的預(yù)訓(xùn)練

    能力,逐漸成為NLP領(lǐng)域的研究熱點(diǎn)。大語(yǔ)言模型的預(yù)訓(xùn)練是這一技術(shù)發(fā)展的關(guān)鍵步驟,它通過(guò)在海量無(wú)標(biāo)簽數(shù)據(jù)上進(jìn)行訓(xùn)練,使模型學(xué)習(xí)到語(yǔ)言的通用知識(shí),為后續(xù)的任務(wù)微調(diào)奠定基礎(chǔ)。本文將深入探討大
    的頭像 發(fā)表于 07-11 10:11 ?480次閱讀

    深度學(xué)習(xí)模型中的過(guò)擬合與正則化

    在深度學(xué)習(xí)的廣闊領(lǐng)域中,模型訓(xùn)練的核心目標(biāo)之一是實(shí)現(xiàn)對(duì)未知數(shù)據(jù)的準(zhǔn)確預(yù)測(cè)。然而,在實(shí)際應(yīng)用中,我們經(jīng)常會(huì)遇到一個(gè)問(wèn)題——過(guò)擬合(Overfitting)。過(guò)擬合是指
    的頭像 發(fā)表于 07-09 15:56 ?1071次閱讀

    人臉識(shí)別模型訓(xùn)練流程

    人臉識(shí)別模型訓(xùn)練流程是計(jì)算機(jī)視覺(jué)領(lǐng)域中的一項(xiàng)重要技術(shù)。本文將詳細(xì)介紹人臉識(shí)別模型訓(xùn)練流程,包括數(shù)據(jù)準(zhǔn)備、模型選擇、
    的頭像 發(fā)表于 07-04 09:19 ?1049次閱讀

    人臉識(shí)別模型訓(xùn)練是什么意思

    人臉識(shí)別模型訓(xùn)練是指通過(guò)大量的人臉數(shù)據(jù),使用機(jī)器學(xué)習(xí)或深度學(xué)習(xí)算法,訓(xùn)練出一個(gè)能夠識(shí)別和分類人臉的模型。這個(gè)
    的頭像 發(fā)表于 07-04 09:16 ?675次閱讀

    預(yù)訓(xùn)練模型的基本原理和應(yīng)用

    訓(xùn)練好的模型,這些模型通常在某些通用任務(wù)上表現(xiàn)出色,并且可以作為后續(xù)特定任務(wù)的起點(diǎn),通過(guò)遷移學(xué)習(xí)或微調(diào)(Fine-tuning)等方式進(jìn)行適應(yīng)和優(yōu)化。以下是對(duì)預(yù)
    的頭像 發(fā)表于 07-03 18:20 ?3025次閱讀

    神經(jīng)網(wǎng)絡(luò)擬合的誤差怎么分析

    神經(jīng)網(wǎng)絡(luò)擬合誤差分析是一個(gè)復(fù)雜且深入的話題,涉及到多個(gè)方面,需要從數(shù)據(jù)質(zhì)量、模型結(jié)構(gòu)、訓(xùn)練過(guò)程和正則化方法等多個(gè)角度進(jìn)行綜合考慮。 引言 神經(jīng)網(wǎng)絡(luò)是一種強(qiáng)大的機(jī)器學(xué)習(xí)模型,廣泛應(yīng)用于各
    的頭像 發(fā)表于 07-03 10:36 ?638次閱讀

    深度學(xué)習(xí)模型訓(xùn)練過(guò)程詳解

    深度學(xué)習(xí)模型訓(xùn)練是一個(gè)復(fù)雜且關(guān)鍵的過(guò)程,它涉及大量的數(shù)據(jù)、計(jì)算資源和精心設(shè)計(jì)的算法。訓(xùn)練一個(gè)深度學(xué)習(xí)模型,本質(zhì)上是通過(guò)優(yōu)化算法調(diào)整模型參數(shù),
    的頭像 發(fā)表于 07-01 16:13 ?1408次閱讀

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的預(yù)訓(xùn)練

    大語(yǔ)言模型的核心特點(diǎn)在于其龐大的參數(shù)量,這賦予了模型強(qiáng)大的學(xué)習(xí)容量,使其無(wú)需依賴微調(diào)即可適應(yīng)各種下游任務(wù),而更傾向于培養(yǎng)通用的處理能力。然而,隨著學(xué)習(xí)容量的增加,對(duì)預(yù)訓(xùn)練數(shù)據(jù)的需求也相應(yīng)
    發(fā)表于 05-07 17:10

    【大語(yǔ)言模型:原理與工程實(shí)踐】揭開(kāi)大語(yǔ)言模型的面紗

    更好地擬合訓(xùn)練數(shù)據(jù),并在推理和泛化時(shí)表現(xiàn)出色。此外,特征復(fù)用通過(guò)共享參數(shù)提高效率和性能,使得大語(yǔ)言模型能夠更有效地利用學(xué)到的特征。最后,優(yōu)化效果則通過(guò)使用更復(fù)雜的優(yōu)化算法和更長(zhǎng)的
    發(fā)表于 05-04 23:55

    谷歌模型訓(xùn)練軟件有哪些?谷歌模型訓(xùn)練軟件哪個(gè)好?

    谷歌在模型訓(xùn)練方面提供了一些強(qiáng)大的軟件工具和平臺(tái)。以下是幾個(gè)常用的谷歌模型訓(xùn)練軟件及其特點(diǎn)。
    的頭像 發(fā)表于 03-01 16:24 ?936次閱讀