在3.1 節(jié)中,我們介紹了線性回歸,在3.4 節(jié)中從頭開始實(shí)現(xiàn) ,并在3.5 節(jié)中再次使用深度學(xué)習(xí)框架的高級(jí) API來(lái)完成繁重的工作。
回歸是我們想回答多少的時(shí)候伸手去拿的錘子? 或者有多少?問(wèn)題。如果你想預(yù)測(cè)房子的售價(jià)(價(jià)格),或者一支棒球隊(duì)可能獲勝的次數(shù),或者病人出院前住院的天數(shù),那么你可能是尋找回歸模型。然而,即使在回歸模型中,也存在重要的區(qū)別。例如,房屋的價(jià)格永遠(yuǎn)不會(huì)是負(fù)數(shù),并且變化可能通常與其基準(zhǔn)價(jià)格有關(guān)。因此,對(duì)價(jià)格的對(duì)數(shù)進(jìn)行回歸可能更有效。同樣,患者住院的天數(shù)是 離散的非負(fù)數(shù)隨機(jī)變量。因此,最小均方可能也不是理想的方法。這種時(shí)間-事件建模伴隨著許多其他并發(fā)癥,這些并發(fā)癥在稱為生存建模的專門子領(lǐng)域中處理。
這里的重點(diǎn)不是要讓你不知所措,而只是讓你知道,除了簡(jiǎn)單地最小化平方誤差之外,還有很多東西需要估計(jì)。更廣泛地說(shuō),監(jiān)督學(xué)習(xí)比回歸要多得多。在這一節(jié)中,我們重點(diǎn)關(guān)注分類問(wèn)題,我們擱置了多少?問(wèn)題,而是關(guān)注哪個(gè)類別?問(wèn)題。
這封電子郵件屬于垃圾郵件文件夾還是收件箱?
該客戶是否更有可能注冊(cè)或不注冊(cè)訂閱服務(wù)?
這個(gè)圖像描繪的是驢、狗、貓還是公雞?
阿斯頓接下來(lái)最有可能看哪部電影?
您接下來(lái)要閱讀本書的哪一部分?
通俗地說(shuō),機(jī)器學(xué)習(xí)從業(yè)者重載了單詞 分類來(lái)描述兩個(gè)細(xì)微不同的問(wèn)題:(i)那些我們只對(duì)將示例硬分配給類別(類)感興趣的問(wèn)題;(ii) 那些我們希望進(jìn)行軟分配的地方,即評(píng)估每個(gè)類別適用的概率。這種區(qū)別往往會(huì)變得模糊,部分原因是,即使我們只關(guān)心硬分配,我們?nèi)匀唤?jīng)常使用進(jìn)行軟分配的模型。
更重要的是,在某些情況下,不止一個(gè)標(biāo)簽可能是真實(shí)的。例如,一篇新聞文章可能同時(shí)涵蓋娛樂(lè)、商業(yè)和太空飛行等主題,但不會(huì)涵蓋醫(yī)學(xué)或體育主題。因此,將其單獨(dú)歸入上述類別之一并不是很有用。這個(gè)問(wèn)題通常被稱為多標(biāo)簽分類。參見(jiàn)Tsoumakas 和 Katakis ( 2007 )的概述和 Huang等人。( 2015 )用于標(biāo)記圖像時(shí)的有效算法。
4.1.1. 分類
讓我們先從一個(gè)簡(jiǎn)單的圖像分類問(wèn)題開始。這里,每個(gè)輸入包含一個(gè)2×2灰度圖像。我們可以用一個(gè)標(biāo)量表示每個(gè)像素值,給我們四個(gè)特征x1,x2,x3,x4. 此外,假設(shè)每個(gè)圖像屬于類別“貓”、“雞”和“狗”中的一個(gè)。
接下來(lái),我們必須選擇如何表示標(biāo)簽。我們有兩個(gè)明顯的選擇。也許最自然的沖動(dòng)是選擇 y∈{1,2,3},其中整數(shù)代表 {dog,cat,chicken}分別。這是在計(jì)算機(jī)上存儲(chǔ)此類信息的好方法。如果類別之間有一些自然順序,比如說(shuō)我們是否試圖預(yù)測(cè) {baby,toddler,adolescent,young adult,adult,geriatric},那么將其轉(zhuǎn)換為有序回歸問(wèn)題并以這種格式保留標(biāo)簽甚至可能是有意義的。參見(jiàn) Moon等人。( 2010 )概述了不同類型的排名損失函數(shù)和Beutel等人。( 2014 ) 用于解決具有多個(gè)模式的響應(yīng)的貝葉斯方法。
一般而言,分類問(wèn)題并不伴隨著類別之間的自然排序。幸運(yùn)的是,統(tǒng)計(jì)學(xué)家很久以前就發(fā)明了一種表示分類數(shù)據(jù)的簡(jiǎn)單方法:one-hot encoding。one-hot 編碼是一個(gè)向量,其分量與我們的類別一樣多。對(duì)應(yīng)于特定實(shí)例類別的組件設(shè)置為 1,所有其他組件設(shè)置為 0。在我們的例子中,標(biāo)簽y 將是一個(gè)三維向量,具有(1,0,0) 對(duì)應(yīng)“貓”,(0,1,0)到“雞”,和 (0,0,1)對(duì)“狗”:
(4.1.1)y∈{(1,0,0),(0,1,0),(0,0,1)}.
4.1.1.1. 線性模型
為了估計(jì)與所有可能類別相關(guān)的條件概率,我們需要一個(gè)具有多個(gè)輸出的模型,每個(gè)類別一個(gè)。為了解決線性模型的分類問(wèn)題,我們需要與輸出一樣多的仿射函數(shù)。嚴(yán)格來(lái)說(shuō),我們只需要少一個(gè),因?yàn)樽詈笠活惐仨毷?1和其他類別的總和,但出于對(duì)稱的原因,我們使用了稍微冗余的參數(shù)化。每個(gè)輸出對(duì)應(yīng)于它自己的仿射函數(shù)。在我們的例子中,由于我們有 4 個(gè)特征和 3 個(gè)可能的輸出類別,我們需要 12 個(gè)標(biāo)量來(lái)表示權(quán)重(w帶下標(biāo))和 3 個(gè)標(biāo)量來(lái)表示偏差(b帶下標(biāo))。這產(chǎn)生:
(4.1.2)o1=x1w11+x2w12+x3w13+x4w14+b1,o2=x1w21+x2w22+x3w23+x4w24+b2,o3=x1w31+x2w32+x3w33+x4w34+b3.
對(duì)應(yīng)的神經(jīng)網(wǎng)絡(luò)圖如圖4.1.1所示 。就像在線性回歸中一樣,我們使用單層神經(jīng)網(wǎng)絡(luò)。并且由于每個(gè)輸出的計(jì)算, o1,o2, 和o3, 取決于所有輸入,x1, x2,x3, 和x4,輸出層也可以描述為全連接層。
圖 4.1.1 Softmax 回歸是一個(gè)單層神經(jīng)網(wǎng)絡(luò)。
為了更簡(jiǎn)潔的表示法,我們使用向量和矩陣: o=Wx+b更適合數(shù)學(xué)和代碼。請(qǐng)注意,我們已將所有權(quán)重收集到一個(gè)3×4矩陣和所有偏差 b∈R3在一個(gè)向量中。
4.1.1.2。Softmax
假設(shè)有一個(gè)合適的損失函數(shù),我們可以直接嘗試最小化兩者之間的差異o和標(biāo)簽 y. 雖然事實(shí)證明,將分類處理為向量值回歸問(wèn)題的效果出奇地好,但它仍然缺乏以下方面:
無(wú)法保證輸出oi總結(jié)為 1以我們期望概率表現(xiàn)的方式。
無(wú)法保證輸出oi甚至是非負(fù)的,即使它們的輸出總和為1,或者他們不超過(guò)1.
這兩個(gè)方面都使估計(jì)問(wèn)題難以解決,并且解決方案對(duì)異常值非常脆弱。例如,如果我們假設(shè)臥室數(shù)量與某人購(gòu)買房屋的可能性之間存在正線性相關(guān)性,則概率可能超過(guò) 1買豪宅的時(shí)候!因此,我們需要一種機(jī)制來(lái)“壓縮”輸出。
我們可以通過(guò)多種方式來(lái)實(shí)現(xiàn)這一目標(biāo)。例如,我們可以假設(shè)輸出o是損壞的版本y,其中通過(guò)添加噪聲發(fā)生損壞?從正態(tài)分布中提取。換句話說(shuō),y=o+?, 在哪里 ?i~N(0,σ2). 這就是所謂的 probit 模型,首先由Fechner ( 1860 )提出。雖然很吸引人,但與 softmax 相比,它的效果并不好,也不會(huì)導(dǎo)致特別好的優(yōu)化問(wèn)題。
實(shí)現(xiàn)此目標(biāo)(并確保非負(fù)性)的另一種方法是使用指數(shù)函數(shù)P(y=i)∝exp?oi. 這確實(shí)滿足了條件類概率隨著增加而增加的要求oi,它是單調(diào)的,所有概率都是非負(fù)的。然后我們可以轉(zhuǎn)換這些值,使它們加起來(lái)1通過(guò)將每個(gè)除以它們的總和。這個(gè)過(guò)程稱為規(guī)范化。將這兩個(gè)部分放在一起可以得到softmax函數(shù):
(4.1.3)y^=softmax(o)wherey^i=exp?(oi)∑jexp?(oj).
注意最大坐標(biāo)o對(duì)應(yīng)于最有可能的類別y^. 此外,因?yàn)?softmax 操作保留了其參數(shù)之間的順序,我們不需要計(jì)算 softmax 來(lái)確定哪個(gè)類別被分配了最高概率。
(4.1.4)argmaxjy^j=argmaxjoj.
softmax 的想法可以追溯到 Gibbs,他改編了物理學(xué)的想法( Gibbs, 1902 )。追溯到更早以前,現(xiàn)代熱力學(xué)之父玻爾茲曼就使用這個(gè)技巧來(lái)模擬氣體分子中的能量狀態(tài)分布。特別是,他發(fā)現(xiàn)熱力學(xué)系綜中能量狀態(tài)的普遍存在,例如氣體中的分子,與exp?(?E/kT). 這里, E是一種狀態(tài)的能量,T是溫度,并且 k是玻爾茲曼常數(shù)。當(dāng)統(tǒng)計(jì)學(xué)家談?wù)撛黾踊蚪档徒y(tǒng)計(jì)系統(tǒng)的“溫度”時(shí),他們指的是變化T為了有利于較低或較高的能量狀態(tài)。按照吉布斯的想法,能量等同于錯(cuò)誤?;谀芰康哪P? Ranzato et al. , 2007 )在描述深度學(xué)習(xí)中的問(wèn)題時(shí)使用了這種觀點(diǎn)。
4.1.1.3. 矢量化
為了提高計(jì)算效率,我們將計(jì)算向量化為小批量數(shù)據(jù)。假設(shè)我們得到了一個(gè)小批量 X∈Rn×d的n維度示例(輸入數(shù)量)d. 此外,假設(shè)我們有q輸出中的類別。那么權(quán)重滿足 W∈Rd×q偏差滿足 b∈R1×q.
(4.1.5)O=XW+b,Y^=softmax(O).
這將主導(dǎo)操作加速為矩陣矩陣乘積 XW. 此外,由于每一行 X表示一個(gè)數(shù)據(jù)示例,softmax 操作本身可以按行計(jì)算:對(duì)于每一行O,對(duì)所有條目取冪,然后用總和對(duì)它們進(jìn)行歸一化。但是請(qǐng)注意,必須注意避免對(duì)大數(shù)取冪和取對(duì)數(shù),因?yàn)檫@會(huì)導(dǎo)致數(shù)值溢出或下溢。深度學(xué)習(xí)框架會(huì)自動(dòng)處理這個(gè)問(wèn)題。
4.1.2. 損失函數(shù)
現(xiàn)在我們有了來(lái)自特征的映射x概率y^,我們需要一種方法來(lái)優(yōu)化此映射的準(zhǔn)確性。我們將依賴最大似然估計(jì),這與我們?cè)诘?3.1.3 節(jié)中為均方誤差損失提供概率論證時(shí)遇到的概念完全相同 。
4.1.2.1. 對(duì)數(shù)似然
softmax 函數(shù)給了我們一個(gè)向量y^,我們可以將其解釋為每個(gè)類的(估計(jì)的)條件概率,給定任何輸入x, 例如y^1= P(y=cat∣x). 在下文中,我們假設(shè)對(duì)于具有特征的數(shù)據(jù)集X標(biāo)簽 Y使用單熱編碼標(biāo)簽向量表示。給定以下特征,我們可以根據(jù)我們的模型檢查實(shí)際類別的可能性,從而將估計(jì)值與現(xiàn)實(shí)進(jìn)行比較:
(4.1.6)P(Y∣X)=∏i=1nP(y(i)∣x(i)).
我們被允許使用因式分解,因?yàn)槲覀兗僭O(shè)每個(gè)標(biāo)簽都是獨(dú)立于其各自的分布繪制的 P(y∣x(i)). 由于最大化項(xiàng)的乘積很尷尬,我們?nèi)∝?fù)對(duì)數(shù)來(lái)獲得最小化負(fù)對(duì)數(shù)似然的等價(jià)問(wèn)題:
(4.1.7)?log?P(Y∣X)=∑i=1n?log?P(y(i)∣x(i))=∑i=1nl(y(i),y^(i)),
任何一對(duì)標(biāo)簽在哪里y和模型預(yù)測(cè) y^超過(guò)q類,損失函數(shù) l是
(4.1.8)l(y,y^)=?∑j=1qyjlog?y^j.
由于稍后解釋的原因, (4.1.8)中的損失函數(shù)通常稱為交叉熵?fù)p失。自從y是長(zhǎng)度的單熱向量q,其所有坐標(biāo)的總和j除了一個(gè)任期外,所有的人都消失了。注意損失l(y,y^)從下面被限制0每當(dāng)y^是一個(gè)概率向量:沒(méi)有一個(gè)條目大于1, 因此它們的負(fù)對(duì)數(shù)不能低于0; l(y,y^)=0僅當(dāng)我們確定地預(yù)測(cè)實(shí)際標(biāo)簽時(shí)。對(duì)于任何有限的權(quán)重設(shè)置,這永遠(yuǎn)不會(huì)發(fā)生,因?yàn)閷?softmax 輸出朝向1 需要采取相應(yīng)的輸入oi到無(wú)窮大(或所有其他輸出oj為了j≠i到負(fù)無(wú)窮大)。即使我們的模型可以分配一個(gè)輸出概率0,分配如此高的置信度時(shí)出現(xiàn)的任何錯(cuò)誤都會(huì)導(dǎo)致無(wú)限損失(?log?0=∞).
4.1.2.2. Softmax 和交叉熵?fù)p失
由于 softmax 函數(shù)和相應(yīng)的交叉熵?fù)p失非常普遍,因此有必要更好地了解它們的計(jì)算方式。將(4.1.3)代入(4.1.8)中損失的定義并使用我們獲得的 softmax 的定義:
(4.1.9)l(y,y^)=?∑j=1qyjlog?exp?(oj)∑k=1qexp?(ok)=∑j=1qyjlog?∑k=1qexp?(ok)?∑j=1qyjoj=log?∑k=1qexp?(ok)?∑j=1qyjoj.
為了更好地理解正在發(fā)生的事情,請(qǐng)考慮關(guān)于任何 logit 的導(dǎo)數(shù)oj. 我們得到
(4.1.10)?ojl(y,y^)=exp?(oj)∑k=1qexp?(ok)?yj=softmax(o)j?yj.
換句話說(shuō),導(dǎo)數(shù)是我們的模型分配的概率(由 softmax 操作表示)與實(shí)際發(fā)生的概率(由 one-hot 標(biāo)簽向量中的元素表示)之間的差異。從這個(gè)意義上講,它與我們?cè)诨貧w中看到的非常相似,其中梯度是觀察值之間的差異y并估計(jì)y^. 這不是巧合。在任何指數(shù)族模型中,對(duì)數(shù)似然的梯度恰好由此項(xiàng)給出。這個(gè)事實(shí)使得計(jì)算梯度在實(shí)踐中變得容易。
現(xiàn)在考慮這樣一種情況,我們不僅觀察到單個(gè)結(jié)果,而且觀察到結(jié)果的整個(gè)分布。我們可以對(duì)標(biāo)簽使用與之前相同的表示y. 唯一的區(qū)別是,而不是只包含二進(jìn)制條目的向量,比如說(shuō) (0,0,1),我們現(xiàn)在有一個(gè)通用的概率向量,比如說(shuō) (0.1,0.2,0.7). 我們之前用來(lái)定義損失的數(shù)學(xué)l在(4.1.8)中仍然可以正常工作,只是解釋稍微更籠統(tǒng)。它是標(biāo)簽分布的損失的預(yù)期值。這種損失稱為交叉熵?fù)p失,它是分類問(wèn)題中最常用的損失之一。我們可以通過(guò)介紹信息論的基礎(chǔ)知識(shí)來(lái)揭開這個(gè)名字的神秘面紗。簡(jiǎn)而言之,它測(cè)量對(duì)我們看到的內(nèi)容進(jìn)行編碼的位數(shù)y 相對(duì)于我們預(yù)測(cè)應(yīng)該發(fā)生的事情y^. 我們?cè)谙旅嫣峁┝艘粋€(gè)非?;镜慕忉?。有關(guān)信息論的更多詳細(xì)信息,請(qǐng)參閱Cover 和 Thomas ( 1999 )或 MacKay 和 Mac Kay ( 2003 )。
4.1.3. 信息論基礎(chǔ)
許多深度學(xué)習(xí)論文使用信息論中的直覺(jué)和術(shù)語(yǔ)。為了理解它們,我們需要一些共同語(yǔ)言。這是一本生存指南。信息論處理編碼、解碼、傳輸和操作信息(也稱為數(shù)據(jù))的問(wèn)題。
4.1.3.1. 熵
信息論的中心思想是量化數(shù)據(jù)中包含的信息量。這限制了我們壓縮數(shù)據(jù)的能力。對(duì)于分配P它的熵定義為:
(4.1.11)H[P]=∑j?P(j)log?P(j).
信息論的基本定理之一指出,為了對(duì)從分布中隨機(jī)抽取的數(shù)據(jù)進(jìn)行編碼P,我們至少需要H[P]“nats”對(duì)其進(jìn)行編碼(香農(nóng),1948 年)。如果您想知道“nat”是什么,它相當(dāng)于位,但是當(dāng)使用帶有 base 的代碼時(shí)e而不是基數(shù)為 2 的一個(gè)。因此,一個(gè) nat 是1log?(2)≈1.44少量。
4.1.3.2. 驚喜
您可能想知道壓縮與預(yù)測(cè)有什么關(guān)系。想象一下,我們有一個(gè)要壓縮的數(shù)據(jù)流。如果我們總是很容易預(yù)測(cè)下一個(gè)標(biāo)記,那么這個(gè)數(shù)據(jù)就很容易壓縮。舉一個(gè)極端的例子,流中的每個(gè)標(biāo)記總是取相同的值。那是一個(gè)非常無(wú)聊的數(shù)據(jù)流!不僅無(wú)聊,而且很容易預(yù)測(cè)。因?yàn)樗鼈兛偸窍嗤?,所以我們不必傳輸任何信息?lái)傳達(dá)流的內(nèi)容。易于預(yù)測(cè),易于壓縮。
然而,如果我們不能完美地預(yù)測(cè)每一件事,那么我們有時(shí)可能會(huì)感到驚訝。當(dāng)我們分配一個(gè)較低概率的事件時(shí),我們的驚喜更大??藙诘隆は戕r(nóng)決定 log?1P(j)=?log?P(j)量化一個(gè)人 在觀察事件時(shí)的驚訝程度j賦予它一個(gè)(主觀)概率P(j). (4.1.11)中定義的熵 是當(dāng)分配真正匹配數(shù)據(jù)生成過(guò)程的正確概率時(shí)的預(yù)期意外。
4.1.3.3. 重溫交叉熵
因此,如果熵是知道真實(shí)概率的人所經(jīng)歷的驚奇程度,那么您可能想知道,什么是交叉熵?交叉熵來(lái)自 P 到 Q, 表示H(P,Q), 是具有主觀概率的觀察者的預(yù)期驚喜Q在看到實(shí)際根據(jù)概率生成的數(shù)據(jù)時(shí)P. 這是由 H(P,Q)=def∑j?P(j)log?Q(j). 當(dāng)達(dá)到最低可能的交叉熵時(shí)P=Q. 在這種情況下,交叉熵來(lái)自P到Q是 H(P,P)=H(P).
簡(jiǎn)而言之,我們可以通過(guò)兩種方式來(lái)考慮交叉熵分類目標(biāo):(i)最大化觀察數(shù)據(jù)的可能性;(ii) 最小化傳達(dá)標(biāo)簽所需的意外(以及位數(shù))。
4.1.4. 總結(jié)與討論
在本節(jié)中,我們遇到了第一個(gè)非平凡的損失函數(shù),使我們能夠優(yōu)化離散輸出空間。其設(shè)計(jì)的關(guān)鍵是我們采用了概率方法,將離散類別視為從概率分布中抽取的實(shí)例。作為副作用,我們遇到了 softmax,這是一種方便的激活函數(shù),可將普通神經(jīng)網(wǎng)絡(luò)層的輸出轉(zhuǎn)換為有效的離散概率分布。我們看到交叉熵?fù)p失的導(dǎo)數(shù)與 softmax 結(jié)合時(shí)的行為與平方誤差的導(dǎo)數(shù)非常相似,即取預(yù)期行為與其預(yù)測(cè)之間的差異。而且,雖然我們只能觸及它的表面,但我們遇到了與統(tǒng)計(jì)物理學(xué)和信息論的令人興奮的聯(lián)系。
雖然這足以讓您上路,并希望足以激發(fā)您的胃口,但我們幾乎沒(méi)有深入探討。除其他外,我們跳過(guò)了計(jì)算方面的考慮。具體來(lái)說(shuō),對(duì)于任何具有d輸入和q輸出,參數(shù)化和計(jì)算成本是O(dq),這在實(shí)踐中可能高得令人望而卻步。幸運(yùn)的是,這種改造成本d輸入到q可以通過(guò)近似和壓縮來(lái)減少輸出。例如 Deep Fried Convnets ( Yang et al. , 2015 )使用排列、傅里葉變換和縮放的組合來(lái)將成本從二次降低到對(duì)數(shù)線性。類似的技術(shù)適用于更高級(jí)的結(jié)構(gòu)矩陣近似(Sindhwani等人,2015 年)。最后,我們可以使用類似四元數(shù)的分解來(lái)降低成本 O(dqn),同樣,如果我們?cè)敢飧鶕?jù)壓縮因子 為計(jì)算和存儲(chǔ)成本犧牲少量準(zhǔn)確性 (Zhang等人,2021 年)n. 這是一個(gè)活躍的研究領(lǐng)域。具有挑戰(zhàn)性的是,我們不一定要爭(zhēng)取最緊湊的表示或最少數(shù)量的浮點(diǎn)運(yùn)算,而是要尋求可以在現(xiàn)代 GPU 上最有效地執(zhí)行的解決方案。
4.1.5. 練習(xí)
我們可以更深入地探索指數(shù)族和 softmax 之間的聯(lián)系。
計(jì)算交叉熵?fù)p失的二階導(dǎo)數(shù) l(y,y^)對(duì)于 softmax。
計(jì)算由給出的分布的方差 softmax(o)并證明它與上面計(jì)算的二階導(dǎo)數(shù)相匹配。
假設(shè)我們有三個(gè)以等概率出現(xiàn)的類,即概率向量是 (13,13,13).
如果我們嘗試為它設(shè)計(jì)二進(jìn)制代碼,會(huì)出現(xiàn)什么問(wèn)題?
你能設(shè)計(jì)出更好的代碼嗎?提示:如果我們嘗試對(duì)兩個(gè)獨(dú)立的觀察結(jié)果進(jìn)行編碼,會(huì)發(fā)生什么情況?如果我們編碼怎么辦n 共同觀察?
在對(duì)通過(guò)物理線路傳輸?shù)?a target="_blank">信號(hào)進(jìn)行編碼時(shí),工程師并不總是使用二進(jìn)制代碼。例如, PAM-3使用三個(gè)信號(hào)電平{?1,0,1}而不是兩個(gè)級(jí)別 {0,1}. 傳遞范圍內(nèi)的整數(shù)需要多少個(gè)三元單位{0,…,7}?為什么這在電子學(xué)方面可能是一個(gè)更好的主意?
Bradley -Terry 模型 使用邏輯模型來(lái)捕捉偏好。為了讓用戶在蘋果和橙子之間做出選擇,一個(gè)假設(shè)分?jǐn)?shù) oapple和oorange. 我們的要求是得分越大,選擇相關(guān)項(xiàng)目的可能性就越大,得分最高的項(xiàng)目最有可能被選中 (Bradley 和 Terry,1952 年)。
證明softmax滿足這個(gè)要求。
如果您希望允許默認(rèn)選項(xiàng)既不選擇蘋果也不選擇橙子,會(huì)發(fā)生什么情況?提示:現(xiàn)在用戶有 3 個(gè)選擇。
Softmax 的名稱來(lái)源于以下映射: RealSoftMax(a,b)=log?(exp?(a)+exp?(b)).
證明 RealSoftMax(a,b)>max(a,b).
你能使這兩個(gè)函數(shù)之間的差異有多小?提示:不失一般性,您可以設(shè)置b=0和 a≥b.
證明這適用于 λ?1RealSoftMax(λa,λb), 前提是λ>0.
表明對(duì)于λ→∞我們有 λ?1RealSoftMax(λa,λb)→max(a,b).
軟敏是什么樣子的?
將其擴(kuò)展到兩個(gè)以上的數(shù)字。
功能 g(x)=deflog?∑iexp?xi 有時(shí)也稱為對(duì)數(shù)分區(qū)函數(shù)。
證明函數(shù)是凸的。提示:為此,使用一階導(dǎo)數(shù)等于 softmax 函數(shù)的概率這一事實(shí),并證明二階導(dǎo)數(shù)是方差。
顯示g是平移不變的,即 g(x+b)=g(x).
如果某些坐標(biāo)會(huì)發(fā)生什么xi很大嗎?如果它們都非常小會(huì)怎樣?
證明如果我們選擇b=maxixi我們最終得到了一個(gè)數(shù)值穩(wěn)定的實(shí)現(xiàn)。
假設(shè)我們有一些概率分布P. 假設(shè)我們選擇另一個(gè)分布Q和 Q(i)∝P(i)α為了α>0.
選擇哪個(gè)α對(duì)應(yīng)溫度翻倍?哪個(gè)選擇對(duì)應(yīng)減半?
如果我們讓溫度收斂到0?
如果我們讓溫度收斂到∞?
Discussions
-
pytorch
+關(guān)注
關(guān)注
2文章
808瀏覽量
13235 -
Softmax
+關(guān)注
關(guān)注
0文章
9瀏覽量
2520
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論