国产精品国产三级在线专区,免费观看av片在线手机观看 ,久久人人爽人人片浪潮av高清

在3.1 節(jié)中，我們介紹了線性回歸，在3.4 節(jié)中從頭開始實(shí)現(xiàn) ，并在3.5 節(jié)中再次使用深度學(xué)習(xí)框架的高級(jí) API來(lái)完成繁重的工作。

回歸是我們想回答多少的時(shí)候伸手去拿的錘子？或者有多少？問(wèn)題。如果你想預(yù)測(cè)房子的售價(jià)（價(jià)格），或者一支棒球隊(duì)可能獲勝的次數(shù)，或者病人出院前住院的天數(shù)，那么你可能是尋找回歸模型。然而，即使在回歸模型中，也存在重要的區(qū)別。例如，房屋的價(jià)格永遠(yuǎn)不會(huì)是負(fù)數(shù)，并且變化可能通常與其基準(zhǔn)價(jià)格有關(guān)。因此，對(duì)價(jià)格的對(duì)數(shù)進(jìn)行回歸可能更有效。同樣，患者住院的天數(shù)是離散的非負(fù)數(shù)隨機(jī)變量。因此，最小均方可能也不是理想的方法。這種時(shí)間-事件建模伴隨著許多其他并發(fā)癥，這些并發(fā)癥在稱為生存建模的專門子領(lǐng)域中處理。

這里的重點(diǎn)不是要讓你不知所措，而只是讓你知道，除了簡(jiǎn)單地最小化平方誤差之外，還有很多東西需要估計(jì)。更廣泛地說(shuō)，監(jiān)督學(xué)習(xí)比回歸要多得多。在這一節(jié)中，我們重點(diǎn)關(guān)注分類問(wèn)題，我們擱置了多少？問(wèn)題，而是關(guān)注哪個(gè)類別？問(wèn)題。

這封電子郵件屬于垃圾郵件文件夾還是收件箱？

該客戶是否更有可能注冊(cè)或不注冊(cè)訂閱服務(wù)？

這個(gè)圖像描繪的是驢、狗、貓還是公雞？

阿斯頓接下來(lái)最有可能看哪部電影？

您接下來(lái)要閱讀本書的哪一部分？

通俗地說(shuō)，機(jī)器學(xué)習(xí)從業(yè)者重載了單詞分類來(lái)描述兩個(gè)細(xì)微不同的問(wèn)題：（i）那些我們只對(duì)將示例硬分配給類別（類）感興趣的問(wèn)題；(ii) 那些我們希望進(jìn)行軟分配的地方，即評(píng)估每個(gè)類別適用的概率。這種區(qū)別往往會(huì)變得模糊，部分原因是，即使我們只關(guān)心硬分配，我們?nèi)匀唤?jīng)常使用進(jìn)行軟分配的模型。

更重要的是，在某些情況下，不止一個(gè)標(biāo)簽可能是真實(shí)的。例如，一篇新聞文章可能同時(shí)涵蓋娛樂(lè)、商業(yè)和太空飛行等主題，但不會(huì)涵蓋醫(yī)學(xué)或體育主題。因此，將其單獨(dú)歸入上述類別之一并不是很有用。這個(gè)問(wèn)題通常被稱為多標(biāo)簽分類。參見(jiàn)Tsoumakas 和 Katakis ( 2007 )的概述和 Huang等人。( 2015 )用于標(biāo)記圖像時(shí)的有效算法。

4.1.1. 分類

讓我們先從一個(gè)簡(jiǎn)單的圖像分類問(wèn)題開始。這里，每個(gè)輸入包含一個(gè)2×2灰度圖像。我們可以用一個(gè)標(biāo)量表示每個(gè)像素值，給我們四個(gè)特征x1,x2,x3,x4. 此外，假設(shè)每個(gè)圖像屬于類別“貓”、“雞”和“狗”中的一個(gè)。

接下來(lái)，我們必須選擇如何表示標(biāo)簽。我們有兩個(gè)明顯的選擇。也許最自然的沖動(dòng)是選擇 y∈{1,2,3}，其中整數(shù)代表 {dog,cat,chicken}分別。這是在計(jì)算機(jī)上存儲(chǔ)此類信息的好方法。如果類別之間有一些自然順序，比如說(shuō)我們是否試圖預(yù)測(cè) {baby,toddler,adolescent,young adult,adult,geriatric}，那么將其轉(zhuǎn)換為有序回歸問(wèn)題并以這種格式保留標(biāo)簽甚至可能是有意義的。參見(jiàn) Moon等人。( 2010 )概述了不同類型的排名損失函數(shù)和Beutel等人。( 2014 ) 用于解決具有多個(gè)模式的響應(yīng)的貝葉斯方法。

一般而言，分類問(wèn)題并不伴隨著類別之間的自然排序。幸運(yùn)的是，統(tǒng)計(jì)學(xué)家很久以前就發(fā)明了一種表示分類數(shù)據(jù)的簡(jiǎn)單方法：one-hot encoding。one-hot 編碼是一個(gè)向量，其分量與我們的類別一樣多。對(duì)應(yīng)于特定實(shí)例類別的組件設(shè)置為 1，所有其他組件設(shè)置為 0。在我們的例子中，標(biāo)簽y 將是一個(gè)三維向量，具有(1,0,0) 對(duì)應(yīng)“貓”，(0,1,0)到“雞”，和 (0,0,1)對(duì)“狗”：

(4.1.1)y∈{(1,0,0),(0,1,0),(0,0,1)}.

4.1.1.1. 線性模型

為了估計(jì)與所有可能類別相關(guān)的條件概率，我們需要一個(gè)具有多個(gè)輸出的模型，每個(gè)類別一個(gè)。為了解決線性模型的分類問(wèn)題，我們需要與輸出一樣多的仿射函數(shù)。嚴(yán)格來(lái)說(shuō)，我們只需要少一個(gè)，因?yàn)樽詈笠活惐仨毷?1和其他類別的總和，但出于對(duì)稱的原因，我們使用了稍微冗余的參數(shù)化。每個(gè)輸出對(duì)應(yīng)于它自己的仿射函數(shù)。在我們的例子中，由于我們有 4 個(gè)特征和 3 個(gè)可能的輸出類別，我們需要 12 個(gè)標(biāo)量來(lái)表示權(quán)重（w帶下標(biāo)）和 3 個(gè)標(biāo)量來(lái)表示偏差（b帶下標(biāo)）。這產(chǎn)生：

(4.1.2)o1=x1w11+x2w12+x3w13+x4w14+b1,o2=x1w21+x2w22+x3w23+x4w24+b2,o3=x1w31+x2w32+x3w33+x4w34+b3.

對(duì)應(yīng)的神經(jīng)網(wǎng)絡(luò)圖如圖4.1.1所示。就像在線性回歸中一樣，我們使用單層神經(jīng)網(wǎng)絡(luò)。并且由于每個(gè)輸出的計(jì)算， o1,o2，和o3, 取決于所有輸入，x1, x2,x3，和x4，輸出層也可以描述為全連接層。

圖 4.1.1 Softmax 回歸是一個(gè)單層神經(jīng)網(wǎng)絡(luò)。

為了更簡(jiǎn)潔的表示法，我們使用向量和矩陣： o=Wx+b更適合數(shù)學(xué)和代碼。請(qǐng)注意，我們已將所有權(quán)重收集到一個(gè)3×4矩陣和所有偏差 b∈R3在一個(gè)向量中。

4.1.1.2。Softmax

假設(shè)有一個(gè)合適的損失函數(shù)，我們可以直接嘗試最小化兩者之間的差異o和標(biāo)簽 y. 雖然事實(shí)證明，將分類處理為向量值回歸問(wèn)題的效果出奇地好，但它仍然缺乏以下方面：

無(wú)法保證輸出oi總結(jié)為 1以我們期望概率表現(xiàn)的方式。

無(wú)法保證輸出oi甚至是非負(fù)的，即使它們的輸出總和為1，或者他們不超過(guò)1.

這兩個(gè)方面都使估計(jì)問(wèn)題難以解決，并且解決方案對(duì)異常值非常脆弱。例如，如果我們假設(shè)臥室數(shù)量與某人購(gòu)買房屋的可能性之間存在正線性相關(guān)性，則概率可能超過(guò) 1買豪宅的時(shí)候！因此，我們需要一種機(jī)制來(lái)“壓縮”輸出。

我們可以通過(guò)多種方式來(lái)實(shí)現(xiàn)這一目標(biāo)。例如，我們可以假設(shè)輸出o是損壞的版本y，其中通過(guò)添加噪聲發(fā)生損壞?從正態(tài)分布中提取。換句話說(shuō)，y=o+?，在哪里 ?i～N(0,σ2). 這就是所謂的 probit 模型，首先由Fechner ( 1860 )提出。雖然很吸引人，但與 softmax 相比，它的效果并不好，也不會(huì)導(dǎo)致特別好的優(yōu)化問(wèn)題。

實(shí)現(xiàn)此目標(biāo)（并確保非負(fù)性）的另一種方法是使用指數(shù)函數(shù)P(y=i)∝exp?oi. 這確實(shí)滿足了條件類概率隨著增加而增加的要求oi，它是單調(diào)的，所有概率都是非負(fù)的。然后我們可以轉(zhuǎn)換這些值，使它們加起來(lái)1通過(guò)將每個(gè)除以它們的總和。這個(gè)過(guò)程稱為規(guī)范化。將這兩個(gè)部分放在一起可以得到softmax函數(shù)：

(4.1.3)y^=softmax(o)wherey^i=exp?(oi)∑jexp?(oj).

注意最大坐標(biāo)o對(duì)應(yīng)于最有可能的類別y^. 此外，因?yàn)?softmax 操作保留了其參數(shù)之間的順序，我們不需要計(jì)算 softmax 來(lái)確定哪個(gè)類別被分配了最高概率。

(4.1.4)argmaxjy^j=argmaxjoj.

softmax 的想法可以追溯到 Gibbs，他改編了物理學(xué)的想法( Gibbs, 1902 )。追溯到更早以前，現(xiàn)代熱力學(xué)之父玻爾茲曼就使用這個(gè)技巧來(lái)模擬氣體分子中的能量狀態(tài)分布。特別是，他發(fā)現(xiàn)熱力學(xué)系綜中能量狀態(tài)的普遍存在，例如氣體中的分子，與exp?(?E/kT). 這里， E是一種狀態(tài)的能量，T是溫度，并且 k是玻爾茲曼常數(shù)。當(dāng)統(tǒng)計(jì)學(xué)家談?wù)撛黾踊蚪档徒y(tǒng)計(jì)系統(tǒng)的“溫度”時(shí)，他們指的是變化T為了有利于較低或較高的能量狀態(tài)。按照吉布斯的想法，能量等同于錯(cuò)誤?；谀芰康哪Ｐ? Ranzato et al. , 2007 )在描述深度學(xué)習(xí)中的問(wèn)題時(shí)使用了這種觀點(diǎn)。

4.1.1.3. 矢量化

為了提高計(jì)算效率，我們將計(jì)算向量化為小批量數(shù)據(jù)。假設(shè)我們得到了一個(gè)小批量 X∈Rn×d的n維度示例（輸入數(shù)量）d. 此外，假設(shè)我們有q輸出中的類別。那么權(quán)重滿足 W∈Rd×q偏差滿足 b∈R1×q.

(4.1.5)O=XW+b,Y^=softmax(O).

這將主導(dǎo)操作加速為矩陣矩陣乘積 XW. 此外，由于每一行 X表示一個(gè)數(shù)據(jù)示例，softmax 操作本身可以按行計(jì)算：對(duì)于每一行O，對(duì)所有條目取冪，然后用總和對(duì)它們進(jìn)行歸一化。但是請(qǐng)注意，必須注意避免對(duì)大數(shù)取冪和取對(duì)數(shù)，因?yàn)檫@會(huì)導(dǎo)致數(shù)值溢出或下溢。深度學(xué)習(xí)框架會(huì)自動(dòng)處理這個(gè)問(wèn)題。

4.1.2. 損失函數(shù)

現(xiàn)在我們有了來(lái)自特征的映射x概率y^，我們需要一種方法來(lái)優(yōu)化此映射的準(zhǔn)確性。我們將依賴最大似然估計(jì)，這與我們?cè)诘?3.1.3 節(jié)中為均方誤差損失提供概率論證時(shí)遇到的概念完全相同。

4.1.2.1. 對(duì)數(shù)似然

softmax 函數(shù)給了我們一個(gè)向量y^，我們可以將其解釋為每個(gè)類的（估計(jì)的）條件概率，給定任何輸入x，例如y^1= P(y=cat∣x). 在下文中，我們假設(shè)對(duì)于具有特征的數(shù)據(jù)集X標(biāo)簽 Y使用單熱編碼標(biāo)簽向量表示。給定以下特征，我們可以根據(jù)我們的模型檢查實(shí)際類別的可能性，從而將估計(jì)值與現(xiàn)實(shí)進(jìn)行比較：

(4.1.6)P(Y∣X)=∏i=1nP(y(i)∣x(i)).

我們被允許使用因式分解，因?yàn)槲覀兗僭O(shè)每個(gè)標(biāo)簽都是獨(dú)立于其各自的分布繪制的 P(y∣x(i)). 由于最大化項(xiàng)的乘積很尷尬，我們?nèi)∝?fù)對(duì)數(shù)來(lái)獲得最小化負(fù)對(duì)數(shù)似然的等價(jià)問(wèn)題：

(4.1.7)?log?P(Y∣X)=∑i=1n?log?P(y(i)∣x(i))=∑i=1nl(y(i),y^(i)),

任何一對(duì)標(biāo)簽在哪里y和模型預(yù)測(cè) y^超過(guò)q類，損失函數(shù) l是

(4.1.8)l(y,y^)=?∑j=1qyjlog?y^j.

由于稍后解釋的原因，（4.1.8）中的損失函數(shù)通常稱為交叉熵?fù)p失。自從y是長(zhǎng)度的單熱向量q，其所有坐標(biāo)的總和j除了一個(gè)任期外，所有的人都消失了。注意損失l(y,y^)從下面被限制0每當(dāng)y^是一個(gè)概率向量：沒(méi)有一個(gè)條目大于1, 因此它們的負(fù)對(duì)數(shù)不能低于0; l(y,y^)=0僅當(dāng)我們確定地預(yù)測(cè)實(shí)際標(biāo)簽時(shí)。對(duì)于任何有限的權(quán)重設(shè)置，這永遠(yuǎn)不會(huì)發(fā)生，因?yàn)閷?softmax 輸出朝向1 需要采取相應(yīng)的輸入oi到無(wú)窮大（或所有其他輸出oj為了j≠i到負(fù)無(wú)窮大）。即使我們的模型可以分配一個(gè)輸出概率0，分配如此高的置信度時(shí)出現(xiàn)的任何錯(cuò)誤都會(huì)導(dǎo)致無(wú)限損失（?log?0=∞).

4.1.2.2. Softmax 和交叉熵?fù)p失

由于 softmax 函數(shù)和相應(yīng)的交叉熵?fù)p失非常普遍，因此有必要更好地了解它們的計(jì)算方式。將(4.1.3)代入(4.1.8)中損失的定義并使用我們獲得的 softmax 的定義：

(4.1.9)l(y,y^)=?∑j=1qyjlog?exp?(oj)∑k=1qexp?(ok)=∑j=1qyjlog?∑k=1qexp?(ok)?∑j=1qyjoj=log?∑k=1qexp?(ok)?∑j=1qyjoj.

為了更好地理解正在發(fā)生的事情，請(qǐng)考慮關(guān)于任何 logit 的導(dǎo)數(shù)oj. 我們得到

(4.1.10)?ojl(y,y^)=exp?(oj)∑k=1qexp?(ok)?yj=softmax(o)j?yj.

換句話說(shuō)，導(dǎo)數(shù)是我們的模型分配的概率（由 softmax 操作表示）與實(shí)際發(fā)生的概率（由 one-hot 標(biāo)簽向量中的元素表示）之間的差異。從這個(gè)意義上講，它與我們?cè)诨貧w中看到的非常相似，其中梯度是觀察值之間的差異y并估計(jì)y^. 這不是巧合。在任何指數(shù)族模型中，對(duì)數(shù)似然的梯度恰好由此項(xiàng)給出。這個(gè)事實(shí)使得計(jì)算梯度在實(shí)踐中變得容易。

現(xiàn)在考慮這樣一種情況，我們不僅觀察到單個(gè)結(jié)果，而且觀察到結(jié)果的整個(gè)分布。我們可以對(duì)標(biāo)簽使用與之前相同的表示y. 唯一的區(qū)別是，而不是只包含二進(jìn)制條目的向量，比如說(shuō) (0,0,1)，我們現(xiàn)在有一個(gè)通用的概率向量，比如說(shuō) (0.1,0.2,0.7). 我們之前用來(lái)定義損失的數(shù)學(xué)l在(4.1.8)中仍然可以正常工作，只是解釋稍微更籠統(tǒng)。它是標(biāo)簽分布的損失的預(yù)期值。這種損失稱為交叉熵?fù)p失，它是分類問(wèn)題中最常用的損失之一。我們可以通過(guò)介紹信息論的基礎(chǔ)知識(shí)來(lái)揭開這個(gè)名字的神秘面紗。簡(jiǎn)而言之，它測(cè)量對(duì)我們看到的內(nèi)容進(jìn)行編碼的位數(shù)y 相對(duì)于我們預(yù)測(cè)應(yīng)該發(fā)生的事情y^. 我們?cè)谙旅嫣峁┝艘粋€(gè)非?；镜慕忉?。有關(guān)信息論的更多詳細(xì)信息，請(qǐng)參閱Cover 和 Thomas ( 1999 )或 MacKay 和 Mac Kay ( 2003 )。

4.1.3. 信息論基礎(chǔ)

許多深度學(xué)習(xí)論文使用信息論中的直覺(jué)和術(shù)語(yǔ)。為了理解它們，我們需要一些共同語(yǔ)言。這是一本生存指南。信息論處理編碼、解碼、傳輸和操作信息（也稱為數(shù)據(jù)）的問(wèn)題。

4.1.3.1. 熵

信息論的中心思想是量化數(shù)據(jù)中包含的信息量。這限制了我們壓縮數(shù)據(jù)的能力。對(duì)于分配P它的熵定義為：

(4.1.11)H[P]=∑j?P(j)log?P(j).

信息論的基本定理之一指出，為了對(duì)從分布中隨機(jī)抽取的數(shù)據(jù)進(jìn)行編碼P，我們至少需要H[P]“nats”對(duì)其進(jìn)行編碼（香農(nóng)，1948 年）。如果您想知道“nat”是什么，它相當(dāng)于位，但是當(dāng)使用帶有 base 的代碼時(shí)e而不是基數(shù)為 2 的一個(gè)。因此，一個(gè) nat 是1log?(2)≈1.44少量。

4.1.3.2. 驚喜

您可能想知道壓縮與預(yù)測(cè)有什么關(guān)系。想象一下，我們有一個(gè)要壓縮的數(shù)據(jù)流。如果我們總是很容易預(yù)測(cè)下一個(gè)標(biāo)記，那么這個(gè)數(shù)據(jù)就很容易壓縮。舉一個(gè)極端的例子，流中的每個(gè)標(biāo)記總是取相同的值。那是一個(gè)非常無(wú)聊的數(shù)據(jù)流！不僅無(wú)聊，而且很容易預(yù)測(cè)。因?yàn)樗鼈兛偸窍嗤?，所以我們不必傳輸任何信息?lái)傳達(dá)流的內(nèi)容。易于預(yù)測(cè)，易于壓縮。

然而，如果我們不能完美地預(yù)測(cè)每一件事，那么我們有時(shí)可能會(huì)感到驚訝。當(dāng)我們分配一個(gè)較低概率的事件時(shí)，我們的驚喜更大?？藙诘隆は戕r(nóng)決定 log?1P(j)=?log?P(j)量化一個(gè)人在觀察事件時(shí)的驚訝程度j賦予它一個(gè)（主觀）概率P(j). (4.1.11)中定義的熵是當(dāng)分配真正匹配數(shù)據(jù)生成過(guò)程的正確概率時(shí)的預(yù)期意外。

4.1.3.3. 重溫交叉熵

因此，如果熵是知道真實(shí)概率的人所經(jīng)歷的驚奇程度，那么您可能想知道，什么是交叉熵？交叉熵來(lái)自 P 到 Q, 表示H(P,Q), 是具有主觀概率的觀察者的預(yù)期驚喜Q在看到實(shí)際根據(jù)概率生成的數(shù)據(jù)時(shí)P. 這是由 H(P,Q)=def∑j?P(j)log?Q(j). 當(dāng)達(dá)到最低可能的交叉熵時(shí)P=Q. 在這種情況下，交叉熵來(lái)自P到Q是 H(P,P)=H(P).

簡(jiǎn)而言之，我們可以通過(guò)兩種方式來(lái)考慮交叉熵分類目標(biāo)：（i）最大化觀察數(shù)據(jù)的可能性；(ii) 最小化傳達(dá)標(biāo)簽所需的意外（以及位數(shù)）。

4.1.4. 總結(jié)與討論

在本節(jié)中，我們遇到了第一個(gè)非平凡的損失函數(shù)，使我們能夠優(yōu)化離散輸出空間。其設(shè)計(jì)的關(guān)鍵是我們采用了概率方法，將離散類別視為從概率分布中抽取的實(shí)例。作為副作用，我們遇到了 softmax，這是一種方便的激活函數(shù)，可將普通神經(jīng)網(wǎng)絡(luò)層的輸出轉(zhuǎn)換為有效的離散概率分布。我們看到交叉熵?fù)p失的導(dǎo)數(shù)與 softmax 結(jié)合時(shí)的行為與平方誤差的導(dǎo)數(shù)非常相似，即取預(yù)期行為與其預(yù)測(cè)之間的差異。而且，雖然我們只能觸及它的表面，但我們遇到了與統(tǒng)計(jì)物理學(xué)和信息論的令人興奮的聯(lián)系。

雖然這足以讓您上路，并希望足以激發(fā)您的胃口，但我們幾乎沒(méi)有深入探討。除其他外，我們跳過(guò)了計(jì)算方面的考慮。具體來(lái)說(shuō)，對(duì)于任何具有d輸入和q輸出，參數(shù)化和計(jì)算成本是O(dq)，這在實(shí)踐中可能高得令人望而卻步。幸運(yùn)的是，這種改造成本d輸入到q可以通過(guò)近似和壓縮來(lái)減少輸出。例如 Deep Fried Convnets ( Yang et al. , 2015 )使用排列、傅里葉變換和縮放的組合來(lái)將成本從二次降低到對(duì)數(shù)線性。類似的技術(shù)適用于更高級(jí)的結(jié)構(gòu)矩陣近似（Sindhwani等人，2015 年）。最后，我們可以使用類似四元數(shù)的分解來(lái)降低成本 O(dqn)，同樣，如果我們?cè)敢飧鶕?jù)壓縮因子為計(jì)算和存儲(chǔ)成本犧牲少量準(zhǔn)確性（Zhang等人，2021 年）n. 這是一個(gè)活躍的研究領(lǐng)域。具有挑戰(zhàn)性的是，我們不一定要爭(zhēng)取最緊湊的表示或最少數(shù)量的浮點(diǎn)運(yùn)算，而是要尋求可以在現(xiàn)代 GPU 上最有效地執(zhí)行的解決方案。

4.1.5. 練習(xí)

我們可以更深入地探索指數(shù)族和 softmax 之間的聯(lián)系。

計(jì)算交叉熵?fù)p失的二階導(dǎo)數(shù) l(y,y^)對(duì)于 softmax。

計(jì)算由給出的分布的方差 softmax(o)并證明它與上面計(jì)算的二階導(dǎo)數(shù)相匹配。

假設(shè)我們有三個(gè)以等概率出現(xiàn)的類，即概率向量是 (13,13,13).

如果我們嘗試為它設(shè)計(jì)二進(jìn)制代碼，會(huì)出現(xiàn)什么問(wèn)題？

你能設(shè)計(jì)出更好的代碼嗎？提示：如果我們嘗試對(duì)兩個(gè)獨(dú)立的觀察結(jié)果進(jìn)行編碼，會(huì)發(fā)生什么情況？如果我們編碼怎么辦n 共同觀察？

在對(duì)通過(guò)物理線路傳輸?shù)?a target="_blank">信號(hào)進(jìn)行編碼時(shí)，工程師并不總是使用二進(jìn)制代碼。例如， PAM-3使用三個(gè)信號(hào)電平{?1,0,1}而不是兩個(gè)級(jí)別 {0,1}. 傳遞范圍內(nèi)的整數(shù)需要多少個(gè)三元單位{0,…,7}？為什么這在電子學(xué)方面可能是一個(gè)更好的主意？

Bradley -Terry 模型使用邏輯模型來(lái)捕捉偏好。為了讓用戶在蘋果和橙子之間做出選擇，一個(gè)假設(shè)分?jǐn)?shù) oapple和oorange. 我們的要求是得分越大，選擇相關(guān)項(xiàng)目的可能性就越大，得分最高的項(xiàng)目最有可能被選中（Bradley 和 Terry，1952 年）。

證明softmax滿足這個(gè)要求。

如果您希望允許默認(rèn)選項(xiàng)既不選擇蘋果也不選擇橙子，會(huì)發(fā)生什么情況？提示：現(xiàn)在用戶有 3 個(gè)選擇。

Softmax 的名稱來(lái)源于以下映射： RealSoftMax(a,b)=log?(exp?(a)+exp?(b)).

證明 RealSoftMax(a,b)>max(a,b).

你能使這兩個(gè)函數(shù)之間的差異有多小？提示：不失一般性，您可以設(shè)置b=0和 a≥b.

證明這適用于 λ?1RealSoftMax(λa,λb), 前提是λ>0.

表明對(duì)于λ→∞我們有 λ?1RealSoftMax(λa,λb)→max(a,b).

軟敏是什么樣子的？

將其擴(kuò)展到兩個(gè)以上的數(shù)字。

功能 g(x)=deflog?∑iexp?xi 有時(shí)也稱為對(duì)數(shù)分區(qū)函數(shù)。

證明函數(shù)是凸的。提示：為此，使用一階導(dǎo)數(shù)等于 softmax 函數(shù)的概率這一事實(shí)，并證明二階導(dǎo)數(shù)是方差。

顯示g是平移不變的，即 g(x+b)=g(x).

如果某些坐標(biāo)會(huì)發(fā)生什么xi很大嗎？如果它們都非常小會(huì)怎樣？

證明如果我們選擇b=maxixi我們最終得到了一個(gè)數(shù)值穩(wěn)定的實(shí)現(xiàn)。

假設(shè)我們有一些概率分布P. 假設(shè)我們選擇另一個(gè)分布Q和 Q(i)∝P(i)α為了α>0.

選擇哪個(gè)α對(duì)應(yīng)溫度翻倍？哪個(gè)選擇對(duì)應(yīng)減半？

如果我們讓溫度收斂到0？

如果我們讓溫度收斂到∞？

Discussions

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴