0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NLP / LLMs中的Temperature是什么?

冬至子 ? 來源:Lazy Programmer ? 作者:Lazy Programmer ? 2023-05-24 17:12 ? 次閱讀

Temperature 在模型中的作用

Temperature 是一個(gè)超參數(shù),可用于控制生成語(yǔ)言模型中生成文本的隨機(jī)性和創(chuàng)造性。它用于調(diào)整模型的softmax輸出層中預(yù)測(cè)詞的概率。溫度參數(shù)定義為在應(yīng)用 softmax 函數(shù)之前用于調(diào)整 logits 的比例因子的倒數(shù)。

當(dāng)Temperature 設(shè)置為較低的值時(shí),預(yù)測(cè)詞的概率會(huì)變尖銳,這意味著選擇最有可能的詞的概率更高。這會(huì)產(chǎn)生更保守和可預(yù)測(cè)的文本,因?yàn)槟P筒惶赡苌梢庀氩坏交虿粚こ5脑~。另一方面,當(dāng)Temperature 設(shè)置為較高值時(shí),預(yù)測(cè)詞的概率被拉平,這意味著所有詞被選擇的可能性更大。這會(huì)產(chǎn)生更有創(chuàng)意和多樣化的文本,因?yàn)槟P透锌赡苌刹粚こ;蛞庀氩坏降脑~。

溫度參數(shù)通常設(shè)置為 0.1 到 1.0 之間的值,具體取決于生成文本中所需的隨機(jī)性和創(chuàng)造性水平。溫度值為 1.0 對(duì)應(yīng)于標(biāo)準(zhǔn) softmax 函數(shù),其中預(yù)測(cè)詞的概率未按比例縮放。

一般來說,Temperature 越低,GPT-3越有可能選擇出現(xiàn)概率較高的單詞。當(dāng)我們想要GPT-3解釋概念時(shí),它特別有用,因?yàn)榇鸢钢挥幸粋€(gè)。如果想要產(chǎn)生想法或完成一個(gè)故事,Temperature 設(shè)置的更大會(huì)給我們帶來更多的多樣性。

比如說以下提示:

Prompt: “The quick brown fox”

Temperature = 0.1:

“The quick brown fox jumped over the lazy dog. The quick brown fox jumped over the lazy dog. The quick brown fox jumped over the lazy dog.”

Temperature = 0.5:

“The quick brown fox jumped over the lazy dog. The lazy cat was not impressed. The quick brown fox ran away.”

Temperature = 1.0:

“The quick brown fox jumped over the lazy dog. Suddenly, a flock of birds flew overhead, causing the fox to stop in its tracks. It looked up at the sky, wondering where they were going.”

可以看到,Temperature 對(duì)生成文本的質(zhì)量和創(chuàng)造性有重大影響。低值生成更可預(yù)測(cè)和重復(fù)的文本,而高值生成更多樣化和創(chuàng)造性的文本。

Temperature 的數(shù)學(xué)原理解釋

神經(jīng)網(wǎng)絡(luò)的輸出是詞匯表中每個(gè)單詞(實(shí)際上是標(biāo)記)的概率分布,告訴它這些單詞中任何一個(gè)可能跟隨輸入文本的可能性。

該概率分布由softmax函數(shù)計(jì)算:

如果將Temperature 參數(shù)(T)添加到softmax函數(shù),則公式如下:

更深入的解釋Temperature 參數(shù):

如果當(dāng)T趨于無窮時(shí)會(huì)發(fā)生什么。每個(gè)x_i / T都會(huì)趨于0,從而得到一個(gè)均勻分布。也就是說概率分布變得更 “平”, 這會(huì)導(dǎo)致結(jié)果更隨機(jī)。

當(dāng)T很小(比如0.1)時(shí)會(huì)發(fā)生什么。每個(gè)x_i / T之間的差異變得更加明顯(例如5比1變成50比10),這樣概率分布變得“更尖”,也就是說結(jié)果會(huì)更確定。

總結(jié)

Temperature 參數(shù)是語(yǔ)言生成模型中一個(gè)重要的超參數(shù),可用于控制生成文本的隨機(jī)性和創(chuàng)造性。通過調(diào)整該參數(shù),可以生成更保守或更有創(chuàng)意的文本,雖然Temperature 參數(shù)是生成高質(zhì)量文本的強(qiáng)大工具,但需要注意的是,它并不能提高生成語(yǔ)言模型的性能。因?yàn)樯晌谋镜馁|(zhì)量高度依賴于訓(xùn)練數(shù)據(jù)的質(zhì)量、模型的架構(gòu)以及其他超參數(shù),如學(xué)習(xí)率和批處理大小。在設(shè)計(jì)和訓(xùn)練生成語(yǔ)言模型時(shí),必須考慮所有這些因素。

另外就是Temperature 參數(shù)可能并不總是提高生成文本的質(zhì)量,特別是在訓(xùn)練數(shù)據(jù)有限或有噪聲的情況下。在這種情況下,其他技術(shù),如數(shù)據(jù)增強(qiáng)、正則化或遷移學(xué)習(xí)可能更有效地提高模型的性能。

最后Temperature 可以控制語(yǔ)言生成模型的行為。通過適當(dāng)?shù)恼{(diào)整,可以得到我們期望的結(jié)果。比如說生成更確定的答案可以降低該值,而生成更發(fā)散和創(chuàng)造性的答案可以提高該值,所以嘗試一下不同的值,看看這些更改對(duì)不的提示有什么影響,這會(huì)幫助我們更好的獲得想要的結(jié)果。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • Temperature
    +關(guān)注

    關(guān)注

    0

    文章

    62

    瀏覽量

    62432
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    0

    文章

    298

    瀏覽量

    361
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    NLP的面試題目

    NLP面試題目6-10
    發(fā)表于 05-21 15:02

    NLP的tfidf作詞向量

    NLP之tfidf作詞向量
    發(fā)表于 06-01 17:28

    High Temperature (HT) Manageme

    High Temperature (HT) Management Program at ON Semiconductor Push to higher junction temperature
    發(fā)表于 04-16 11:10 ?8次下載

    Measuring Temperature with the

    Measuring Temperature with the MAX1358 Data Acquisition System Abstract: This application note
    發(fā)表于 09-19 16:13 ?1342次閱讀
    Measuring <b class='flag-5'>Temperature</b> with the

    Distributed Temperature Sensin

    Abstract: Systems with multiple "hot spots" often require several temperature sensors
    發(fā)表于 04-18 10:57 ?1414次閱讀
    Distributed <b class='flag-5'>Temperature</b> Sensin

    NLP的介紹和如何利用機(jī)器學(xué)習(xí)進(jìn)行NLP以及三種NLP技術(shù)的詳細(xì)介紹

    本文用簡(jiǎn)潔易懂的語(yǔ)言,講述了自然語(yǔ)言處理(NLP)的前世今生。從什么是NLP到為什么要學(xué)習(xí)NLP,再到如何利用機(jī)器學(xué)習(xí)進(jìn)行NLP,值得一讀。這是該系列的第一部分,介紹了三種
    的頭像 發(fā)表于 06-10 10:26 ?7.7w次閱讀
    <b class='flag-5'>NLP</b>的介紹和如何利用機(jī)器學(xué)習(xí)進(jìn)行<b class='flag-5'>NLP</b>以及三種<b class='flag-5'>NLP</b>技術(shù)的詳細(xì)介紹

    NLP的深度學(xué)習(xí)技術(shù)概述

    該項(xiàng)目是對(duì)基于深度學(xué)習(xí)的自然語(yǔ)言處理(NLP)的概述,包括用來解決不同 NLP 任務(wù)和應(yīng)用的深度學(xué)習(xí)模型(如循環(huán)神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)和強(qiáng)化學(xué)習(xí))的理論介紹和實(shí)現(xiàn)細(xì)節(jié),以及對(duì) NLP 任務(wù)(機(jī)器翻譯、問答和對(duì)話系統(tǒng))當(dāng)前最優(yōu)結(jié)果
    的頭像 發(fā)表于 03-01 09:13 ?4849次閱讀
    <b class='flag-5'>NLP</b><b class='flag-5'>中</b>的深度學(xué)習(xí)技術(shù)概述

    關(guān)于“NLP的遷移學(xué)習(xí)”的教程

    這些改進(jìn),加上這些方法的廣泛可用性和易集成性,使人們想起了導(dǎo)致計(jì)算機(jī)視覺預(yù)訓(xùn)練字嵌入和ImageNet預(yù)訓(xùn)練成功的因素,并表明這些方法很可能成為NLP的一種常用工具以及一個(gè)重要的研究方向。
    的頭像 發(fā)表于 06-23 10:11 ?2442次閱讀
    關(guān)于“<b class='flag-5'>NLP</b><b class='flag-5'>中</b>的遷移學(xué)習(xí)”的教程

    NLP 2019 Highlights 給NLP從業(yè)者的一個(gè)參考

    自然語(yǔ)言處理專家elvis在medium博客上發(fā)表了關(guān)于NLP在2019年的亮點(diǎn)總結(jié)。對(duì)于自然語(yǔ)言處理(NLP)領(lǐng)域而言,2019年是令人印象深刻的一年。在這篇博客文章,我想重點(diǎn)介紹一些我在
    的頭像 發(fā)表于 09-25 16:56 ?1757次閱讀

    金融市場(chǎng)NLP 情感分析

    的機(jī)器學(xué)習(xí),而不是使用深層神經(jīng)網(wǎng)絡(luò)。 2018年,在一些NLP任務(wù),一種名為BERT的最先進(jìn)(STOA)模型的表現(xiàn)超過了人類的得分。在這里,我將幾個(gè)模型應(yīng)用于情緒分析任務(wù),以了解它們?cè)谖宜幍慕鹑谑袌?chǎng)中有多大用處。代碼在jupyter notebook
    的頭像 發(fā)表于 11-02 16:18 ?1999次閱讀

    知識(shí)圖譜是NLP的未來嗎?

    我的看法:知識(shí)圖譜不是NLP的未來,因?yàn)橹R(shí)圖譜是另外一種與NLP有很多交集的技術(shù)。在目前所有已知的發(fā)展方向,知識(shí)圖譜是最有可能長(zhǎng)期和NLP互利共生的技術(shù)。
    的頭像 發(fā)表于 04-15 14:36 ?3728次閱讀
    知識(shí)圖譜是<b class='flag-5'>NLP</b>的未來嗎?

    LLMs時(shí)代進(jìn)行無害性評(píng)估的基準(zhǔn)解析

    隨著對(duì)LLMs的不斷應(yīng)用,大家也發(fā)現(xiàn)了諸多問題。比如常見的幻覺現(xiàn)象,LLMs可喜歡一本正經(jīng)地說著胡話呢。除此之外,LLMs也有可能生成一些歧視某些身份群體的內(nèi)容,還有一些傷害我們小小心靈的有毒內(nèi)容(這可不行)。
    發(fā)表于 01-05 14:14 ?397次閱讀
    <b class='flag-5'>LLMs</b>時(shí)代進(jìn)行無害性評(píng)估的基準(zhǔn)解析

    大語(yǔ)言模型(LLMs)如何處理多語(yǔ)言輸入問題

    研究者們提出了一個(gè)框架來描述LLMs在處理多語(yǔ)言輸入時(shí)的內(nèi)部處理過程,并探討了模型是否存在特定于語(yǔ)言的神經(jīng)元。
    發(fā)表于 03-07 14:44 ?674次閱讀
    大語(yǔ)言模型(<b class='flag-5'>LLMs</b>)如何處理多語(yǔ)言輸入問題

    RAG系統(tǒng)答案無關(guān)片段對(duì)LLMs生成結(jié)果的影響分析

    與常見語(yǔ)義無關(guān)的答案無關(guān)片段相比,LLMs更容易受到高度語(yǔ)義相關(guān)的答案無關(guān)片段的影響;
    發(fā)表于 04-15 09:49 ?414次閱讀
    RAG系統(tǒng)<b class='flag-5'>中</b>答案無關(guān)片段對(duì)<b class='flag-5'>LLMs</b>生成結(jié)果的影響分析

    NLP模型RNN與CNN的選擇

    NLP的應(yīng)用場(chǎng)景、工作原理、優(yōu)缺點(diǎn),以及在選擇時(shí)應(yīng)考慮的關(guān)鍵因素,以期為讀者提供一個(gè)全面而深入的理解。
    的頭像 發(fā)表于 07-03 15:59 ?607次閱讀