0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

語(yǔ)言模型做先驗(yàn),統(tǒng)一強(qiáng)化學(xué)習(xí)智能體,DeepMind選擇走這條通用AI之路

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來(lái)源:未知 ? 2023-07-24 16:55 ? 次閱讀

智能體的開(kāi)發(fā)中,強(qiáng)化學(xué)習(xí)與大語(yǔ)言模型、視覺(jué)語(yǔ)言模型等基礎(chǔ)模型的進(jìn)一步融合究竟能擦出怎樣的火花?谷歌 DeepMind 給了我們新的答案。

一直以來(lái),DeepMind 引領(lǐng)了強(qiáng)化學(xué)習(xí)(RL)智能體的發(fā)展,從最早的 AlphaGo、AlphaZero 到后來(lái)的多模態(tài)、多任務(wù)、多具身 AI 智能體 Gato,智能體的訓(xùn)練方法和能力都在不斷演進(jìn)。

從中不難發(fā)現(xiàn),隨著大模型越來(lái)越成為人工智能發(fā)展的主流趨勢(shì),DeepMind 在智能體的開(kāi)發(fā)中不斷嘗試將強(qiáng)化學(xué)習(xí)與自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)領(lǐng)域融合,努力實(shí)現(xiàn)不同模態(tài)任務(wù)的統(tǒng)一。Gato 很好地說(shuō)明了這一點(diǎn)。

近日,谷歌 DeepMind 在一篇新論文《Towards A Unified Agent with Foundation Models》中,探討了利用基礎(chǔ)模型打造統(tǒng)一的智能體。

263eabb8-29ff-11ee-a368-dac502259ad0.png

一作 Norman Di Palo 為帝國(guó)理工學(xué)院機(jī)器學(xué)習(xí)博士生,在谷歌 DeepMind 實(shí)習(xí)期間(任職研究科學(xué)家)參與完成本論文。

論文地址:https://arxiv.org/pdf/2307.09668.pdf

何謂基礎(chǔ)模型(Foundation Models)呢?我們知道,近年來(lái),深度學(xué)習(xí)取得了一系列令人矚目的成果,尤其在 NLP 和 CV 領(lǐng)域?qū)崿F(xiàn)突破。盡管模態(tài)不同,但具有共同的結(jié)構(gòu),即大型神經(jīng)網(wǎng)絡(luò),通常是 transformer,使用自監(jiān)督學(xué)習(xí)方法在大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)集上進(jìn)行訓(xùn)練。

雖然結(jié)構(gòu)簡(jiǎn)單,但基于它們開(kāi)發(fā)出了極其有效的大語(yǔ)言模型(LLM),能夠處理和生成具有出色類(lèi)人能力的文本。同時(shí),ViT 能夠在無(wú)監(jiān)督的情況下從圖像和視頻中提取有意義的表示,視覺(jué)語(yǔ)言模型(VLM)可以連接描述語(yǔ)言中視覺(jué)輸入或?qū)⒄Z(yǔ)言描述轉(zhuǎn)換為視覺(jué)輸出的數(shù)據(jù)模態(tài)。

這些模型的規(guī)模和能力使社區(qū)創(chuàng)造出了「基礎(chǔ)模型」一詞,這些模型可以用作涵蓋各種輸入模態(tài)的下游任務(wù)的支柱。

問(wèn)題來(lái)了:我們能否利用(視覺(jué))語(yǔ)言模型的性能和能力來(lái)設(shè)計(jì)更高效和通用的強(qiáng)化學(xué)習(xí)智能體呢?

在接受網(wǎng)絡(luò)規(guī)模的文本和視覺(jué)數(shù)據(jù)訓(xùn)練后,這些模型的常識(shí)推理、提出和排序子目標(biāo)、視覺(jué)理解和其他屬性也出現(xiàn)了。這些都是需要與環(huán)境交互并從環(huán)境中學(xué)習(xí)的智能體的基本特征,但可能需要花費(fèi)大量的時(shí)間才能從反復(fù)試錯(cuò)中顯現(xiàn)出來(lái)。而利用存儲(chǔ)在基礎(chǔ)模型中的知識(shí),我們能夠極大地引導(dǎo)這一過(guò)程。

受到這一思路的啟發(fā),谷歌 DeepMind 的研究者設(shè)計(jì)了一個(gè)全新的框架,該框架將語(yǔ)言置于強(qiáng)化學(xué)習(xí)機(jī)器人智能體的核心,尤其是在從頭開(kāi)始學(xué)習(xí)的環(huán)境中

2670b4c8-29ff-11ee-a368-dac502259ad0.png

圖 1:框架示意圖。

他們表示,這個(gè)利用了 LLM 和 VLM 的框架可以解決強(qiáng)化學(xué)習(xí)設(shè)置中的一系列基礎(chǔ)問(wèn)題,具體如下:

1)高效探索稀疏獎(jiǎng)勵(lì)環(huán)境

2)重新使用收集的數(shù)據(jù)來(lái)有序引導(dǎo)新任務(wù)的學(xué)習(xí)

3)調(diào)度學(xué)得的技巧來(lái)解決新任務(wù)

4)從專(zhuān)家智能體的觀察中學(xué)習(xí)

在最近的工作中,這些任務(wù)需要不同的、專(zhuān)門(mén)設(shè)計(jì)的算法來(lái)單獨(dú)處理,而本文證明了利用基礎(chǔ)模型開(kāi)發(fā)更統(tǒng)一方法的可能性。

此外,谷歌 DeepMind 將在 ICLR 2023 的 Reincarnating Reinforcement Learning Workshop 中展示該研究。

以語(yǔ)言為中心的智能體框架

該研究旨在通過(guò)分析基礎(chǔ)模型的使用,設(shè)計(jì)出更通用的 RL 機(jī)器人智能體,其中基礎(chǔ)模型在大量圖像和文本數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練。該研究為 RL 智能體提出了一個(gè)新框架,利用 LLM 和 VLM 的出色能力使智能體能夠推理環(huán)境、任務(wù),并完全根據(jù)語(yǔ)言采取行動(dòng)。

為此,智能體首先需要將視覺(jué)輸入映射到文本描述;然后該研究要用文本描述和任務(wù)描述 prompt LLM,以向智能體提供語(yǔ)言指令。最后,智能體需要將 LLM 的輸出轉(zhuǎn)化為行動(dòng)。

使用 VLM 連接視覺(jué)和語(yǔ)言

為了以語(yǔ)言形式描述從 RGB 相機(jī)獲取的視覺(jué)輸入,該研究使用了大型對(duì)比視覺(jué)語(yǔ)言模型 CLIP。

CLIP 由圖像編碼器26ab2da6-29ff-11ee-a368-dac502259ad0.png和文本編碼器26c86a74-29ff-11ee-a368-dac502259ad0.png組成,在含有噪聲的大型圖像 - 文本描述對(duì)數(shù)據(jù)集上進(jìn)行訓(xùn)練。每個(gè)編碼器輸出一個(gè) 128 維的嵌入向量:圖像嵌入和匹配的文本描述會(huì)經(jīng)過(guò)優(yōu)化以具有較大的余弦相似度。為了從環(huán)境中生成圖像的語(yǔ)言描述,智能體會(huì)將觀察Ot提供給26ab2da6-29ff-11ee-a368-dac502259ad0.png,并將可能的文本描述 ln提供給26c86a74-29ff-11ee-a368-dac502259ad0.png,如下圖 2 所示:

27211a70-29ff-11ee-a368-dac502259ad0.png

用 LLM 進(jìn)行推理

語(yǔ)言模型將語(yǔ)言形式的 prompt 作為輸入,并通過(guò)自回歸計(jì)算下一個(gè) token 的概率分布并從此分布中采樣來(lái)生成語(yǔ)言形式的輸出。該研究旨在讓 LLM 獲取表征任務(wù)的文本指令,并生成一組供機(jī)器人解決的子目標(biāo)。在模型方面,該研究使用 FLAN-T5,定性分析表明,F(xiàn)LAN-T5 的表現(xiàn)略好于未根據(jù)指令進(jìn)行微調(diào)的 LLM。

LLM 的 in-context 學(xué)習(xí)能力使該研究能夠直接使用它們,無(wú)需進(jìn)行域內(nèi)微調(diào),并僅需要提供兩個(gè)任務(wù)指令和所需的語(yǔ)言輸出樣本來(lái)指導(dǎo) LLM 的行為。

將指令轉(zhuǎn)化為行動(dòng)

然后,使用語(yǔ)言條件策略網(wǎng)絡(luò)將 LLM 提供的語(yǔ)言目標(biāo)轉(zhuǎn)化為行動(dòng)。該參數(shù)化為 Transformer 的網(wǎng)絡(luò)將語(yǔ)言子目標(biāo)的嵌入和時(shí)間步 t 時(shí)的 MDP 狀態(tài)(包括物體和機(jī)器人終端執(zhí)行器的位置)作為輸入,每個(gè)輸入都用不同的向量表征,然后輸出機(jī)器人在時(shí)間步 t + 1 時(shí)要執(zhí)行的動(dòng)作。如下所述,該網(wǎng)絡(luò)是在 RL 循環(huán)中從頭開(kāi)始訓(xùn)練的。

收集與推斷的學(xué)習(xí)范式

智能體從與環(huán)境的交互中學(xué)習(xí),其方法受到收集與推理范式的啟發(fā)。

在「收集」階段,智能體與環(huán)境互動(dòng),以狀態(tài)、觀察結(jié)果、行動(dòng)和當(dāng)前目標(biāo)(s_t, o_t, a_t, g_i)的形式收集數(shù)據(jù),并通過(guò)其策略網(wǎng)絡(luò) f_θ(s_t, g_i) → a_t 預(yù)測(cè)行動(dòng)。每一集結(jié)束后,智能體都會(huì)使用 VLM 來(lái)推斷收集到的數(shù)據(jù)中是否出現(xiàn)了任何子目標(biāo),從而獲得額外獎(jiǎng)勵(lì),將在后面詳細(xì)說(shuō)明。

在「推斷」階段,研究者會(huì)在每個(gè)智能體完成一集后,即每完成 N 集后,通過(guò)行為克隆對(duì)經(jīng)驗(yàn)緩沖區(qū)中的策略進(jìn)行訓(xùn)練,從而在成功的情節(jié)上實(shí)現(xiàn)一種自我模仿。然后,更新后的策略權(quán)重將與所有分布式智能體共享,整個(gè)過(guò)程重復(fù)進(jìn)行。

應(yīng)用與成果

將語(yǔ)言作為智能體的核心,這為解決 RL 中的一系列基本挑戰(zhàn)提供了一個(gè)統(tǒng)一的框架。在這部分內(nèi)容中,研究者討論了這些貢獻(xiàn):探索、重用過(guò)去的經(jīng)驗(yàn)數(shù)據(jù)、調(diào)度和重用技能以及從觀察中學(xué)習(xí)。算法 1 描述了整體框架:

27c4f56e-29ff-11ee-a368-dac502259ad0.png

探索:通過(guò)語(yǔ)言生成課程

Stack X on Y 和 Triple Stack 的結(jié)果。在下圖 4 中,研究者所提出框架與僅通過(guò)環(huán)境獎(jiǎng)勵(lì)進(jìn)行學(xué)習(xí)的基線智能體進(jìn)行了比較。從學(xué)習(xí)曲線可以清楚地看到,在所有任務(wù)中,本文的方法都比基線方法高效得多。

值得注意的是,在 Triple Stack 任務(wù)中,本文智能體的學(xué)習(xí)曲線迅速增長(zhǎng),而基線智能體仍然只能獲得一個(gè)獎(jiǎng)勵(lì),這是因?yàn)槿蝿?wù)的稀疏度為 10^6 。

28470860-29ff-11ee-a368-dac502259ad0.png

這些結(jié)果說(shuō)明了一些值得注意的問(wèn)題:可以將任務(wù)的稀疏程度與達(dá)到一定成功率所需的步驟數(shù)進(jìn)行比較,如下圖 5 所示。研究者還在 「抓取紅色物體」任務(wù)上訓(xùn)練了該方法,這是三個(gè)任務(wù)中最簡(jiǎn)單的一個(gè),其稀疏程度約為 10^1??梢钥吹?,在本文的框架下,所需步驟數(shù)的增長(zhǎng)速度比任務(wù)的稀疏程度更慢。這是一個(gè)特別重要的結(jié)果,因?yàn)橥ǔT趶?qiáng)化學(xué)習(xí)中,情況是正好相反的。

2891a4b0-29ff-11ee-a368-dac502259ad0.png

提取和轉(zhuǎn)移:通過(guò)重用離線數(shù)據(jù)進(jìn)行高效的連續(xù)任務(wù)學(xué)習(xí)

研究者利用基于語(yǔ)言的框架來(lái)展示基于智能體過(guò)去經(jīng)驗(yàn)的引導(dǎo)。他們依次訓(xùn)練了三個(gè)任務(wù):將紅色物體堆疊在藍(lán)色物體上、將藍(lán)色物體堆疊在綠色物體上、將綠色物體堆疊在紅色物體上,將其稱(chēng)之為 [T_R,B、T_B,G、T_G,R]。

順序任務(wù)學(xué)習(xí)的經(jīng)驗(yàn)重用結(jié)果。智能體應(yīng)用這種方法連續(xù)學(xué)習(xí)了 [T_R,B、T_B,G、T_G,R]。在每個(gè)新任務(wù)開(kāi)始時(shí),研究者都會(huì)重新初始化策略權(quán)重,目標(biāo)是探索本文框架提取和重用數(shù)據(jù)的能力,因此要隔離并消除可能由網(wǎng)絡(luò)泛化造成的影響。

下圖 7 中繪制了智能體需要在環(huán)境中采取多少交互步驟才能在每個(gè)新任務(wù)中達(dá)到 50% 的成功率。實(shí)驗(yàn)清楚地說(shuō)明了本文使用技術(shù)在重復(fù)利用以前任務(wù)收集的數(shù)據(jù)方面的有效性,從而提高了新任務(wù)的學(xué)習(xí)效率。

28f4a4ac-29ff-11ee-a368-dac502259ad0.png

這些結(jié)果表明,本文提出的框架可用于釋放機(jī)器人智能體的終身學(xué)習(xí)能力:連續(xù)學(xué)習(xí)的任務(wù)越多,學(xué)習(xí)下一個(gè)任務(wù)的速度就越快。

調(diào)度和重復(fù)使用所學(xué)技能

至此,我們已經(jīng)了解到框架如何使智能體能夠高效地探索和學(xué)習(xí),以解決回報(bào)稀少的任務(wù),并為終身學(xué)習(xí)重復(fù)使用和傳輸數(shù)據(jù)。此外,框架還能讓智能體調(diào)度和重復(fù)使用所學(xué)到的 M 技能來(lái)解決新任務(wù),而不局限于智能體在訓(xùn)練過(guò)程中遇到的任務(wù)。

這種模式與前幾節(jié)中遇到的步驟相同:一條指令會(huì)被輸入到 LLM,如將綠色物體疊放在紅色物體上,或?qū)⒓t色疊放在藍(lán)色物體上,再將綠色疊放在紅色物體上,然后 LLM 會(huì)將其分解為一系列更短視距的目標(biāo),即 g_0:N。然后,智能體可以利用策略網(wǎng)絡(luò)將這些目標(biāo)轉(zhuǎn)化為行動(dòng),即 f_θ(s_t, g_n) → a_t。

從觀察中學(xué)習(xí):將視頻映射到技能

通過(guò)觀察外部智能體學(xué)習(xí)是一般智能體的理想能力,但這往往需要專(zhuān)門(mén)設(shè)計(jì)的算法和模型。而本文智能體可以以專(zhuān)家執(zhí)行任務(wù)的視頻為條件,實(shí)現(xiàn) one-shot 觀察學(xué)習(xí)。

在測(cè)試中,智能體拍攝了一段人類(lèi)用手堆疊物體的視頻。視頻被分為 F 個(gè)幀,即 v_0:F。然后,智能體使用 VLM,再配上以子目標(biāo) g_0:M 表示的關(guān)于所學(xué)技能的 M 文本描述來(lái)檢測(cè)專(zhuān)家軌跡遇到了哪些子目標(biāo),具體如下圖 8:

29c3656c-29ff-11ee-a368-dac502259ad0.png

更多技術(shù)細(xì)節(jié)和實(shí)驗(yàn)結(jié)果請(qǐng)查閱原論文。


原文標(biāo)題:語(yǔ)言模型做先驗(yàn),統(tǒng)一強(qiáng)化學(xué)習(xí)智能體,DeepMind選擇走這條通用AI之路

文章出處:【微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:語(yǔ)言模型做先驗(yàn),統(tǒng)一強(qiáng)化學(xué)習(xí)智能體,DeepMind選擇走這條通用AI之路

文章出處:【微信號(hào):tyutcsplab,微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    【「零基礎(chǔ)開(kāi)發(fā)AI Agent」閱讀體驗(yàn)】+初品Agent

    期待中的《零基礎(chǔ)開(kāi)發(fā)AI Agent——手把手教你用扣子智能》終于寄到了,該書(shū)由葉濤、 管鍇、張心雨完成,并由電子工業(yè)出版社出版發(fā)行。 全書(shū)分為三個(gè)部分,即入門(mén)篇、工具篇及實(shí)踐篇。
    發(fā)表于 04-22 11:51

    首創(chuàng)開(kāi)源架構(gòu),天璣AI開(kāi)發(fā)套件讓端側(cè)AI模型接入得心應(yīng)手

    科正將AI能力體系化并賦能終端生態(tài)。 大會(huì)上,聯(lián)發(fā)科定義了“智能化用戶(hù)體驗(yàn)”的五大特征:主動(dòng)及時(shí)、知你懂你、互動(dòng)協(xié)作、學(xué)習(xí)進(jìn)化和專(zhuān)屬隱私信息守護(hù)。這五大特征需要跨越從芯片、
    發(fā)表于 04-13 19:52

    請(qǐng)求贈(zèng)閱《零基礎(chǔ)開(kāi)發(fā)AI Agent——手把手教你用扣子智能

    博主好!致敬葉濤 管鍇 張心雨三位AI具身智能-智能方面的專(zhuān)家、導(dǎo)師! 《零基礎(chǔ)開(kāi)發(fā)AI Agent——手把手教你用扣子
    發(fā)表于 04-10 12:16

    學(xué)習(xí)智能開(kāi)發(fā)

    智能是大模型的應(yīng)用落地,正在學(xué)習(xí)中,這本書(shū)太及時(shí)了,非常想看看。
    發(fā)表于 03-27 15:48

    《零基礎(chǔ)開(kāi)發(fā)AI Agent——手把手教你用扣子智能

    《零基礎(chǔ)開(kāi)發(fā)AI Agent——手把手教你用扣子智能》是本為普通人量身打造的AI開(kāi)發(fā)指南。
    發(fā)表于 03-18 12:03

    AI Agent 應(yīng)用與項(xiàng)目實(shí)戰(zhàn)》----- 學(xué)習(xí)如何開(kāi)發(fā)視頻應(yīng)用

    再次感謝發(fā)燒友提供的閱讀體驗(yàn)活動(dòng)。本期跟隨《AI Agent 應(yīng)用與項(xiàng)目實(shí)戰(zhàn)》這本書(shū)學(xué)習(xí)如何構(gòu)建開(kāi)發(fā)個(gè)視頻應(yīng)用。AI Agent是
    發(fā)表于 03-05 19:52

    AI智能套件

    智能解決方案。、應(yīng)用領(lǐng)域AI智能套件具備自然語(yǔ)言處理、機(jī)器
    發(fā)表于 02-25 16:48 ?0次下載

    詳解RAD端到端強(qiáng)化學(xué)習(xí)后訓(xùn)練范式

    受限于算力和數(shù)據(jù),大語(yǔ)言模型預(yù)訓(xùn)練的 scalinglaw 已經(jīng)趨近于極限。DeepSeekR1/OpenAl01通過(guò)強(qiáng)化學(xué)習(xí)后訓(xùn)練涌現(xiàn)了強(qiáng)大的推理能力,掀起新輪技術(shù)革新。
    的頭像 發(fā)表于 02-25 14:06 ?474次閱讀
    詳解RAD端到端<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>后訓(xùn)練范式

    了解DeepSeek-V3 和 DeepSeek-R1兩個(gè)大模型的不同定位和應(yīng)用選擇

    專(zhuān)業(yè)數(shù)據(jù) 注入大量數(shù)學(xué)/科學(xué)文獻(xiàn)與合成推理數(shù)據(jù) 微調(diào)策略 多任務(wù)聯(lián)合訓(xùn)練 推理鏈強(qiáng)化學(xué)習(xí)(RLCF)+ 符號(hào)蒸餾 推理效率 均衡優(yōu)化(適合常規(guī)任務(wù)) 針對(duì)長(zhǎng)邏輯鏈的并行加速技術(shù) 4. 典型應(yīng)用場(chǎng)
    發(fā)表于 02-14 02:08

    企業(yè)AI模型托管怎么

    當(dāng)下,越來(lái)越多的企業(yè)選擇AI模型托管給專(zhuān)業(yè)的第三方平臺(tái),以實(shí)現(xiàn)高效、靈活和安全的模型運(yùn)行。下面,AI部落小編為您介紹企業(yè)
    的頭像 發(fā)表于 01-15 10:10 ?337次閱讀

    螞蟻集團(tuán)收購(gòu)邊塞科技,吳翼出任強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)室首席科學(xué)家

    領(lǐng)域的研究與發(fā)展。令人矚目的是,邊塞科技的創(chuàng)始人吳翼已正式加入該實(shí)驗(yàn)室,并擔(dān)任首席科學(xué)家職。 吳翼在其個(gè)人社交平臺(tái)上對(duì)這變動(dòng)進(jìn)行了回應(yīng)。他表示,自己最近接受了螞蟻集團(tuán)的邀請(qǐng),負(fù)責(zé)大模型強(qiáng)化
    的頭像 發(fā)表于 11-22 11:14 ?1319次閱讀

    如何使用 PyTorch 進(jìn)行強(qiáng)化學(xué)習(xí)

    的計(jì)算圖和自動(dòng)微分功能,非常適合實(shí)現(xiàn)復(fù)雜的強(qiáng)化學(xué)習(xí)算法。 1. 環(huán)境(Environment) 在強(qiáng)化學(xué)習(xí)中,環(huán)境是個(gè)抽象的概念,它定義了智能
    的頭像 發(fā)表于 11-05 17:34 ?912次閱讀

    【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識(shí)學(xué)習(xí)

    和判斷以確定最終答案。這過(guò)程可能涉及對(duì)多個(gè)候選答案的比較、評(píng)估和選擇。最終,模型會(huì)生成段符合語(yǔ)言規(guī)范和邏輯結(jié)構(gòu)的文本作為問(wèn)題的答案。 應(yīng)
    發(fā)表于 08-02 11:03

    【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)篇

    今天開(kāi)始學(xué)習(xí)《大語(yǔ)言模型應(yīng)用指南》第篇——基礎(chǔ)篇,對(duì)于人工智能相關(guān)專(zhuān)業(yè)技術(shù)人員應(yīng)該可以輕松加愉快的完成此篇閱讀,但對(duì)于我還是有許多的知識(shí)點(diǎn)
    發(fā)表于 07-25 14:33

    通過(guò)強(qiáng)化學(xué)習(xí)策略進(jìn)行特征選擇

    更快更好地學(xué)習(xí)。我們的想法是找到最優(yōu)數(shù)量的特征和最有意義的特征。在本文中,我們將介紹并實(shí)現(xiàn)種新的通過(guò)強(qiáng)化學(xué)習(xí)策略的特征選擇。我們先討論強(qiáng)化學(xué)習(xí)
    的頭像 發(fā)表于 06-05 08:27 ?583次閱讀
    通過(guò)<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>策略進(jìn)行特征<b class='flag-5'>選擇</b>

    電子發(fā)燒友

    中國(guó)電子工程師最喜歡的網(wǎng)站

    • 2931785位工程師會(huì)員交流學(xué)習(xí)
    • 獲取您個(gè)性化的科技前沿技術(shù)信息
    • 參加活動(dòng)獲取豐厚的禮品