边吃奶边做边爱视频激烈韩国,国产很爽的超薄丝袜脚交视频

本文主要介紹了一個(gè)名為CoderEval的代碼生成大模型評(píng)估基準(zhǔn)，并對(duì)三個(gè)代碼生成模型（CodeGen、PanGu-Coder和ChatGPT）在該基準(zhǔn)上的表現(xiàn)進(jìn)行了評(píng)估和比較。研究人員從真實(shí)的開源項(xiàng)目中的選取了代碼生成任務(wù)來(lái)構(gòu)建CoderEval，并根據(jù)對(duì)外部依賴的程度為標(biāo)準(zhǔn)將這些任務(wù)分為6個(gè)等級(jí)、根據(jù)生成的目標(biāo)分為3類生成任務(wù)，以更多維地評(píng)估不同大模型在不同上下文場(chǎng)景中的生成效果。

實(shí)驗(yàn)結(jié)果表明，這三個(gè)模型在生成自包含函數(shù)方面的效果明顯優(yōu)于其他任務(wù)，但實(shí)際項(xiàng)目中的函數(shù)大部分依賴不同程度的上下文信息，因此提高模型對(duì)上下文信息的考慮和利用能力對(duì)于代碼生成技術(shù)的實(shí)際可用性非常重要。該工作由北京大學(xué)和華為云Paas技術(shù)創(chuàng)新LAB合作完成，論文已經(jīng)被軟件工程頂會(huì)ICSE 2024錄用。

一.從HumanEval到CoderEval

就像ImageNet之于圖像識(shí)別，Defects4J之于缺陷檢測(cè)，在以工具和方法為主要貢獻(xiàn)的研究領(lǐng)域中，一個(gè)被廣泛接受和采用的評(píng)估數(shù)據(jù)集及其配套的基準(zhǔn)指標(biāo)，對(duì)該領(lǐng)域的研究和發(fā)展至關(guān)重要。一方面，評(píng)估方式作為度量尺，可以在同一維度上起到橫向?qū)Ρ雀黝惙椒ǖ乃?，并估?jì)距離成熟實(shí)用的差距；另一方面，評(píng)估方式作為風(fēng)向標(biāo)，直接指導(dǎo)著各種方法共同的優(yōu)化和迭代目標(biāo)，決定了研究者們前進(jìn)的方向。

在代碼生成領(lǐng)域，當(dāng)前最廣泛被使用的是OpenAI在Codex論文中開源的HumanEval，該基準(zhǔn)測(cè)試集由164道由OpenAI工程師手動(dòng)編寫的編程任務(wù)組成，以一定程度上確保與訓(xùn)練集的不重疊性。初版的HumanEval僅支持Python語(yǔ)言，每個(gè)編程任務(wù)包括了任務(wù)描述、參考代碼、若干測(cè)試樣例等。近期有部分研究者將HumanEval擴(kuò)展到多種編程語(yǔ)言，例如：清華大學(xué)CodeGeex團(tuán)隊(duì)基于HumanEval開源了HumanEval-X，將HumanEval擴(kuò)展到C++、Java、JavaScript、Go等語(yǔ)言；于2022年8月19日發(fā)布在arXiv上發(fā)布的一篇論文提出了MultiPL-E，將HumanEval擴(kuò)展到了18種語(yǔ)言。

然而，HumanEval本身存在一些問題，這些問題使得它并不適合成為代碼生成任務(wù)的一個(gè)評(píng)估平臺(tái)，特別是對(duì)于以實(shí)際開發(fā)為目標(biāo)的代碼生成研究和工具?；贖umanEval進(jìn)行擴(kuò)展的一類工作僅僅是將HumanEval中的任務(wù)描述、參考代碼、測(cè)試樣例以及執(zhí)行環(huán)境等翻譯或適配到了其他語(yǔ)言，實(shí)質(zhì)上并未解決HumanEval自身存在的一些問題。那么，這些問題有哪些呢？經(jīng)過對(duì)HumanEval中的任務(wù)和測(cè)試樣例、以及多個(gè)模型生成結(jié)果的人工檢視，我們主要?dú)w納出以下問題：

1.領(lǐng)域單一，僅覆蓋了語(yǔ)言本身基礎(chǔ)的編程知識(shí)，如數(shù)據(jù)結(jié)構(gòu)操作、簡(jiǎn)單算法等；

2.任務(wù)本身過于簡(jiǎn)單，參考代碼均為自包含的單一函數(shù)，并未考慮復(fù)雜類型、自定義類型、三方庫(kù)、跨過程調(diào)用等情況；

根據(jù)我們對(duì)GitHub倉(cāng)庫(kù)數(shù)據(jù)的統(tǒng)計(jì)，HumanEval所對(duì)應(yīng)的自包含單一函數(shù)在Top 100的Python項(xiàng)目中只占11.2%，在Top 100的Java項(xiàng)目中只占21.3%，因此，HumanEval可能實(shí)際上無(wú)法準(zhǔn)確反映代碼生成模型在實(shí)際項(xiàng)目級(jí)開發(fā)中的表現(xiàn)。

針對(duì)HumanEval的限制和不足，我們提出了CoderEval，一個(gè)面向真實(shí)場(chǎng)景和實(shí)際用戶的代碼生成模型可用性評(píng)測(cè)系統(tǒng)。CoderEval在一定程度上解決了當(dāng)前被廣泛使用的評(píng)測(cè)基準(zhǔn)的問題，主要體現(xiàn)在以下幾點(diǎn)：

1.直接來(lái)源于真實(shí)的開源項(xiàng)目，覆蓋多個(gè)領(lǐng)域，從而可以全面評(píng)估代碼生成在不同領(lǐng)域中的表現(xiàn)；

2. 考慮了復(fù)雜數(shù)據(jù)類型或項(xiàng)目代碼中開發(fā)者自定義的類型，支持面向?qū)ο筇匦院涂邕^程調(diào)用；

3. 盡量保證覆蓋率和完備性，從而在一定程度上降低測(cè)試誤報(bào)率。

綜上所述，相比于HumanEval，CoderEval與實(shí)際開發(fā)場(chǎng)景中的生成任務(wù)更加對(duì)齊，在基于大模型的代碼生成工具逐步落地并商業(yè)化的背景下，可能更加真實(shí)地反映并比較不同模型在實(shí)際落地為工具之后的開發(fā)者體驗(yàn)。接下來(lái)，我們將簡(jiǎn)要介紹CoderEval的組成部分、構(gòu)建過程以及使用方法。

CoderEval論文目前已被ICSE2024接收：

https://arxiv.org/abs/2302.00288

CoderEval-GitHub目前已開源：

https://github.com/CoderEval/CoderEval

二. CoderEval：面向?qū)嶋H開發(fā)場(chǎng)景的代碼生成模型評(píng)估

CoderEval組成部分

整體而言，CoderEval主要由三部分組成：

1.生成任務(wù)：以函數(shù)/方法為基本單位的代碼生成任務(wù)，包括任務(wù)描述（即自然語(yǔ)言注釋）、函數(shù)簽名、參考代碼（即原始代碼實(shí)現(xiàn)）、所在文件所有上下文代碼、所在項(xiàng)目其他文件內(nèi)容等；

2. 測(cè)試代碼：針對(duì)某一編程任務(wù)的單元測(cè)試，一個(gè)編程任務(wù)可能對(duì)應(yīng)一到多個(gè)測(cè)試文件、一到多個(gè)測(cè)試方法，以及附加的測(cè)試數(shù)據(jù)（如操作文件的編程任務(wù)中的文件等）；

3. 測(cè)試環(huán)境：由于CoderEval中的函數(shù)/方法允許使用自定義類型、調(diào)用語(yǔ)言標(biāo)準(zhǔn)庫(kù)或三方庫(kù)、調(diào)用項(xiàng)目中其他方法等，因此需要在配置好所在項(xiàng)目的環(huán)境中執(zhí)行。為此，CoderEval基于Docker構(gòu)建了沙箱測(cè)試環(huán)境，其中包含了所有被測(cè)項(xiàng)目及其依賴，并且附有單一入口的自動(dòng)化執(zhí)行程序。此測(cè)試環(huán)境預(yù)計(jì)將以線上服務(wù)的形式提供。

CoderEval構(gòu)建過程

圖1 CoderEval的構(gòu)建過程

圖1展示了針對(duì)某一種編程語(yǔ)言（目標(biāo)語(yǔ)言）構(gòu)建CoderEval的一般性的過程，主要分為三個(gè)部分：

1.目標(biāo)選?。?/strong>從GitHub或CodeHub選擇目標(biāo)語(yǔ)言為主的項(xiàng)目中的高質(zhì)量目標(biāo)函數(shù)/方法，作為測(cè)試任務(wù)

2. 數(shù)據(jù)收集：針對(duì)每個(gè)候選測(cè)試任務(wù)，分析和收集目標(biāo)函數(shù)/方法的元信息、自身信息、測(cè)試信息等

3. 環(huán)境構(gòu)建：準(zhǔn)備目標(biāo)項(xiàng)目和依賴，為測(cè)試代碼提供執(zhí)行環(huán)境，并通過執(zhí)行測(cè)試驗(yàn)證測(cè)試代碼和目標(biāo)代碼的正確性

作為第一個(gè)版本，CoderEval首先支持了兩大語(yǔ)言：

? CoderEval4Python：包含來(lái)自43個(gè)項(xiàng)目的230個(gè)生成任務(wù)

? CoderEval4Java：包含來(lái)自10個(gè)項(xiàng)目的230個(gè)生成任務(wù)

為了真實(shí)反映代碼生成模型在實(shí)際項(xiàng)目開發(fā)中的效果和價(jià)值，我們需要從真實(shí)、多元的開源項(xiàng)目中選取高質(zhì)量的生成任務(wù)，并配備盡可能完善的測(cè)試。為此，我們首先爬取了GitHub上Python和Java項(xiàng)目的所有標(biāo)簽，根據(jù)最頻繁的14個(gè)標(biāo)簽和標(biāo)星數(shù)篩選出若干項(xiàng)目，然后抽取出項(xiàng)目中所有的測(cè)試代碼以及被測(cè)函數(shù)/方法，僅保留符合以下全部條件的部分：

?并非以測(cè)試為目的的、deprecated的、接口形式的函數(shù)/方法

?包含一段英文自然語(yǔ)言描述作為函數(shù)/方法級(jí)注釋

?可以在測(cè)試環(huán)境中正確執(zhí)行并通過原始測(cè)試

經(jīng)過這些篩選保留下來(lái)的函數(shù)/方法，再經(jīng)過人工篩選和程序分析，構(gòu)成了CoderEval中的代碼生成任務(wù)，每個(gè)生成任務(wù)提供的信息有：

?元信息（Meta）：所在項(xiàng)目地址、文件路徑、行號(hào)范圍等

?自身信息（Native）：該函數(shù)/方法的原始注釋、簽名、代碼等

?上下文信息（Context，可選）：所在文件內(nèi)容、可訪問上下文信息、所使用上下文信息、運(yùn)行級(jí)別分類等

?測(cè)試信息（Test）：人工標(biāo)注的自然語(yǔ)言描述、在原始代碼上的若干測(cè)試樣例等

CoderEval使用方法

CoderEval支持函數(shù)/方法塊級(jí)生成（Block Generation）：根據(jù)注釋形式的任務(wù)描述和/或函數(shù)簽名，生成實(shí)現(xiàn)對(duì)應(yīng)功能的完整函數(shù)體。

CoderEval支持的指標(biāo)：基于運(yùn)行的指標(biāo)（Comparison-based Metrics）。與HumanEval一致，我們同樣采取了Pass@k作為測(cè)試指標(biāo)，從而評(píng)估所生成代碼實(shí)際的運(yùn)行效果，允許模型生成不同版本的實(shí)現(xiàn)。

CoderEval支持更細(xì)粒度的評(píng)估：

1. 上下文感知能力評(píng)估：我們?cè)谘芯恐邪l(fā)現(xiàn)，對(duì)于非自包含函數(shù)/方法，其代碼實(shí)現(xiàn)中的外部依賴信息對(duì)于其功能和行為非常關(guān)鍵。因此，模型的上下文感知能力（Context-awareness，即正確生成外部依賴信息的能力）是另一個(gè)重要指標(biāo)。CoderEval提供了生成任務(wù)所在項(xiàng)目以及文件內(nèi)容可作為輸入，原始代碼中實(shí)際用到的上下文信息作為期望輸出，因此，可以分析并計(jì)算生成代碼中上下文信息的準(zhǔn)確率以及召回率，作為上下文感知能力的評(píng)估指標(biāo)。

2. 分級(jí)評(píng)估：如圖2所示，依據(jù)所依賴的上下文信息，CoderEval進(jìn)一步將生成任務(wù)分成了6個(gè)級(jí)別（self_contained、slib_runnable、plib_runnable、class_runnable、project_runnable），代表所對(duì)應(yīng)代碼可執(zhí)行的環(huán)境（標(biāo)準(zhǔn)庫(kù)、第三方庫(kù)、當(dāng)前文件、當(dāng)前項(xiàng)目等）。CoderEval支持更細(xì)粒度地測(cè)試和分析模型在每個(gè)級(jí)別上的生成能力，從而可以全面地分析當(dāng)前模型的不足和待優(yōu)化的方向（如引入課程學(xué)習(xí)、針對(duì)性微調(diào)、上下文可感知度的針對(duì)性提升等）。

圖2 CoderEval中按依賴級(jí)別的數(shù)據(jù)分布

3. Prompt評(píng)估：CoderEval同時(shí)提供了原始注釋和開發(fā)者另外標(biāo)注的代碼功能描述，從而研究模型記憶效應(yīng)、Prompt形式、Prompt質(zhì)量對(duì)不同模型的影響。

由于CoderEval源于實(shí)際的開源項(xiàng)目，并且我們無(wú)法精確獲得或控制各個(gè)模型訓(xùn)練數(shù)據(jù)，因此可能無(wú)法避免存在因模型的記憶效應(yīng)和復(fù)制機(jī)制產(chǎn)生的誤差。CoderEval緩解此類誤差的主要措施包括：

1.為所有任務(wù)補(bǔ)充了人工改寫的注釋替代原注釋，該部分可確保不存在于訓(xùn)練集中。為此，我們同時(shí)會(huì)測(cè)試。

2. 可增大采樣次數(shù)并綜合基于運(yùn)行的指標(biāo)和基于比較的指標(biāo)進(jìn)行分析，從而分析模型是否能實(shí)現(xiàn)與原代碼不同、但又可通過測(cè)試的方案。

CoderEval實(shí)測(cè)結(jié)果

我們測(cè)試了工業(yè)界為主提出的、具有代表性的三個(gè)模型在CoderEval上的表現(xiàn)，被測(cè)模型包括：

1.CodeGen（Salesforce）：采用GPT-2架構(gòu)，在自然語(yǔ)言上先進(jìn)行預(yù)訓(xùn)練，再在多種編程語(yǔ)言混合語(yǔ)料上繼續(xù)訓(xùn)練，最后在單一編程語(yǔ)言上進(jìn)行微調(diào)。

2. PanGuCoder（Huawei）：基于PanGu-alpha架構(gòu)，采用<自然語(yǔ)言描述, 程序語(yǔ)言代碼>對(duì)的形式和多階段預(yù)訓(xùn)練方法，專注于Text2Code任務(wù)，對(duì)中文支持較好。

3. ChatGPT（OpenAI）：基于GPT-3.5系列模型使用人類反饋進(jìn)行微調(diào)，可以根據(jù)用戶的指令或問題來(lái)生成代碼。

部分實(shí)驗(yàn)結(jié)果如下：

1. 如表1所示，在CoderEval和HumanEval上，ChatGPT的效果都大幅超出其他兩個(gè)模型，原因可能來(lái)自于更大的模型規(guī)模、更充分的訓(xùn)練度、更優(yōu)的超參數(shù)等方面。

表1 三個(gè)模型在CoderEval上和HumanEval上的

總體效果對(duì)比

2. 如表1所示，在HumanEval上，ChatGPT的效果更是大幅超過其他模型，幅度要遠(yuǎn)大于在CoderEval上三個(gè)模型的差距。考慮到HumanEval的局限性，這一結(jié)果從側(cè)面表明HumanEval可能已經(jīng)不適合作為單一的代碼生成Benchmark。

3. 如圖3所示，在CoderEval上，三個(gè)模型正確生成的任務(wù)存在較大的交集（Python：32，Java：56），說(shuō)明三個(gè)模型在解決部分任務(wù)上有共性能力；同時(shí)，對(duì)于僅有一個(gè)模型能正確生成、而其他兩個(gè)模型未正確生成的任務(wù)而言，ChatGPT在Python和Java上都是最多的（Python：18，Java：27），說(shuō)明ChatGPT在解決這部分任務(wù)上的能力具有顯著優(yōu)勢(shì)；最后，三個(gè)模型一共解決的任務(wù)數(shù)仍僅占CoderEval所有任務(wù)數(shù)的約40%（Python：91/230）和59%（Java：136/230），說(shuō)明三個(gè)模型的能力具有一定的互補(bǔ)性，且各自仍有較大提升空間。

圖3 三個(gè)模型在CoderEval上和HumanEval上

正確生成的題目數(shù)對(duì)比

4. 如表2所示，在CoderEval的standalone子集上，三個(gè)模型的表現(xiàn)與HumanEval上基本接近，ChatGPT的表現(xiàn)大幅超過另外兩個(gè)模型；但是，在其他依賴于上下文信息的生成任務(wù)上（占實(shí)際情況的60%以上），三個(gè)模型的表現(xiàn)都有較大下降，即使是最強(qiáng)大的ChatGPT的表現(xiàn)也有很大波動(dòng)，甚至在部分級(jí)別上三個(gè)模型生成10次的結(jié)果均錯(cuò)誤，這一定程度上說(shuō)明了依賴上下文的代碼生成任務(wù)是大模型代碼生成下一步優(yōu)化的重點(diǎn)方向。

表2 三個(gè)模型在CoderEval的兩類子集上的表現(xiàn)對(duì)比

更多的實(shí)驗(yàn)數(shù)據(jù)以及分析過程，請(qǐng)見CoderEval論文。

三.總結(jié)

CoderEval論文目前已發(fā)表在ICSE2024（https://arxiv.org/abs/2302.00288 ），其開源項(xiàng)目版可在GitHub獲得（https://github.com/CoderEval/CoderEval ），歡迎大家關(guān)注并一鍵Follow+Star。我們致力于將CoderEval打造為一個(gè)客觀、公正、全面的Benchmark，不過，盡量我們已努力完善，但它仍然不可避免地存在一些限制和錯(cuò)誤。因此，我們希望借助代碼生成研究者社區(qū)的力量，持續(xù)迭代和更新CoderEval的版本，以擴(kuò)展和完善其語(yǔ)言支持、數(shù)據(jù)集、測(cè)試方式等方面，從而持續(xù)推動(dòng)代碼智能社區(qū)的研究與落地。

PaaS技術(shù)創(chuàng)新Lab隸屬于華為云，致力于綜合利用軟件分析、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等技術(shù)，為軟件研發(fā)人員提供下一代智能研發(fā)工具服務(wù)的核心引擎和智慧大腦。我們將聚焦軟件工程領(lǐng)域硬核能力，不斷構(gòu)筑研發(fā)利器，持續(xù)交付高價(jià)值商業(yè)特性！加入我們，一起開創(chuàng)研發(fā)新“境界”?。?span style="text-align:left;">詳情歡迎聯(lián)系:

bianpan@huawei.com;mayuchi1@huawei.com）

原文標(biāo)題：從HumanEval到CoderEval: 你的代碼生成模型真的work嗎？

文章出處：【微信公眾號(hào)：華為DevCloud】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

華為

華為

+關(guān)注

關(guān)注
216

文章
34440

瀏覽量
251771

原文標(biāo)題：從HumanEval到CoderEval: 你的代碼生成模型真的work嗎？

文章出處：【微信號(hào)：華為DevCloud，微信公眾號(hào)：華為DevCloud】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

收藏人收藏

掃一掃，分享給好友

復(fù)制鏈接分享

評(píng)論

發(fā)布評(píng)論請(qǐng)先登錄

相關(guān)推薦

阿里云開源Qwen2.5-Coder代碼模型系列

Qwen2.5-Coder-32B-Instruct，在代碼生成領(lǐng)域取得了顯著成就。據(jù)官方介紹，該模型在EvalPlus等十多個(gè)主流的代碼生成

發(fā)表于 11-14 11:28 ?360次閱讀

探索設(shè)計(jì)稿自動(dòng)生成Flutter代碼的技術(shù)方案

作者：京東物流冷先鋒近年來(lái)，隨著人工智能和大模型技術(shù)的發(fā)展，設(shè)計(jì)稿（UI視圖）自動(dòng)生成代碼的技術(shù)也在不斷進(jìn)步。本文將探討幾家知名企業(yè)在這一領(lǐng)域的探索和實(shí)踐，包括美團(tuán)、京東、微軟等，以及一些常見

發(fā)表于 11-08 10:09 ?926次閱讀

如何自動(dòng)生成verilog代碼

介紹幾種自動(dòng)生成verilog代碼的方法。

發(fā)表于 11-05 11:45 ?319次閱讀

新的 MathWorks 硬件支持包支持從 MATLAB 和 Simulink 模型到高通 Hexagon 神經(jīng)處理單元架構(gòu)的自動(dòng)化代碼生成

? 和 Simulink? 模型的自動(dòng)化代碼生成流程。在提高數(shù)據(jù)準(zhǔn)確度和標(biāo)準(zhǔn)合規(guī)性的同時(shí)，也提升開發(fā)人員的工作流效率。使用 MathWorks 軟件和基于模型的設(shè)計(jì)，工程師能夠

發(fā)表于 09-23 11:59 ?275次閱讀

GAP！你對(duì)AI大模型到底了解多少？

談到 AI 大模型，你最先想到的是什么？很多人首先關(guān)心的還是它的商業(yè)變現(xiàn)，而非這些技術(shù)術(shù)語(yǔ)。AI 大模型訓(xùn)練是一個(gè)端到端的復(fù)雜系統(tǒng)工程，技術(shù)門檻很高，需要強(qiáng)大的算力支撐，尤其是參數(shù)量大

發(fā)表于 09-07 09:40 ?680次閱讀

NVIDIA AI Foundry 為全球企業(yè)打造自定義 Llama 3.1 生成式 AI 模型

Foundry 提供從數(shù)據(jù)策管、合成數(shù)據(jù)生成、微調(diào)、檢索、防護(hù)到評(píng)估的全方位生成式 AI 模型服務(wù)，以便部署自定義 Llama 3.1 N

發(fā)表于 07-24 09:39 ?714次閱讀

如何用C++創(chuàng)建簡(jiǎn)單的生成式AI模型

生成式AI（Generative AI）是一種人工智能技術(shù)，它通過機(jī)器學(xué)習(xí)模型和深度學(xué)習(xí)技術(shù)，從大量歷史數(shù)據(jù)中學(xué)習(xí)對(duì)象的特征和規(guī)律，從而能夠生成全新的、完全原創(chuàng)的內(nèi)容，包括文本、圖像、

發(fā)表于 07-05 17:53 ?868次閱讀

大模型應(yīng)用之路：從提示詞到通用人工智能（AGI）

大模型在人工智能領(lǐng)域的應(yīng)用正迅速擴(kuò)展，從最初的提示詞（Prompt）工程到追求通用人工智能（AGI）的宏偉目標(biāo)，這一旅程充滿了挑戰(zhàn)與創(chuàng)新。本文將探索大模型在實(shí)際應(yīng)用中的進(jìn)展，以及它們?nèi)?/div>
發(fā)表于 06-14 10:20 ?2203次閱讀

降價(jià)潮背后：大模型落地門檻真的降了嗎？

“比起價(jià)格門檻，AI大模型的應(yīng)用門檻，更難跨越?！贝?b class='flag-5'>模型爭(zhēng)相降價(jià)下，AI應(yīng)用的門檻真的降低了嗎？答案還真不一定。因?yàn)槌藘r(jià)格門檻，AI大模型還有應(yīng)用門檻。甚至，后者比前者更具挑戰(zhàn)性。B

發(fā)表于 06-13 08:04 ?275次閱讀

ISEDA首發(fā)！大語(yǔ)言模型生成的代碼到底好不好使

的問題 — 這些自動(dòng)生成的代碼真的有效嗎？大模型也會(huì)犯錯(cuò)，我們肯定不希望把看似正確的錯(cuò)誤結(jié)果交給用戶，所以需要一個(gè)能精確驗(yàn)證模型

發(fā)表于 05-16 13:41 ?335次閱讀

生成式 AI 進(jìn)入模型驅(qū)動(dòng)時(shí)代

隨著ChatGPT和大型語(yǔ)言模型(LLM)呈現(xiàn)爆炸式增長(zhǎng)，生成式人工智能(GenerativeAI)成為近來(lái)的一大熱詞。由此引發(fā)了一場(chǎng)爭(zhēng)論：哪種AI模型使用的訓(xùn)練參數(shù)最多？與此同時(shí)，更多人意識(shí)

發(fā)表于 04-13 08:12 ?534次閱讀

谷歌發(fā)布CodeGemma大語(yǔ)言模型，優(yōu)化代碼生成及理解

此外，CodeGemma 還充分運(yùn)用了預(yù)設(shè)的 Gemma 檢查點(diǎn)并訓(xùn)練了超過 50000 億個(gè)英語(yǔ)、數(shù)學(xué)以及各類編碼語(yǔ)言詞匯塊，其卓越的邏輯和數(shù)學(xué)推理性能，成為了代碼生成與完成的新標(biāo)準(zhǔn)。

發(fā)表于 04-10 15:16 ?505次閱讀

使用CUBEAI部署tflite模型到STM32F0中，模型創(chuàng)建失敗怎么解決？

看到CUBE_AI已經(jīng)支持到STM32F0系列芯片，就想拿來(lái)入門嵌入式AI。生成的模型很小，是可以部署到F0上的，但是一直無(wú)法創(chuàng)建成功。查閱CUBE AI文檔說(shuō)在調(diào)用create

發(fā)表于 03-15 08:10

OpenAI發(fā)布文生視頻模型Sora，引領(lǐng)AI視頻生成新紀(jì)元

在人工智能(AI)領(lǐng)域掀起新一輪革命浪潮的，正是OpenAI最新推出的文生視頻大模型——Sora。這款被業(yè)界廣泛贊譽(yù)的模型，以其“逼真”和“富有想象力”的視頻生成能力，徹底顛覆了傳統(tǒng)視頻生成

發(fā)表于 02-19 11:03 ?956次閱讀

Meta推出最新版AI代碼生成模型Code Llama70B

Meta近日宣布了其最新版本的AI代碼生成模型Code Llama70B，并稱其為“目前最大、最優(yōu)秀的模型”。這一更新標(biāo)志著Meta在AI代碼

發(fā)表于 01-30 18:21 ?1451次閱讀

搜索歷史

從HumanEval到CoderEval: 你的代碼生成模型真的work嗎？

評(píng)論

從HumanEval到CoderEval: 你的代碼生成模型真的work嗎？