国产真实尾随系列在线,中文字幕无码在线观看视频

在大模型開(kāi)發(fā)過(guò)程中，如何利用下游任務(wù)對(duì)已有模型進(jìn)行反饋十分重要，這關(guān)系到小模型的快速迭代評(píng)估。例如，為了評(píng)估模型性能，鵬程·盤(pán)古α團(tuán)隊(duì)收集了16個(gè)不同類(lèi)型的中文下游任務(wù)，

本文主要介紹ZeroCLUE/FewCLUE數(shù)據(jù)集、中文長(zhǎng)下文詞語(yǔ)預(yù)測(cè) (Chinese WPLC)數(shù)據(jù)集幾個(gè)下游任務(wù)數(shù)據(jù)集，供大家參考。

一、ZeroCLUE/FewCLUE數(shù)據(jù)集

零樣本學(xué)習(xí)是AI識(shí)別方法之一。簡(jiǎn)單來(lái)說(shuō)就是識(shí)別從未見(jiàn)過(guò)的數(shù)據(jù)類(lèi)別，即訓(xùn)練的分類(lèi)器不僅僅能夠識(shí)別出訓(xùn)練集中已有的數(shù)據(jù)類(lèi)別，還可以對(duì)于來(lái)自未見(jiàn)過(guò)的類(lèi)別的數(shù)據(jù)進(jìn)行區(qū)分。小樣本學(xué)習(xí)（Few-shot Learning）是解決在極少數(shù)據(jù)情況下的機(jī)器學(xué)習(xí)問(wèn)題展開(kāi)的評(píng)測(cè)。

地址：https://github.com/CLUEbenchmark/ZeroCLUE 地址：https://github.com/CLUEbenchmark/FewCLUE

其中：

1、EPRSTMT:電商評(píng)論情感分析

數(shù)據(jù)量：訓(xùn)練集（32），驗(yàn)證集（32），公開(kāi)測(cè)試集（610），測(cè)試集（753），無(wú)標(biāo)簽語(yǔ)料（19565）

例子：
{"id":23,"sentence":"外包裝上有點(diǎn)磨損，試聽(tīng)后感覺(jué)不錯(cuò)","label":"Positive"}
每一條數(shù)據(jù)有三個(gè)屬性，從前往后分別是 id,sentence,label。其中l(wèi)abel標(biāo)簽，Positive 表示正向，Negative 表示負(fù)向。

2、CSLDCP：科學(xué)文獻(xiàn)學(xué)科分類(lèi)

中文科學(xué)文獻(xiàn)學(xué)科分類(lèi)數(shù)據(jù)集，包括67個(gè)類(lèi)別的文獻(xiàn)類(lèi)別，這些類(lèi)別來(lái)自于分別歸屬于13個(gè)大類(lèi)，范圍從社會(huì)科學(xué)到自然科學(xué)，文本為文獻(xiàn)的中文摘要。
數(shù)據(jù)量：訓(xùn)練集（536），驗(yàn)證集（536），公開(kāi)測(cè)試集（1784），測(cè)試集（2999），無(wú)標(biāo)簽語(yǔ)料（67）

例子：
{"content":"通過(guò)幾年的觀察和實(shí)踐，初步掌握了盆栽菊花的栽培技術(shù)及方法，并進(jìn)行了總結(jié)，以滿足人們對(duì)花卉消費(fèi)的需求，提高觀賞植物的商品價(jià)值，為企業(yè)化生產(chǎn)的盆菊提供技術(shù)指導(dǎo)。",
"label":"園藝學(xué)","id":1770}
{"content":"GPS衛(wèi)星導(dǎo)航定位精度的高低很大程度上取決于站星距離(即偽距)的測(cè)量誤差.載波相位平滑偽距在保證環(huán)路參數(shù)滿足動(dòng)態(tài)應(yīng)力誤差要求的基礎(chǔ)上。。。本文詳細(xì)論述了載波相位平滑偽距的原理和工程實(shí)現(xiàn)方法,并進(jìn)行了仿真驗(yàn)證.",
"label":"航空宇航科學(xué)與技術(shù)","id":979}

每一條數(shù)據(jù)有三個(gè)屬性，從前往后分別是 id,sentence,label。其中l(wèi)abel標(biāo)簽，Positive 表示正向，Negative 表示負(fù)向。

3、TNEWS:新聞分類(lèi)

該數(shù)據(jù)集來(lái)自今日頭條的新聞版塊，共提取了15個(gè)類(lèi)別的新聞，包括旅游、教育、金融、軍事等。


例子：
{"label":"102","label_des":"news_entertainment","sentence":"江疏影甜甜圈自拍，迷之角度竟這么好看，美吸引一切事物"}
每一條數(shù)據(jù)有三個(gè)屬性，從前往后分別是分類(lèi)ID，分類(lèi)名稱，新聞字符串（僅含標(biāo)題）。

4、IFLYTEK:APP應(yīng)用描述主題分類(lèi)

該數(shù)據(jù)集關(guān)于app應(yīng)用描述的長(zhǎng)文本標(biāo)注數(shù)據(jù)，包含和日常生活相關(guān)的各類(lèi)應(yīng)用主題，共119個(gè)類(lèi)別："打車(chē)":0,"地圖導(dǎo)航":1,"免費(fèi)WIFI":2,"租車(chē)":3,….,"女性":115,"經(jīng)營(yíng)":116,"收款":117,"其他":118(分別用0-118表示)。


例子：
{"label":"110","label_des":"社區(qū)超市","sentence":"樸樸快送超市創(chuàng)立于2016年，專(zhuān)注于打造移動(dòng)端30分鐘即時(shí)配送一站式購(gòu)物平臺(tái)，商品品類(lèi)包含水果、蔬菜、肉禽蛋奶、海鮮水產(chǎn)、糧油調(diào)味、酒水飲料、休閑食品、日用品、外賣(mài)等。樸樸公司希望能以全新的商業(yè)模式，更高效快捷的倉(cāng)儲(chǔ)配送模式，致力于成為更快、更好、更多、更省的在線零售平臺(tái)，帶給消費(fèi)者更好的消費(fèi)體驗(yàn)，同時(shí)推動(dòng)中國(guó)食品安全進(jìn)程，成為一家讓社會(huì)尊敬的互聯(lián)網(wǎng)公司。,樸樸一下，又好又快,1.配送時(shí)間提示更加清晰友好2.保障用戶隱私的一些優(yōu)化3.其他提高使用體驗(yàn)的調(diào)整4.修復(fù)了一些已知bug"}
每一條數(shù)據(jù)有三個(gè)屬性，從前往后分別是類(lèi)別ID，類(lèi)別名稱，文本內(nèi)容。

5、OCNLI: 自然語(yǔ)言推理

OCNLI，即原生中文自然語(yǔ)言推理數(shù)據(jù)集，是第一個(gè)非翻譯的、使用原生漢語(yǔ)的大型中文自然語(yǔ)言推理數(shù)據(jù)集。
數(shù)據(jù)量：訓(xùn)練集（32），驗(yàn)證集（32），公開(kāi)測(cè)試集（2520），測(cè)試集（3000），無(wú)標(biāo)簽語(yǔ)料（20000）

例子：
{
"level":"medium",
"sentence1":"身上裹一件工廠發(fā)的棉大衣,手插在袖筒里",
"sentence2":"身上至少一件衣服",
"label":"entailment","label0":"entailment","label1":"entailment","label2":"entailment","label3":"entailment","label4":"entailment",
"genre":"lit","prem_id":"lit_635","id":0
}

6、BUSTM: 對(duì)話短文本匹配

對(duì)話短文本語(yǔ)義匹配數(shù)據(jù)集，源于小布助手。它是OPPO為品牌手機(jī)和IoT設(shè)備自研的語(yǔ)音助手，為用戶提供便捷對(duì)話式服務(wù)。
意圖識(shí)別是對(duì)話系統(tǒng)中的一個(gè)核心任務(wù)，而對(duì)話短文本語(yǔ)義匹配是意圖識(shí)別的主流算法方案之一。要求根據(jù)短文本query-pair，預(yù)測(cè)它們是否屬于同一語(yǔ)義。

數(shù)據(jù)量：訓(xùn)練集（32），驗(yàn)證集（32），公開(kāi)測(cè)試集（1772），測(cè)試集（2000），無(wú)標(biāo)簽語(yǔ)料（4251）
例子：
{"id":5,"sentence1":"女孩子到底是不是你","sentence2":"你不是女孩子嗎","label":"1"}
{"id":18,"sentence1":"小影,你說(shuō)話慢了","sentence2":"那你說(shuō)慢一點(diǎn)","label":"0"}

7、CHID:成語(yǔ)閱讀理解

以成語(yǔ)完形填空形式實(shí)現(xiàn)，文中多處成語(yǔ)被mask，候選項(xiàng)中包含了近義的成語(yǔ)。https://arxiv.org/abs/1906.01265
數(shù)據(jù)量：訓(xùn)練集（42），驗(yàn)證集（42），公開(kāi)測(cè)試集（2002），測(cè)試集（2000），無(wú)標(biāo)簽語(yǔ)料（7585）

例子：
{"id":1421,"candidates":["巧言令色","措手不及","風(fēng)流人物","八仙過(guò)海","平鋪直敘","草木皆兵","言行一致"],
"content":"當(dāng)廣州憾負(fù)北控,郭士強(qiáng)黯然退場(chǎng)那一刻,CBA季后賽懸念仿佛一下就消失了,可萬(wàn)萬(wàn)沒(méi)想到,就在時(shí)隔1天后,北控外援約瑟夫-楊因個(gè)人裁決案(拖欠上一家經(jīng)紀(jì)公司的費(fèi)用),
導(dǎo)致被禁賽,打了馬布里一個(gè)#idiom#,加上郭士強(qiáng)帶領(lǐng)廣州神奇逆轉(zhuǎn)天津,讓...","answer":1}

8、CSL:摘要判斷關(guān)鍵詞判別

中文科技文獻(xiàn)數(shù)據(jù)集(CSL)取自中文論文摘要及其關(guān)鍵詞，論文選自部分中文社會(huì)科學(xué)和自然科學(xué)核心期刊，任務(wù)目標(biāo)是根據(jù)摘要判斷關(guān)鍵詞是否全部為真實(shí)關(guān)鍵詞（真實(shí)為1，偽造為0）。
數(shù)據(jù)量：訓(xùn)練集（32），驗(yàn)證集（32），公開(kāi)測(cè)試集（2828），測(cè)試集（3000），無(wú)標(biāo)簽語(yǔ)料（19841）

例子：
{"id":1,"abst":"為解決傳統(tǒng)均勻FFT波束形成算法引起的3維聲吶成像分辨率降低的問(wèn)題,該文提出分區(qū)域FFT波束形成算法.遠(yuǎn)場(chǎng)條件下,
以保證成像分辨率為約束條件,以劃分?jǐn)?shù)量最少為目標(biāo),采用遺傳算法作為優(yōu)化手段將成像區(qū)域劃分為多個(gè)區(qū)域.在每個(gè)區(qū)域內(nèi)選取一個(gè)波束方向,
獲得每一個(gè)接收陣元收到該方向回波時(shí)的解調(diào)輸出,以此為原始數(shù)據(jù)在該區(qū)域內(nèi)進(jìn)行傳統(tǒng)均勻FFT波束形成.對(duì)FFT計(jì)算過(guò)程進(jìn)行優(yōu)化,降低新算法的計(jì)算量,
使其滿足3維成像聲吶實(shí)時(shí)性的要求.仿真與實(shí)驗(yàn)結(jié)果表明,采用分區(qū)域FFT波束形成算法的成像分辨率較傳統(tǒng)均勻FFT波束形成算法有顯著提高,且滿足實(shí)時(shí)性要求.",
"keyword":["水聲學(xué)","FFT","波束形成","3維成像聲吶"],"label":"1"}

每一條數(shù)據(jù)有四個(gè)屬性，從前往后分別是數(shù)據(jù)ID，論文摘要，關(guān)鍵詞，真假標(biāo)簽。

9、CLUEWSC: 代詞消歧

Winograd Scheme Challenge（WSC）是一類(lèi)代詞消歧的任務(wù)，即判斷句子中的代詞指代的是哪個(gè)名詞。題目以真假判別的方式出現(xiàn)，如：
句子：這時(shí)候放在[床]上[枕頭]旁邊的[手機(jī)]響了，我感到奇怪，因?yàn)榍焚M(fèi)已被停機(jī)兩個(gè)月，現(xiàn)在[它]突然響了。需要判斷“它”指代的是“床”、“枕頭”，還是“手機(jī)”？
從中國(guó)現(xiàn)當(dāng)代作家文學(xué)作品中抽取，再經(jīng)語(yǔ)言專(zhuān)家人工挑選、標(biāo)注。

數(shù)據(jù)量：訓(xùn)練集（32），驗(yàn)證集（32），公開(kāi)測(cè)試集（976），測(cè)試集（290），無(wú)標(biāo)簽語(yǔ)料（0）
例子：
{"target":
{"span2_index":37,
"span1_index":5,
"span1_text":"床",
"span2_text":"它"},
"idx":261,
"label":"false",
"text":"這時(shí)候放在床上枕頭旁邊的手機(jī)響了，我感到奇怪，因?yàn)榍焚M(fèi)已被停機(jī)兩個(gè)月，現(xiàn)在它突然響了。"}
"true"表示代詞確實(shí)是指代span1_text中的名詞的，"false"代表不是。

二、中文長(zhǎng)下文詞語(yǔ)預(yù)測(cè) (Chinese WPLC)數(shù)據(jù)集

Chinese Word Predic tion with Long Context (Chinese WPLC) 是天津大學(xué)聯(lián)合鵬城實(shí)驗(yàn)室在小說(shuō)上建立的依賴長(zhǎng)上下文預(yù)測(cè)目標(biāo)單詞的中文數(shù)據(jù)集，創(chuàng)建目的是為了評(píng)測(cè)模型建模長(zhǎng)文本的能力。

數(shù)據(jù)集地址：https://openi.pcl.ac.cn/PCL-Platform.Intelligence/Chinese_WPLC

下面是文獻(xiàn)3網(wǎng)站對(duì)該數(shù)據(jù)集的描述：??

該數(shù)據(jù)集在給定前文的條件下，測(cè)試機(jī)器預(yù)測(cè)目標(biāo)句子最后一個(gè)單詞的能力，選擇的上下文、目標(biāo)句子及待預(yù)測(cè)單詞滿足以下條件：當(dāng)給定完整語(yǔ)境時(shí)待預(yù)測(cè)單詞很容易被猜測(cè)出來(lái)，當(dāng)只給最后一個(gè)句子時(shí)，難以被猜測(cè)出來(lái)。我們希望通過(guò)這個(gè)數(shù)據(jù)集檢測(cè)模型在長(zhǎng)上下文上提取信息的能力。例如：

上下文：隨后他立即想到自己為什么如此氣憤——他之所以氣憤，是因?yàn)樗ε铝?。在他個(gè)人處于巨大危險(xiǎn)的情況下，貝思拋棄了他。在海底深處只剩下他們?nèi)齻€(gè)人，他們互相需要——他們得互相依靠。

目標(biāo)句：然而貝思不可信賴，這使他感到害怕，而且

目標(biāo)詞：氣憤

在上述的例子中，目標(biāo)詞 “氣憤“ 能夠通過(guò)上下文和目標(biāo)句推測(cè)出來(lái)，而單靠目標(biāo)句，很難被猜測(cè)出來(lái)。

1、數(shù)據(jù)采集與構(gòu)建流程

Step1）數(shù)據(jù)收集

Chinese WPLC數(shù)據(jù)集來(lái)自網(wǎng)絡(luò)爬取的小說(shuō)，涵蓋玄幻、言情、武俠、偵探、懸疑等類(lèi)型，總量超過(guò)6萬(wàn)部。將重復(fù)的小說(shuō)、公開(kāi)讀本（世界名著、文學(xué)名著、古典名著等）以及敏感詞比例超5%的小說(shuō)過(guò)濾后，剩余小說(shuō)按照2：1：1的比例隨機(jī)劃分為訓(xùn)練集、測(cè)試集和驗(yàn)證集。

Step2）段落抽取

使用pkuseg對(duì)分句后的測(cè)試集和驗(yàn)證集小說(shuō)段落進(jìn)行分詞，以段落最后一句為終點(diǎn)句子，在終點(diǎn)句子之前，往前累計(jì)總詞數(shù)大于50的最少完整句子集合抽取出來(lái)作為上下文，并進(jìn)一步將終點(diǎn)句子最后一個(gè)詞作為待預(yù)測(cè)單詞，終點(diǎn)句子剩余部分構(gòu)成目標(biāo)句子。上下文、目標(biāo)句子、待預(yù)測(cè)單詞共同組成一個(gè)上下文段落。抽取上下文段落需滿足以下條件：

目標(biāo)詞不是停用詞。
目標(biāo)詞在訓(xùn)練集語(yǔ)料中詞頻大于5。
pkuseg、jieba[2]、thulac[3]三種分詞工具切分出來(lái)的目標(biāo)詞一致。
目標(biāo)句子包含至少10個(gè)詞。
每本小說(shuō)最多抽取200個(gè)上下文段落。
僅當(dāng)條件1不滿足時(shí)，可將停用詞前一個(gè)詞作為目標(biāo)詞進(jìn)行上述2-5條件檢測(cè)，其余情況，將上下文段落拋棄。最終抽取出210萬(wàn)個(gè)段落。

Step3）段落過(guò)濾

為減少數(shù)據(jù)集構(gòu)建時(shí)間，需過(guò)濾掉相對(duì)簡(jiǎn)單的段落。使用以下四種組合生成答案候選：

給定目標(biāo)句子的預(yù)訓(xùn)練NEZHA[4]。
給定目標(biāo)句子的微調(diào)NEZHA。
給定上下文和目標(biāo)句子的預(yù)訓(xùn)練NEZHA。
給定上下文和目標(biāo)句子的微調(diào)NEZHA。
當(dāng)待預(yù)測(cè)單詞出現(xiàn)在任一束搜索策略生成的Top-5個(gè)答案候選中時(shí)，將該段落拋棄。
為進(jìn)一步減少人工標(biāo)注量，在構(gòu)建數(shù)據(jù)集過(guò)程將待預(yù)測(cè)單詞困惑度在使用上下文和不使用上下文比值的對(duì)數(shù)作為指標(biāo)。優(yōu)先考慮指標(biāo)大于1的段落，由此得到21萬(wàn)個(gè)段落。

Step4）人工篩選

將Step3剩余段落經(jīng)過(guò)隨機(jī)抽樣后通過(guò)100+標(biāo)注人員進(jìn)行三輪標(biāo)注：

在給定完整段落（上下文+目標(biāo)句）猜測(cè)目標(biāo)詞，猜對(duì)后的上下文段落進(jìn)入下一輪。
給不同標(biāo)注人員重復(fù)第一輪。
給定目標(biāo)句讓三個(gè)不同的標(biāo)注人員最多猜9個(gè)詞，如果目標(biāo)詞都沒(méi)有被猜到，則將該段落加入Chinese WPLC數(shù)據(jù)集。
第三輪標(biāo)注中標(biāo)注人員每人每個(gè)段落最多猜測(cè)3個(gè)詞，以最大限度確保待預(yù)測(cè)單詞需通過(guò)長(zhǎng)上下文信息才能推斷出來(lái)，而不能通過(guò)單個(gè)句子進(jìn)行推斷。雖然第三輪標(biāo)注能夠確保待預(yù)測(cè)單詞不能通過(guò)局部信息推斷，但是由于標(biāo)注人員知識(shí)存在差異，該流程不能確保第一輪標(biāo)注段落能被猜對(duì)。第二輪標(biāo)注進(jìn)一步確保上下文段落可以被猜對(duì)。為減少人工標(biāo)注時(shí)間，在標(biāo)注過(guò)程中提示標(biāo)注人員待預(yù)測(cè)詞的長(zhǎng)度（字?jǐn)?shù)）。

2、數(shù)據(jù)統(tǒng)計(jì)分析與樣例

經(jīng)過(guò)第一輪后，只有14-17%的數(shù)據(jù)能進(jìn)入下一輪，在第二輪中的數(shù)據(jù)中，有50%-60%的數(shù)據(jù)能進(jìn)入第三輪。在第三輪標(biāo)注中，只有60%的數(shù)據(jù)能夠構(gòu)成最后的Chinese WPLC數(shù)據(jù)集。

1）數(shù)據(jù)統(tǒng)計(jì)

數(shù)據(jù)統(tǒng)計(jì)如表1所示：

Chinese WPLC數(shù)據(jù)集每個(gè)上下文段落平均由3-4個(gè)句子構(gòu)成，平均長(zhǎng)度為120個(gè)字，如表2所示：

2）數(shù)據(jù)樣例

數(shù)據(jù)格式可參考下面兩個(gè)樣本數(shù)據(jù)，每個(gè)樣本由2個(gè)字段組成，masked_text字段是上下文和目標(biāo)句子，correct_word是位置上正確的詞，數(shù)量代表待預(yù)測(cè)單詞字?jǐn)?shù)。

{
"masked_text":"隨后他立即想到自己為什么如此氣憤——他之所以氣憤，是因?yàn)樗ε铝?。在他個(gè)人處于巨大危險(xiǎn)的情況下，貝思拋棄了他。在海底深處只剩下他們?nèi)齻€(gè)人，他們互相需要——他們得互相依靠。然而貝思不可信賴，這使他感到害怕，而且。"，
"correct_word":"氣憤"
}

{
"masked_text":"鐘將也不躲不閃，只是簡(jiǎn)單的凝出一塊雷光盾，只是他的雷光盾卻不像楚毅峰的那樣包裹住整個(gè)身體，只有臉盆大小，但是他的雷光盾完全是一塊整體，沒(méi)有雷電閃爍，沒(méi)有電芒流轉(zhuǎn)。甚至連一點(diǎn)雷電的痕跡都看不到，就是一聲銀色的堅(jiān)實(shí)！",
"correct_word":"盾牌"
}

總結(jié)

本文主要介紹ZeroCLUE/FewCLUE數(shù)據(jù)集、中文長(zhǎng)下文詞語(yǔ)預(yù)測(cè) (Chinese WPLC)數(shù)據(jù)集幾個(gè)下游任務(wù)數(shù)據(jù)集，感興趣的可以查看參考文獻(xiàn)進(jìn)一步處理。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

分類(lèi)器

分類(lèi)器

+關(guān)注

關(guān)注
0

文章
152

瀏覽量
13204
語(yǔ)言模型

語(yǔ)言模型

+關(guān)注

關(guān)注
0

文章
533

瀏覽量
10303
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1208

瀏覽量
24754

原文標(biāo)題：語(yǔ)言模型性能評(píng)估必備下游數(shù)據(jù)集：ZeroCLUE/FewCLUE與Chinese_WPLC數(shù)據(jù)集

文章出處：【微信號(hào)：zenRRan，微信公眾號(hào)：深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

請(qǐng)問(wèn)NanoEdge AI數(shù)據(jù)集該如何構(gòu)建？

我想用NanoEdge來(lái)識(shí)別異常的聲音，但我目前沒(méi)有辦法生成模型，我感覺(jué)可能是數(shù)據(jù)集的問(wèn)題，請(qǐng)問(wèn)我該怎么構(gòu)建數(shù)據(jù)集？或者生成

發(fā)表于 05-28 07:27

建立開(kāi)發(fā)集和測(cè)試集（總結(jié)）

? 被選擇作為開(kāi)發(fā)集和測(cè)試集的數(shù)據(jù)，應(yīng)當(dāng)與你未來(lái)計(jì)劃獲取并對(duì)其進(jìn)行良好處理的數(shù)據(jù)有著相同的分布，而不一定和訓(xùn)練集的

發(fā)表于 12-14 10:56

PTB數(shù)據(jù)集建立語(yǔ)言模型

《實(shí)戰(zhàn)Google深度學(xué)習(xí)框架》之RNN學(xué)習(xí)筆記2 LSTM對(duì)PTB數(shù)據(jù)集的建模

發(fā)表于 09-26 16:21

基于不均衡醫(yī)學(xué)數(shù)據(jù)集的疾病預(yù)測(cè)模型

基于不均衡醫(yī)學(xué)數(shù)據(jù)集的疾病預(yù)測(cè)模型

發(fā)表于 06-15 14:15 ?9次下載

詳解ChatGPT數(shù)據(jù)集之謎

隨著新型 AI 技術(shù)的快速發(fā)展，模型訓(xùn)練數(shù)據(jù)集的相關(guān)文檔質(zhì)量有所下降。模型內(nèi)部到底有什么秘密？它們又是如何組建的？本文綜合整理并分析了現(xiàn)代大型語(yǔ)言

發(fā)表于 02-21 10:06 ?1852次閱讀

如何構(gòu)建高質(zhì)量的大語(yǔ)言模型數(shù)據(jù)集

構(gòu)建高質(zhì)量的大語(yǔ)言模型數(shù)據(jù)集是訓(xùn)練強(qiáng)大自然語(yǔ)言處理模型的關(guān)鍵一步。以下是一些關(guān)鍵步驟和考慮因素，

發(fā)表于 09-11 17:00 ?1662次閱讀

大語(yǔ)言模型（LLM）預(yù)訓(xùn)練數(shù)據(jù)集調(diào)研分析

model 訓(xùn)練完成后，使用 instruction 以及其他高質(zhì)量的私域數(shù)據(jù)集來(lái)提升 LLM 在特定領(lǐng)域的性能；而 rlhf 是 openAI 用來(lái)讓model 對(duì)齊人類(lèi)價(jià)值觀的一種強(qiáng)大技術(shù)；pre-training dat

發(fā)表于 09-19 10:00 ?1197次閱讀

大模型數(shù)據(jù)集：構(gòu)建、挑戰(zhàn)與未來(lái)趨勢(shì)

隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展，大型預(yù)訓(xùn)練模型如GPT-4、BERT等在各個(gè)領(lǐng)域取得了顯著的成功。這些大模型背后的關(guān)鍵之一是龐大的數(shù)據(jù)集，為模型

發(fā)表于 12-06 15:28 ?1925次閱讀

大模型數(shù)據(jù)集：突破邊界，探索未來(lái)

隨著人工智能技術(shù)的快速發(fā)展，大型預(yù)訓(xùn)練模型如GPT-4、BERT等在自然語(yǔ)言處理領(lǐng)域取得了顯著的成功。這些大模型背后的關(guān)鍵之一是龐大的數(shù)據(jù)集

發(fā)表于 12-06 16:10 ?678次閱讀

大模型數(shù)據(jù)集：力量的源泉，進(jìn)步的階梯

的舞臺(tái) 大模型數(shù)據(jù)集如廣袤的舞臺(tái)，為AI技術(shù)的展現(xiàn)提供了廣闊的空間。這些數(shù)據(jù)集規(guī)模龐大，包容萬(wàn)象，它們是AI進(jìn)步的基石。無(wú)論是自然

發(fā)表于 12-07 17:18 ?715次閱讀

大模型數(shù)據(jù)集：揭秘AI背后的魔法世界

一、引言在人工智能的奇幻世界中，大模型數(shù)據(jù)集如同神秘的魔法書(shū)，蘊(yùn)藏著無(wú)盡的智慧與力量。它們?yōu)锳I注入了生命，使其具備了理解和改變世界的能力。今天，就讓我們一起揭開(kāi)大模型

發(fā)表于 12-07 17:33 ?584次閱讀

語(yǔ)音數(shù)據(jù)集：開(kāi)啟智能語(yǔ)音技術(shù)的新篇章

。一、語(yǔ)音數(shù)據(jù)集的重要性語(yǔ)音數(shù)據(jù)集是智能語(yǔ)音技術(shù)的基石。通過(guò)收集大量的語(yǔ)音數(shù)據(jù)，可以訓(xùn)練出更加準(zhǔn)確和高效的語(yǔ)音識(shí)別

發(fā)表于 12-29 11:06 ?751次閱讀

語(yǔ)音數(shù)據(jù)集：智能語(yǔ)音技術(shù)的燃料與推動(dòng)力

語(yǔ)音數(shù)據(jù)集在智能語(yǔ)音技術(shù)的發(fā)展中扮演著至關(guān)重要的角色。它們是訓(xùn)練語(yǔ)音識(shí)別、語(yǔ)音合成等模型的基礎(chǔ)數(shù)據(jù)，對(duì)于提高模型的準(zhǔn)確性和魯棒性具有關(guān)鍵作

發(fā)表于 12-29 11:11 ?442次閱讀

PyTorch如何訓(xùn)練自己的數(shù)據(jù)集

的數(shù)據(jù)集。本文將深入解讀如何使用PyTorch訓(xùn)練自己的數(shù)據(jù)集，包括數(shù)據(jù)準(zhǔn)備、模型定義、訓(xùn)練過(guò)程

發(fā)表于 07-02 14:09 ?1906次閱讀

如何評(píng)估AI大模型的效果

、SuperGLUE、SQuAD等。這些數(shù)據(jù)集提供了不同任務(wù)上的基準(zhǔn)評(píng)估，使得不同模型在同一任務(wù)上的性能可以進(jìn)行直接比較。二、多樣性和覆蓋

發(fā)表于 10-23 15:21 ?1300次閱讀

搜索歷史

語(yǔ)言模型性能評(píng)估必備下游數(shù)據(jù)集：ZeroCLUE/FewCLUE與Chinese_WPLC數(shù)據(jù)集

一、ZeroCLUE/FewCLUE數(shù)據(jù)集

二、中文長(zhǎng)下文詞語(yǔ)預(yù)測(cè) (Chinese WPLC)數(shù)據(jù)集

2、數(shù)據(jù)統(tǒng)計(jì)分析與樣例

總結(jié)

評(píng)論

請(qǐng)問(wèn)NanoEdge AI數(shù)據(jù)集該如何構(gòu)建？

建立開(kāi)發(fā)集和測(cè)試集（總結(jié)）

PTB數(shù)據(jù)集建立語(yǔ)言模型

基于不均衡醫(yī)學(xué)數(shù)據(jù)集的疾病預(yù)測(cè)模型

詳解ChatGPT數(shù)據(jù)集之謎

如何構(gòu)建高質(zhì)量的大語(yǔ)言模型數(shù)據(jù)集

大語(yǔ)言模型（LLM）預(yù)訓(xùn)練數(shù)據(jù)集調(diào)研分析

大模型數(shù)據(jù)集：構(gòu)建、挑戰(zhàn)與未來(lái)趨勢(shì)

大模型數(shù)據(jù)集：突破邊界，探索未來(lái)

大模型數(shù)據(jù)集：力量的源泉，進(jìn)步的階梯

大模型數(shù)據(jù)集：揭秘AI背后的魔法世界

語(yǔ)音數(shù)據(jù)集：開(kāi)啟智能語(yǔ)音技術(shù)的新篇章

語(yǔ)音數(shù)據(jù)集：智能語(yǔ)音技術(shù)的燃料與推動(dòng)力

PyTorch如何訓(xùn)練自己的數(shù)據(jù)集

如何評(píng)估AI大模型的效果

搜索歷史

語(yǔ)言模型性能評(píng)估必備下游數(shù)據(jù)集：ZeroCLUE/FewCLUE與Chinese_WPLC數(shù)據(jù)集

一、ZeroCLUE/FewCLUE數(shù)據(jù)集

二、中文長(zhǎng)下文詞語(yǔ)預(yù)測(cè) (Chinese WPLC)數(shù)據(jù)集

2、數(shù)據(jù)統(tǒng)計(jì)分析與樣例

總結(jié)

評(píng)論

一、ZeroCLUE/FewCLUE數(shù)據(jù)集

二、中文長(zhǎng)下文詞語(yǔ)預(yù)測(cè) (Chinese WPLC)數(shù)據(jù)集

2、數(shù)據(jù)統(tǒng)計(jì)分析與樣例