0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

MS-COCO數(shù)據(jù)集的可靠嗎?

jf_pmFSk4VX ? 來源:GiantPandaCV ? 2023-11-21 11:19 ? 次閱讀

ICCV2023 基準(zhǔn)測(cè)試:MS-COCO數(shù)據(jù)集的可靠嗎?

摘要

數(shù)據(jù)集是用于分析和比較各種任務(wù)的算法的基礎(chǔ),從圖像分類到分割,它們也在圖像預(yù)訓(xùn)練算法中起著重要作用。然而,人們往往只關(guān)注結(jié)果,而忽略了數(shù)據(jù)集中實(shí)際的內(nèi)容。因此,質(zhì)疑數(shù)據(jù)集中所包含的信息類型以及其中的微妙差異和偏見是非常必要的。在本文中,我們利用形狀分析流程來發(fā)現(xiàn)Sama-COCO(MS-COCO的重新標(biāo)注版本)的潛在問題。我們?cè)趦蓚€(gè)數(shù)據(jù)集上訓(xùn)練和評(píng)估了模型,以檢查不同標(biāo)注條件對(duì)結(jié)果的影響。我們的實(shí)驗(yàn)表明,標(biāo)注方式對(duì)性能有顯著影響,因此標(biāo)注過程應(yīng)該根據(jù)目標(biāo)任務(wù)進(jìn)行設(shè)計(jì)。

引言

數(shù)據(jù)集基準(zhǔn)和評(píng)估標(biāo)準(zhǔn)對(duì)于塑造計(jì)算機(jī)視覺研究的方向和動(dòng)力具有關(guān)鍵作用。它們是衡量社區(qū)進(jìn)步和算法創(chuàng)新的標(biāo)尺。這些組件通常被認(rèn)為是單一的工作,它們被收集和分析以確保所有算法的可靠性和質(zhì)量。然而,當(dāng)基準(zhǔn)本身存在缺陷時(shí),研究人員和從業(yè)者花費(fèi)大量時(shí)間調(diào)整他們的實(shí)驗(yàn)以在基準(zhǔn)上取得最佳性能,會(huì)產(chǎn)生什么后果呢?

視覺數(shù)據(jù)集通常用于分類、檢測(cè)和分割等任務(wù)的算法基準(zhǔn)測(cè)試或大型神經(jīng)網(wǎng)絡(luò)的預(yù)訓(xùn)練。然而,這存在一個(gè)問題,那就是實(shí)際的目標(biāo)并不總是與數(shù)據(jù)集中提供的數(shù)據(jù)相一致。這種不一致可能源于自動(dòng)標(biāo)注協(xié)議的缺陷或眾包努力的不協(xié)調(diào)。因此,有必要建立一個(gè)嚴(yán)格的端到端流程,其中注釋過程由實(shí)際任務(wù)的明確定義所指導(dǎo)。

目標(biāo)檢測(cè)數(shù)據(jù)集(MS-COCO)是一個(gè)用于評(píng)估和比較檢測(cè)和實(shí)例分割算法的標(biāo)準(zhǔn)數(shù)據(jù)集,包括YOLO,R-CNN和DETR等方法。它由自然圖像組成,具有自動(dòng)駕駛行業(yè)的應(yīng)用價(jià)值,因此為在其上開發(fā)的神經(jīng)網(wǎng)絡(luò)提供了質(zhì)量標(biāo)準(zhǔn)。由于MS-COCO在計(jì)算機(jī)視覺中作為基準(zhǔn)的重要性,理解其數(shù)據(jù)集中的邊界框和分割掩模的可靠性和質(zhì)量是非常必要的,因?yàn)樗鼈兎从沉藬?shù)據(jù)的趨勢(shì)和特征。為了評(píng)估數(shù)據(jù)集的質(zhì)量,可以創(chuàng)建數(shù)據(jù)集的重新標(biāo)注版本,以便與原始版本進(jìn)行比較和發(fā)現(xiàn)潛在的差異,這些差異可能會(huì)影響算法的性能和泛化能力。

e597dae4-8791-11ee-939d-92fbcf53809c.png

圖2 除了聚集的實(shí)例外,其他對(duì)象的大小分布

數(shù)據(jù)集

Sama-COCO數(shù)據(jù)集是對(duì)現(xiàn)有MS-COCO數(shù)據(jù)集的重新標(biāo)注工作,由一組專業(yè)的標(biāo)注員完成。該項(xiàng)目最初是作為一個(gè)內(nèi)部工作,旨在生成高質(zhì)量的地面真實(shí)數(shù)據(jù),后來發(fā)展成為一種提供了解機(jī)器學(xué)習(xí)數(shù)據(jù)集質(zhì)量復(fù)雜因素的新方法。

該數(shù)據(jù)集是在數(shù)月內(nèi)生成的,使用了不固定的人力資源:有時(shí)有多達(dá)500名標(biāo)注員同時(shí)工作。關(guān)鍵點(diǎn)是有對(duì)標(biāo)注員的進(jìn)行詳細(xì)指導(dǎo)。與MS-COCO數(shù)據(jù)集一樣,標(biāo)注以矢量多邊形的形式提供。

我們指導(dǎo)標(biāo)注員在繪制COCO對(duì)象輪廓的多邊形時(shí)要盡可能精確,盡量避免包含背景。我們還指導(dǎo)標(biāo)注員優(yōu)先標(biāo)注對(duì)象的單個(gè)實(shí)例,而不是聚集在一起的對(duì)象。如果圖像中某個(gè)對(duì)象類別的實(shí)例數(shù)量超過了給定的閾值,我們就指示標(biāo)注員只標(biāo)注前幾個(gè)實(shí)例,然后將剩余的實(shí)例標(biāo)記為聚集。整個(gè)項(xiàng)目中的閾值根據(jù)不同的情況進(jìn)行調(diào)整,以平衡預(yù)算、時(shí)間和數(shù)據(jù)質(zhì)量之間的關(guān)系。此外,我們還指示標(biāo)注員忽略尺寸小于10×10像素的對(duì)象。

重新標(biāo)注過程涵蓋了MS-COCO數(shù)據(jù)集中的所有123,287張訓(xùn)練和驗(yàn)證圖像。這些圖像預(yù)先加載了MS-COCO的原始標(biāo)注,這使得標(biāo)注員可以根據(jù)需要修改、保留或刪除這些標(biāo)注。在標(biāo)注階段之后,還有一個(gè)質(zhì)量保證(QA)階段,QA專家會(huì)檢查每個(gè)提交的標(biāo)注。不符合質(zhì)量要求的標(biāo)注會(huì)被退回,要求標(biāo)注員進(jìn)行修正,直到達(dá)到滿意的水平。需要注意的是,一些標(biāo)注員誤解了忽略小對(duì)象的要求,認(rèn)為是要?jiǎng)h除MS-COCO的預(yù)標(biāo)注,而另一些標(biāo)注員則沒有改變它們。

與原始MS-COCO數(shù)據(jù)集相比,Sama-COCO數(shù)據(jù)集有幾個(gè)顯著的差異。首先,Sama-COCO數(shù)據(jù)集中標(biāo)記為聚集的實(shí)例明顯更多。這部分是因?yàn)闃?biāo)注員被指示將大型的單一聚集分解為較小的部分和單個(gè)實(shí)體。盡管兩個(gè)數(shù)據(jù)集有相同的基礎(chǔ),但Sama-COCO在80個(gè)類別中的47個(gè)類別中擁有更多的實(shí)例。其中一些類別,如person,增加的數(shù)量非常顯著。其次,Sama-COCO的頂點(diǎn)數(shù)幾乎是MS-COCO的兩倍,這是因?yàn)闃?biāo)注員被指示在繪制多邊形時(shí)要盡可能精確,盡量不包含背景。此外,如圖2所示,大型對(duì)象的數(shù)量顯著減少,因?yàn)榇笮偷木奂驅(qū)ο笕褐械膯蝹€(gè)元素被重新標(biāo)注為不同的實(shí)體。在Sama-COCO數(shù)據(jù)集中還可以觀察到一個(gè)關(guān)鍵的變化是非常小的對(duì)象(尺寸小于或等于10×10像素)的數(shù)量明顯減少。最后,Sama-COCO數(shù)據(jù)集中還有更多的小型(從10×10到32×32像素)和中等大小(從32×32到96×96像素)的對(duì)象。

形狀分析

由于Sama-COCO是重新注釋而非最初數(shù)據(jù)集的更正,所以樣本之間沒有對(duì)應(yīng)關(guān)系。為了確定地分析注釋形狀的差異,必須首先匹配多邊形。放寬分析要求為單個(gè)多邊形形狀,并利用邊界框形狀一致性的概念。形狀一致性假設(shè)輪廓錯(cuò)誤不意味著盒子錯(cuò)誤。使用基于交集與并集(IoU)度量的重疊標(biāo)準(zhǔn)確定匹配。對(duì)于任何一對(duì)封閉形狀,IoU定義為:

e5ae2f24-8791-11ee-939d-92fbcf53809c.png

數(shù)據(jù)集之間注釋實(shí)例的匹配由所有形狀中IoU大于置信度閾值T的形狀對(duì)定義。每個(gè)注釋最多只有一個(gè)匹配,且不能保證一定找到匹配。經(jīng)驗(yàn)選擇匹配閾值為0.90。這種策略可找到受輪廓噪聲影響的匹配,而不是與全局框錯(cuò)誤相關(guān)的匹配。對(duì)形狀和形狀集,匹配定義為:

e5bc366e-8791-11ee-939d-92fbcf53809c.png

一旦找到匹配,則使用輪廓分析量化成對(duì)形狀之間的差異。設(shè)()表示成對(duì)形狀()的輪廓,長度為()。設(shè)為空間域上輪廓的精確距離變換(EDT),其中定義了中的空間位置。用于量化形狀之間平均差異的平均表面距離定義為:

e5ca8318-8791-11ee-939d-92fbcf53809c.png

某些成對(duì)形狀可能存在大型區(qū)域分歧。在這種情況下,平均表面距離無法捕獲這種現(xiàn)象。為了緩解這個(gè)問題,引入最大距離,定義為:

e5d51314-8791-11ee-939d-92fbcf53809c.png

匹配流程應(yīng)用于訓(xùn)練分割,找到310504個(gè)確定匹配。每個(gè)形狀使用pycoco標(biāo)準(zhǔn)柵格化為掩模,并通過將掩模與自身的二值腐蝕相減生成輪廓。生成EDT,并通過用成對(duì)形狀的輪廓索引距離圖來計(jì)算路徑積分。該流程對(duì)兩個(gè)形狀雙向完成,如圖3所示。平均和最大表面距離的分布如圖4所示。

e5dc677c-8791-11ee-939d-92fbcf53809c.png

圖4:平均和最大表面距離的長尾分布

實(shí)驗(yàn)

為了研究重新標(biāo)注過程對(duì)神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)質(zhì)量的影響,我們使用檢測(cè)和實(shí)例分割任務(wù)來訓(xùn)練和評(píng)估神經(jīng)網(wǎng)絡(luò)。重新標(biāo)注過程包括更精確的多邊形、更細(xì)化的聚集和更多的標(biāo)注實(shí)例。我們使用Detectron2框架在MS-COCO和Sama-COCO上訓(xùn)練了一個(gè)基于ResNet-50和FPN的Faster R-CNN模型,并使用MS-COCO的標(biāo)準(zhǔn)評(píng)估指標(biāo)對(duì)其進(jìn)行評(píng)估,將每個(gè)數(shù)據(jù)集的驗(yàn)證分割作為地面真實(shí)數(shù)據(jù)。我們使用8個(gè)Nvidia V100 GPU,在批量大小為16的情況下,總共進(jìn)行了270k次迭代的訓(xùn)練。我們?cè)谒械膶?shí)驗(yàn)中保持了相同的超參數(shù)。我們使用平均精度均值(mAP)作為評(píng)估指標(biāo),結(jié)果如表1所示。

e5e8032a-8791-11ee-939d-92fbcf53809c.png

表1:檢測(cè)和分割結(jié)果

我們還評(píng)估了學(xué)習(xí)與驗(yàn)證集完全匹配的理想表示的意義。在這種情況下,我們將源標(biāo)注與目標(biāo)標(biāo)注進(jìn)行比較,將源視為模型預(yù)測(cè),目標(biāo)視為地面真實(shí)數(shù)據(jù)。我們交替使用MS-COCO和Sama-COCO作為源和目標(biāo),以確保評(píng)估的公平性。結(jié)果如表2所示。

e5f0e5f8-8791-11ee-939d-92fbcf53809c.png

表2: 當(dāng)將源數(shù)據(jù)集視為針對(duì)目標(biāo)數(shù)據(jù)集的預(yù)測(cè)時(shí),檢測(cè)和分割結(jié)果

討論

我們要先說明,沒有任何數(shù)據(jù)集是完美的,Sama-COCO也不比MS-COCO更好或更差。每個(gè)數(shù)據(jù)集都會(huì)不可避免地存在一些偏差,但是不同形式的偏差會(huì)對(duì)神經(jīng)網(wǎng)絡(luò)的性能產(chǎn)生不同的影響。這可以通過比較不同數(shù)據(jù)集的基準(zhǔn)測(cè)試結(jié)果來觀察。

當(dāng)我們比較兩個(gè)數(shù)據(jù)集中的匹配實(shí)例時(shí),可以發(fā)現(xiàn)MS-COCO數(shù)據(jù)集中存在一些系統(tǒng)性的偏差。這些偏差有兩種不同的形式。第一種形式的偏差與多邊形的緊密程度有關(guān)。我們發(fā)現(xiàn),平均表面距離較低的成對(duì)多邊形在輪廓上有輕微的差異。平均來說,Sama-COCO的多邊形比原始標(biāo)注更貼合對(duì)象,但是過分割和欠分割實(shí)例的組合可能對(duì)真實(shí)的預(yù)測(cè)質(zhì)量沒有影響,如果噪聲的期望值為零。也有可能,隨著網(wǎng)絡(luò)規(guī)模的增大,它們會(huì)適應(yīng)這些輪廓中的偏差,從而誤導(dǎo)評(píng)估指標(biāo)。在這種情況下,很難判斷神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的表示的真實(shí)質(zhì)量,因?yàn)樵u(píng)估它們的唯一方式也包含了偏差。

第二種形式的偏差與遮擋物和標(biāo)注風(fēng)格指南的處理和規(guī)定有關(guān)。Sama-COCO強(qiáng)調(diào)多邊形貼近可觀察到的像素,而原始數(shù)據(jù)集包含繞過遮擋物的多邊形。考慮遮擋物更適合像素級(jí)的實(shí)例分割任務(wù),而忽略遮擋物更類似于定位任務(wù)。在這種隱性的偏差上訓(xùn)練的神經(jīng)網(wǎng)絡(luò)會(huì)以不同的方式學(xué)習(xí)解決這些任務(wù)。因此,任何機(jī)器學(xué)習(xí)從業(yè)者都必須了解他們的數(shù)據(jù)集與他們想要解決的下游任務(wù)之間的關(guān)聯(lián)性,并應(yīng)該在數(shù)據(jù)收集階段注意標(biāo)注標(biāo)準(zhǔn)和指南,以盡量減少頂層問題。合并具有沖突標(biāo)注風(fēng)格的數(shù)據(jù)集可能是不明智的,因?yàn)樯窠?jīng)網(wǎng)絡(luò)的下游行為可能難以預(yù)測(cè)。

當(dāng)我們查看檢測(cè)和分割任務(wù)的評(píng)估指標(biāo)差異時(shí),可以明顯看到網(wǎng)絡(luò)從與訓(xùn)練數(shù)據(jù)集相同風(fēng)格的評(píng)估中受益,如表1所示。這意味著性能與主觀的質(zhì)量定義密切相關(guān)。如果我們使用額外的樣本來豐富數(shù)據(jù)集,但是樣本的風(fēng)格分布發(fā)生了變化,那么網(wǎng)絡(luò)的性能可能會(huì)降低,這與我們的預(yù)期相反。這可以通過將一個(gè)數(shù)據(jù)集的驗(yàn)證標(biāo)注作為源,另一個(gè)數(shù)據(jù)集的驗(yàn)證標(biāo)注作為目標(biāo)來理論上驗(yàn)證。即使我們?cè)诹硪粋€(gè)數(shù)據(jù)集上是完美的預(yù)測(cè)者,我們也會(huì)受到錯(cuò)過的實(shí)例、邊界變形和細(xì)微差異的影響。還值得注意的是,一些最先進(jìn)的檢測(cè)算法的性能優(yōu)于我們的結(jié)果。這很有趣,因?yàn)榭驑?biāo)注應(yīng)該與多邊形的變化相對(duì)一致。這意味著網(wǎng)絡(luò)可能會(huì)過擬合訓(xùn)練數(shù)據(jù)集中可能無法在另一個(gè)數(shù)據(jù)集中復(fù)現(xiàn)的特定信息類型。

結(jié)論

從討論中可以看出,數(shù)據(jù)集中的偏差可能導(dǎo)致一些不期望或意外的結(jié)果,這可能是有問題的。在實(shí)例分割中,標(biāo)注方式的選擇會(huì)影響模型對(duì)遮擋對(duì)象的輸出。因此,在構(gòu)建標(biāo)注數(shù)據(jù)集時(shí)必須仔細(xì)考慮,以確保它們能夠反映真實(shí)世界應(yīng)用中的需求。雖然Sama-COCO并不完全避免所有的標(biāo)注錯(cuò)誤,但它確實(shí)提供了一組高質(zhì)量的標(biāo)注,可以用于更好地探索標(biāo)簽噪聲領(lǐng)域和對(duì)精確多邊形很重要的應(yīng)用。

編輯:黃飛

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:ICCV2023 基準(zhǔn)測(cè)試:MS-COCO數(shù)據(jù)集的可靠嗎?

文章出處:【微信號(hào):GiantPandaCV,微信公眾號(hào):GiantPandaCV】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    計(jì)算機(jī)視覺/深度學(xué)習(xí)領(lǐng)域常用數(shù)據(jù)匯總

    on 100,000 peopleCOCO數(shù)據(jù)由微軟贊助,其對(duì)于圖像的標(biāo)注信息不僅有類別、位置信息,還有對(duì)圖像的語義文本描述,COCO數(shù)據(jù)
    發(fā)表于 08-29 10:36

    如何使用eIQ門戶訓(xùn)練人臉檢測(cè)模型?

    我正在嘗試使用 eIQ 門戶訓(xùn)練人臉檢測(cè)模型。我正在嘗試從 tensorflow 數(shù)據(jù) (tfds) 導(dǎo)入數(shù)據(jù),特別是 coco/201
    發(fā)表于 04-06 08:45

    SLX-5MS-MDM數(shù)據(jù)手冊(cè)

    SLX-5MS-MDM數(shù)據(jù)手冊(cè)
    發(fā)表于 01-04 11:20 ?0次下載

    SLX-8MS-89數(shù)據(jù)手冊(cè)

    SLX-8MS-89數(shù)據(jù)手冊(cè)
    發(fā)表于 01-04 11:19 ?0次下載

    ET-8MS-OEM數(shù)據(jù)手冊(cè)

    ET-8MS-OEM數(shù)據(jù)手冊(cè)
    發(fā)表于 01-05 15:24 ?0次下載

    用于動(dòng)作分類和定位的稀疏標(biāo)記數(shù)據(jù)

    ,只有 9146 個(gè)樣本)到 ImageNet(2011,包含 120 萬個(gè)樣本)這樣的數(shù)據(jù)。在目標(biāo)檢測(cè)中,盡管收集邊界框信息所需的額外人類標(biāo)注成本提高了,但也出現(xiàn)了訓(xùn)練規(guī)模逐漸擴(kuò)展的相似趨勢(shì)。Pascal VOC(2007
    發(fā)表于 02-28 10:40 ?0次下載

    利用Attention模型為圖像生成字幕

    這款筆記是一種端到端(end-to-end)的樣例。如果你運(yùn)行它,將會(huì)下載 MS-COCO數(shù)據(jù),使用Inception V3來預(yù)處理和緩存圖像的子集、訓(xùn)練出編碼-解碼模型,并使用它來在新的圖像上生成字幕。
    的頭像 發(fā)表于 07-20 10:19 ?4588次閱讀

    在不使用任何額外數(shù)據(jù)的情況下,COCO數(shù)據(jù)上物體檢測(cè)結(jié)果為50.9 AP的方法

    實(shí)驗(yàn)中,我們發(fā)現(xiàn)當(dāng)只使用 COCO 數(shù)據(jù)時(shí),從頭開始訓(xùn)練的模型性能是能夠匹配預(yù)訓(xùn)練模型的性能。我們?cè)?COCO train2017 上訓(xùn)練模型,并在
    的頭像 發(fā)表于 11-24 10:42 ?8435次閱讀
    在不使用任何額外<b class='flag-5'>數(shù)據(jù)</b>的情況下,<b class='flag-5'>COCO</b><b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>集</b>上物體檢測(cè)結(jié)果為50.9 AP的方法

    微軟刪除 MS Celeb 名人數(shù)據(jù),撥開數(shù)據(jù)隱私的迷霧

    微軟悄悄刪了一個(gè)數(shù)據(jù),結(jié)果大家都知道了
    的頭像 發(fā)表于 06-26 17:22 ?2908次閱讀

    「房間里的大象」:讓目標(biāo)檢測(cè)器一臉懵逼

    實(shí)驗(yàn)中采用的圖像均來自 MS-COCO 數(shù)據(jù) 2017 版的驗(yàn)證。除非另有說明,我們采用的所有模型均來自 Tensorflow 目標(biāo)檢測(cè) API [5]。因此,我們的實(shí)驗(yàn)易于復(fù)現(xiàn),
    的頭像 發(fā)表于 04-01 14:24 ?1379次閱讀

    HCS138MS 數(shù)據(jù)

    HCS138MS 數(shù)據(jù)
    發(fā)表于 01-12 18:45 ?0次下載
    HCS138<b class='flag-5'>MS</b> <b class='flag-5'>數(shù)據(jù)</b>表

    Tandy Coco視頻和音頻輸出(UVD克?。?/a>

    電子發(fā)燒友網(wǎng)站提供《Tandy Coco視頻和音頻輸出(UVD克?。?zip》資料免費(fèi)下載
    發(fā)表于 01-29 17:19 ?0次下載
    Tandy <b class='flag-5'>Coco</b>視頻和音頻輸出(UVD克隆)

    HCS32MS 數(shù)據(jù)

    HCS32MS 數(shù)據(jù)
    發(fā)表于 05-05 18:50 ?0次下載
    HCS32<b class='flag-5'>MS</b> <b class='flag-5'>數(shù)據(jù)</b>表

    PCB Tandy CoCo EPROM墨盒設(shè)計(jì)

    電子發(fā)燒友網(wǎng)站提供《PCB Tandy CoCo EPROM墨盒設(shè)計(jì).zip》資料免費(fèi)下載
    發(fā)表于 06-12 11:52 ?0次下載
    PCB Tandy <b class='flag-5'>CoCo</b> EPROM墨盒設(shè)計(jì)

    多模態(tài)上下文指令調(diào)優(yōu)數(shù)據(jù)MIMIC-IT

    然而,一個(gè)理想的 AI 對(duì)話助手應(yīng)該能夠解決涉及多種模態(tài)的任務(wù)。這需要獲得一個(gè)多樣化和高質(zhì)量的多模式指令跟隨數(shù)據(jù)。比如,LLaVAInstruct-150K 數(shù)據(jù)(也被稱為 LLa
    的頭像 發(fā)表于 06-12 16:36 ?749次閱讀
    多模態(tài)上下文指令調(diào)優(yōu)<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>集</b>MIMIC-IT