NVIDIA 的最新嵌入模型 NV-Embed —— 以 69.32 的分?jǐn)?shù)創(chuàng)下了嵌入準(zhǔn)確率的新紀(jì)錄海量文本嵌入基準(zhǔn)測(cè)試(MTEB)涵蓋 56 項(xiàng)嵌入任務(wù)。
NV-Embed 等高度準(zhǔn)確有效的模型是將大量數(shù)據(jù)轉(zhuǎn)化為可操作見解的關(guān)鍵。NVIDIA 通過 NVIDIA API 目錄提供性能一流的模型。
由 LLM 提供支持的“與您的數(shù)據(jù)對(duì)話”流程嚴(yán)重依賴 embedding model,例如 NV-Embed,它通過將英語單詞轉(zhuǎn)換為文本中信息的壓縮數(shù)學(xué)表示形式來創(chuàng)建非結(jié)構(gòu)化文本的語義表示。這種表示通常存儲(chǔ)在 vector database 中,以便日后使用。
當(dāng)用戶提出問題時(shí),系統(tǒng)會(huì)對(duì)問題的數(shù)學(xué)表征和所有基礎(chǔ)數(shù)據(jù)塊進(jìn)行比較,以檢索最有用的信息來回答用戶的問題。
請(qǐng)注意,此特定模型只能用于非商業(yè)用途。
分解基準(zhǔn)
在討論模型的準(zhǔn)確率數(shù)字之前,討論基準(zhǔn)測(cè)試很重要。本節(jié)簡要介紹有關(guān)理解基準(zhǔn)測(cè)試的詳細(xì)信息。我們的深入探討評(píng)估適用于企業(yè)級(jí) RAG 的 Retriever 是獲取更多信息的絕佳資源。
了解嵌入模型的指標(biāo)
從我們將討論的基準(zhǔn)測(cè)試指標(biāo)開始,主要有兩個(gè)注意事項(xiàng):
Normalized Discounted Cumulative Gain(NDCG)是一個(gè)排名感知指標(biāo),用于衡量檢索到的信息的相關(guān)性和順序。簡言之,如果我們有 1,000 個(gè) chunks 并檢索 10 (NDCG@10),那么當(dāng)最相關(guān)的 chunk 排名第一、第二相關(guān)的 chunk 排名第二,以此類推,直到第十個(gè)最相關(guān)的 chunk 位于第 10 位時(shí),才會(huì)給出理想的分?jǐn)?shù)。
Recall是一個(gè)與排名無關(guān)的指標(biāo),用于測(cè)量檢索到的相關(guān)結(jié)果的百分比。在這種情況下,如果我們有 1,000 個(gè)數(shù)據(jù)塊并檢索 10 個(gè)數(shù)據(jù)塊(Recall@10),則如果選擇了前 10 個(gè)最相關(guān)的數(shù)據(jù)塊,則無論這些數(shù)據(jù)塊的排名順序如何,都將獲得完美分?jǐn)?shù)。
大多數(shù)基準(zhǔn)測(cè)試都報(bào)告 NDCG@10,但由于大多數(shù)企業(yè)級(jí)檢索增強(qiáng)生成(RAG)流程,我們建議使用 Recall@5。
什么是 MTEB 和 Beir?
檢索流程的核心功能是將問題的語義表示與各種數(shù)據(jù)點(diǎn)進(jìn)行比較。這自然會(huì)引導(dǎo)開發(fā)者提出幾個(gè)后續(xù)問題:
相同的表示是否可以用于不同的任務(wù)?
如果我們縮小一項(xiàng)任務(wù)的范圍,該模型是否擅長表示不同類型的問題或理解不同領(lǐng)域?
為了回答這些問題,我們研究了有關(guān)檢索的文獻(xiàn)中最常見的兩個(gè)基準(zhǔn)測(cè)試。
MTEB:此基準(zhǔn)測(cè)試涵蓋 56 項(xiàng)不同的任務(wù),包括檢索、分類、重新排名、聚類、總結(jié)等。根據(jù)您的目標(biāo),您可以查看代表您用例的精確任務(wù)子集。
BEIR:該基準(zhǔn)測(cè)試專注于檢索任務(wù),并以不同類型和領(lǐng)域的問題(例如 fact-checking、biomedical questions 或檢測(cè)重復(fù)性問題)的形式增加了復(fù)雜性。MTEB 在很大程度上是 BEIR 基準(zhǔn)測(cè)試的超集,因此我們?cè)诖蠖鄶?shù)討論中將專注于 MTEB。
NV-Embed 模型精度基準(zhǔn)
現(xiàn)在我們已經(jīng)討論了基礎(chǔ)基準(zhǔn)測(cè)試和指標(biāo),我們來看看新模型 NV-Embed 的執(zhí)行情況。
圖 1. MTEB 基準(zhǔn)測(cè)試中排名前 5 的模型
平均而言,NV-Embed 模型在 56 個(gè)任務(wù)中的跟蹤準(zhǔn)確度最佳,NDCG@10 分為 69.32(參見圖 1)。
雖然 NV-Embed 涵蓋了大多數(shù)模型架構(gòu)和訓(xùn)練細(xì)節(jié),準(zhǔn)確率達(dá)到 69.32,以下總結(jié)了主要改進(jìn)。
新的 latent attention layer。我們引入了 latent attention layer,該層能夠簡化模型將一系列詞(tokens sequence)的數(shù)學(xué)表示(embeddings)的過程。通常情況下,對(duì)于基于 BERT 的模型,這是通過求平均值來完成的,對(duì)于僅解碼器的模型,則是通過關(guān)注 End-of-Sequence-Token(
兩階段學(xué)習(xí)過程。在第一階段,使用 in-batch 負(fù)例對(duì)和 hard 負(fù)例對(duì)進(jìn)行 contrastive 學(xué)習(xí)。簡而言之,使用證據(jù)對(duì)和問題對(duì)。證據(jù)似乎回答了這些對(duì)中的問題,但如果您仔細(xì)觀察,您會(huì)發(fā)現(xiàn)缺少基本信息。在第二階段,來自非檢索任務(wù)的數(shù)據(jù)混合在一起以進(jìn)行 contrastive 學(xué)習(xí),并且禁用 in-batch 負(fù)例訓(xùn)練。
現(xiàn)在自然而然的問題是,“這對(duì)我的企業(yè)檢索工作負(fù)載的轉(zhuǎn)換效果有多好?!?/p>
答案是,它取決于數(shù)據(jù)的性質(zhì)和領(lǐng)域。對(duì)于每個(gè)基準(zhǔn)測(cè)試,您必須評(píng)估單個(gè)數(shù)據(jù)集的相關(guān)性一般檢索用例。
我們的關(guān)鍵要點(diǎn)是,雖然 19 個(gè)數(shù)據(jù)集構(gòu)成了 BEIR 基準(zhǔn)測(cè)試,但數(shù)據(jù)集 Quora 其中包含超出常規(guī)檢索任務(wù)的問題。因此,我們建議查看更能代表工作負(fù)載的數(shù)據(jù)集子集,例如 Natural Questions 和 HotPotQA 數(shù)據(jù)集。有關(guān)上下文,請(qǐng)參閱以下代碼段。
Quora 示例數(shù)據(jù)集的數(shù)據(jù)對(duì)專注于檢索 Quora 上提出的其他類似問題。
Input:Which question should I ask on Quora?
Target:What are good questions to ask on Quora?
HotpotQA 示例問題通道對(duì)
Input-Question:Were Scott Derrickson and Ed Wood of the same nationality?
Target-Chunk:Scott Derrickson (born July 16, 1966) is an American director, screenwriter and producer. He lives in Los Angeles, California. He is best known for directing horror films such as “Sinister”, “The Exorcism of Emily Rose”, and “Deliver Us From Evil”, as well as the 2016 Marvel Cinematic Universe installment, “Doctor Strange.”
NQ 示例常規(guī)問題通道對(duì)
Input-Question: What is non-controlling interest on the balance sheet?
Target-Chunk:In accounting, minority interest (or non-controlling interest) is the portion of a subsidiary corporation’s stock that is not owned by the parent corporation. The magnitude of the minority interest in the subsidiary company is generally less than 50% of outstanding shares, or the corporation would generally cease to be a subsidiary of the parent.[1]
圖 2. HotPotQA 和 NQ 上來自 MTEB 的前三個(gè)嵌入模型,它們很好地代表了通用檢索用例
在圖 2 中,NV-Embed 模型最適合用于表示這些用例的數(shù)據(jù)集。我們鼓勵(lì)您對(duì)自己的數(shù)據(jù)重復(fù)此評(píng)估。如果您沒有要測(cè)試的干凈數(shù)據(jù),我們建議找到表示您用例的子集。
立即開始原型設(shè)計(jì)
通過 API 目錄體驗(yàn) NV-Embed 模型。
此外,使用 NVIDIA NeMo Retriever 微服務(wù)集合,該集合旨在使組織能夠?qū)⒆远x模型無縫連接到各種業(yè)務(wù)數(shù)據(jù),并提供高度準(zhǔn)確的響應(yīng)。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
4985瀏覽量
103032 -
API
+關(guān)注
關(guān)注
2文章
1499瀏覽量
61991 -
模型
+關(guān)注
關(guān)注
1文章
3241瀏覽量
48832
原文標(biāo)題:NVIDIA 文本嵌入模型位列 MTEB 排行榜榜首
文章出處:【微信號(hào):NVIDIA_China,微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論