作為多模態(tài)人工智能技術(shù)領(lǐng)域的翹楚,Jina AI 的愿景是鋪平通往多模態(tài) AI 的未來之路。今天,Jina AI 在向著該愿景前進(jìn)的路上,達(dá)成了一個(gè)重要里程碑。我們正式發(fā)布了自主研發(fā)的第二代文本向量模型:jina-embeddings-v2,是全球唯一能支持 8K(8192)輸入長(zhǎng)度的開源向量模型。
據(jù) MTEB 排行榜顯示,jina-embeddings-v2 與 OpenAI 的專有模型 text-embedding-ada-002 在性能方面不相上下。目前,僅 OpenAI 與 Jina AI 兩家人工智能技術(shù)公司推出了 8k 長(zhǎng)度的 Embedding 模型。
自該模型發(fā)布,迅速登上 HackerNews 榜首,并長(zhǎng)時(shí)間霸榜,在全球范圍內(nèi)引發(fā)了業(yè)內(nèi)人士的廣泛討論。
其中,“8K 長(zhǎng)度”和“開源”這兩點(diǎn)特別受到業(yè)界的矚目,正如 HackerNews 上讀者的評(píng)論所言,支持 8k 輸入長(zhǎng)度的 jina-embeddings-v2在表達(dá)能力和計(jì)算效率之間取得了可喜的平衡,而其中的關(guān)鍵,就在于它的獨(dú)特優(yōu)勢(shì) —— 用更小的維度來實(shí)現(xiàn)高效的表征。
雖然 text-embedding-ada-002 已經(jīng)廣泛應(yīng)用于各種不同場(chǎng)景,但其 1536 維度的輸出對(duì)于數(shù)據(jù)量巨大和價(jià)格敏感的開發(fā)者來說并不友好。jina-embeddings-v2 通過提供 768(base)和 512(small)兩種輸出維度的選擇,賦予了開發(fā)者更大的靈活性。這更意味著開發(fā)者可以實(shí)現(xiàn)更低的計(jì)算和存儲(chǔ)成本,適用于更多的實(shí)際落地的場(chǎng)景。
在 Jina AI,我們堅(jiān)信開源技術(shù)之于創(chuàng)新、合作與社區(qū)力量的催化作用,所以 我們第一時(shí)間將模型開源,期待和社區(qū)一起共同打造開源 AI 生態(tài)。
向量模型與 8k 輸入長(zhǎng)度
在傳統(tǒng)的自然語言處理任務(wù)中,通常會(huì)將文本轉(zhuǎn)化為一組數(shù)字進(jìn)行表示,也就是向量。向量模型用于生成向量表示,被廣泛應(yīng)用于檢索、分類、聚類或語義匹配等任務(wù)。
在大模型時(shí)代,向量模型的重要性進(jìn)一步增強(qiáng)。尤其是在檢索增強(qiáng)生成(RAG)場(chǎng)景中,它成為了一個(gè)核心組件,用于解決大模型的上下文長(zhǎng)度限制、幻覺問題和知識(shí)注入問題。因?yàn)榇竽P屯ǔS猩舷挛拈L(zhǎng)度的限制,我們需要一個(gè)有效的方法來壓縮、存儲(chǔ)和查詢大量的信息。這就是向量模型的用武之地。在 RAG 系統(tǒng)中,文檔首先被轉(zhuǎn)化為向量。隨后,大模型可以快速地查詢這些向量,找到與當(dāng)前上下文相關(guān)的文檔,再基于這些文檔生成回復(fù)。
然而,目前的大部分開源向量模型都是僅支持最大 512 長(zhǎng)度(大約 500 個(gè)漢字)的輸入長(zhǎng)度,這使得開發(fā)者無法表征長(zhǎng)文本的語義。jina-embeddings-v2 支持最大 8k 長(zhǎng)度的輸入,突破了長(zhǎng)文本向量表示的瓶頸,讓開發(fā)者可以更自由的對(duì)文本信息進(jìn)行不同語義顆粒度的完整表示,從而更精準(zhǔn)的表示文本語義。這不僅可以幫助開發(fā)者提高 RAG 場(chǎng)景下大模型回復(fù)的準(zhǔn)確性,而且適用于各種處理長(zhǎng)文本的場(chǎng)景,例如處理數(shù)十頁的報(bào)告綜述、長(zhǎng)篇故事推薦等。
與 text-embedding-ada-002 模型對(duì)比測(cè)試
與 OpenAI 的 text-embedding-ada-002 相比,jina-embeddings-v2 展現(xiàn)出不俗的實(shí)力。下表為兩模型的性能對(duì)比。
值得注意的是,jina-embeddings-v2 在文本分類任務(wù)、檢索任務(wù)、檢索重排任務(wù)、和文本摘要任務(wù)上的得分都超過了 text-embedding-ada-002。
擁抱開源
OpenAI 已經(jīng)為我們展示了 8K 上下文長(zhǎng)度模型的潛力,但 jina-embeddings-v2 不僅與其齊頭并進(jìn),還做出了更大膽的決策:完全開源!這意味著任何人都可以使用、修改和進(jìn)一步優(yōu)化這款模型。
不僅如此,當(dāng)我們與 OpenAI 的模型進(jìn)行直接比較時(shí),jina-embeddings-v2 在多個(gè)關(guān)鍵指標(biāo)上展現(xiàn)出了優(yōu)越的性能??紤]到 jina-embeddings-v2 是開源的,我們堅(jiān)信通過社區(qū)的集體智慧和努力,我們將有機(jī)會(huì)超越目前的標(biāo)桿。
正是因?yàn)槲覀儓?jiān)信開放和共享的價(jià)值,我們希望與全球的研究者、工程師和 AI 愛好者共同努力,不斷完善和推進(jìn)這款模型。我們也在計(jì)劃中繼續(xù)拓展功能,例如提供更多語言的支持,以及開發(fā)更為強(qiáng)大的 API 平臺(tái)。
特點(diǎn)和優(yōu)勢(shì)
全新的向量模型發(fā)布,再次證明了我們?cè)诩夹g(shù)創(chuàng)新上面的決心,jina-embeddings-v2 并非對(duì)前代模型的簡(jiǎn)單修訂,而是經(jīng)過了深入研發(fā)和優(yōu)化后的全新設(shè)計(jì),我們團(tuán)隊(duì)付出了很多努力,從數(shù)據(jù)收集、處理再到模型調(diào)優(yōu),使得 v2 模型在性能表現(xiàn)上有了質(zhì)的飛躍。
此外,jina-embeddings-v2 支持 8K 輸入長(zhǎng)度,與其他領(lǐng)先的向量模型相比,在長(zhǎng)文本任務(wù)中展現(xiàn)出了明顯的優(yōu)勢(shì),突顯了其擴(kuò)展上下文長(zhǎng)度的實(shí)際價(jià)值。這一特點(diǎn)也為很多實(shí)際應(yīng)用提供了更多可能性,比如法律文件解讀、醫(yī)學(xué)文獻(xiàn)研究、深入的文學(xué)分析、金融數(shù)據(jù)洞察和聊天機(jī)器人的應(yīng)答優(yōu)化等等。
對(duì)于想要使用 jina-embeddings-v2 的開發(fā)者和研究者,我們?cè)?Huggingface 平臺(tái)上提供了兩種規(guī)模的模型,以適應(yīng)不同場(chǎng)景和需求:
jina-embeddings-v2-base-en
大?。?.27G(fp16),0.54G(fp32)
參數(shù)數(shù)量:1.37 億
適用場(chǎng)景:適合處理需要高精度的大型任務(wù)
jina-embeddings-v2-small-en
大?。?.07G
參數(shù)數(shù)量:0.33 億
適用場(chǎng)景:特別為輕量級(jí)的應(yīng)用場(chǎng)景設(shè)計(jì),如移動(dòng)端應(yīng)用或那些計(jì)算能力有限的設(shè)備上的任務(wù)
回顧本次發(fā)布?xì)v程,Jina AI 創(chuàng)始人兼 CEO 肖涵博士說:
“在 AI 技術(shù)快速發(fā)展的今天,始終保持前沿并向公眾開放最新研究成果是我們的核心追求。有了 jina-embeddings-v2,我們達(dá)成了一個(gè)重要的里程碑。我們不僅開發(fā)了全球首款開源 8K 上下文長(zhǎng)度的模型,而且其性能能夠與 OpenAI 這樣的行業(yè)巨頭相匹敵。Jina AI 的目標(biāo)很明確:我們希望推動(dòng) AI 民主化,讓更多的人能夠使用且受益,而不只是那些擁有大量資源的大公司。今天,我可以很自豪地說,我們朝著這一愿景邁出了堅(jiān)實(shí)的一步。”
展望未來
Jina AI 深信開源的魔力,并致力于為 AI 社區(qū)構(gòu)建前沿且易于接入的工具。接下來,我們還會(huì)推動(dòng)以下幾項(xiàng)重要工作:
分享學(xué)術(shù)成果:為了讓社區(qū)更好地了解 jina-embeddings-v2 的性能和特點(diǎn),團(tuán)隊(duì)將很快發(fā)布一篇詳細(xì)的學(xué)術(shù)文章,深入介紹模型的技術(shù)細(xì)節(jié),以及和其他模型的比較分析。
API 平臺(tái):我們正在努力構(gòu)建一個(gè) Embedding API 平臺(tái),其功能和 OpenAI 類似,幫助用戶能夠根據(jù)自己的需求,更輕松地使用我們的向量模型。
多語言支持:Jina AI 正著手引入多語種,下一步計(jì)劃推出德文/英文以及中文/英文雙語模型,并進(jìn)一步增強(qiáng)我們模型的能力。
編輯:黃飛
-
API
+關(guān)注
關(guān)注
2文章
1500瀏覽量
62011 -
聊天機(jī)器人
+關(guān)注
關(guān)注
0文章
339瀏覽量
12312 -
自然語言處理
+關(guān)注
關(guān)注
1文章
618瀏覽量
13561 -
OpenAI
+關(guān)注
關(guān)注
9文章
1087瀏覽量
6508
原文標(biāo)題:Jina AI 推出全球首款開源 8K 向量模型,比肩 OpenAI
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論