5 月 28 日,微軟在 Build 2024 大會(huì)上推出了最新的 Phi-3 系列成員——Phi-3-vision。這一工具主打視覺應(yīng)用,能有效處理圖片文字信息,且在移動(dòng)設(shè)備上也能運(yùn)行自如。
Phi-3-vision 是一種小型多模式語言模型(SLM),主要適用于本地人工智能場(chǎng)景。其模型參數(shù)高達(dá) 42 億,上下文序列包含 128k 個(gè)符號(hào),可滿足各種視覺推理和其他任務(wù)需求。
Microsoft 通過一篇新發(fā)表的論文[PDF]展示了 Phi-3-vision 的強(qiáng)大實(shí)力。與其他模型如 Claude 3-haiku、Gemini 1.0 Pro 相比,Phi-3-vision 毫不遜色。
此外,Microsoft 還對(duì) Phi-3-vision 進(jìn)行了多項(xiàng)測(cè)試,并將其與其他競(jìng)品模型進(jìn)行了比較,包括字節(jié)跳動(dòng)的 Llama3-Llava-Next(8B)、微軟研究院與威斯康星大學(xué)、哥倫比亞大學(xué)聯(lián)合開發(fā)的 LlaVA-1.6(7B)以及阿里巴巴通義千問 QWEN-VL-Chat 模型等。結(jié)果表明,Phi-3-vision 在多個(gè)項(xiàng)目中的表現(xiàn)均十分出色。
-
微軟
+關(guān)注
關(guān)注
4文章
6598瀏覽量
104066 -
人工智能
+關(guān)注
關(guān)注
1791文章
47279瀏覽量
238511 -
語言模型
+關(guān)注
關(guān)注
0文章
524瀏覽量
10277
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論