4月2日報道,盡管Siri在描述圖片信息的能力上不夠完善,但蘋果公司并未停止對人工智能領(lǐng)域的深入探索。其最新研究論文詳述了一種大幅提升Siri智能化水平的模型——ReALM。該模型在測試中超越了OpenAI的GPT-4.0著名語言模型。
據(jù)悉,ReALM的獨特特性是同時理解用戶屏幕內(nèi)容及正在執(zhí)行的操作。依據(jù)信息類型,論文將信息細分成三類:
(1)屏幕實體: 即當前顯示在用戶屏幕上的內(nèi)容。
(2)對話實體: 指與對話相關(guān)的內(nèi)容。如,用戶請求“撥打母親的電話”,那么,母親的聯(lián)系信息便屬于此類。
(3)背景實體: 與用戶當前操作或屏幕顯示內(nèi)容未必直接相關(guān)的實體,如正在播放的音樂或即將發(fā)出的報警鈴聲。
一旦成功實現(xiàn),ReALM將賦予Siri更高的智能化和實用性。該團隊將ReALM與OpenAI的GPT-3.5和GPT-4.0進行了性能比拼:
“我們以上下文信息作為輸入,對比了OpenAI的GPT-3.5和GPT-4.0模型預(yù)測實體的準確程度。由于GPT-3.5僅支持文本輸入,故我們僅提供文字提示;而GPT-4允許理解圖片信息,所以我們給它提供了屏幕截圖,從而有效提高了屏幕實體識別的效率。”
那蘋果的ReALM是否具備如此強大的性能優(yōu)勢呢?
“我們的模型在識別各種類型實體方面都有顯著提升,即使是小尺寸模型,在屏幕實體識別準確性上也已超過原有的系統(tǒng)5%以上。在與GPT-3.5和GPT-4.0的比較中,小型模型與GPT-4.0相媲美;更大的模型則表現(xiàn)更佳。”
論文得出的結(jié)論之一便是,有比GPT-4參數(shù)少許多的ReALM,卻仍可在性能上與之匹敵。在處理某些特定領(lǐng)域的用戶指令時,ReALM甚至優(yōu)于其他模型,使其成為一款高效、實用且可本地運行的實體識別系統(tǒng)。
而關(guān)鍵問題在于,蘋果需尋求無損性能的方法來將此技術(shù)運用至設(shè)備之中。據(jù)了解,預(yù)計6月10日舉行的WWDC 2024開發(fā)者大會上,蘋果將會在iOS 18等新系統(tǒng)中展現(xiàn)更多人工智能技術(shù)創(chuàng)新成果,令人頗為期待。
-
模型
+關(guān)注
關(guān)注
1文章
3243瀏覽量
48840 -
GPT
+關(guān)注
關(guān)注
0文章
354瀏覽量
15373 -
蘋果公司
+關(guān)注
關(guān)注
2文章
447瀏覽量
22594
發(fā)布評論請先 登錄
相關(guān)推薦
評論