OpenAI 剛剛宣布正式推出GPT-4。GPT-4 是 Generative Pre-trained Transformer 4 的縮寫,即生成型預(yù)訓(xùn)練變換模型 4。
公告寫道,GPT-4 是一個多模態(tài)大型語言模型(支持接受圖像和文本輸入,以文本形式輸出),也是 OpenAI 努力擴(kuò)展深度學(xué)習(xí)的最新里程碑。雖然 GPT-4 對于許多現(xiàn)實場景的處理比人類差,但它在各種體現(xiàn)專業(yè)和學(xué)術(shù)能力的 benchmark 上,已表現(xiàn)出和人類相當(dāng)?shù)乃健?例如,GPT-4 通過了模擬律師考試,其分?jǐn)?shù)在應(yīng)試者的前 10% 左右;相比之下,GPT-3.5 的得分卻在倒數(shù) 10% 左右。OpenAI 表示,他們花了 6 個月的時間來使用對抗性測試程序,以及通過 ChatGPT 的經(jīng)驗教訓(xùn)迭代調(diào)整 GPT-4,從而在真實性和可控性等方面取得了有史以來最好的結(jié)果(盡管遠(yuǎn)非完美)。 使用示例 OpenAI 用一張梗圖演示了 GPT-4 特有的「多模態(tài)」功能。 用戶提問:解釋下圖的笑點是什么,并對圖片中的每部分進(jìn)行描述。
GPT-4:
The image shows a package for a "Lightning Cable" adapter with three panels. Panel 1: A smartphone with a VGA connector (a large, blue, 15-pin connector typically used for computer monitors) plugged into its charging port. Panel 2: The package for the "Lightning Cable" adapter with a picture of a VGA connector on it. Panel 3: A close-up of the VGA connector with a small Lightning connector (used for charging iPhones and other Apple devices) at the end. The humor in this image comes from the absurdity of plugging a large, outdated VGA connector into a small, modern smartphone charging port.
翻譯如下:
圖片顯示了一個 "Lightning Cable" 適配器的包裝,總共包含三個部分。 面板 1:一部智能手機(jī),其充電端口插著一個 VGA 接口(大的藍(lán)色 15 針接口,通常用于電腦顯示器)。 面板 2:"Lightning Cable" 適配器的包裝上有一張 VGA 接口的圖片。 面板 3:VGA 連接器的特寫,末端是一個小的 Lightning 連接器(用于為 iPhone 和其他蘋果設(shè)備充電)。 這張圖片的笑點來自于:展示了將一個大的、過時的 VGA 連接器插入一個小的、現(xiàn)代的智能手機(jī)充電端口的荒謬性。
上面的例子看起來很簡單,OpenAI 緊接著展示了高級用法 —— 像人類一樣讀論文。簡單來說就是給 GPT-4 提供論文的圖片格式文件,讓它閱讀并總結(jié)出要點。效果如下:
甚至直接讓 GPT-4 回答圖片中對應(yīng)題號的問題:
GPT-4 局限性 盡管功能強(qiáng)大,但 GPT-4 與早期的 GPT 模型具有相似的局限性,即生成的結(jié)果不符合事實。因此它仍然不完全可靠(它會產(chǎn)生 “幻覺” 事實并出現(xiàn)推理錯誤)。 雖然這仍然是一個問題,但 GPT-4 相對于以前的模型(它們本身在每次迭代中都在改進(jìn))顯著減少了 “幻覺”。在內(nèi)部的對抗性真實性評估中,GPT-4 的得分比最新的 GPT-3.5 高 40%:
與 GPT 3.5 的對比 據(jù)介紹,對于日常的談話,GPT-3.5 和 GPT-4 之間的區(qū)別可能很微妙。但當(dāng)任務(wù)的復(fù)雜性達(dá)到足夠的閾值時,差異就會出現(xiàn) ——GPT-4 比 GPT-3.5 更可靠、更有創(chuàng)意,并且能夠處理更細(xì)微的指令。 為了了解這兩種模型之間的區(qū)別,OpenAI 通過各種 benchmark 進(jìn)行了測試,包括最初為人類設(shè)計的模擬考試。從下圖可以看出,GPT-4 的成績大部分都比 GPT-3 好。
GPT-4 也在多項測試項目中取得了接近滿分的成績:
USABO Semifinal Exam 2020(美國生物奧林匹克競賽)
GRE 口語
OpenAI 還將機(jī)器學(xué)習(xí)模型的傳統(tǒng) benchmark 用于評估 GPT-4。結(jié)果顯示,GPT-4 已經(jīng)遠(yuǎn)遠(yuǎn)超過現(xiàn)有的大型語言模型,以及大多數(shù)最先進(jìn)的 (SOTA, state-of-the-art) 模型。benchmark 數(shù)據(jù)如下:
在 MMLU benchmark 中(一個基準(zhǔn)數(shù)據(jù)集,包括來自于 STEM、人文、社科等 57 個學(xué)科的選擇題,它用于測試 LLM 的世界知識和問題解答的能力),GPT-4 處理中文的準(zhǔn)確度大約是 80%,已經(jīng)優(yōu)于其他 LLM 的英文表現(xiàn),比如 GPT-3.5、Chinchilla、PALM。
試用方式
ChatGPT Plus 訂閱用戶可嘗鮮體驗,他們將在 chat.openai.com 上獲得具有使用s上限的 GPT-4 訪問權(quán)限。
調(diào)用 API,訪問
https://openai.com/waitlist/gpt-4進(jìn)入等待名單
另外,
現(xiàn)在只支持純文本的請求(圖像輸入還在 alpha 階段)
定價:prompt - $0.03 per 1k token, completion - $0.06 per 1k token
context 長度為 8192 tokens,并且提供 32768 token 的版本(價格也更貴,$0.06 & $0.12)
審核編輯 :李倩
-
圖像
+關(guān)注
關(guān)注
2文章
1088瀏覽量
40515 -
模型
+關(guān)注
關(guān)注
1文章
3279瀏覽量
48974 -
OpenAI
+關(guān)注
關(guān)注
9文章
1103瀏覽量
6598
原文標(biāo)題:OpenAI正式發(fā)布GPT-4:支持圖像和文本的輸入、 處理中文的準(zhǔn)確度大幅提升
文章出處:【微信號:OSC開源社區(qū),微信公眾號:OSC開源社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論