最近AI領(lǐng)域備受矚目的新聞中,OpenAI和谷歌的新品發(fā)布會(huì),無(wú)疑占據(jù)了最多的頭條。
我們團(tuán)隊(duì)當(dāng)然也不例外,不僅第一時(shí)間觀看了兩家公司的發(fā)布會(huì),還親身上手體驗(yàn)了號(hào)稱“顛覆世界”“世界又科幻了”的GPT-4o。
一句話總結(jié):
OpenAI發(fā)布會(huì),失望;
谷歌發(fā)布會(huì),無(wú)聊。
并不是我們要故作驚人之語(yǔ)。實(shí)際上,AI業(yè)內(nèi)專業(yè)人士普遍都有類似的看法。
一些國(guó)內(nèi)從事AI工程化項(xiàng)目的人表示,“不關(guān)心,因?yàn)橛钟貌坏健?。而AI科學(xué)家和專家也有不少人直言,“看著看著睡著了,谷歌幾乎所有的東西都是對(duì)標(biāo)和追趕,沒(méi)有太多的新鮮感”。
又又又一次在與OpenAI的較量中處于下風(fēng),一個(gè)只有谷歌受傷的世界達(dá)成了。
盡管兩大AI巨頭的新技術(shù)方向,仍然值得關(guān)注,但可以明確的是,隨著大型AI模型的產(chǎn)業(yè)化進(jìn)程不斷深入,國(guó)內(nèi)外參與者也越來(lái)越冷靜,更加專注于自身的AI策略與節(jié)奏。
有人將這兩場(chǎng)發(fā)布會(huì)比作是一場(chǎng)斗地主游戲,OpenAI打出一對(duì)二,谷歌就跟四個(gè)王。那么,這一次較量的核心——多模態(tài)大模型,國(guó)內(nèi)AI行業(yè)是否要跟進(jìn)呢?如果要跟進(jìn),又該提前考量到哪些問(wèn)題呢?
每一次新產(chǎn)品問(wèn)世,如果只跟著新聞“震驚”是很難進(jìn)步的。不妨和我們一起,認(rèn)真給GPT-4o算筆賬。
全能模型,究竟“驚艷”在哪里?
谷歌反擊OpenAI的發(fā)布會(huì),被稱為“腹瀉式更新”,一口氣推出了十來(lái)款新品及升級(jí)。之所以讓人看到睡著,是因?yàn)榇蠹乙呀?jīng)在前一天被GPT-4o“驚艷”過(guò)了。
而這次谷歌開發(fā)者大會(huì)上所演示的其他產(chǎn)品,OpenAI早都發(fā)布過(guò)。對(duì)標(biāo)GPT-4o的Gemini Astra,表現(xiàn)又略遜一籌,也難怪大家興趣缺缺。顯然,這是一次針對(duì)谷歌的精準(zhǔn)狙擊。此前,谷歌已經(jīng)對(duì)外放出了語(yǔ)音助手demo演示的預(yù)熱視頻,而GPT-4o最讓人驚艷的地方就是“天花板級(jí)別”的人機(jī)自然語(yǔ)音交互。
那么,OpenAI機(jī)關(guān)算盡、谷歌有備而來(lái)的多模態(tài)大模型,究竟有什么神奇之處?
GPT-4o中的“o”代表“omni”,意為“全能”,以此為版本號(hào),凸顯了GPT-4o的多功能特性,可以從三個(gè)方面理解:
1.多模態(tài)。
GPT-4o接受文本、音頻和圖像的任意組合作為輸入,實(shí)時(shí)對(duì)音頻、視覺(jué)和文本進(jìn)行推理,生成相應(yīng)的輸出。相比ChatGPT的文生文、文生圖,Sora的文生視頻等,GPT-4o是一個(gè)原生多模態(tài)的融合體。這一點(diǎn),谷歌的Gemini Astra也能實(shí)現(xiàn),支持多模態(tài)的推理。在演示視頻中,谷歌的智能助手可以理解手機(jī)攝像頭拍攝的世界(視頻、圖像),并用文字詳細(xì)地講述出來(lái)。
當(dāng)然,多模態(tài)大模型并不是什么新鮮事物。不只這倆AI巨頭,國(guó)內(nèi)在多模態(tài)大模型領(lǐng)域也有一些研究和開發(fā)。此前就有浙大校友開源了多模態(tài)大模型LLaVA,對(duì)標(biāo)OpenAI的GPT-4V。既然多模態(tài)大模型并不稀奇,那GPT-4o憑啥“驚艷”?答案就在第二點(diǎn)。
2.低時(shí)延。
GPT-4o是一個(gè)端到端、全鏈路貫穿的多模態(tài)大模型。
此前,語(yǔ)音產(chǎn)品一般由三個(gè)獨(dú)立模型組成:SLM1將音頻轉(zhuǎn)錄為文本——LLM將文本輸出為文本——SLM2將生成文本轉(zhuǎn)換為音頻。每一步的網(wǎng)絡(luò)延遲疊加起來(lái),結(jié)果就是AI推理速度跟不上人嘴巴說(shuō)話的速度。大家可能都有過(guò)類似的經(jīng)歷,自己都說(shuō)完了,AI大模型還沒(méi)識(shí)別完全,互動(dòng)總被打斷,有時(shí)還會(huì)丟失很多信息,連基本的文字都聽不清,更別說(shuō)從笑聲、停頓、嘆氣等因素中分析出人的情緒了,人當(dāng)然也就沒(méi)有了說(shuō)下去的興致。
而GPT-4o的端到端,就是省去了中間的處理步驟,由同一個(gè)神經(jīng)網(wǎng)絡(luò)來(lái)接受并處理來(lái)自不同模態(tài)(如文本、視覺(jué)和音頻)的輸入數(shù)據(jù),并直接輸出結(jié)果。這樣就可以將語(yǔ)音交互的響應(yīng)時(shí)延,控制在232 毫秒以內(nèi),體感上比人類回應(yīng)還要迅速。
OpenAI演示完GPT-4o,大家紛紛表示,科幻電影中《Her》跟機(jī)器談情說(shuō)愛的未來(lái)就要實(shí)現(xiàn)了。不過(guò),谷歌并不這樣想。
(截圖自?shī)W特曼的社交媒體)
在晚一天的谷歌發(fā)布會(huì)上,谷歌Gemini 1.5 Flash的響應(yīng)其實(shí)也很快速,同樣能幾乎沒(méi)有延遲地跟人類流暢互動(dòng),但還是比GPT-4o要長(zhǎng)一些。不過(guò)谷歌聲稱,自己的兩段演示視頻均為“單次拍攝、實(shí)時(shí)錄制完成”。
我們猜測(cè),這是在暗示OpenAI又在“貸款領(lǐng)先”了,GPT-4o實(shí)際可能無(wú)法很快真的落地,畢竟OpenAI搞誤導(dǎo)性營(yíng)銷是有前科的,Sora就曾爆出,拿藝術(shù)家編輯過(guò)的視頻當(dāng)原視頻宣傳,演示效果并非完全由AI生成。
展示效果是真是假,有待時(shí)間驗(yàn)證,不過(guò)OpenAI和谷歌在端到端方面的工作,證明了人機(jī)語(yǔ)音交互的超低時(shí)延是可以實(shí)現(xiàn)的,達(dá)到媲美人類交流的水平。而這,就為語(yǔ)音交互的多場(chǎng)景應(yīng)用,打下了新的技術(shù)根基。
3.多場(chǎng)景。
大家應(yīng)該都還記得,ChatGPT問(wèn)世時(shí)舉世震驚的效果。大語(yǔ)言模型的強(qiáng)大理解能力和泛化性,可以促成NLP在多種文本任務(wù)上帶來(lái)顛覆式的影響,而這類任務(wù)幾乎遍布在各行各業(yè)。
再看GPT-4o,多模態(tài)大模型在音視頻理解方面尤其出色,也是一個(gè)非常泛在的通用型技術(shù)。而毫不夸張地說(shuō),GPT-4o將語(yǔ)音交互體驗(yàn)做到了“天花板級(jí)別”,這幾乎可以給語(yǔ)音場(chǎng)景都帶來(lái)改變。
比如OpenAI所展示的輔導(dǎo)孩子數(shù)學(xué)題,可以替代家長(zhǎng)輔導(dǎo)作業(yè),讓家家都過(guò)上和諧的日子;《Her》電影中跟智能語(yǔ)音機(jī)器人談戀愛的場(chǎng)景,可以讓人人都擁有自己的網(wǎng)絡(luò)戀愛/在線情感撫慰師。延展開來(lái),此前曾被嘲笑“人工智障”的手機(jī)語(yǔ)音助手,銀行、電信等行業(yè)的客服機(jī)器人,缺乏充足師資力量的偏遠(yuǎn)學(xué)校,游戲里跟玩家互動(dòng)的NPC紙片人,以及能識(shí)別用戶情緒的精準(zhǔn)營(yíng)銷……
凡有人聲處,皆可詠AI,正隨著端到端多模態(tài)大模型的進(jìn)化與落地,讓更自然、更逼真、富有感情的人機(jī)交互成為可能。
從這個(gè)角度說(shuō),GPT-4o所代表的技術(shù)前瞻性,確實(shí)配得上“全能o”這個(gè)詞。既然如此,為什么說(shuō)只有谷歌一家受傷了呢?
不慌不忙,只有谷歌受傷的世界達(dá)成了
OpenAI一有新品發(fā)布,國(guó)內(nèi)大眾的期待與緊張情緒便如同谷歌的皮猜(Sundar Pichai)一樣高漲,這幾乎已經(jīng)是慣例了。
預(yù)判國(guó)內(nèi)觀眾的預(yù)判,很多中文媒體也在OpenAI春季新品發(fā)布會(huì)剛發(fā)完的早晨,就炮制了一系列“顛覆世界”“炸裂登場(chǎng)”的新聞。有人說(shuō)它要革谷歌的命,革Siri的命,革同傳的命,革心理咨詢師、情感輔導(dǎo)、私人教練等1V1咨詢的命……
或許還有不明真相的群眾信以為真,而谷歌也確實(shí)進(jìn)行了反擊,但國(guó)內(nèi)AI業(yè)內(nèi)人士大多呵呵一笑。這可能是第一次,面對(duì)OpenAI的進(jìn)攻,只有谷歌受傷的世界達(dá)成了。
為什么國(guó)內(nèi)AI從業(yè)者普遍對(duì)GPT-4o及對(duì)標(biāo)GPT-4o的Gemini Astra,反應(yīng)平平,甚至看發(fā)布會(huì)都能睡著?
首要原因,當(dāng)然是新產(chǎn)品不達(dá)預(yù)期。
許多人原本滿懷期待地等OpenAI放出GPT-5,就算沒(méi)有,也得是跟Sora一樣驚艷的東西,但GPT-4o更多的是在現(xiàn)有技術(shù)框架內(nèi)的一次迭代升級(jí)。而谷歌此前發(fā)布的Gemini也有多模態(tài)能力。可以說(shuō),雙方雖然都在多模態(tài)處理方面,做出了改進(jìn)和增強(qiáng),但并沒(méi)有實(shí)現(xiàn)根本性的技術(shù)飛躍。所以有人說(shuō),大家期待的是一個(gè)“核彈”,而OpenAI這次拿出的是一個(gè)“摔炮”。
另一個(gè)原因,是OpenAI“狼來(lái)了”玩太多次了。
OpenAI會(huì)營(yíng)銷是共識(shí),有不少人都在Sora翻車之后表示,“厭倦了OpenAI的精美Demo營(yíng)銷”。投資人朱嘯虎OpenAI CEO Sam Altman奧特曼每次都把PR宣傳時(shí)間點(diǎn)拿捏得很準(zhǔn),顯示自己這波在“大氣層”,但幾個(gè)月之后都沒(méi)有開放給公眾使用。
越來(lái)越多人認(rèn)識(shí)到這一點(diǎn),也對(duì)OpenAI的“demo發(fā)布會(huì)”變得不信任、不耐煩了。
(截圖自社交媒體,網(wǎng)友對(duì)OpenAI的評(píng)論)
當(dāng)然,最關(guān)鍵的還是,經(jīng)過(guò)一年多的大模型落地實(shí)踐,國(guó)內(nèi)AI產(chǎn)業(yè)鏈上下游可能都對(duì)OpenAI和大模型“祛魅”了。
這就像打牌,面對(duì)別人擺下的龍門陣,剛剛坐上牌桌,對(duì)游戲規(guī)則和策略不夠熟悉,自然要先觀察和模仿對(duì)方的策略,趕緊先把大語(yǔ)言模型搞出來(lái),也會(huì)下意識(shí)地聽取圍觀群眾的建議。明明自己才是干AI的,但一聽媒體分析師或網(wǎng)友說(shuō)“落后了”,立馬焦慮,忙著對(duì)標(biāo)ChatGPT、對(duì)標(biāo)GPT-4,又容易“翻車”引發(fā)輿論危機(jī)。剛上牌桌,進(jìn)退失據(jù),亦步亦趨跟進(jìn)OpenAI是難免的。
但一年多時(shí)間過(guò)去,很多真正做大模型和產(chǎn)業(yè)落地的人與企業(yè),或許還沒(méi)徹底弄清楚中國(guó)大模型產(chǎn)業(yè)化、商業(yè)化應(yīng)該怎么做,但一個(gè)共識(shí)很清楚——像OpenAI、谷歌那樣做不行。最簡(jiǎn)單的,GPT-4o能第一時(shí)間拿到英偉達(dá)最先進(jìn)的顯卡,這就是國(guó)內(nèi)廠商很難擁有的資源。
此外,ToB領(lǐng)域?qū)δP涂煽匦缘囊?、私有化部署的需求等,?guó)內(nèi)企業(yè)的智能化要從數(shù)據(jù)清洗、知識(shí)庫(kù)等基礎(chǔ)工作開始,而不是直接調(diào)用最先進(jìn)模型的API……
這些問(wèn)題,導(dǎo)致國(guó)內(nèi)AI產(chǎn)業(yè)界對(duì)追趕OpenAI“炸裂新品”的興趣,越來(lái)越小,找到了自己做大模型的節(jié)奏和策略。
這些背景綜合起來(lái),導(dǎo)致只有緊跟在OpenAI身后苦苦追趕的谷歌,被GPT-4o傷得最深。
多模態(tài)大模型的收益比,到底怎么樣?
當(dāng)然,不再一味追著OpenAI的節(jié)奏疲于奔命,并不意味著OpenAI和谷歌都在發(fā)力的技術(shù)方向,就不重要了,就可以不關(guān)心了。
只不過(guò),在盯緊趨勢(shì)的基礎(chǔ)上,還得統(tǒng)籌牌局,算好收益比,究竟何時(shí)出牌、什么出牌順序,對(duì)大模型商業(yè)化的潛在收益風(fēng)險(xiǎn)比是最高的。
那么,GPT-4o及Gemini Astra這類端到端多模態(tài)大模型,對(duì)企業(yè)的潛在收益與風(fēng)險(xiǎn),究竟如何呢?
先說(shuō)收益。
目前來(lái)看,與豐富的軟硬件生態(tài)相結(jié)合,能夠更快落地、價(jià)值最大化。
比如谷歌Gemini Astra盡管在理解能力、時(shí)延上不及GPT-4o,但谷歌憑借強(qiáng)大應(yīng)用生態(tài)的支持,讓跨模態(tài)理解生成,有了用武之地,股價(jià)也有所上漲。
硬件方面,谷歌Gemini的多模態(tài)能力與XR眼鏡整合,讓商業(yè)化遇阻的“谷歌眼鏡”再次回魂重塑;
軟件方面,GPT-4o被傳將與蘋果綁定,加速IOS的AI化進(jìn)程。而谷歌則將多模態(tài)能力融入搜索,用戶可以通過(guò)語(yǔ)音、圖片等與搜索引擎交互,支持搜索視頻內(nèi)容。
(截圖自社交媒體,網(wǎng)友對(duì)GPT-4o的評(píng)論)
不過(guò),這些都是展望。在實(shí)際落地、與軟硬件結(jié)合的過(guò)程中,AI公司可能會(huì)輸?shù)粢恍┗I碼,潛在風(fēng)險(xiǎn)包括:
長(zhǎng)期虧損。就連OpenAI都遭遇了流量危機(jī),開始通過(guò)免費(fèi)換用戶規(guī)模,這意味著在算力、人員等方面的長(zhǎng)期投入。AGI是一個(gè)長(zhǎng)期任務(wù),可能需要十年、二十年的時(shí)間,如果在每一個(gè)階段,不能成功實(shí)現(xiàn)規(guī)模商業(yè)化,想一把賭個(gè)大的,靠后期非線性增長(zhǎng)來(lái)扭虧為盈,很有可能“大業(yè)未成而中道崩阻”。
同質(zhì)化競(jìng)爭(zhēng)。OpenAI與谷歌的大模型競(jìng)爭(zhēng),撕咬得很緊,而技術(shù)領(lǐng)域想要徹底封閉是不可能的,這意味著底層模型能力很快會(huì)趨同,這時(shí)候用戶會(huì)轉(zhuǎn)變?yōu)閮r(jià)格敏感型,進(jìn)入殘酷的價(jià)格戰(zhàn)。如果沒(méi)有差異化的營(yíng)收模式,一味跟進(jìn)底層模型的絕對(duì)領(lǐng)先,利潤(rùn)會(huì)越來(lái)越微薄。
可能有人會(huì)說(shuō),還沒(méi)做出國(guó)產(chǎn)版GPT-4o就惦記著商業(yè)化、賺錢,真的很庸俗。
必須得說(shuō)明一下,從收益比最優(yōu)的角度,決定怎么出牌,OpenAI可算是熟手了。事實(shí)上,ChatGPT的推出是為了用聊天機(jī)器人來(lái)?yè)尩疥P(guān)注度,而GPT-5遲遲不推出,除了坊間猜測(cè)的能力不達(dá)預(yù)期之外,也有對(duì)發(fā)布時(shí)機(jī)的考量。奧特曼已經(jīng)表達(dá)過(guò)多次,“GPT-5很厲害,但我們還沒(méi)有確定如何將這些產(chǎn)品推向市場(chǎng)”。
師夷“算賬”以制夷,國(guó)內(nèi)AI公司也得學(xué)會(huì)踩點(diǎn)市場(chǎng)節(jié)奏,做出更明智、收益比更高的商業(yè)策略,才能長(zhǎng)期良性發(fā)展。網(wǎng)友大型“雙標(biāo)”要不得。
從國(guó)內(nèi)LLMtoB(面向B端市場(chǎng)的大模型)的一些實(shí)踐經(jīng)驗(yàn)來(lái)看,GPT-4o在當(dāng)下確實(shí)還存在一些阻礙落地的實(shí)際問(wèn)題。
比如可控性,AIGC生成的文本、圖片,都比較容易進(jìn)行內(nèi)容控制,由其他模型或人類專家來(lái)把控內(nèi)容質(zhì)量與合規(guī)風(fēng)險(xiǎn),超低時(shí)延的實(shí)時(shí)語(yǔ)音交互如何保障內(nèi)容質(zhì)量?如果在輔導(dǎo)作業(yè)、醫(yī)生問(wèn)診、心理咨詢等嚴(yán)肅場(chǎng)景中出現(xiàn)幻覺(jué)和胡說(shuō)八道,甚至違法違規(guī)的內(nèi)容,該怎么及時(shí)防范?
奧特曼在GPT-4o的技術(shù)博客中提到,該模型在網(wǎng)絡(luò)安全等風(fēng)險(xiǎn)維度上都“不超過(guò)中等水平”,也就是說(shuō),目前只能實(shí)現(xiàn)中等及以下的安全能力。無(wú)論是C端用戶,還是B端政企客戶,誰(shuí)放心將喜怒哀樂(lè)、私密信息都告訴多模態(tài)大模型?怎么打消用戶的安全顧慮,還需要在數(shù)據(jù)源頭、模型訓(xùn)練、規(guī)則機(jī)制設(shè)計(jì)、產(chǎn)品功能上都有充分細(xì)致地打磨。
更要問(wèn)一句,創(chuàng)業(yè)公司和開發(fā)者的努力總是被新的模型能力覆蓋掉,是不是來(lái)自AI大模型廠商的一種“背刺”?什么樣的智能語(yǔ)音產(chǎn)業(yè)生態(tài),才能吸引他們來(lái)用?
這些落地問(wèn)題不解決,所謂的《Her》一般的科幻未來(lái),就只能一直存在于OpenAI的demo中了。
從實(shí)際情況來(lái)說(shuō),跟上技術(shù)路線并不算真難題。算好收益比,搞清楚自己和對(duì)手手里的牌面,以及多模態(tài)大模型的商業(yè)牌局,才是更難也更緊迫的問(wèn)題。
GPT-4o這一波,國(guó)內(nèi)AI企業(yè)不用急著再上牌桌。
審核編輯 黃宇
-
谷歌
+關(guān)注
關(guān)注
27文章
6174瀏覽量
105666 -
AI
+關(guān)注
關(guān)注
87文章
31225瀏覽量
269579 -
GPT
+關(guān)注
關(guān)注
0文章
354瀏覽量
15445 -
OpenAI
+關(guān)注
關(guān)注
9文章
1103瀏覽量
6597 -
大模型
+關(guān)注
關(guān)注
2文章
2499瀏覽量
2909
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論