亚洲欧美综合区丁香五月小说,中文字幕亚洲国产,a免费国产一级特黄aa大

作者：一號(hào)

GPT-4最強(qiáng)的對(duì)手出現(xiàn)了。

北京時(shí)間12月7日凌晨，谷歌CEO“劈柴”突然發(fā)布重磅AI殺手锏——Gemini。就在前幾天，還有消息說(shuō)Gemini要推遲一個(gè)月才上線(xiàn)，結(jié)果現(xiàn)在這么突然地發(fā)布，著實(shí)讓AI圈料不到。以谷歌以往的實(shí)力，不用想，這又是AI界的一個(gè)“不眠之夜”。

在去年ChatGPT發(fā)布不到兩周，谷歌就拉響了「警報(bào)」來(lái)應(yīng)戰(zhàn)，好不容易搞出來(lái)的Bard，在首次亮相的時(shí)候卻出現(xiàn)了失誤，讓谷歌市值一夜蒸發(fā)了1000億美元。

而且，GPT（Generative Pre-training Transformer）還是基于Transformer開(kāi)發(fā)的，而這個(gè)Transformer模型最早還是谷歌提出來(lái)，要想谷歌心甘情愿地服輸，可不是那么容易。

果然，這一年的時(shí)間里，關(guān)于Gemini的消息就層出不窮，有的說(shuō)谷歌大腦和DeepMind部門(mén)合并，幾乎耗盡谷歌內(nèi)部算力資源，就是為了背水一戰(zhàn)，和OpenAI決戰(zhàn)。

不過(guò)前段時(shí)間，OpenAI的發(fā)布會(huì)把AI界炸了一圈，還上演了一出“宮斗劇”，甚至還傳出讓人浮想聯(lián)翩的Q*,谷歌都沒(méi)一點(diǎn)新消息，差點(diǎn)就讓人以為AI圈的王者已定。

就在一個(gè)月之前，英偉達(dá)科學(xué)家Jim Fan就曾說(shuō)過(guò)，“人們對(duì)谷歌Gemini的期望高得離譜！谷歌要想重奪當(dāng)年AlphaGo的輝煌，Gemini不僅要100%達(dá)到GPT-4的能力，還要在成本或者速度上比GPT-4更好?！?/p>

生來(lái)就是全才

還好，從Gemini公布的演示視頻來(lái)看，它沒(méi)讓人失望。

“Gemini，從第一天起就是多模態(tài)大模型——跨越文本、圖像、視頻、音頻和代碼的無(wú)縫推理。”這是谷歌官網(wǎng)上，介紹Gemini的第一句話(huà)。

與ChatGPT通過(guò)升級(jí)迭代，逐步加上視覺(jué)、音頻等多模態(tài)能力，形成“合體金剛”的路徑不同，Gemini生來(lái)就是一位全才。它從第一天起就被設(shè)計(jì)成原生多模態(tài)結(jié)構(gòu)，文本、圖像、音視頻能力從最開(kāi)始就一起訓(xùn)練，從這一點(diǎn)上來(lái)看，Gemini的學(xué)習(xí)更像人類(lèi)。這就意味著，Gemini可以無(wú)縫調(diào)動(dòng)多模態(tài)能力，抽象和理解、操作和組合不同類(lèi)型的信息。

舉個(gè)例子，如果你同時(shí)上傳一張圖片給ChatGPT和Gemini，那么ChatGPT的處理將會(huì)是這樣的，先借助GPT-4V認(rèn)出來(lái)圖里是什么，然后轉(zhuǎn)成文本交給GPT去進(jìn)行語(yǔ)義理解，然后再作回答；而Gemini則可以基于圖像直接進(jìn)行理解并回應(yīng)，不用進(jìn)行不同模型之間的調(diào)動(dòng)。因此，在實(shí)操過(guò)程中，Gemini可以減少信息的丟失，回應(yīng)也可以更加迅速和絲滑。

這從谷歌給到的演示視頻中便可以看出：

演示者一邊畫(huà)畫(huà)，Gemini就可以一邊辨認(rèn)，并且用自然、流利的語(yǔ)音和演示者對(duì)話(huà)，在演示者拿出藍(lán)色的玩具鴨實(shí)物后，它還會(huì)幽默的回應(yīng)：“看起來(lái)藍(lán)色的鴨子比我想象中更常見(jiàn)?！?/p>

很顯然，這樣的體驗(yàn)更接近漫威中的“賈維斯”——一個(gè)高級(jí)人工智能，能與人類(lèi)自如地進(jìn)行交互。

而這樣的體驗(yàn)，離不開(kāi)Gemini的原生多模態(tài)架構(gòu)。

Gemini VS GPT-4

除了擁有令人驚嘆的原生多模態(tài)能力，在性能上，Gemini也是相當(dāng)強(qiáng)悍。

按照尺寸的不同，Gemini共有“中杯”、“大杯”還有“超大杯”三種，即Ultra、Pro和Nano三個(gè)不同的版本。它們?cè)谛阅芎瓦m配任務(wù)上的側(cè)重點(diǎn)各有不同。

·Gemini Ultra —規(guī)模最大且功能最強(qiáng)大的模型，適用于高度復(fù)雜的任務(wù)，預(yù)計(jì)2024年初推出。

·Gemini Pro — 適用于各種任務(wù)的最佳模型，已經(jīng)被用在了谷歌聊天機(jī)器人Bard的升級(jí)版上。

·Gemini Nano — 可以在端端側(cè)設(shè)備上運(yùn)行的高效模型，已經(jīng)可以跑在谷歌Pixel 8 Pro手機(jī)上了。

根據(jù)谷歌給到的資料，從自然圖像、音頻和視頻理解，再到數(shù)學(xué)推理，Gemini Ultra的性能在32個(gè)常見(jiàn)的大語(yǔ)言模型（LLM）研究和開(kāi)發(fā)的學(xué)術(shù)基準(zhǔn)測(cè)試中，拿下了30個(gè)SOTA。

其中，它在通用、推理、數(shù)學(xué)和編程等大方向的成績(jī)?nèi)缦拢?/p>

更讓人驚奇的是，在MMLU（大規(guī)模多任務(wù)語(yǔ)言理解）任務(wù)上，Gemini Ultra的得分達(dá)到了90.0%，超越了人類(lèi)專(zhuān)家89.8%的成績(jī)，首次達(dá)到了超越人類(lèi)專(zhuān)家水平。

MMLU測(cè)試包括數(shù)學(xué)、物理、歷史、法律、醫(yī)學(xué)等57個(gè)學(xué)科，主要是用來(lái)考察大語(yǔ)言模型世界知識(shí)和解決問(wèn)題的能力，而在這些學(xué)科中的每一個(gè)，Gemini都達(dá)到了甚至超過(guò)了行業(yè)專(zhuān)家的水準(zhǔn)。

在圖像基準(zhǔn)測(cè)試中，Gemini Ultra在不使用OCR（對(duì)象字符識(shí)別）來(lái)提取圖像文本進(jìn)行下一步處理的情況下，表現(xiàn)優(yōu)于GPT-4V。

各種測(cè)試都表明，Gemini在多模態(tài)處理上表現(xiàn)出了強(qiáng)大的能力，并且在更復(fù)雜的推理上也有很大的潛力。

實(shí)際能力被質(zhì)疑

然而，在模型發(fā)布后不久，就有人在谷歌給到的60頁(yè)技術(shù)報(bào)告中發(fā)現(xiàn)了一些“小技巧”。

在MMLU測(cè)試中，Gemini的結(jié)果下面用灰色小字標(biāo)注著CoT@32，這表示，這個(gè)結(jié)果是使用了思維練提示技巧，嘗試了32次后選出來(lái)的最好結(jié)果，而對(duì)比GPT-4,則是無(wú)提示詞技巧，只嘗試了5次的結(jié)果，這測(cè)試結(jié)果，變量確實(shí)控制得不是很好。

而且在顯示超越人類(lèi)專(zhuān)家的示意圖里，比例尺上也有問(wèn)題，讓人以為超越了人類(lèi)專(zhuān)家很多，但實(shí)際上并沒(méi)有相差多少。

HuggingFace的技術(shù)主管Philipp Schmind“修復(fù)”了這張圖，表示實(shí)際上應(yīng)該是這樣：

并且，在谷歌給到的一篇解釋多模態(tài)交互過(guò)程的博客中，似乎表明了演示視頻里，Gemini實(shí)時(shí)互動(dòng)并不是真的，而是使用了靜態(tài)圖片，通過(guò)多段提示詞拼湊，最后再剪輯視頻，才達(dá)到了演示視頻里的效果。

不管谷歌是不是有意使用“障眼法”，Gemini的發(fā)布無(wú)疑給看似穩(wěn)定的AI界帶來(lái)了一些“動(dòng)蕩”。

并且，谷歌還宣布推出了迄今為止最強(qiáng)大、最高效、最可擴(kuò)展的TPU系統(tǒng)：Cloud TPU v5p，Gemini正式在此基礎(chǔ)上訓(xùn)練的，這意味著谷歌將有能力拜托英偉達(dá)的算力限制，也算給了AI芯片市場(chǎng)帶來(lái)了一些變化。

大模型的多模態(tài)探索

隨著ChatGPT通過(guò)升級(jí)迭代，擁有了多模態(tài)能力，以及Gemini所展現(xiàn)出來(lái)的原生多模態(tài)能力，我們可以清晰地感受到，AI大模型浪潮已經(jīng)進(jìn)入了一個(gè)全新的階段，即從大語(yǔ)言模型轉(zhuǎn)向多模態(tài)模型。后者將更符合人類(lèi)和世界交互最自然的方式：用眼睛看，用耳朵聽(tīng)，用嘴巴說(shuō)，用文字記錄與決策。

多模態(tài)領(lǐng)域的技術(shù)探索，與互聯(lián)網(wǎng)媒介形式的變化也十分吻合，即從文字媒體，再到

音視頻媒體。如今，隨著抖音以及TikTok等短視頻平臺(tái)的興起，視頻已經(jīng)成為了我們這個(gè)信息時(shí)代的主流。

根據(jù)思科的年度互聯(lián)網(wǎng)報(bào)告，視頻已經(jīng)占據(jù)了互聯(lián)網(wǎng)超過(guò)80%的流量。

很明顯，如果一個(gè)AI大模型不具備識(shí)別圖像以及音視頻的能力，那么其訓(xùn)練數(shù)據(jù)將會(huì)跟不上信息迭代的速度，其能力也將大打折扣。

現(xiàn)如今，在多模態(tài)模型道路的探索上，除了GPT，Gemini也加入了進(jìn)來(lái)，不知道未來(lái)Meta的Llama還有馬斯克的Grok等等，是否也將加入角逐？

審核編輯黃宇

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

Gemini

Gemini

+關(guān)注

關(guān)注
0

文章
53

瀏覽量
7603
AI

AI

+關(guān)注

關(guān)注
87

文章
30947

瀏覽量
269217
GPT

GPT

+關(guān)注

關(guān)注
0

文章
354

瀏覽量
15402
大模型

大模型

+關(guān)注

關(guān)注
2

文章
2465

瀏覽量
2763

評(píng)論

相關(guān)推薦

谷歌正式發(fā)布Gemini 2.0 性能提升近兩倍

在智能體時(shí)代，谷歌再次引領(lǐng)技術(shù)潮流，正式發(fā)布了其最新力作——Gemini 2.0。這款AI模型不僅在性能上實(shí)現(xiàn)了顯著提升，更是在多

發(fā)表于 12-12 14:22 ?279次閱讀

谷歌發(fā)布Gemini 2.0 AI模型

谷歌近日正式推出了新一代AI模型——Gemini 2.0。此次更新引入了名為“深度研究”的新特性，旨在為用戶(hù)提供更加全面和深入的復(fù)雜主題探索與報(bào)告撰寫(xiě)輔助。 Gemini 2.0通過(guò)高

發(fā)表于 12-12 10:13 ?230次閱讀

Llama 3 與 GPT-4 比較

隨著人工智能技術(shù)的飛速發(fā)展，我們見(jiàn)證了一代又一代的AI模型不斷突破界限，為各行各業(yè)帶來(lái)革命性的變化。在這場(chǎng)技術(shù)競(jìng)賽中，Llama 3和GPT-4作為兩個(gè)備受矚目的模型，它們代表了當(dāng)前AI領(lǐng)域的最前

發(fā)表于 10-27 14:17 ?372次閱讀

科大訊飛發(fā)布訊飛星火4.0 Turbo:七大能力超GPT-4 Turbo

超過(guò)GPT-4 Turbo，數(shù)學(xué)能力和代碼能力更是超過(guò)了Open AI最新一代GPT模型GPT-4o。此外，其效率相對(duì)提升50%。

發(fā)表于 10-24 11:39 ?460次閱讀

國(guó)內(nèi)直聯(lián)使用ChatGPT 4.0 API Key使用和多模態(tài)GPT4o API調(diào)用開(kāi)發(fā)教程！

1. 前言 ChatGPT-4o API 是 OpenAI 提供的強(qiáng)大工具，可用于自然語(yǔ)言處理和多模態(tài)任務(wù)。在國(guó)內(nèi)直聯(lián)使用這些服務(wù)需要一些配置和技巧。本文將詳細(xì)介紹GPT-4o模型以及

發(fā)表于 06-08 00:33 ?5042次閱讀

國(guó)內(nèi)直聯(lián)使用ChatGPT 4.0 API Key使用和<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b><b class='flag-5'>GPT4</b>o API調(diào)用開(kāi)發(fā)教程！

谷歌發(fā)布多模態(tài)AI新品，加劇AI巨頭競(jìng)爭(zhēng)

在全球AI競(jìng)技場(chǎng)上，谷歌與OpenAI一直穩(wěn)居領(lǐng)先地位。近日，谷歌在I/O開(kāi)發(fā)者大會(huì)上掀起了一股新的技術(shù)浪潮，發(fā)布了多款全新升級(jí)的多

發(fā)表于 05-16 09:28 ?455次閱讀

阿里云發(fā)布通義千問(wèn)2.5大模型，多項(xiàng)能力超越GPT-4

阿里云隆重推出了通義千問(wèn) 2.5 版，宣稱(chēng)其“技術(shù)進(jìn)步，全面超越GPT-4”，尤其是在中文環(huán)境中的多種任務(wù)（如文本理解、文本生成、知識(shí)問(wèn)答及生活建議、臨時(shí)聊天及對(duì)話(huà)以及安全風(fēng)險(xiǎn)評(píng)估）方面表現(xiàn)出色，超越了GPT-4。

發(fā)表于 05-09 14:17 ?965次閱讀

商湯科技發(fā)布5.0多模態(tài)大模型，綜合能力全面對(duì)標(biāo)GPT-4 Turbo

商湯科技發(fā)布5.0多模態(tài)大模型，綜合能力全面對(duì)標(biāo)GPT-4 Turbo 4月23日，商湯科技董事長(zhǎng)兼CEO徐立在2024商湯技術(shù)交流日上

發(fā)表于 04-24 16:49 ?1118次閱讀

谷歌推出多模態(tài)VLOGGER AI

谷歌最新推出的VLOGGER AI技術(shù)引起了廣泛關(guān)注，這項(xiàng)創(chuàng)新的多模態(tài)模型能夠讓靜態(tài)肖像圖“活”起來(lái)并“說(shuō)話(huà)”。用戶(hù)只需提供一張人物肖像照片和一段音頻內(nèi)容，VLOGGER

發(fā)表于 03-22 10:45 ?851次閱讀

微軟Copilot全面更新為OpenAI的GPT-4 Turbo模型

起初，Copilot作為Bing Chat AI助手推出，初期采用GPT-3.5模型，隨后升級(jí)至GPT-4取得顯著進(jìn)步，如今再次更新至性能卓越的GPT-4 Turbo模型，這無(wú)疑將使得

發(fā)表于 03-13 13:42 ?736次閱讀

新火種AI|秒殺GPT-4，狙殺GPT-5，橫空出世的Claude 3振奮人心！

的GPT-4被拉下神壇， Claude 3很可能對(duì)GPT-4實(shí)現(xiàn)全方位的碾壓。 Anthropic發(fā)布3個(gè)模型，全方位實(shí)現(xiàn)

發(fā)表于 03-06 22:22 ?678次閱讀

新<b class='flag-5'>火種</b><b class='flag-5'>AI</b>|秒殺<b class='flag-5'>GPT-4</b>，狙殺<b class='flag-5'>GPT</b>-5，橫空出世的Claude 3振奮人心！

OpenAI推出ChatGPT新功能：朗讀，支持37種語(yǔ)言，兼容GPT-4和GPT-3

據(jù)悉，“朗讀”功能支持37種語(yǔ)言，且能夠自主識(shí)別文本類(lèi)型并對(duì)應(yīng)相應(yīng)的發(fā)音。值得關(guān)注的是，該功能對(duì)GPT-4以及GPT-3.5版本的ChatGPT均適用。此舉彰顯了OpenAI致力于“多模態(tài)

發(fā)表于 03-05 15:48 ?941次閱讀

Anthropic推出Claude 3系列模型，全面超越GPT-4，樹(shù)立AI新標(biāo)桿

近日，AI領(lǐng)域的領(lǐng)軍企業(yè)Anthropic震撼發(fā)布了全新的Claude 3系列模型，該系列模型在多模態(tài)和語(yǔ)言能力等關(guān)鍵領(lǐng)域展現(xiàn)出卓越性能，成功擊敗了此前被廣泛認(rèn)為是全球最強(qiáng)

發(fā)表于 03-05 09:49 ?692次閱讀

全球最強(qiáng)大模型易主：GPT-4被超越，Claude 3系列嶄露頭角

近日，人工智能領(lǐng)域迎來(lái)了一場(chǎng)革命性的突破。Anthropic公司發(fā)布了全新的Claude 3系列模型，該系列模型在多模態(tài)和語(yǔ)言能力等關(guān)鍵指標(biāo)上展現(xiàn)出卓越性能，成功超越了此前被廣泛認(rèn)為是全球最強(qiáng)

發(fā)表于 03-05 09:42 ?661次閱讀

谷歌Gemini 1.5深夜爆炸上線(xiàn)，史詩(shī)級(jí)多模態(tài)硬剛GPT-5！最強(qiáng)MoE首破100萬(wàn)極限上下文紀(jì)錄

我們經(jīng)歷了LLM劃時(shí)代的一夜。GeminiUltra發(fā)布還沒(méi)幾天，Gemini1.5就來(lái)了。卯足勁和OpenAI微軟一較高下的谷歌，開(kāi)始進(jìn)入了高產(chǎn)模式。自家最強(qiáng)的Gemini1.0Ul

發(fā)表于 02-19 12:28 ?726次閱讀

搜索歷史

新火種AI|谷歌深夜發(fā)布復(fù)仇神器Gemini，原生多模態(tài)碾壓GPT-4？

評(píng)論

谷歌正式發(fā)布Gemini 2.0 性能提升近兩倍

谷歌發(fā)布Gemini 2.0 AI模型

Llama 3 與 GPT-4 比較

科大訊飛發(fā)布訊飛星火4.0 Turbo:七大能力超GPT-4 Turbo

國(guó)內(nèi)直聯(lián)使用ChatGPT 4.0 API Key使用和多模態(tài)GPT4o API調(diào)用開(kāi)發(fā)教程！

谷歌發(fā)布多模態(tài)AI新品，加劇AI巨頭競(jìng)爭(zhēng)

阿里云發(fā)布通義千問(wèn)2.5大模型，多項(xiàng)能力超越GPT-4

商湯科技發(fā)布5.0多模態(tài)大模型，綜合能力全面對(duì)標(biāo)GPT-4 Turbo

谷歌推出多模態(tài)VLOGGER AI

微軟Copilot全面更新為OpenAI的GPT-4 Turbo模型

新火種AI|秒殺GPT-4，狙殺GPT-5，橫空出世的Claude 3振奮人心！

OpenAI推出ChatGPT新功能：朗讀，支持37種語(yǔ)言，兼容GPT-4和GPT-3

Anthropic推出Claude 3系列模型，全面超越GPT-4，樹(shù)立AI新標(biāo)桿

全球最強(qiáng)大模型易主：GPT-4被超越，Claude 3系列嶄露頭角

谷歌Gemini 1.5深夜爆炸上線(xiàn)，史詩(shī)級(jí)多模態(tài)硬剛GPT-5！最強(qiáng)MoE首破100萬(wàn)極限上下文紀(jì)錄

搜索歷史

新火種AI|谷歌深夜發(fā)布復(fù)仇神器Gemini，原生多模態(tài)碾壓GPT-4？

評(píng)論

新火種AI|谷歌深夜發(fā)布復(fù)仇神器Gemini，原生多模態(tài)碾壓GPT-4？