前言:
每一次技術(shù)的變革都是推進(jìn)科學(xué)發(fā)現(xiàn)、加快人類進(jìn)步和改善人們生活的機(jī)會(huì)。我相信我們此時(shí)正在見(jiàn)證的 AI 轉(zhuǎn)變將是我們一生中影響最為深遠(yuǎn)的轉(zhuǎn)變,其影響力遠(yuǎn)超過(guò)移動(dòng)技術(shù)或互聯(lián)網(wǎng)的轉(zhuǎn)變。AI 有著為世界各地的人們創(chuàng)造機(jī)會(huì)的潛力,無(wú)論是在日常生活中還是在鑄就非凡成就方面。它將帶來(lái)新一輪的創(chuàng)新和經(jīng)濟(jì)進(jìn)步,并以前所未有的規(guī)模推動(dòng)知識(shí)、學(xué)習(xí)、創(chuàng)造力和生產(chǎn)力的發(fā)展。
讓我感到興奮的是:有機(jī)會(huì)讓 AI 助力全世界的每個(gè)人。
作為一家“AI 為先”的公司,我們已經(jīng)走過(guò)了近八年的旅程,并且一直在不斷加速進(jìn)步:現(xiàn)在,數(shù)百萬(wàn)用戶通過(guò)我們的產(chǎn)品使用生成式 AI,去完成一年前不可能做到的事情,例如獲得更復(fù)雜問(wèn)題的答案,或使用新的工具進(jìn)行協(xié)作和創(chuàng)造。與此同時(shí),開(kāi)發(fā)者正在使用我們的模型和基礎(chǔ)架構(gòu)來(lái)構(gòu)建新的生成式 AI 應(yīng)用,世界各地的初創(chuàng)公司和企業(yè)也在借助我們的 AI 工具不斷發(fā)展壯大。
這是令人難以置信的發(fā)展勢(shì)頭,然而,我們才剛剛開(kāi)始觸及這些可能性的表面。
我們正以大膽而負(fù)責(zé)任的方式開(kāi)展這項(xiàng)工作。這意味著我們?cè)谘芯恐斜3中坌牟?,追求為人類和社?huì)帶來(lái)巨大福利的能力,同時(shí)建立安全保障措施,并與政府和專家合作,應(yīng)對(duì)隨著 AI 能力不斷增強(qiáng)而帶來(lái)的風(fēng)險(xiǎn)。我們還持續(xù)投資于最優(yōu)秀的工具、基礎(chǔ)模型和基礎(chǔ)設(shè)施,在遵循我們 AI 原則的基礎(chǔ)上,將它們引入我們的產(chǎn)品和其他領(lǐng)域。
現(xiàn)在,我們正與 Gemini 一起邁入下一段旅程。Gemini 是我們迄今為止最強(qiáng)大、最通用的模型,它在許多領(lǐng)先的基準(zhǔn)測(cè)試中都展現(xiàn)出了最先進(jìn)的性能。我們的第一個(gè)版本 Gemini 1.0 針對(duì)不同尺寸進(jìn)行了優(yōu)化,分別是:Ultra、Pro 和 Nano。這些是進(jìn)入 Gemini 時(shí)代的第一個(gè)模型,也是我們今年早些時(shí)候成立 Google DeepMind 時(shí)的愿景的首次實(shí)現(xiàn)。這一新時(shí)代的模型代表了我們作為一家公司在科學(xué)和工程方面所做的最大努力之一。我對(duì)未來(lái)以及 Gemini 將為全世界的人們帶來(lái)的機(jī)遇感到由衷的興奮。
—— Sundar
Google 和 Alphabet CEO
介紹 Gemini
作者:Demis Hassabis
Google DeepMind CEO 和聯(lián)合創(chuàng)始人,
代表 Gemini 團(tuán)隊(duì)
與許多從事研究的同事一樣,我一直把 AI 當(dāng)作畢生工作的重點(diǎn)。從少年時(shí)為電腦游戲編寫 AI 程序,到多年來(lái)作為神經(jīng)科學(xué)研究員試圖了解大腦的工作原理以來(lái),我始終堅(jiān)信,如果能制造出更智能的機(jī)器,我們就能利用這些機(jī)器以不可思議的方式造福人類。
以負(fù)責(zé)任的方式用 AI 賦能世界,這一承諾將繼續(xù)推動(dòng)我們?cè)?Google DeepMind 的工作。長(zhǎng)期以來(lái),我們一直希望從人們理解世界和與世界互動(dòng)的方式中汲取靈感,建立新一代 AI 模型。AI 給人的感覺(jué)將不再僅僅是一款智能軟件,它將更加有用且直觀,就像是一個(gè)專業(yè)的幫手或助理。
今天,當(dāng)我們推出 Gemini 時(shí),我們離這一愿景又近了一步,這是我們迄今為止構(gòu)建的最強(qiáng)大、最通用的模型。
Gemini 是包括 Google Research 在內(nèi)的 Google 各團(tuán)隊(duì)間進(jìn)行廣泛合作的成果。它從一開(kāi)始就被創(chuàng)建為多模態(tài)的模型,這意味著它可以歸納并流暢地理解、操作以及組合不同類型的信息,包括文本、代碼、音頻、圖像和視頻。
Gemini 也是我們迄今為止最靈活的模型,從數(shù)據(jù)中心到移動(dòng)設(shè)備,它能夠在所有設(shè)備上高效運(yùn)行。其先進(jìn)的功能將顯著改善開(kāi)發(fā)者和企業(yè)客戶通過(guò) AI 構(gòu)建和擴(kuò)展的方式。
我們針對(duì)三種不同的尺寸對(duì)第一代 Gemini 1.0 進(jìn)行了優(yōu)化:
Gemini Ultra—我們規(guī)模最大且功能最強(qiáng)大的模型,適用于高度復(fù)雜的任務(wù)。
Gemini Pro — 我們適用于各種任務(wù)的最佳模型。
Gemini Nano — 我們端側(cè)設(shè)備上最高效的模型。
先進(jìn)的性能
我們一直在對(duì) Gemini 模型進(jìn)行嚴(yán)格的測(cè)試并評(píng)估其在各種任務(wù)中的性能。從自然圖像、音頻和視頻理解到數(shù)學(xué)推理,在被大型語(yǔ)言模型(LLM)研究和開(kāi)發(fā)中廣泛使用的 32 項(xiàng)學(xué)術(shù)基準(zhǔn)中,Gemini Ultra 的性能有 30 項(xiàng)都超過(guò)了目前最先進(jìn)的水平。
Gemini Ultra 的得分率為 90.0%,是第一個(gè)在 MMLU(大規(guī)模多任務(wù)語(yǔ)言理解)測(cè)試中超過(guò)人類專家的模型,MMLU 綜合使用了數(shù)學(xué)、物理、歷史、法律、醫(yī)學(xué)和倫理等 57 個(gè)科目,用于測(cè)試世界知識(shí)和解決問(wèn)題的能力。
針對(duì) MMLU,我們新的基準(zhǔn)測(cè)試方法讓 Gemini 能夠利用其推理能力在回答困難問(wèn)題之前更加仔細(xì)地思考,從而比僅憑第一印象就直接回答問(wèn)題有顯著的改善。
在包括文本和編碼在內(nèi)的一系列基準(zhǔn)測(cè)試中,
Gemini 的性能都超過(guò)了當(dāng)前最先進(jìn)的水平。
在新的 MMMU 基準(zhǔn)測(cè)試中,Gemini Ultra 也取得了得分率為 59.4% 的優(yōu)異成績(jī),該基準(zhǔn)測(cè)試由橫跨不同領(lǐng)域、需要仔細(xì)推理的多模態(tài)任務(wù)組成。
在我們的圖像基準(zhǔn)測(cè)試中,Gemini Ultra 在不使用對(duì)象字符識(shí)別 (OCR) 系統(tǒng)來(lái)提取圖像中的文本進(jìn)行下一步處理的情況下,表現(xiàn)優(yōu)于以前最好的模型。這些基準(zhǔn)測(cè)試凸顯了 Gemini 的原生多模態(tài)性,并顯示出了 Gemini 具有更復(fù)雜推理能力的潛力。
在一系列多模態(tài)基準(zhǔn)測(cè)試中,
Gemini 的性能超越了當(dāng)前最先進(jìn)的水平。
下一代的能力
到目前為止,創(chuàng)建多模態(tài)模型的標(biāo)準(zhǔn)方法是分別訓(xùn)練不同模態(tài)的組件,然后將它們拼接在一起,以粗略模擬某些功能。這些模型有時(shí)可以很好地完成描述圖像等特定任務(wù),但在概念性更強(qiáng)、更復(fù)雜的推理方面卻顯得力不從心。
我們將 Gemini 設(shè)計(jì)為原生多模態(tài),從一開(kāi)始就在不同模態(tài)上進(jìn)行預(yù)訓(xùn)練。然后,我們利用額外的多模態(tài)數(shù)據(jù)對(duì)其進(jìn)行微調(diào),以進(jìn)一步提高其有效性。這有助于 Gemini 從最初階段就能對(duì)輸入的各種內(nèi)容順暢地進(jìn)行理解和推理,遠(yuǎn)遠(yuǎn)優(yōu)于現(xiàn)有的多模態(tài)模型,其能力幾乎各個(gè)領(lǐng)域都是最先進(jìn)的。
復(fù)雜的推理
Gemini 1.0 具有復(fù)雜的多模態(tài)推理能力,可幫助理解復(fù)雜的書(shū)面和視覺(jué)信息。這使得它具有獨(dú)特的技能,可以在海量的數(shù)據(jù)中發(fā)掘難以辨別的知識(shí)內(nèi)容。
它擁有通過(guò)閱讀、過(guò)濾以及理解信息,從數(shù)十萬(wàn)份文件中提取見(jiàn)解的卓越能力,將有助于在從科學(xué)到金融等多個(gè)領(lǐng)域以數(shù)字化速度實(shí)現(xiàn)新的突破。
理解文本、圖像、音頻及更多
Gemini 1.0 經(jīng)過(guò)訓(xùn)練,可以同時(shí)識(shí)別并理解文本、圖像、音頻等,因此它能更好地理解具有細(xì)微差別的信息,回答與復(fù)雜主題相關(guān)的問(wèn)題。這就讓它尤其擅長(zhǎng)解釋數(shù)學(xué)和物理等復(fù)雜科目中的推理。
高級(jí)編碼能力
我們的第一代 Gemini 可以理解、解釋和生成世界上最流行的編程語(yǔ)言(如 Python、Java、C++ 和 Go)的高質(zhì)量代碼。它能夠跨語(yǔ)言工作并對(duì)復(fù)雜信息進(jìn)行推理,這些能力使其成為世界領(lǐng)先的編碼基礎(chǔ)模型之一。
Gemini Ultra 在多個(gè)編碼基準(zhǔn)測(cè)試中表現(xiàn)出色,包括 HumanEval(用于評(píng)估編碼任務(wù)性能的重要行業(yè)標(biāo)準(zhǔn))和 Natural2Code(我們內(nèi)部的留出數(shù)據(jù)集),該數(shù)據(jù)集使用作者生成的信息作為來(lái)源,而不是基于網(wǎng)絡(luò)的信息。
Gemini 還可用作更高級(jí)編碼系統(tǒng)的引擎。兩年前,我們展示了 AlphaCode,它是第一個(gè)在編程競(jìng)賽中性能達(dá)到競(jìng)賽水平的 AI 代碼生成系統(tǒng)。
我們利用一個(gè)專門版本的 Gemini,創(chuàng)建了更先進(jìn)的代碼生成系統(tǒng) AlphaCode 2,該系統(tǒng)擅長(zhǎng)解決那些不僅需要編碼能力而且也需要復(fù)雜數(shù)學(xué)和理論計(jì)算機(jī)科學(xué)知識(shí)的競(jìng)賽性編程問(wèn)題。
在與最初的 AlphaCode 在同一個(gè)平臺(tái)上進(jìn)行評(píng)估時(shí),AlphaCode 2 表現(xiàn)出了巨大的改進(jìn)。它解決的問(wèn)題數(shù)量幾乎是 AlphaCode 的兩倍,我們預(yù)計(jì)它的性能超過(guò) 85% 的參賽者,比 AlphaCode 高出將近 50%。當(dāng)程序員與 AlphaCode 2 合作,為示例代碼定義某些屬性時(shí),它的表現(xiàn)甚至更好。
我們很高興程序員能越來(lái)越多地使用功能強(qiáng)大的 AI 模型作為協(xié)作工具,幫助他們推理問(wèn)題、提出代碼設(shè)計(jì)方案并協(xié)助實(shí)施,這樣他們就能更快地發(fā)布應(yīng)用程序并設(shè)計(jì)出更好的服務(wù)。
更加可靠、可擴(kuò)展和高效
我們使用由 Google 設(shè)計(jì)的 TPUs v4 和 v5e 在通過(guò) AI 優(yōu)化過(guò)的基礎(chǔ)設(shè)施上對(duì) Gemini 1.0 進(jìn)行了大規(guī)模訓(xùn)練。我們將其設(shè)計(jì)為最可靠、可擴(kuò)展性最強(qiáng)且推理最高效的模型來(lái)進(jìn)行訓(xùn)練。
在 TPUs 上,Gemini 的運(yùn)行速度明顯快于早期規(guī)模更小、性能更弱的模型。這些定制設(shè)計(jì)的 AI 加速器一直是 Google 服務(wù)數(shù)十億用戶的 AI 賦能產(chǎn)品的核心,如 Search、YouTube、Gmail、Google Maps、Google Play 和 Android。它們還使得世界各地的公司能夠經(jīng)濟(jì)高效地訓(xùn)練大規(guī)模的 AI 模型。
今天,我們還發(fā)布了迄今為止功能最強(qiáng)大、效率最高且可擴(kuò)展性最強(qiáng)的 TPU 系統(tǒng) Cloud TPU v5p,旨在為訓(xùn)練前沿 AI 模型提供支持。新一代 TPU 將加速 Gemini 的開(kāi)發(fā),幫助開(kāi)發(fā)者和企業(yè)客戶更快地訓(xùn)練大規(guī)模生成式 AI 模型,從而更快推出新產(chǎn)品和新功能。
Google 數(shù)據(jù)中心內(nèi)一排 Cloud TPU v5p AI 加速器超級(jí)計(jì)算機(jī)。
以責(zé)任和安全為核心
在 Google,我們致力于在所有工作中以大膽而負(fù)責(zé)任的方式推進(jìn) AI。在 Google AI 原則和我們所有產(chǎn)品的強(qiáng)大的安全政策的基礎(chǔ)上,我們正在增加新的保護(hù)措施,以滿足 Gemini 的多模態(tài)能力。在開(kāi)發(fā)的每一個(gè)階段,我們都會(huì)考慮潛在的風(fēng)險(xiǎn),并努力進(jìn)行測(cè)試和降低這些風(fēng)險(xiǎn)。
Gemini 擁有迄今為止 Google 所有 AI 模型中最全面的安全評(píng)估,包括偏見(jiàn)和毒性評(píng)估。我們對(duì)網(wǎng)絡(luò)攻擊、說(shuō)服力和自主性等潛在風(fēng)險(xiǎn)領(lǐng)域進(jìn)行了創(chuàng)新性的研究,并應(yīng)用了 Google Research 一流的對(duì)抗性測(cè)試技術(shù),幫助我們?cè)诓渴?Gemini 之前檢測(cè)關(guān)鍵的安全問(wèn)題。
為了找出我們內(nèi)部評(píng)估方法中存在的盲點(diǎn),我們正與多個(gè)外部專家和合作伙伴合作,通過(guò)涵蓋多個(gè)問(wèn)題的壓力測(cè)試來(lái)對(duì)我們的模型進(jìn)行測(cè)試。
為了在 Gemini 的訓(xùn)練階段診斷內(nèi)容安全問(wèn)題,并確保其輸出符合我們的政策,我們使用了一些基準(zhǔn)測(cè)試,例如真實(shí)毒性提示(Real Toxicity Prompts),這是一套由 Allen Institute of AI 的專家開(kāi)發(fā)的基準(zhǔn)測(cè)試,包含了從網(wǎng)絡(luò)上提取的 10 萬(wàn)條具有不同程度毒性的提示。我們將在未來(lái)介紹關(guān)于該項(xiàng)工作的更多細(xì)節(jié)。
為了減少傷害,我們構(gòu)建了專門的安全分類器來(lái)識(shí)別、標(biāo)記和篩選涉及暴力或負(fù)面刻板印象等方面的內(nèi)容。結(jié)合強(qiáng)大的過(guò)濾器,這種分層方法旨在讓 Gemini 對(duì)每個(gè)人都更加安全和包容。此外,我們正繼續(xù)解決模型面臨的已知挑戰(zhàn),例如事實(shí)性、基礎(chǔ)、歸因性以及協(xié)作性。
責(zé)任和安全始終是我們開(kāi)發(fā)和部署模型的核心。這是一個(gè)需要多方協(xié)作的長(zhǎng)期承諾,因此我們正在通過(guò) MLCommons、Frontier Model Forum 及其 AI Safety Fund ,以及我們的安全人工智能框架(SAIF)(該框架旨在幫助減少公共和私營(yíng)部門的AI系統(tǒng)的安全風(fēng)險(xiǎn))等組織與業(yè)界和更廣泛的生態(tài)系統(tǒng)合作,設(shè)定最佳實(shí)踐以及設(shè)定安全標(biāo)準(zhǔn)。在開(kāi)發(fā) Gemini 的過(guò)程中,我們將繼續(xù)與世界各地的研究人員、政府和社會(huì)團(tuán)體合作。
讓 Gemini 普及全球
Gemini 1.0 現(xiàn)已在多種產(chǎn)品和平臺(tái)上推出:
Google 產(chǎn)品中的 Gemini Pro
我們通過(guò) Google 的產(chǎn)品將 Gemini 帶給數(shù)十億人。
從今天開(kāi)始,Bard 將使用 Gemini Pro 的微調(diào)版本來(lái)進(jìn)行更高級(jí)的推理、規(guī)劃和理解等。這是 Bard 自推出以來(lái)最大的升級(jí)。
它將在 170 多個(gè)國(guó)家和地區(qū)提供英語(yǔ)服務(wù),并且我們計(jì)劃在未來(lái)幾個(gè)月內(nèi)擴(kuò)展不同的模態(tài),并支持新的語(yǔ)言和地區(qū)。
我們還在 Pixel 上使用 Gemini。Pixel 8 Pro 是首款搭載 Gemini Nano 的智能手機(jī),它可以支持錄音應(yīng)用中的“總結(jié)”等新功能,并在 Gboard 中推出“智能回復(fù)”功能,從 WhatsApp 開(kāi)始,明年還將推出更多信息應(yīng)用。
未來(lái)幾個(gè)月,Gemini 將應(yīng)用于我們更多的產(chǎn)品和服務(wù),如 Search、Ads、Chrome 和 Duet AI。
我們已經(jīng)開(kāi)始在 Search 中試驗(yàn) Gemini,它能夠?yàn)橛脩籼峁└斓乃阉魃审w驗(yàn)(SGE),用戶在美國(guó)的英語(yǔ)搜索延遲降低了 40%,同時(shí)在質(zhì)量方面也有所提高。
用 Gemini 打造您的產(chǎn)品
從 12 月 13 日開(kāi)始,開(kāi)發(fā)者和企業(yè)客戶可以通過(guò) Google AI Studio 或 Google Cloud Vertex AI 中的 Gemini API 獲取 Gemini Pro。
Google AI Studio 是一款基于網(wǎng)絡(luò)的免費(fèi)開(kāi)發(fā)者工具,可使用 API 密鑰快速創(chuàng)建原型并啟動(dòng)應(yīng)用程序。當(dāng)需要一個(gè)完全托管的 AI 平臺(tái)時(shí),Vertex AI 允許對(duì) Gemini 進(jìn)行定制,提供全面的數(shù)據(jù)控制,并受益于 Google Cloud 功能,實(shí)現(xiàn)企業(yè)安全性、保密性、隱私性以及數(shù)據(jù)治理和合規(guī)性。
Android 開(kāi)發(fā)者還可以通過(guò) AICore 使用我們端側(cè)任務(wù)最高效的模型 Gemini Nano。AICore 是 Android 14 中的一項(xiàng)新的系統(tǒng)功能,從 Pixel 8 Pro 設(shè)備開(kāi)始支持。注冊(cè)獲得 AICore 預(yù)覽。
敬請(qǐng)期待 Gemini Ultra
就 Gemini Ultra 而言,我們目前正在完成大規(guī)模的信任和安全檢查,包括由可信賴的外部團(tuán)隊(duì)進(jìn)行紅隊(duì)測(cè)試,并在其被廣泛使用前通過(guò)微調(diào)和人類反饋強(qiáng)化學(xué)習(xí)(RLHF)進(jìn)一步完善模型。
在模型的完善過(guò)程中,我們將向部分客戶、開(kāi)發(fā)者、合作伙伴以及安全和責(zé)任專家提供 Gemini Ultra,以供其進(jìn)行早期試驗(yàn)和提供反饋。隨后,在明年初我們將向開(kāi)發(fā)者和企業(yè)客戶提供該模型。
明年年初,我們還將推出 Bard Advanced,這是一種全新的、前沿的 AI 體驗(yàn),讓您可以從 Gemini Ultra 開(kāi)始使用我們最佳的模型和功能。
Gemini 時(shí)代:推動(dòng)創(chuàng)新未來(lái)
這是 AI 發(fā)展過(guò)程中的一座重要里程碑,也標(biāo)志著 Google 邁進(jìn)新紀(jì)元的開(kāi)始,我們將繼續(xù)快速創(chuàng)新,并以負(fù)責(zé)任的方式不斷提升我們模型的能力。
迄今為止,我們已經(jīng)在 Gemini 上取得了巨大進(jìn)展。我們正在努力進(jìn)一步擴(kuò)展其未來(lái)版本的各種功能,包括在規(guī)劃和記憶方面取得進(jìn)展,以及通過(guò)增加上下文窗口來(lái)處理更多信息并提供更好的響應(yīng)。
我們對(duì)負(fù)責(zé)任的 AI 為世界帶來(lái)的無(wú)限可能感到興奮,我們的創(chuàng)新未來(lái)將提高創(chuàng)造力、擴(kuò)展知識(shí)、推動(dòng)科學(xué)發(fā)展,并將改變?nèi)驍?shù)十億人的生活和工作方式。
-
谷歌
+關(guān)注
關(guān)注
27文章
6171瀏覽量
105487 -
AI
+關(guān)注
關(guān)注
87文章
30998瀏覽量
269304
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論