0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌全新推出開放式視覺語言模型PaliGemma

谷歌開發(fā)者 ? 來源:谷歌開發(fā)者 ? 2024-10-15 17:37 ? 次閱讀

作者 / 產(chǎn)品管理總監(jiān) Tris Warkentin;高級研究員翟曉華;產(chǎn)品經(jīng)理 Ludovic Peran

在 Google,我們相信合作和開放研究能夠推動創(chuàng)新。我們非常感謝社區(qū)對 Gemma 的支持,使其自發(fā)布短短幾個月以來就獲得了數(shù)百萬的下載量。

這種熱烈的反響非常鼓舞人心,開發(fā)者們打造了一系列多樣的項目,例如用于印度語言的多語言變體 Navarasa,以及設(shè)備端側(cè)動作模型 Octopus v2。開發(fā)者們展示了 Gemma 在打造極具影響力且易于使用的 AI 解決方案方面的巨大潛力。

這種探索和創(chuàng)造精神也促使我們開發(fā)了 CodeGemma (具有強大的代碼補全和生成能力) 和 RecurrentGemma (在高效推理和研究領(lǐng)域極具潛力)。

Gemma 是先進的輕量級開放模型系列,采用了與創(chuàng)建 Gemini 模型相同的研究和技術(shù)。今天,我們非常高興地推出強大的開放式視覺語言模型 (VLM) PaliGemma,進一步擴展 Gemma 系列。同時我們將介紹 Gemma 2 的相關(guān)信息,讓您搶先了解即將推出的全新功能。此外,我們通過更新 Responsible Generative AI 工具包,為開發(fā)者提供用于評估模型安全性和過濾有害內(nèi)容的全新和增強型工具,進一步落實在負責任 AI 方面的承諾。

PaliGemma: 全新推出的

開放式視覺語言模型

PaliGemma 是一個強大的開放式 VLM,其靈感源自 PaLI-3。PaliGemma 基于開放式組件 (包括 SigLIP 視覺模型和 Gemma 語言模型) 構(gòu)建,可在廣泛的視覺語言任務(wù)中實現(xiàn)卓越的微調(diào)性能。這包括為圖片和短視頻描述生成、視覺問答、理解圖像中的文本、對象檢測和對象分割。

我們將提供支持多種分辨率且經(jīng)過預(yù)訓練和微調(diào)檢查點,以及專門針對多種任務(wù)進行微調(diào)的檢查點,供您立即探索。

為了促進開放式探索和研究,PaliGemma 可通過多種平臺和資源使用。歡迎您立即通過 Kaggle 和 Colab 筆記本等免費方式開始探索!在視覺語言研究領(lǐng)域?qū)で笸黄频膶W術(shù)研究人員還可以申請 Google Cloud 積分,更好地開展工作。

立即開始使用 PaliGemma。您可以在 GitHub、Hugging Face 模型、Kaggle、Vertex AI Model Garden 和 ai.nvidia.com (通過 TensoRT-LLM 加速) 中找到 PaliGemma,并可通過 JAX 和 Hugging Face Transformers 輕松集成該模型。Keras 集成方式即將推出,您還可以通過此 Hugging Face Space 與該模型交互。

Gemma 2 推出:

性能和效率再上新臺階

我們非常高興地宣布,新一代 Gemma 模型 Gemma 2 即將發(fā)布。Gemma 2 將提供新的模型大小,以滿足廣泛的 AI 開發(fā)者用例的需求;此外,它還將采用全新架構(gòu)來實現(xiàn)突破性的性能和效率,帶來以下優(yōu)勢:

卓越性能: Gemma 2 具有 270 億個參數(shù),其性能可與 Llama 3 70B 相媲美,但大小卻不到 Llama 3 70B 的一半。這種突破性的效率為開放模型領(lǐng)域樹立了新的標桿。

更低部署成本: Gemma 2 采用高效設(shè)計,最低所需的計算資源不到同級別模型的一半。27B 模型經(jīng)過專門優(yōu)化,可在 NVIDIA 的 GPU 上運行,也可在 Vertex AI 中的單個 TPU 主機上高效運行,讓更多的用戶能夠更方便、更經(jīng)濟高效地部署該模型。

多元化調(diào)優(yōu)工具鏈: Gemma 2 提供多元化的平臺和工具生態(tài)系統(tǒng),讓開發(fā)者可從中選用穩(wěn)健的調(diào)優(yōu)功能。從 Google Cloud 等云端解決方案到 Axolotl 等熱門社區(qū)工具,豐富多樣的選擇讓微調(diào) Gemma 2 變得更加簡單。此外,Gemma 2 與 Hugging Face、NVIDIA TensorRT-LLM 等眾多合作伙伴實現(xiàn)了無縫整合,同時還集成了 Google JAX 和 Keras,讓您可以優(yōu)化性能,并在各種硬件配置中實現(xiàn)高效部署。

擴展 Responsible Generative AI 工具包

為了迎接該模型的發(fā)布,我們將開源發(fā)布 LLM Comparator 來擴展 Responsible Generative AI 工具包,以便開發(fā)者進行更穩(wěn)健的模型評估。LLM Comparator 是一種新的交互式視覺工具,能夠進行有效的并排評估,以評估模型響應(yīng)的質(zhì)量和安全性。您可以查看 LLM Comparator 的實際應(yīng)用演示,了解 Gemma 1.1 和 Gemma 1.0 的對比情況。

我們希望 LLM Comparator 可以進一步推進該工具包的使命,助力開發(fā)者打造兼具創(chuàng)新性和安全性且負責任的 AI 應(yīng)用。

我們將不斷擴展 Gemma 開放模型系列,并一如既往地營造協(xié)作環(huán)境,讓前沿 AI 技術(shù)與負責任的開發(fā)齊頭并進。我們對您將利用這些新工具打造的應(yīng)用充滿期待,與您共赴 AI 美好未來!

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • Google
    +關(guān)注

    關(guān)注

    5

    文章

    1782

    瀏覽量

    58578
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    33779

    瀏覽量

    274575
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    558

    瀏覽量

    10629

原文標題:全新推出 PaliGemma、Gemma 2 和升級擴展 Responsible AI 工具包

文章出處:【微信號:Google_Developers,微信公眾號:谷歌開發(fā)者】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 0人收藏

    評論

    相關(guān)推薦
    熱點推薦

    ?VLM(視覺語言模型)?詳細解析

    視覺語言模型(Visual Language Model, VLM)是一種結(jié)合視覺(圖像/視頻)和語言(文本)處理能力的多模態(tài)人工智能
    的頭像 發(fā)表于 03-17 15:32 ?1995次閱讀
    ?VLM(<b class='flag-5'>視覺</b><b class='flag-5'>語言</b><b class='flag-5'>模型</b>)?詳細解析

    Ironwood開放式頂部BGA插座凸輪驅(qū)動桿

    Ironwood開放式頂部BGA插座凸輪驅(qū)動桿 Ironwood的BGA芯片壽命通??赏ㄟ^浴槽曲線來典型地展示。鑒于BGA制造工藝的固有屬性,極少數(shù)BGA在初期使用階段就可能失效,而在其正常使用期
    發(fā)表于 02-17 09:36

    一文詳解視覺語言模型

    視覺語言模型(VLM)是一種多模態(tài)、生成 AI 模型,能夠理解和處理視頻、圖像和文本。
    的頭像 發(fā)表于 02-12 11:13 ?1277次閱讀
    一文詳解<b class='flag-5'>視覺</b><b class='flag-5'>語言</b><b class='flag-5'>模型</b>

    VCE05系列封裝和開放式框架寬輸入AC-DC電源XP?POWER

    VCE05系列封裝和開放式框架寬輸入AC-DC電源XP?POWERVCE05是XP?POWER一系列開放式框架和封裝AC-DC單輸出電源,專門針對低成本ITE和工業(yè)應(yīng)用需求設(shè)計。VCE05系列
    發(fā)表于 01-24 08:41

    Traco Power推出全新TXO系列開放式框架AC/DC電源

    在工業(yè)領(lǐng)域,電源設(shè)備的穩(wěn)定性和可靠性至關(guān)重要。Traco Power全新推出的TXO系列開放式框架AC/DC電源,以高效率、強化隔離和多功能性,為成本敏感型工業(yè)應(yīng)用提供了理想的解決方案。
    的頭像 發(fā)表于 01-15 16:12 ?793次閱讀
    Traco Power<b class='flag-5'>推出</b><b class='flag-5'>全新</b>TXO系列<b class='flag-5'>開放式</b>框架AC/DC電源

    NVIDIA推出開放式Llama Nemotron系列模型

    作為 NVIDIA NIM 微服務(wù),開放式 Llama Nemotron 大語言模型和 Cosmos Nemotron 視覺語言
    的頭像 發(fā)表于 01-09 11:11 ?571次閱讀

    NVIDIA Jetson Orin Nano開發(fā)者套件的新功能

    生成 AI 領(lǐng)域正在迅速發(fā)展,每天都有新的大語言模型(LLM)、視覺語言模型(VLM)和
    的頭像 發(fā)表于 12-23 12:54 ?779次閱讀
    NVIDIA Jetson Orin Nano開發(fā)者套件的新功能

    NaVILA:加州大學與英偉達聯(lián)合發(fā)布新型視覺語言模型

    日前,加州大學的研究人員攜手英偉達,共同推出了一款創(chuàng)新的視覺語言模型——NaVILA。該模型在機器人導航領(lǐng)域展現(xiàn)出了獨特的應(yīng)用潛力,為智能機
    的頭像 發(fā)表于 12-13 10:51 ?547次閱讀

    谷歌推出效率與性能躍階的全新開放模型標準

    AI 有可能解決人類面臨的一些最緊迫的問題,但前提是每個人都擁有構(gòu)建 AI 的工具。這就是我們在今年早些時候推出 Gemma 的原因,Gemma 是一系列輕量級開放模型系列,采用了與創(chuàng)建
    的頭像 發(fā)表于 09-09 15:43 ?609次閱讀
    <b class='flag-5'>谷歌</b><b class='flag-5'>推出</b>效率與性能躍階的<b class='flag-5'>全新開放</b><b class='flag-5'>模型</b>標準

    紫光同芯推出開放式架構(gòu)安全芯片E450R

    2024紫光同芯合作伙伴大會在北京璀璨啟幕,會上紫光同芯震撼發(fā)布了其最新技術(shù)結(jié)晶——全球首顆融合開放式硬件與軟件架構(gòu)的安全芯片E450R。這款芯片以其獨特的雙開放設(shè)計,即開放式硬件架構(gòu)搭配開放
    的頭像 發(fā)表于 08-28 16:28 ?833次閱讀

    機器視覺運動控制一體機VPLC532E在汽車膠帶纏繞的開放式CNC應(yīng)用

    機器視覺運動控制一體機VPLC532E在汽車膠帶纏繞的開放式CNC應(yīng)用
    的頭像 發(fā)表于 08-19 10:03 ?579次閱讀
    機器<b class='flag-5'>視覺</b>運動控制一體機VPLC532E在汽車膠帶纏繞的<b class='flag-5'>開放式</b>CNC應(yīng)用

    開放式激光振鏡運動控制器的激光清洗應(yīng)用

    開放式激光振鏡運動控制器的激光清洗解決方案。
    的頭像 發(fā)表于 07-18 09:44 ?588次閱讀
    <b class='flag-5'>開放式</b>激光振鏡運動控制器的激光清洗應(yīng)用

    谷歌Gemma 2大語言模型升級發(fā)布,性能與安全性雙重飛躍

    近日,谷歌面向全球科研界與開發(fā)者群體隆重推出全新升級的Gemma 2大語言模型,標志著人工智能技術(shù)在
    的頭像 發(fā)表于 07-02 10:20 ?660次閱讀

    谷歌發(fā)布新型大語言模型Gemma 2

    在人工智能領(lǐng)域,大語言模型一直是研究的熱點。近日,全球科技巨頭谷歌宣布,面向全球研究人員和開發(fā)人員,正式發(fā)布了其最新研發(fā)的大語言模型——Ge
    的頭像 發(fā)表于 06-29 09:48 ?643次閱讀

    NVIDIA與Google DeepMind合作推動大語言模型創(chuàng)新

    支持 NVIDIA NIM 推理微服務(wù)的谷歌最新開源模型 PaliGemma 首次亮相。
    的頭像 發(fā)表于 05-16 09:44 ?667次閱讀

    電子發(fā)燒友

    中國電子工程師最喜歡的網(wǎng)站

    • 2931785位工程師會員交流學習
    • 獲取您個性化的科技前沿技術(shù)信息
    • 參加活動獲取豐厚的禮品