借助 TensorRT-LLM,Google 全新開(kāi)放語(yǔ)言模型可在 NVIDIA AI 平臺(tái)(包括本地 RTX AI PC)上加速運(yùn)行。
2024 年 2 月 21 日,NVIDIA 攜手 Google 在所有 NVIDIA AI 平臺(tái)上發(fā)布面向 Gemma 的優(yōu)化功能,Gemma 是 Google 最先進(jìn)的新型輕量級(jí) 2B 和 7B 開(kāi)放語(yǔ)言模型,可在任何地方運(yùn)行,從而降低成本并加快特定領(lǐng)域用戶案例的創(chuàng)新工作。
NVIDIA 和 Google 的團(tuán)隊(duì)緊密合作,利用 NVIDIA TensorRT-LLM(用于優(yōu)化大語(yǔ)言模型推理性能的開(kāi)源庫(kù)),在數(shù)據(jù)中心的 NVIDIA GPU、云計(jì)算和搭載 NVIDIA RTX GPU 的 PC 上運(yùn)行時(shí),加速 Gemma 性能(Gemma 由創(chuàng)建 Gemini 模型的相同研究和技術(shù)構(gòu)建)。
這使開(kāi)發(fā)者能將全球高性能 AI PC 中超過(guò) 1 億臺(tái)搭載 NVIDIA RTX GPU 的用戶作為潛在用戶進(jìn)行開(kāi)發(fā)。
開(kāi)發(fā)者還可在搭載 NVIDIA GPU 的云端運(yùn)行 Gemma,該實(shí)例擁有 141GB HBM3e 顯存,速度為 4.8TB/秒,Google 將于今年部署該實(shí)例。
此外,企業(yè)級(jí)開(kāi)發(fā)者還可利用 NVIDIA 豐富的工具生態(tài)系統(tǒng)(包括依托 NeMo 框架的 NVIDIA AI Enterprise 和 TensorRT-LLM),對(duì) Gemma 進(jìn)行微調(diào),并將優(yōu)化后的模型部署到生產(chǎn)應(yīng)用中。
審核編輯:劉清
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5055瀏覽量
103372 -
云計(jì)算
+關(guān)注
關(guān)注
39文章
7846瀏覽量
137617 -
gpu
+關(guān)注
關(guān)注
28文章
4761瀏覽量
129138
原文標(biāo)題:共耀光芒:Google Gemma 優(yōu)化后可在 NVIDIA GPU 上運(yùn)行
文章出處:【微信號(hào):NVIDIA_China,微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論