0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

OpenVINO?助力谷歌大語言模型Gemma實現(xiàn)高速智能推理

英特爾物聯(lián)網(wǎng) ? 來源:OpenVINO 中文社區(qū) ? 2024-03-17 17:17 ? 次閱讀

大型語言模型(LLM)正在迅速發(fā)展,變得更加強大和高效,使人們能夠在廣泛的應(yīng)用程序中越來越復(fù)雜地理解和生成類人文本。谷歌的Gemma是一個輕量級、先進的開源模型新家族,站在LLM創(chuàng)新的前沿。然而,對更高推理速度和更智能推理能力的追求并不僅僅局限于復(fù)雜模型的開發(fā),它擴展到模型優(yōu)化和部署技術(shù)領(lǐng)域。

OpenVINO 工具套件因此成為一股引人注目的力量,在這些領(lǐng)域發(fā)揮著越來越重要的作用。這篇博客文章深入探討了優(yōu)化谷歌的Gemma模型,并在不足千元的AI開發(fā)板上進行模型部署、使用OpenVINO 加速推理,將其轉(zhuǎn)化為能夠更快、更智能推理的AI引擎。

此文使用了研揚科技針對邊緣AI行業(yè)開發(fā)者推出的哪吒(Nezha)開發(fā)套件,以信用卡大小(85x56mm)的開發(fā)板-哪吒(Nezha)為核心,哪吒采用Intel N97處理器(Alder Lake-N),最大睿頻3.6GHz,Intel UHD Graphics內(nèi)核GPU,可實現(xiàn)高分辨率顯示;板載LPDDR5內(nèi)存、eMMC存儲及TPM 2.0,配備GPIO接口,支持Windows和Linux操作系統(tǒng),這些功能和無風扇散熱方式相結(jié)合,為各種應(yīng)用程序構(gòu)建高效的解決方案,適用于如自動化、物聯(lián)網(wǎng)網(wǎng)關(guān)、數(shù)字標牌和機器人等應(yīng)用。

什么是Gemma?

Gemma是谷歌的一個輕量級、先進的開源模型家族,采用了與創(chuàng)建Gemini模型相同的研究和技術(shù)。它們以拉丁語單詞 “Gemma” 命名,意思是“寶石”,是文本到文本的、僅解碼器架構(gòu)的LLM,有英文版本,具有開放權(quán)重、預(yù)訓(xùn)練變體和指令調(diào)整變體。Gemma模型非常適合各種文本生成任務(wù),包括問答、摘要和推理。

Gemma模型系列,包括Gemma-2B和Gemma-7B模型,代表了深度學習模型可擴展性和性能的分層方法。在本次博客中,我們將展示OpenVINO 如何優(yōu)化和加速Gemma-2B-it模型的推理,即Gemma-2B參數(shù)模型的指令微調(diào)后的版本。

利用OpenVINO 優(yōu)化和加速推理

優(yōu)化、推理加速和部署的過程包括以下具體步驟,使用的是我們常用的OpenVINO Notebooks GitHub倉庫 中的254-llm-chatbot代碼示例。

由安裝必要的依賴包開始

運行OpenVINO Notebooks倉庫的具體安裝指南在這里。運行這個254-llm-chatbot的代碼示例,需要安裝以下必要的依賴包。

6e202c3e-e2c5-11ee-a297-92fbcf53809c.png

選擇推理的模型

由于我們在Jupyter Notebook演示中提供了一組由OpenVINO 支持的LLM,您可以從下拉框中選擇 “Gemma-2B-it” 來運行該模型的其余優(yōu)化和推理加速步驟。當然,很容易切換到 “Gemma-7B-it” 和其他列出的型號。

6e300758-e2c5-11ee-a297-92fbcf53809c.png

使用Optimum Intel實例化模型

Optimum Intel是Hugging Face Transformers和Diffuser庫與OpenVINO 之間的接口,用于加速Intel體系結(jié)構(gòu)上的端到端流水線。接下來,我們將使用Optimum Intel從Hugging Face Hub加載優(yōu)化模型,并創(chuàng)建流水線,使用Hugging Face API以及OpenVINO Runtime運行推理。在這種情況下,這意味著我們只需要將AutoModelForXxx類替換為相應(yīng)的OVModelForXxx類。

6e503d2a-e2c5-11ee-a297-92fbcf53809c.png

權(quán)重壓縮

盡管像Gemma-2B這樣的LLM在理解和生成類人文本方面變得越來越強大和復(fù)雜,但管理和部署這些模型在計算資源、內(nèi)存占用、推理速度等方面帶來了關(guān)鍵挑戰(zhàn),尤其是對于這種不足千元級的AI開發(fā)板等客戶端設(shè)備。權(quán)重壓縮算法旨在壓縮模型的權(quán)重,可用于優(yōu)化模型體積和性能。

我們的Jupyter筆記本電腦使用Optimum Intel和NNCF提供INT8和INT4壓縮功能。與INT8壓縮相比,INT4壓縮進一步提高了性能,但預(yù)測質(zhì)量略有下降。因此,我們將在此處選擇INT4壓縮。

6e6c02f8-e2c5-11ee-a297-92fbcf53809c.png

我們還可以比較模型權(quán)重壓縮前后的模型體積變化情況。

6e7f55b0-e2c5-11ee-a297-92fbcf53809c.png

選擇推理設(shè)備和模型變體

由于OpenVINO 能夠在一系列硬件設(shè)備上輕松部署,因此還提供了一個下拉框供您選擇將在其上運行推理的設(shè)備??紤]到內(nèi)存使用情況,我們將選擇CPU作為推理設(shè)備。

6e9496a0-e2c5-11ee-a297-92fbcf53809c.png

運行聊天機器人

現(xiàn)在萬事具備,在這個Notebook代碼示例中我們還提供了一個基于Gradio的用戶友好的界面?,F(xiàn)在就讓我們把聊天機器人運行起來吧。

小結(jié)

整個的步驟就是這樣!現(xiàn)在就開始跟著我們提供的代碼和步驟,動手試試用OpenVINO 在哪吒開發(fā)板上運行基于大語言模型的聊天機器人吧。




審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 處理器
    +關(guān)注

    關(guān)注

    68

    文章

    19286

    瀏覽量

    229842
  • 機器人
    +關(guān)注

    關(guān)注

    211

    文章

    28418

    瀏覽量

    207096
  • 物聯(lián)網(wǎng)
    +關(guān)注

    關(guān)注

    2909

    文章

    44635

    瀏覽量

    373365
  • GPIO
    +關(guān)注

    關(guān)注

    16

    文章

    1204

    瀏覽量

    52098
  • OpenVINO
    +關(guān)注

    關(guān)注

    0

    文章

    93

    瀏覽量

    202

原文標題:千元開發(fā)板,百萬可能:OpenVINO? 助力谷歌大語言模型Gemma實現(xiàn)高速智能推理 | 開發(fā)者實戰(zhàn)

文章出處:【微信號:英特爾物聯(lián)網(wǎng),微信公眾號:英特爾物聯(lián)網(wǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    使用vLLM+OpenVINO加速大語言模型推理

    隨著大語言模型的廣泛應(yīng)用,模型的計算需求大幅提升,帶來推理時延高、資源消耗大等挑戰(zhàn)。
    的頭像 發(fā)表于 11-15 14:20 ?400次閱讀
    使用vLLM+<b class='flag-5'>OpenVINO</b>加速大<b class='flag-5'>語言</b><b class='flag-5'>模型</b><b class='flag-5'>推理</b>

    使用OpenVINO C++在哪吒開發(fā)板上推理Transformer模型

    OpenVINO 是一個開源工具套件,用于對深度學習模型進行優(yōu)化并在云端、邊緣進行部署。它能在諸如生成式人工智能、視頻、音頻以及語言等各類應(yīng)用場景中加快深度學習
    的頭像 發(fā)表于 10-12 09:55 ?340次閱讀
    使用<b class='flag-5'>OpenVINO</b> C++在哪吒開發(fā)板上<b class='flag-5'>推理</b>Transformer<b class='flag-5'>模型</b>

    如何加速大語言模型推理

    隨著人工智能技術(shù)的飛速發(fā)展,大語言模型(LLM)已成為自然語言處理領(lǐng)域的核心工具,廣泛應(yīng)用于智能客服、文本生成、機器翻譯等多個場景。然而,大
    的頭像 發(fā)表于 07-04 17:32 ?534次閱讀

    谷歌Gemma 2大語言模型升級發(fā)布,性能與安全性雙重飛躍

    近日,谷歌面向全球科研界與開發(fā)者群體隆重推出了全新升級的Gemma 2大語言模型,標志著人工智能技術(shù)在
    的頭像 發(fā)表于 07-02 10:20 ?499次閱讀

    谷歌發(fā)布新型大語言模型Gemma 2

    在人工智能領(lǐng)域,大語言模型一直是研究的熱點。近日,全球科技巨頭谷歌宣布,面向全球研究人員和開發(fā)人員,正式發(fā)布了其最新研發(fā)的大語言
    的頭像 發(fā)表于 06-29 09:48 ?440次閱讀

    【大語言模型:原理與工程實踐】揭開大語言模型的面紗

    豐富的常識知識,能夠基于常識進行推理,填補信息空白,并作出合理推斷。隨著訓(xùn)練規(guī)模和參數(shù)量的增加,大語言模型推理能力將持續(xù)提升,為解決實際問題和推動人工
    發(fā)表于 05-04 23:55

    簡單兩步使用OpenVINO?搞定Qwen2的量化與部署任務(wù)

    英特爾 OpenVINO? 工具套件是一款開源 AI 推理優(yōu)化部署的工具套件,可幫助開發(fā)人員和企業(yè)加速生成式人工智能 (AIGC)、大語言模型
    的頭像 發(fā)表于 04-26 09:39 ?1677次閱讀
    簡單兩步使用<b class='flag-5'>OpenVINO</b>?搞定Qwen2的量化與部署任務(wù)

    谷歌發(fā)布用于輔助編程的代碼大模型CodeGemma

    谷歌發(fā)布了用于輔助編程的代碼大模型 CodeGemma。CodeGemma 基于谷歌今年 2 月發(fā)布的輕量級開源大模型 Gemma,針對
    的頭像 發(fā)表于 04-17 16:07 ?689次閱讀
    <b class='flag-5'>谷歌</b>發(fā)布用于輔助編程的代碼大<b class='flag-5'>模型</b>CodeGemma

    谷歌模型軟件有哪些功能

    谷歌模型軟件通常指的是谷歌推出的一系列人工智能模型和軟件工具,其中最具代表性的是Google Gemini。Google Gemini是
    的頭像 發(fā)表于 03-01 16:20 ?656次閱讀

    谷歌AI大模型Gemma全球開放使用

    谷歌公司近日宣布,其全新的AI大模型Gemma現(xiàn)已在全球范圍內(nèi)開放使用。這一重要舉措不僅彰顯了谷歌在AI領(lǐng)域的領(lǐng)先地位,還為其在全球范圍內(nèi)的競爭力增添了新
    的頭像 發(fā)表于 02-28 18:12 ?1149次閱讀

    谷歌發(fā)布開源AI大模型Gemma

    近日,谷歌發(fā)布了全新AI大模型Gemma,這款模型為各種規(guī)模的組織提供了前所未有的機會,以負責任的方式在商業(yè)應(yīng)用中進行分發(fā)。
    的頭像 發(fā)表于 02-28 17:38 ?847次閱讀

    谷歌發(fā)布輕量級開源人工智能模型Gemma

    谷歌近日宣布推出開源人工智能(AI)模型系列Gemma,旨在為開發(fā)人員和研究人員提供一個負責任的AI構(gòu)建平臺。這一舉措標志著自2022年OpenAI的ChatGPT引領(lǐng)AI聊天機器人熱
    的頭像 發(fā)表于 02-23 11:38 ?863次閱讀

    谷歌宣布Gemma模型全球開放使用

    谷歌公司近日宣布,其先進的AI大模型Gemma即日起在全球范圍內(nèi)開放使用。這一新模型谷歌DeepMind和其他團隊合作開發(fā),并與其最大的A
    的頭像 發(fā)表于 02-23 10:41 ?780次閱讀

    谷歌推出全球性能最強輕量級開源模型Gemma

    谷歌透露,Gemma以Gemini模型研發(fā)現(xiàn)有的技術(shù)為基礎(chǔ),由Google DeepMind及其內(nèi)部團隊研發(fā),旨在為人工智能的良性發(fā)展鋪路。谷歌
    的頭像 發(fā)表于 02-22 15:48 ?611次閱讀

    谷歌發(fā)布全球最強開源大模型Gemma

    谷歌近日宣布,其全新開源大模型Gemma正式亮相。Gemma被譽為全球性能最強大、同時也是最輕量級的模型系列,分為2B(20億參數(shù))和7B(
    的頭像 發(fā)表于 02-22 14:51 ?803次閱讀