前段時間,Mistral AI 公布的 Mixtral 8x7B 模型爆火整個開源社區(qū),其架構(gòu)與 GPT-4 非常相似,很多人將其形容為 GPT-4 的「縮小版」。
我們都知道,OpenAI 團隊一直對 GPT-4 的參數(shù)量和訓練細節(jié)守口如瓶。Mistral 8x7B 的放出,無疑給廣大開發(fā)者提供了一種「非常接近 GPT-4」的開源選項。
在基準測試中,Mistral 8x7B 的表現(xiàn)優(yōu)于 Llama 2 70B,在大多數(shù)標準基準測試上與 GPT-3.5 不相上下,甚至略勝一籌。
▲圖源 https://mistral.ai/news/mixtral-of-experts/
隨著這項研究的出現(xiàn),很多人表示:「閉源大模型已經(jīng)走到了結(jié)局?!?/span>
短短幾周的時間,機器學習愛好者 Vaibhav (VB) Srivastav 表示:隨著 AutoAWQ(支持 Mixtral、LLaVa 等模型的量化)最新版本的發(fā)布,現(xiàn)在用戶可以將 Mixtral 8x7B Instruct 與 Flash Attention 2 結(jié)合使用,達到快速推理的目的,實現(xiàn)這一功能大約只需 24GB GPU VRAM、不到十行代碼。
▲圖源 https://twitter.com/reach_vb/status/1741175347821883502
AutoAWQ地址:
https://github.com/casper-hansen/AutoAWQ
操作過程是這樣的:
首先是安裝 AutoAWQ 以及 transformers:
pipinstallautoawqgit+https://github.com/huggingface/transformers.git
第二步是初始化 tokenizer 和模型:
?第三步是初始化 TextStreamer:
?第四步對輸入進行 Token 化:
?第五步生成:
?當你配置好項目后,就可以與 Mixtral 進行對話,例如對于用戶要求「如何做出最好的美式咖啡?通過簡單的步驟完成」,Mixtral 會按照 1、2、3 等步驟進行回答。
項目中使用的代碼:
Srivastav 表示上述實現(xiàn)也意味著用戶可以使用 AWQ 運行所有的 Mixtral 微調(diào),并使用 Flash Attention 2 來提升它們。
看到這項研究后,網(wǎng)友不禁表示:真的很酷。
?
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。
舉報投訴
原文標題:8x7B MoE與Flash Attention 2結(jié)合,不到10行代碼實現(xiàn)快速推理
文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
相關(guān)推薦
前言 ???云端部署新體驗,C# Web API 遇上 Git Docker,828 B2B 企業(yè)節(jié)特惠來襲!Flexus X 實例,為您的 C#應(yīng)用提供強大支撐,結(jié)合 Git 版本控制
發(fā)表于 12-25 21:15
?158次閱讀
近日,獵戶星空攜手聚云科技在北京共同舉辦了一場發(fā)布會。會上,獵戶星空正式揭曉了其自主研發(fā)的Orion-MoE 8×7B大模型,并與聚云科技聯(lián)合推出了基于該大模型的數(shù)據(jù)服務(wù)——AI數(shù)據(jù)寶AirDS
發(fā)表于 11-29 13:57
?250次閱讀
電子發(fā)燒友網(wǎng)站提供《CC13x2x7和CC26x2x7 SimpleLink無線MCU技術(shù)參考手冊.pdf》資料免費下載
發(fā)表于 11-14 14:16
?0次下載
今日,在 PerfXCloud 重磅更新支持 llama 3.1 之后,其平臺再度實現(xiàn)重大升級!目前,已順利接入被譽為全球最強的 MOE 大模型 DeepSeek-V2 ,已在 PerfXCloud(澎峰云)官網(wǎng)的體驗中心對平臺
發(fā)表于 07-27 10:08
?650次閱讀
校驗 2Bytes
** 6 模塊代碼**
本代碼所實現(xiàn)的功能,是基于黑金AX301B,實現(xiàn)
發(fā)表于 06-21 17:58
看ESP32-S2手冊上寫的是支持8位串口RGB的。但是在編譯esp-idf master代碼時出錯。
我有一片LCD是8位串行RGB接口(
發(fā)表于 06-17 06:17
近日,昆侖萬維公司宣布開源一款名為Skywork-MoE的稀疏大模型,該模型擁有高達2千億參數(shù),不僅性能強勁,而且推理成本更低,為人工智能領(lǐng)域帶來了新的突破。
發(fā)表于 06-04 14:44
?586次閱讀
使用STM32G0B1寫內(nèi)部的Flash時出現(xiàn)問題,代碼:
#pragma arm section code = \"RAMCODE\"
uint32_t
發(fā)表于 04-02 07:45
8b/10b編碼是一種用于減少數(shù)據(jù)線上的低效能時鐘信號傳輸?shù)募夹g(shù),通過在數(shù)據(jù)流中插入特殊的控制字符,來同步數(shù)據(jù)和時鐘。在Verilog中實現(xiàn)8b/1
發(fā)表于 03-26 07:55
本文將分享阿里云人工智能平臺 PAI 團隊與 NVIDIA Megatron-Core 團隊在 MoE (Mixture of Experts) 大語言模型(LLM)實現(xiàn)與訓練優(yōu)化上的創(chuàng)新工作。
發(fā)表于 03-22 09:50
?799次閱讀
基于OpenCV DNN實現(xiàn)YOLOv8推理的好處就是一套代碼就可以部署在Windows10系統(tǒng)、烏班圖系統(tǒng)、Jetson的Jetpack系
發(fā)表于 03-01 15:52
?1690次閱讀
Mixtral 8x7B模型開源后,AI社區(qū)再次迎來一大波微調(diào)實踐。來自Nous Research應(yīng)用研究小組團隊微調(diào)出新一代大模型Nous-Hermes 2 Mixtral 8x7B,在主流基準測試中擊敗了Mixtral In
發(fā)表于 01-30 15:29
?974次閱讀
在看看 CYT2B7 的手冊時,對于 flash 分區(qū)有疑問。
為什么 Dual Bank 的分區(qū)中碼 flash和data flashdapping A和Mapping B?使用時單
發(fā)表于 01-22 07:30
隨著 Mixtral 8x7B (announcement, model card) 的推出,一種稱為混合專家模型 (Mixed Expert Models,簡稱 MoEs
發(fā)表于 01-13 09:37
?1292次閱讀
vLLM 中,LLM 推理的 prefill 階段 attention 計算使用第三方庫 xformers 的優(yōu)化實現(xiàn),decoding 階段 attention 計算則使用項目編譯
發(fā)表于 01-09 11:43
?1916次閱讀
評論