今天,真格基金高興地宣布向開(kāi)源 AI 項(xiàng)目 vLLM 提供捐贈(zèng)。
開(kāi)源技術(shù)處于 AI 革命的中心。Llama 3、Mistral 等開(kāi)源大模型迅速追趕 GPT-4,TensorFlow、Pytorch 等開(kāi)源深度學(xué)習(xí)框架提供了豐富的庫(kù)和工具。GitHub 上有 6 萬(wàn)個(gè)通用人工智能項(xiàng)目,Hugging Face 上有超過(guò) 40 萬(wàn)個(gè)模型。每一周,有超過(guò) 100 萬(wàn)行代碼在開(kāi)源 AI 領(lǐng)域中創(chuàng)建,開(kāi)發(fā)者像交換禮物一樣,從全世界的各個(gè)角落為開(kāi)源項(xiàng)目作出貢獻(xiàn)。
2022 年,一個(gè)加州大學(xué)伯克利分校的 3 人團(tuán)隊(duì)從一個(gè)加速 OPT-175B 訓(xùn)練推理的 demo 項(xiàng)目開(kāi)始,在兩年的時(shí)間里搭建出了全球范圍內(nèi)最受歡迎的開(kāi)源大模型推理加速框架 vLLM。
vLLM(https://github.com/vllm-project/vllm)的目標(biāo)是,搭建最快速、最易用的開(kāi)源 LLM 推理服務(wù)引擎(Build the fastest and easiest-to-use open-source LLM inference & serving engine)。
與 Hugging Face Transformers 相比,它提供高達(dá) 24 倍的吞吐量,而無(wú)需進(jìn)行任何模型架構(gòu)更改。今天,vLLM 在 GitHub 上的星標(biāo)數(shù)已經(jīng)突破 21.8k,而距離去年 6 月開(kāi)源以來(lái)只過(guò)去了一年。
vLLM 支持幾乎所有最新的開(kāi)源 LLM,包括 Mistral,Llama,Gemma 等 30+ 大模型。一個(gè)新的開(kāi)源大模型,幾乎都會(huì)在發(fā)布前主動(dòng)接觸 vLLM 做好適配優(yōu)化,確保在上線的第一天,大家就能通過(guò) vLLM 來(lái)使用它。
vLLM 不執(zhí)著于英偉達(dá) GPU。與其它框架相比,這也是 vLLM 一個(gè)很大的不同點(diǎn)——支持包括 AMD GPU,Intel CPU/GPU/Habana Gaudi,Google TPU,AWS 在內(nèi)市面上最全的硬件架構(gòu)。從項(xiàng)目創(chuàng)立起,vLLM 就希望能廣泛支持能夠使得推理更快、成本更低也更適用的硬件。
在 ChatGPT 上線、Facebook 成為 Meta 之前,vLLM 誕生于一個(gè)名為「Alpa」的自動(dòng)化并行推理 demo 項(xiàng)目。但在部署過(guò)程中,vLLM 團(tuán)隊(duì)發(fā)現(xiàn) demo 的速度很慢,GPU 利用率也非常低。這讓他們意識(shí)到,大語(yǔ)言模型推理本身就是一個(gè)非常值得關(guān)注的問(wèn)題。
當(dāng)時(shí)的市面上沒(méi)有任何大語(yǔ)言模型推理優(yōu)化的開(kāi)源系統(tǒng)。于是,團(tuán)隊(duì)決定從 0 開(kāi)始自己動(dòng)手做一個(gè)。面對(duì) GPU 的內(nèi)存管理帶來(lái)的瓶頸,團(tuán)隊(duì)在多次迭代后,基于操作系統(tǒng)中經(jīng)典的虛擬內(nèi)存和分頁(yè)技術(shù),提出了全新的注意力算法 PagedAttention,并構(gòu)建了高吞吐量的分布式 LLM 服務(wù)引擎 vLLM,幾乎做到了 KV 緩存內(nèi)存零浪費(fèi)。
2023 年 6 月,創(chuàng)始團(tuán)隊(duì)發(fā)布 vLLM 開(kāi)源代碼,并一直維護(hù)到今天。下一步,團(tuán)隊(duì)計(jì)劃將資金用于 vLLM 的開(kāi)發(fā)、測(cè)試和性能提升。
40 年前,世界上最后一個(gè)黑客 Richard Stallman 發(fā)起自由軟件運(yùn)動(dòng),開(kāi)放、平等、協(xié)作、共創(chuàng)的開(kāi)源精神開(kāi)始崛起。從 GNU 和 Linux 的結(jié)合,到 MySQL 的第一個(gè)版本發(fā)布,到 Mozilla 項(xiàng)目的成立,到分布式版本控制系統(tǒng) Git 的雛形面世、Android 的誕生,再到 GitHub 席卷全球,開(kāi)源帶來(lái)的創(chuàng)新幾乎書(shū)寫(xiě)了一部計(jì)算機(jī)信息技術(shù)的歷史。
這種創(chuàng)新來(lái)自全世界的聚力協(xié)作。vLLM 的全職團(tuán)隊(duì)只有 3 個(gè)博士生,但 20 多名分布于大模型、Infra、硬件等前沿科技公司的軟件工程師都在為之努力。
為了吸引更多的貢獻(xiàn)者,vLLM 對(duì)代碼質(zhì)量要求極高。團(tuán)隊(duì)要求代碼必須模塊化,且非常簡(jiǎn)潔易讀。同時(shí),團(tuán)隊(duì)成員會(huì)非常認(rèn)真地做好代碼審查(Code Review),甚至?xí)陂_(kāi)發(fā)者提交代碼更改(Pull Request,PR)后,在 PR 上接著重構(gòu)后再進(jìn)行合并。
vLLM 社區(qū)的開(kāi)發(fā)者們?cè)谶^(guò)去 4 場(chǎng)線下見(jiàn)面會(huì)上,會(huì)用網(wǎng)名親切地稱(chēng)呼彼此。當(dāng)位于硅谷的 vLLM 團(tuán)隊(duì)每天早上醒來(lái),就會(huì)發(fā)現(xiàn)一位來(lái)自英國(guó)的工程師在夜里默默解決掉了二三十個(gè)問(wèn)題。
開(kāi)源短短一年,我們就看見(jiàn) vLLM 的伯克利團(tuán)隊(duì)之外,包括 Anyscale、IBM、AMD、NeuralMagic、Roblox 在內(nèi)的 300 多名活躍協(xié)作者,在以一行代碼為顆粒度持續(xù)參與貢獻(xiàn)。vLLM GitHub 的每 10 條提交記錄中,就有 8 條來(lái)自社區(qū),而這與 Linux Kernel 在發(fā)布 30 年后才達(dá)到的比例狀態(tài)相當(dāng)。
自從成立,真格基金始終是新技術(shù)和創(chuàng)業(yè)精神的堅(jiān)定支持者。我們想成為一直堅(jiān)定地站在創(chuàng)始人身邊的人,陪伴他們引領(lǐng)科技創(chuàng)新并改變這個(gè)世界。2022 年,真格基金就曾向開(kāi)源項(xiàng)目 ControlNet 發(fā)起捐贈(zèng)。
真格基金管理合伙人戴雨森表示,「這次對(duì) vLLM 這一開(kāi)源項(xiàng)目的捐贈(zèng),是因?yàn)槲覀兪冀K致力于推動(dòng) AI 的普及,希望新技術(shù)能惠及盡可能多的人類(lèi)。和工業(yè)界相比,學(xué)術(shù)界的優(yōu)秀工作目前往往受到更多成本和算力的限制。我們相信,改變世界的最好方式是自己創(chuàng)造——如果可以,與全世界的開(kāi)發(fā)者一起創(chuàng)造。而對(duì)于創(chuàng)造未來(lái)的重要基石,我們?cè)副M綿薄之力?!?/p>
如果你在使用 vLLM 時(shí)有任何需求與反饋,歡迎在文章下留言,聯(lián)系真格基金幫忙對(duì)接。真格基金一直持續(xù)關(guān)注前沿 AI 領(lǐng)域的發(fā)展,如果你有好的創(chuàng)業(yè)想法,也歡迎和我們聊聊。
文|Wendi
-
AI
+關(guān)注
關(guān)注
87文章
30896瀏覽量
269107 -
開(kāi)源
+關(guān)注
關(guān)注
3文章
3349瀏覽量
42500 -
大模型
+關(guān)注
關(guān)注
2文章
2450瀏覽量
2714
原文標(biāo)題:真格基金宣布捐贈(zèng)開(kāi)源 AI 項(xiàng)目 vLLM
文章出處:【微信號(hào):zhenfund,微信公眾號(hào):真格基金】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論