繼云廠商、模型商、開發(fā)者后,數(shù)據(jù)庫玩家入局大模型。
ChatGPT「漲不動了」?
最近,ChatGPT 用戶增長放緩的消息刷屏科技圈,環(huán)比增長率從一月份的 131% 降至五月份 2%。
數(shù)據(jù)的背后,是一次業(yè)界焦點的大轉(zhuǎn)移:從對 AIGC 大模型技術的狂熱,轉(zhuǎn)移到對商業(yè)化落地效果的審視。
生產(chǎn)力工具是目前大模型落地的重要方向。但面向垂域應用,僅依靠大模型自身的訓練數(shù)據(jù)集做支撐,難以達到生產(chǎn)可用的效果。
圍繞這一問題,也形成了兩大流派,傳統(tǒng)流派將垂域/私域內(nèi)容補充至訓練集,即單模型架構(gòu);新興流派引入向量數(shù)據(jù)庫為大模型提供長短期記憶,集成領域知識庫,即 ChatGPT + VectorDB + Prompt (CVP) 架構(gòu)。
CVP 架構(gòu)的興起讓向量數(shù)據(jù)庫這個新的數(shù)據(jù)庫品類站上了風口浪尖。
全球最火的開源向量數(shù)據(jù)庫項目 Milvus 在 Github 的標星已經(jīng)突破 2 萬,官方顯示,目前 Milvus 已經(jīng)擁有超過 1000+ 中大型企業(yè)用戶。
作為 Milvus 的原廠,Zilliz 已經(jīng)完成 1.13 億美元融資,并全面啟動商業(yè)化步伐,為大模型落地提供向量數(shù)據(jù)庫全棧產(chǎn)品與服務。
我們聯(lián)系到 Zilliz 合伙人兼產(chǎn)品負責人郭人通博士,和他一同探討向量數(shù)據(jù)庫所帶來的大模型應用變革。
郭人通博士表示,CVP 架構(gòu)相比單模型架構(gòu)在靈活性、可擴展性、實時性、成本四個維度都有明顯優(yōu)勢。最關鍵的原因是在 CVP 架構(gòu)中,領域知識以數(shù)據(jù)入庫的形式進行更新,而非重新訓練或微調(diào)模型。
目前,國內(nèi)大模型的綜合能力與 GPT-4 還有代差,但現(xiàn)在已經(jīng)走到了產(chǎn)業(yè)落地的早期,業(yè)界真正關心的是業(yè)務效果。
Zilliz 的團隊研究發(fā)現(xiàn),CVP 架構(gòu)中哪怕僅使用 GPT3.5 或一些頭部開源模型,其端到端效果也明顯優(yōu)于 GPT-4。
在這個框架下,除了要拼模型能力,更要拼知識庫的構(gòu)建能力、模型與知識庫的集成水平,這也為國產(chǎn)化大模型提供了一次在落地階段彎道超車的機會。
在不更改原意的基礎上,我們對郭人通博士的交流內(nèi)容進行了梳理,希望能為大家?guī)硪恍┧伎蓟驅(qū)嵺`上的幫助。
1 ChatGPT is NOT all you need
提問:向量數(shù)據(jù)庫對很多用戶和開發(fā)者還是一個比較新的概念,能否講一下向量數(shù)據(jù)庫與傳統(tǒng)數(shù)據(jù)庫的關鍵差異?
郭人通:傳統(tǒng)數(shù)據(jù)庫應用中,需要把業(yè)務側(cè)的數(shù)據(jù)結(jié)構(gòu)化成數(shù)值、字符串,但目前業(yè)務側(cè)沉淀下來的數(shù)據(jù)超過八成是非結(jié)構(gòu)化的,例如長文本、圖片、視頻、音頻、社交關系等,我們要應用這些「新」數(shù)據(jù),主要手段是通過深度神經(jīng)網(wǎng)絡對這些數(shù)據(jù)進行「理解」,把語義信息編碼成向量。
向量數(shù)據(jù)庫是以向量為核心數(shù)據(jù)類型的新型數(shù)據(jù)庫系統(tǒng),支持大規(guī)模向量數(shù)據(jù)的存儲、分析、查詢?nèi)蝿?,同時兼顧面向數(shù)值、字符串的混合查詢分析能力。圍繞向量化的數(shù)據(jù)表示,向量數(shù)據(jù)庫提供了一套統(tǒng)一的非結(jié)構(gòu)化數(shù)據(jù)應用技術,使我們的數(shù)據(jù)應用不再局限于數(shù)值和字符串所能表達的語義范圍。
提問:為什么 CVP 架構(gòu)相比單模型架構(gòu)有更強的落地優(yōu)勢?
郭人通:目前有兩個流派,傳統(tǒng)流派希望模型具有端到端的能力,并將業(yè)務相關的數(shù)據(jù)補充至訓練數(shù)據(jù)集。這在小模型時代成本還可以接受,但在大模型時代,想找到一種途徑將垂域、私域、或?qū)崟r知識更新到模型參數(shù)中,同時成本可控,是相當困難的?;谶@個考慮,領先的大模型廠商,如 OpenAI 和 Google Bard 等,都選擇了向量數(shù)據(jù)庫為大模型提供長短期記憶的CVP技術路線。
在 CVP 架構(gòu)中,我們通過向量數(shù)據(jù)庫為大模型補充一個外部記憶體。其中 C 作為運算單元,提供邏輯分析和自然語言對接的能力,V 作為存儲單元,提供穩(wěn)定準確、高容量、高可擴展的知識,P 在前兩者的基礎上,提供面向具體業(yè)務的適配能力。這和我們?nèi)四X工作模式比較類似,我們不會去試圖記憶所有知識,書本作為知識載體比記憶更可靠,同時人腦以查詢書面知識的方式完成任務。
提問:目前向量數(shù)據(jù)庫在大模型時代有哪些典型的應用場景?
郭人通:早期看最有潛力的是生產(chǎn)力工具這個方向,B端和C端都有不少實際的場景:
1.文本創(chuàng)作。
這是直接關聯(lián)的一類應用,典型場景包括:文書生成,社交媒體 UGC,SEO 廣告,游戲任務劇本創(chuàng)作等。所有這些場景都需要在垂類細分中追求差異化優(yōu)勢,同時業(yè)務中積累的內(nèi)容也可以直接轉(zhuǎn)化為知識庫層面的資產(chǎn)。
2.聊天機器人。
可以確定,ChatGPT 為代表的 LLM 一定會徹底革新現(xiàn)有的聊天機器人系統(tǒng)。典型場景包括:客服,虛擬人,個人助手,游戲NPC 等。在 CVP 框架下構(gòu)建的聊天機器人不再需要樹狀問題分類規(guī)則,而是最自然的問答形式。比較典型的是客服系統(tǒng),人工客服的問答會持續(xù)地向知識庫積累,最終機器人的能力會向所有客服能力總和的位置收斂。
3.搜索引擎。
這個方向的沖擊毋庸置疑,微軟通過一套組合拳已經(jīng)向谷歌發(fā)起挑戰(zhàn)。除了大型搜索引擎,傳統(tǒng)的文檔搜索也會進行一次升級。基于關鍵字匹配的搜索會升級至以語義匹配為基礎,同時兼顧圖文等多模態(tài)檢索能力。這也是 Milvus 與 ElasticSearch 的典型賦能差異。
4.專業(yè)領域。
這個方向的工具主要解決專業(yè)領域菜鳥速成老鳥,以及老鳥生產(chǎn)力翻倍的問題。包括法律政策、知識產(chǎn)權保護、保險、金融投資、醫(yī)療、教育等。相比上述幾類場景,這類場景更加低頻,且更加需要精準可靠的專業(yè)知識加持。否則就會出現(xiàn)前些日子美國律師使用 ChatGPT,導致引用杜撰的案件等問題。
提問:CVP 框架下的實踐工作目前處于什么階段?對國內(nèi)大模型落地的機會如何?
郭人通:我關注到的類似的探索活動最早在去年6月份就有了,主要是在學術界。目前工業(yè)界的實踐還在很早期的階段,OpenAI 的動作是從今年3月份才開始的,提供了一套插件機制集成外部知識。在應用方面,現(xiàn)在的 CVP 主要以單輪知識召回為主,很類似傳統(tǒng)推薦系統(tǒng),差異點在于末尾加了大模型的能力做內(nèi)容總結(jié)。
關于效果,我們團隊在近期推出的 OSSChat 項目(一個面向開源社區(qū)的文檔知識庫)中進行過實踐論證。由 CVP 框架加成的 GPT-3.5 端到端應用效果可以輕松擊敗 GPT-4 單模型能力。這意味著應用開發(fā)者可以在 CVP 框架中探索兩個關鍵問題的答案:
如何解決國產(chǎn)大模型與 GPT-4 的代差問題。
如何使用小成本模型或多模型混合降低數(shù)據(jù)應用的綜合成本。
業(yè)界真正關心的是業(yè)務效果。在這個框架下,除了要拼模型能力,更要拼知識庫的構(gòu)建能力、模型與知識庫的集成水平,這也為國產(chǎn)化大模型提供了一次在落地階段彎道超車的機會。
多階段賦能應用落地
提問:Zilliz 作為 Milvus 的原廠,同時提供了開源和商業(yè)化解決方案,可以簡單介紹一下兩者定位的差異嗎?
郭人通:Zilliz 向開發(fā)者與用戶提供了開源與云服務多重解決方案,全面覆蓋不同場景的需求。從 AIGC 個人應用開發(fā)到大型企業(yè)向量數(shù)據(jù)平臺,從國內(nèi)業(yè)務到跨境業(yè)務,從成本優(yōu)先到性能優(yōu)先,Zilliz 都提供了最專業(yè)的解決方案。
Milvus 支持三種部署規(guī)模:MilvusLite 面向本地原型快速構(gòu)建,pip install 一鍵安裝,算法工程師友好。Milvus Standalone 面向單物理機服務部署,維護便捷,適合小規(guī)模服務。Milvus Cluster 面向大規(guī)模集群部署,適合大型企業(yè)用戶在私有環(huán)境構(gòu)建向量數(shù)據(jù)搜索平臺。
相比開源方案,云服務提供了多重關鍵能力:
云服務采用商業(yè)版引擎,性能超越開源版 3 倍以上。同等的高 QPS 場景,所需硬件成本降至開源方案的 1/3 到 1/5。
99.9% 高可用,穩(wěn)定支持 10 億及以上規(guī)模向量數(shù)據(jù)。
軟硬件高度適配,提供性能型、容量型、經(jīng)濟型三類實例類型,滿足不同維度的業(yè)務需求。
AutoIndex 智能索引,面向負載與數(shù)據(jù)分布自動化性能調(diào)優(yōu),進一步提升性能一倍以上,免去手工系統(tǒng)調(diào)優(yōu)之苦。
Zilliz Cloud 面向 AIGC 個人開發(fā)者或小型團隊量身打造了 Starter Plan。Zilliz 關注到 AIGC 開發(fā)者數(shù)量已經(jīng)到達千萬量級,為了支撐 AIGC 應用在孵化期對于快速驗證、快速迭代的需求,Zilliz 為每位用戶提供一個免費的 Serverless 實例,服務開箱即用,可支持百萬向量規(guī)模的知識庫檢索。上手門檻與成本甚至低于 MilvusLite。
Zilliz Cloud 同樣提供 PaaS 服務,適合注重數(shù)據(jù)隱私、數(shù)據(jù)安全與合規(guī)的企業(yè)。用戶可以在其虛擬私有云(VPC)上部署全托管的 Zilliz Cloud 向量數(shù)據(jù)庫服務。
提問:目前有大量的用戶在使用開源的 Milvus 系統(tǒng),大家可能比較關心的問題是,在 Zilliz 商業(yè)化階段,Milvus 的開源路線是否會有變化?
郭人通:「好的系統(tǒng)和產(chǎn)品不是設計出來的,而是用出來的?!?是 Zilliz 在開發(fā)產(chǎn)品過程中一以貫之的最重要的原則。我對這條原則的解釋是「與開發(fā)者接觸面積最大化」。
Milvus 堅定的走開源路線,是該原則的重要實踐。5年的時間,Zilliz 團隊與幾千家企業(yè)用戶,上萬名開發(fā)者建立了深度的聯(lián)系。憑借來自眾多行業(yè)社區(qū)用戶的廣泛反饋,Milvus 已成為全球迭代速度最快、最成熟的的開源向量數(shù)據(jù)庫系統(tǒng)。
在商業(yè)化產(chǎn)品中,Zilliz Cloud 為每一位用戶提供免費的 Serverless 實例,可穩(wěn)定支持百萬量級向量數(shù)據(jù)。根據(jù)我們對用戶數(shù)據(jù)的統(tǒng)計,該容量可支撐超過 90% 的早期用戶需求。Zilliz 團隊在商業(yè)化路線中貫穿「與開發(fā)者接觸面積最大化」、「社區(qū)共建最快速產(chǎn)品迭代」 這一理念。對于一個數(shù)據(jù)庫系統(tǒng)的演進旅程,5年尚早,Zilliz 還將繼續(xù)和社區(qū)一道,進行向量數(shù)據(jù)庫技術與產(chǎn)品領域的前沿探索,不斷刷新最佳實踐。
提問:在 CVP 框架中,向量數(shù)據(jù)庫與大模型是互生的關系,在C-V兩側(cè)生態(tài)對接方面有什么動作嗎?
郭人通:為了進一步降低應用構(gòu)建成本,提供標準化組件,Zilliz 已與全球頭部大模型生態(tài)完成了 C-V 間對接。2023 年 3 月,Zilliz 作為 OpenAI 首批向量數(shù)據(jù)庫合作伙伴,完成了 Milvus 與 Zilliz Cloud 插件化集成,作為官方推薦的向量數(shù)據(jù)庫插件提供給廣大應用開發(fā)者。此外,Zilliz 還與 LangChain、Cohere、LlamaIndex、Auto-GPT、BabyAGI 等熱門項目進行了深度集成。與國產(chǎn)大模型的對接工作正在進行中,預期會在近一個月開放。
3 量身定制的 AIGC 特性支持
提問:Zilliz Cloud 近期發(fā)布了 2.0 版本,同時 Milvus 發(fā)布了 2.3 版本,在這些最近的版本中,有哪些面向 AIGC 應用的新特性?
郭人通:Zilliz Cloud 在近期的重要版本更新中,添加了一系列面向 AIGC 應用構(gòu)建的關鍵特性。涵蓋數(shù)據(jù)的靈活表示、面向 ToC 業(yè)務用戶粒度知識庫的支持、更高效的混合查詢與過濾等。
動態(tài) schema 。此前向量數(shù)據(jù)庫采用靜態(tài) schema 的方式,需要開發(fā)者在建表時根據(jù)業(yè)務定義數(shù)據(jù)的 schema。這對于大型企業(yè)的成熟業(yè)務是一種常見的方式。然而,當下 AIGC 應用多處于早期快速迭代階段,面向業(yè)務效果,需要頻繁調(diào)整向量數(shù)據(jù)庫內(nèi)的字段,對于這類需求,反復重建 schema 結(jié)構(gòu)以及頻繁的數(shù)據(jù)重導入會嚴重影響產(chǎn)品的迭代速度。因此,Zilliz Cloud 引入動態(tài) schema 的能力,支持用戶根據(jù)迭代需要,動態(tài)靈活的進行字段插入。
Partition Key。Partition Key 特性是原有 Milvus partition 功能的升級,邏輯 partition 的數(shù)量不再受到限制。在業(yè)務層面,目前大量 AIGC 應用是 ToC 的,因此一些業(yè)務需要為每一個用戶建立一個獨立的知識庫(例如問答歷史)。在先前的方案中,需要為每個用戶建立獨立的向量數(shù)據(jù)庫表以及索引,成本上基本無法滿足要求。在新的方案中,用戶可以將所有用戶數(shù)據(jù)放置于同一張表,并為每個用戶賦予不同的 Partition Key,在表內(nèi)實現(xiàn)用戶分桶隔離。相比單獨建表方案,綜合成本可下降兩到三個數(shù)量級。除了這類場景,用戶還可以通過 Partition Key 實現(xiàn)數(shù)據(jù)按時間區(qū)間或類別分組,并在此基礎上有效降低數(shù)據(jù)的查詢范圍,實現(xiàn)高效的查詢與過濾。
JSON 類型的支持。JSON 是目前最流行且最靈活的數(shù)據(jù)表示方式之一。目前,Zilliz 團隊將半個 Mongo 的能力搬進了向量數(shù)據(jù)庫,用戶在 Zilliz Cloud 可以將 JSON 與 embedding 這兩種超強能力相結(jié)合,實現(xiàn)基于 JSON 與 embedding 向量的混合數(shù)據(jù)表示以及復雜的業(yè)務邏輯。
提問:在接下來的版本中,會有哪些相關的重磅特性發(fā)布?
郭人通:在接下來的版本更新中,Zilliz Cloud 會大幅增強向量表示與混合查詢能力:
稀疏向量。目前,Milvus 與 Zilliz Cloud 僅支持稠密向量表示,接下來會支持稀疏向量。稀疏向量可以更直接的表示離散化特征分量,并支持在具體特征集合上的向量化分析與查詢。這對于傳統(tǒng)ML的應用,或傳統(tǒng)ML與深度學習相結(jié)合的應用至關重要。
多向量混合查詢。對于同一對象具有多模態(tài),或同模態(tài)多角度描述的數(shù)據(jù)應用來講,需要對同一對象構(gòu)建多個向量進行語義描述。多向量混合查詢能力可以在同時面向多個模態(tài)或多個角度對應的向量進行分析查詢,從而提升業(yè)務效果。
向量數(shù)組。這類向量化數(shù)據(jù)表示主要面向序列數(shù)據(jù),如音頻、視頻、長文本。通常需要對這些數(shù)據(jù)進行分片處理,如每一秒采集一個關鍵幀獲得 embedding 向量,或從文本的一個分片獲得 embedding 向量。每一條序列數(shù)據(jù)都對應的表示為一個有序的(或 bag of vectors)向量數(shù)組。數(shù)據(jù)的分析與查詢同樣在數(shù)組這個粒度進行,因此可以在業(yè)務中更好的引入序列數(shù)據(jù)的整體語義。
4 國內(nèi)的服務覆蓋計劃
郭人通:目前國內(nèi) AIGC 大模型與應用發(fā)展的如火如荼,但遺憾的是,目前仍然缺乏專業(yè)的向數(shù)據(jù)庫服務。用戶要么需要基于開源方案自建,要么需要使用北美的云服務,兩種方式都帶來的較高的綜合成本。
Zilliz Cloud 云服務已覆蓋 AWS,GCP。從 2023 年 7 月開始,向量數(shù)據(jù)庫服務會在國內(nèi)公有云全面鋪開。7 月初即將發(fā)布的版本中,將支持阿里云、百度云、騰訊云以及金山云。預期價格相比北美服務會有較大幅度的下調(diào),致力于為國內(nèi)用戶提供具有最高專業(yè)度及最高性價比的全托管向量數(shù)據(jù)庫服務。Zilliz Cloud 國內(nèi)云服務目前已支持企業(yè)用戶 PoC 申請(申請聯(lián)系方式見文末)。
提問:目前國內(nèi) CVP 框架實踐還都在早期,Zilliz 團隊有相應的用戶支持計劃嗎?
郭人通:為了加速打磨業(yè)界最佳實踐,我們即將啟動「CVP 實踐之星」 活動,Zilliz 將聯(lián)合國內(nèi)頭部大模型廠商一同甄選應用場景, 由雙方提供向量數(shù)據(jù)庫與大模型頂級技術專家為用戶賦能,一同打磨應用效果。如果你的應用也適合 CVP 框架,且正在為應用效果發(fā)愁,可直接申請參與活動。
編輯:黃飛
評論
查看更多