各行業(yè)的公司越來(lái)越認(rèn)識(shí)到,制定數(shù)據(jù)驅(qū)動(dòng)的決策是現(xiàn)在、未來(lái) 5 年、未來(lái) 20 年甚至更長(zhǎng)時(shí)間內(nèi)競(jìng)爭(zhēng)的必要條件。數(shù)據(jù)增長(zhǎng)(尤其是非結(jié)構(gòu)化數(shù)據(jù)增長(zhǎng))達(dá)到了前所未有的水平,數(shù)據(jù)泛濫和人工智能時(shí)代已經(jīng)來(lái)臨。
這一現(xiàn)實(shí)隱含的是,人工智能可以對(duì)海量數(shù)據(jù)進(jìn)行有意義的分類和處理——不僅對(duì) Alphabet、Meta 和微軟等擁有龐大研發(fā)業(yè)務(wù)和定制人工智能工具的科技巨頭是這樣,對(duì)普通企業(yè)甚至中小型企業(yè)而言也是如此。
精心設(shè)計(jì)的基于人工智能的應(yīng)用程序可以極快地篩選極其龐大的數(shù)據(jù)集,以產(chǎn)生新的見解并最終推動(dòng)新的收入來(lái)源,從而為企業(yè)創(chuàng)造真正的價(jià)值。但是,如果沒(méi)有新出現(xiàn)的新事物——向量數(shù)據(jù)庫(kù),任何數(shù)據(jù)增長(zhǎng)都無(wú)法真正實(shí)現(xiàn)可操作性和民主化。
隨著大語(yǔ)言模型的爆火,向量數(shù)據(jù)庫(kù)也成為了熱門話題。只需幾行簡(jiǎn)單的 Python 代碼,向量數(shù)據(jù)庫(kù)就可以充當(dāng)大語(yǔ)言模型廉價(jià)但高效的“外部大腦”。但我們真的需要一個(gè)專門的向量數(shù)據(jù)庫(kù)嗎?向量數(shù)據(jù)庫(kù)究竟是炒作還是剛需?
近期,在北京 QCon 大會(huì)之際,InfoQ 有幸采訪到了 Redis 高級(jí)架構(gòu)師史磊,聽他聊一聊 Redis 向量數(shù)據(jù)庫(kù)技術(shù)實(shí)踐。
在 9 月 3-5 日即將召開的 QCon 北京 2023 上,Redis 高級(jí)架構(gòu)師史磊將帶來(lái)以 《搜索、探索、求索:Redis 向量數(shù)據(jù)庫(kù)》 為主題的演講分享。會(huì)前,InfoQ 對(duì)史磊老師進(jìn)行了專訪,聽他聊一聊 Redis 向量數(shù)據(jù)庫(kù)技術(shù)實(shí)踐。
以下為訪談實(shí)錄,經(jīng)編輯。
InfoQ:史磊老師您好,能先做下自我介紹嗎?
史磊:我目前在 Redis 工作,擔(dān)任高級(jí)產(chǎn)品架構(gòu)師,負(fù)責(zé)管理 Redis 在亞太區(qū)的技術(shù)事務(wù)。我的主要職責(zé)是協(xié)助 Redis 客戶優(yōu)化他們的 Redis 實(shí)例,指導(dǎo)他們?cè)谑褂?Redis 的新功能時(shí)能夠得到最佳體驗(yàn);以及幫助 Redis 在中國(guó)的服務(wù)商取得成功。
作為 Redis 原廠,我們維護(hù)著開源社區(qū)版,并且提供了企業(yè)版(Redis Enterprise)的軟件。在亞太區(qū),越來(lái)越多的客戶開始了解 Redis 企業(yè)版的價(jià)值。然而,目前大多數(shù)人對(duì) Redis 的理解還停留在開源版本或者一些經(jīng)過(guò)修改的第三方版本上,對(duì)于 Redis 的核心功能和應(yīng)用場(chǎng)景可能了解有限。因此,我主要的使命是幫助客戶更好地利用 Redis 提供的工具,解決實(shí)際問(wèn)題,滿足業(yè)務(wù)需求。
我在去年加入 Redis,之前我在新加坡從事科研工作,后來(lái)在一家金融科技創(chuàng)業(yè)公司負(fù)責(zé)開發(fā) AI 產(chǎn)品。在那個(gè)公司,我已經(jīng)使用 Redis 大約七八年時(shí)間,但主要限于開源版。加入 Redis 原廠后,我更深入地了解了 Redis 企業(yè)版,掌握了更多強(qiáng)大的功能。我希望借助自己的經(jīng)驗(yàn),幫助客戶充分發(fā)揮 Redis 的潛力。
InfoQ:您是什么時(shí)候開始關(guān)注向量數(shù)據(jù)庫(kù)這個(gè)領(lǐng)域的?
史磊:在加入 Redis 之前,我主要從事 AI 和大數(shù)據(jù)方面的產(chǎn)品開發(fā)。我涉獵過(guò)特征生成、存取方式以及實(shí)時(shí) AI 處理等領(lǐng)域,并使用了許多工具。然而,直到我加入 Redis 原廠,我才真正了解到 Redis 也在向量數(shù)據(jù)庫(kù)方向提供支持。Redis 的這種布局實(shí)際上已經(jīng)有一段時(shí)間了。
我們最初是通過(guò)一個(gè)搜索模塊來(lái)支持搜索功能,這個(gè)模塊從大約 2018 年開始就存在了。Redis 2.0 的搜索功能將其提升到了一個(gè)新的水平,使其更加容易和方便。從 Redis 2.4 開始,也就是去年 3 月份開始,我們正式支持向量搜索。在大型語(yǔ)言模型引起轟動(dòng)之前,Redis 就已經(jīng)開始在向量數(shù)據(jù)庫(kù)領(lǐng)域布局。由于 Redis 在各行業(yè)廣泛應(yīng)用,一經(jīng)推出向量搜索功能,全球范圍內(nèi)的許多客戶就開始使用了。
隨著大型語(yǔ)言模型的興起,向量數(shù)據(jù)庫(kù)的應(yīng)用進(jìn)入了新的階段。起初,人們可能只是用向量查詢來(lái)處理簡(jiǎn)單的圖片、視頻、音頻或文檔等內(nèi)容,提取和搜索一些基本的向量特征。但隨著大型模型的普及,人們開始探索如何更好地使用向量數(shù)據(jù)庫(kù),將其應(yīng)用到更高的維度、更廣泛的范圍以及更快的請(qǐng)求速度上。對(duì)于一個(gè)向量數(shù)據(jù)庫(kù)而言,以前大家的認(rèn)識(shí)更多是小眾、性能要求不高,而現(xiàn)在這些觀念正在被快速轉(zhuǎn)變。在這個(gè)過(guò)程中,Redis 經(jīng)歷了很多考驗(yàn)。作為一個(gè)向量數(shù)據(jù)庫(kù),隨著大型模型的興起,許多核心企業(yè)應(yīng)用,比如像 ChatGPT、OpenAI 這樣的應(yīng)用,開始在后臺(tái)使用 Redis。這使得 Redis 在滿足客戶需求方面有了更多的合作機(jī)會(huì)。
同時(shí),Redis 的搜索模塊也在不斷發(fā)展壯大。我們通過(guò)收集來(lái)自客戶的第一手資料,產(chǎn)品團(tuán)隊(duì)將客戶在實(shí)際應(yīng)用中遇到的需求以及在 AI 和大數(shù)據(jù)環(huán)境下的新需求,迅速轉(zhuǎn)化為產(chǎn)品,更好地為客戶提供服務(wù)。
Redis 向量數(shù)據(jù)庫(kù)技術(shù)實(shí)踐
InfoQ:我注意到您提到了 ChatGPT 和 OpenAI,他們已經(jīng)在使用 Redis。那他們是否將 Redis 作為唯一的向量數(shù)據(jù)庫(kù)使用?這方面有哪些信息可以分享嗎?
史磊:根據(jù)我了解,ChatGPT 和 OpenAI 并不僅僅使用 Redis 作為唯一的向量數(shù)據(jù)庫(kù),他們也在與其他向量數(shù)據(jù)庫(kù)合作。因?yàn)榧夹g(shù)的更新和迭代非常迅速,Redis 已經(jīng)成立了專門的團(tuán)隊(duì)來(lái)負(fù)責(zé)向量數(shù)據(jù)庫(kù)的研究和開發(fā),并與多個(gè)不同的企業(yè)合作。
在 Redis 的官網(wǎng)上,我們已經(jīng)展示了與許多 AI 大模型領(lǐng)域的合作案例,包括與 ChatGPT 等的合作。然而,具體細(xì)節(jié)和哪些實(shí)際用例正在使用 Redis,以及它們的具體情況,因?yàn)檫@些領(lǐng)域變化迅速,所以我目前沒(méi)有最新的相關(guān)信息。
InfoQ:您之前提到的是在 2018 年,Redis 引入了向量搜索的模塊。當(dāng)時(shí)具體是什么情況?我們是基于客戶需求開發(fā)這個(gè)功能的嗎?還是我們自己看到了這個(gè)大的趨勢(shì)?
史磊:從 2018 年開始,Redis 引入了一個(gè)搜索模塊。當(dāng)時(shí),這個(gè)搜索模塊主要支持標(biāo)量搜索,而不是向量搜索。在那時(shí),Redis 使用中的一個(gè)痛點(diǎn)是,盡管它是一個(gè)內(nèi)存中的鍵值存儲(chǔ)系統(tǒng),查詢時(shí)如果不逐個(gè)掃描每個(gè)鍵,就沒(méi)有很好的方法來(lái)根據(jù)查詢條件檢索數(shù)據(jù)。
因此,2018 年的版本主要是為了解決搜索這一痛點(diǎn)。它允許用戶在 Redis 中存儲(chǔ)大量的鍵,而且這些鍵的檢索速度非???。但是,如何在這些鍵中快速找到滿足特定條件的數(shù)據(jù)呢?通過(guò)內(nèi)部迭代和升級(jí),從 1.0 版本到 2.0 版本,我們收集了許多客戶的需求。這些需求主要集中在如何快速創(chuàng)建索引、如何快速執(zhí)行查詢,以及如何讓應(yīng)用程序自動(dòng)完成這些操作。2020 年我們推出的 2.0 版本中就著重于這些方面。隨后,在 2.4 版本中(從去年 3 月開始,在 ChatGPT 等大模型流行之前),我們正式引入了向量搜索功能。在這個(gè)過(guò)程中,我們收到了許多客戶的請(qǐng)求,他們問(wèn)是否可以將 Redis 的快速標(biāo)量搜索擴(kuò)展到向量化數(shù)據(jù)的搜索。我們的產(chǎn)品團(tuán)隊(duì)聽取了這些客戶的需求,在初期支持了基本的向量相似性搜索功能。
隨著時(shí)間的推移,我們不斷地加入各種主流搜索模式和算法,逐步完善這個(gè)功能,使其變得更加成熟?,F(xiàn)在,Redis 在 7.2 版本中進(jìn)行了重大更新,帶來(lái)了許多新功能。值得注意的是,我們不再將搜索作為一個(gè)模塊進(jìn)行推廣,而是將其視為 Redis 提供的主要功能之一。這意味著 Redis 不僅可以用作緩存和主數(shù)據(jù)庫(kù),還可以用作向量數(shù)據(jù)庫(kù)。
InfoQ:隨著功能的增加,Redis 的定位也發(fā)生了一些變化?
史磊:是的。最初,Redis 的產(chǎn)品定位確實(shí)是作為一種內(nèi)存數(shù)據(jù)庫(kù),專注于提供內(nèi)存存儲(chǔ),并通過(guò)模塊來(lái)擴(kuò)展其功能。然而,隨著時(shí)間的推移,我們對(duì) Redis 進(jìn)行了重新定位?,F(xiàn)在,我們提供了 Redis 企業(yè)版軟件,將所有功能集成在其中。只要使用 Redis 企業(yè)版,就能夠獲得全部功能,無(wú)需額外購(gòu)買或部署特定組件,即可直接使用。
對(duì)于客戶而言,如果他們已經(jīng)在使用 Redis 作為緩存,他們現(xiàn)在只需將向量存儲(chǔ)到 Redis 中,便可以直接進(jìn)行向量搜索。這對(duì)客戶來(lái)說(shuō)非常直觀且易用,同時(shí)也不會(huì)增加額外的系統(tǒng)復(fù)雜性,無(wú)需引入其他產(chǎn)品或功能。
InfoQ:我想了解一下關(guān)于這個(gè)模組研發(fā)歷程的情況,以及它在研發(fā)過(guò)程中所經(jīng)歷的一些迭代。此外,當(dāng)它與 Redis 數(shù)據(jù)庫(kù)結(jié)合時(shí),是否遇到了什么問(wèn)題?如果有技術(shù)上的難題,您是如何解決的?能介紹一下相關(guān)的技術(shù)實(shí)踐過(guò)程嗎。
史磊:Redis 在不同領(lǐng)域的廣泛應(yīng)用促使我們從各個(gè)領(lǐng)域收集了對(duì) Redis 搜索的需求。起初,有客戶提出了希望在內(nèi)存中進(jìn)行向量搜索的需求。我們認(rèn)真傾聽了這些客戶的意見,并著手實(shí)現(xiàn)這個(gè)功能。
在實(shí)現(xiàn)過(guò)程中,從初始的 POC(Proof of Concept)項(xiàng)目開始,我們將這個(gè)功能作為一個(gè)附加組件添加到 Redis 中。隨著時(shí)間的推移,我們將它演變成了 Redis 的主推功能。在這個(gè)過(guò)程中,Redis 的主產(chǎn)品與我們的模組功能相互協(xié)同進(jìn)化。舉個(gè)例子來(lái)說(shuō),Redis 企業(yè)版在解決日常應(yīng)用中的痛點(diǎn)方面擁有許多特性,比如內(nèi)建的強(qiáng)大代理(proxy)。這個(gè)代理能夠自動(dòng)將請(qǐng)求導(dǎo)向相應(yīng)的分片,不管是單一分片還是集群模式,從而保證了 Redis 的存儲(chǔ)和吞吐量能夠自動(dòng)調(diào)整,無(wú)需額外干預(yù)。對(duì)客戶而言,借助內(nèi)建的代理,可以簡(jiǎn)化業(yè)務(wù)邏輯,無(wú)需關(guān)心是單一模式還是集群模式。這同時(shí)也解決了搜索的難題,因?yàn)?Redis 每個(gè)分片是單線程模式,如果請(qǐng)求集中在一個(gè)分片上,性能會(huì)受到影響。但如果使用集群模式,客戶端需要維護(hù)連接并了解每個(gè)分片上的數(shù)據(jù),這會(huì)使得業(yè)務(wù)邏輯變得復(fù)雜。
企業(yè)版解決了這些困難,同時(shí)也使得搜索更加容易。在 Redis 集群版中,由于已經(jīng)內(nèi)置了代理,搜索請(qǐng)求能夠自動(dòng)分配到各個(gè)分片上執(zhí)行,并以最低的成本整合結(jié)果。這確保了 Redis 在搜索中不再受制于單一分片的性能,同時(shí)提供更大量、更快速的搜索。這種搜索的擴(kuò)展性和速度得益于 Redis 企業(yè)版內(nèi)置的代理。
在開發(fā) Redis 搜索過(guò)程中,由于需要維護(hù)額外的數(shù)據(jù)結(jié)構(gòu),如索引,我們的產(chǎn)品團(tuán)隊(duì)進(jìn)行了優(yōu)化,確??焖俚姆峙浜筒樵冞@些結(jié)構(gòu),使得 Redis 企業(yè)版性能比開源版有了顯著提升。
此外,我們正在推出的企業(yè)版本中,包括最新的 7.2 版本,已經(jīng)引入了預(yù)覽版的功能。在搜索方面,我們解決了每個(gè)分片上搜索仍然受限于單線程限制的問(wèn)題。通過(guò)多線程方式,我們實(shí)現(xiàn)了同時(shí)搜索,這在測(cè)試中已經(jīng)實(shí)現(xiàn)了超過(guò) 10 倍甚至 16 倍的性能提升。這也說(shuō)明了搜索有許多方法可以進(jìn)一步優(yōu)化性能,這是一個(gè)不斷進(jìn)化和不斷完善的過(guò)程。
InfoQ:把上述功能融入到 Redis ,賦能 Redis 數(shù)據(jù)庫(kù),時(shí)間上花了多久呢?
史磊:這項(xiàng)技術(shù)的演進(jìn)過(guò)程從最初的討論到研究,再到研發(fā),以及現(xiàn)在的預(yù)覽版功能,經(jīng)歷了相當(dāng)長(zhǎng)的時(shí)間。根據(jù)我了解,這個(gè)功能的實(shí)際測(cè)試時(shí)間至少超過(guò)一年,從最初的討論到實(shí)際測(cè)試的過(guò)程確實(shí)需要一段時(shí)間。而在規(guī)劃和實(shí)施這些功能之前,所花費(fèi)的時(shí)間絕對(duì)不止一年。
Redis 的產(chǎn)品團(tuán)隊(duì)投入了大量的時(shí)間和精力,甚至設(shè)立了一個(gè)專門的團(tuán)隊(duì),負(fù)責(zé)確定 Redis 作為向量數(shù)據(jù)庫(kù)需要實(shí)現(xiàn)的功能。這個(gè)團(tuán)隊(duì)需要思考有哪些核心組件可以完成這些功能,還需要與其他團(tuán)隊(duì)合作。整個(gè)過(guò)程需要跨足多個(gè)團(tuán)隊(duì)的合作,因此這是一個(gè)長(zhǎng)期發(fā)展的過(guò)程。
InfoQ:鑒于大模型如此受歡迎,以及數(shù)據(jù)庫(kù)的重要性,您是否認(rèn)為在這個(gè)人工智能與大數(shù)據(jù)的時(shí)代,數(shù)據(jù)庫(kù)變得尤為重要?是否必須要研發(fā)新的數(shù)據(jù)庫(kù),以滿足不斷增長(zhǎng)的需求?
史磊:我認(rèn)為現(xiàn)在的向量數(shù)據(jù)庫(kù)已經(jīng)成為剛需,因?yàn)樗鉀Q了傳統(tǒng)數(shù)據(jù)庫(kù)無(wú)法解決的幾個(gè)核心問(wèn)題。傳統(tǒng)數(shù)據(jù)庫(kù)主要基于關(guān)鍵詞進(jìn)行精確搜索,即存在或不存在的模式。而向量數(shù)據(jù)庫(kù)提供的是近似搜索,當(dāng)我提供一張圖片、一段文字或者一個(gè)語(yǔ)音時(shí),它能夠找到相似的匹配項(xiàng),而不僅僅是 0 和 1 的結(jié)果。它通過(guò)打分機(jī)制給出近似值,這是傳統(tǒng)數(shù)據(jù)庫(kù)無(wú)法實(shí)現(xiàn)的。
同時(shí),傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)的索引方法也無(wú)法直接適用于現(xiàn)在的向量數(shù)據(jù)庫(kù)。因?yàn)樵诘讓?,包括?jì)算、數(shù)據(jù)存儲(chǔ)以及應(yīng)用層面,向量數(shù)據(jù)庫(kù)與傳統(tǒng)數(shù)據(jù)庫(kù)完全不同。起初,向量數(shù)據(jù)庫(kù)可能只是作為關(guān)系數(shù)據(jù)庫(kù)的一個(gè)補(bǔ)充。然而,隨著大數(shù)據(jù)、大模型和人工智能的發(fā)展,對(duì)于向量的存儲(chǔ)和查詢以及快速性能都提出了更高的要求,只有向量數(shù)據(jù)庫(kù)才能夠滿足這些要求。
向量數(shù)據(jù)庫(kù)的需求會(huì)持續(xù)上升嗎
InfoQ:未來(lái)向量數(shù)據(jù)庫(kù)的需求會(huì)持續(xù)上升嗎?
史磊:我認(rèn)為這是一個(gè)持續(xù)上升的過(guò)程。隨著大模型的興起,對(duì)向量數(shù)據(jù)庫(kù)的需求不斷增加。許多傳統(tǒng)的向量數(shù)據(jù)庫(kù)也在不斷進(jìn)行迭代和更新,一些以前不支持向量數(shù)據(jù)庫(kù)的產(chǎn)品也在聲稱自己支持,不斷地添加這一功能。因此,這種需求將持續(xù)存在,這是一個(gè)不斷洗牌、淘汰不足的過(guò)程。
InfoQ:目前有一些人認(rèn)為未來(lái)的每個(gè)數(shù)據(jù)庫(kù)都會(huì)自然而然地、本地支持向量嵌入和向量搜索。您對(duì)這種觀點(diǎn)有何看法?如果這種趨勢(shì)確實(shí)出現(xiàn),它會(huì)對(duì)向量數(shù)據(jù)庫(kù)行業(yè)產(chǎn)生什么影響,可能會(huì)有哪些積極的方面,或者可能會(huì)帶來(lái)哪些挑戰(zhàn)?
史磊:從技術(shù)角度來(lái)看,幾乎任何存儲(chǔ)系統(tǒng)或查詢系統(tǒng)都可以通過(guò)添加功能來(lái)支持向量搜索、查詢或存儲(chǔ)。從這個(gè)角度來(lái)說(shuō),技術(shù)上并沒(méi)有問(wèn)題。然而,在實(shí)際應(yīng)用中,我們可能會(huì)逐漸趨向于一種或兩種常用的類型,其他的方式可能會(huì)逐漸淘汰。盡管它們都是數(shù)據(jù)存儲(chǔ)或數(shù)據(jù)庫(kù)系統(tǒng),但它們通過(guò)不同的方法來(lái)滿足索引和查詢的需求。傳統(tǒng)的數(shù)據(jù)庫(kù)很難直接支持向量查詢,因?yàn)樵诘讓釉O(shè)計(jì)上缺乏對(duì)向量查詢的有效支持。盡管可以通過(guò)添加功能來(lái)實(shí)現(xiàn),但這可能變得笨拙且不夠便捷。
新興的向量數(shù)據(jù)庫(kù)可能更適應(yīng)當(dāng)前的需求,但它們可能會(huì)引入系統(tǒng)的復(fù)雜性。例如,客戶可能需要同時(shí)使用傳統(tǒng)數(shù)據(jù)庫(kù)、關(guān)系數(shù)據(jù)庫(kù)和向量數(shù)據(jù)庫(kù),這會(huì)增加維護(hù)、成本和開銷。因此,我們需要找到一個(gè)良好的平衡點(diǎn),一個(gè)系統(tǒng)既能滿足向量數(shù)據(jù)庫(kù)的要求,同時(shí)也能滿足傳統(tǒng)查詢功能的需求。找到這樣的組合是關(guān)鍵。作為客戶,如果能夠使用一個(gè)系統(tǒng)來(lái)高效地完成不同類型的功能,而不是選擇傳統(tǒng)系統(tǒng)再另外添加功能,維護(hù)成本和各種成本都會(huì)降低。
在這種情況下,我認(rèn)為 Redis 可以很好地實(shí)現(xiàn)這種平衡。Redis 不僅是廣泛使用的應(yīng)用,作為企業(yè)版,它還提供了完整的企業(yè)級(jí)應(yīng)用生態(tài)系統(tǒng),可以幫助客戶滿足各種需求。無(wú)論是向量搜索還是標(biāo)量搜索,在 Redis 中都是以 key-value 的方式存儲(chǔ)在內(nèi)存中,查詢效率都很高。此外,Redis 還具有強(qiáng)大的混合查詢功能,允許同時(shí)查詢向量和其他類型的數(shù)據(jù),如文本、數(shù)值或 GPS 信息。這種原生的混合查詢功能使得 Redis 在向量數(shù)據(jù)庫(kù)領(lǐng)域具有顯著優(yōu)勢(shì),同時(shí)保持高性能。
AIGC 浪潮下,開發(fā)者該如何“武裝”自己?
InfoQ:作為一個(gè)在數(shù)據(jù)庫(kù)領(lǐng)域有多年經(jīng)驗(yàn)的老師,您認(rèn)為現(xiàn)在程序員如果希望在 AI 和向量數(shù)據(jù)庫(kù)領(lǐng)域發(fā)展,需要掌握哪些關(guān)鍵技能呢?
史磊:當(dāng)前技術(shù)的迭代速度極快,去年使用的產(chǎn)品和經(jīng)驗(yàn)可能在今年已經(jīng)變得過(guò)時(shí),或者新的技術(shù)已經(jīng)涌現(xiàn)。在這種情況下,我認(rèn)為首先我們需要更深入地了解現(xiàn)有系統(tǒng)。以 Redis 為例,大多數(shù)人可能知道它在緩存方面表現(xiàn)出色,但除此之外,Redis 在其他領(lǐng)域的應(yīng)用可能并不為人所知。作為技術(shù)從業(yè)者,了解主流產(chǎn)品的底層架構(gòu)和功能,以及它們能夠?qū)崿F(xiàn)的功能非常重要。
我們需要不斷地更新知識(shí),尤其是在向量數(shù)據(jù)庫(kù)和大模型等新興技術(shù)興起之后。作為技術(shù)人員,要積極擁抱新技術(shù),深入了解它們的工作原理和應(yīng)用場(chǎng)景。不是從已有技術(shù)跳躍到嶄新的技術(shù),而是要利用自身積累的經(jīng)驗(yàn),將新技術(shù)應(yīng)用于現(xiàn)有的工作中。雖然這種技術(shù)轉(zhuǎn)換是存在成本的,但我們需要找到最有效的方法來(lái)將轉(zhuǎn)換成本降至最低,讓技術(shù)為我們服務(wù),而不是成為技術(shù)的奴隸。這需要經(jīng)驗(yàn)、技術(shù)洞察力和不斷的探索精神來(lái)實(shí)現(xiàn)。
未來(lái)向量數(shù)據(jù)庫(kù)市場(chǎng)會(huì)正向地“卷”
InfoQ:老師的話確實(shí)給了我們很有價(jià)值的啟示。最后,我們可以探討一個(gè)廣泛受關(guān)注的話題,即向量數(shù)據(jù)庫(kù)未來(lái)的發(fā)展。當(dāng)前,向量數(shù)據(jù)庫(kù)已經(jīng)進(jìn)入了熱門階段,許多相關(guān)技術(shù)也變得非常成熟,包括向量索引和傳統(tǒng)數(shù)據(jù)庫(kù)技術(shù)。然而,人們普遍關(guān)心的是,未來(lái)的發(fā)展將會(huì)走向何方,以及我們應(yīng)該關(guān)注哪些趨勢(shì)?
史磊:根據(jù)我的個(gè)人觀點(diǎn),結(jié)合我多年來(lái)在 AI 和大數(shù)據(jù)領(lǐng)域的經(jīng)驗(yàn),以及對(duì)傳統(tǒng)數(shù)據(jù)庫(kù)的了解,我要說(shuō),幾年前我無(wú)法預(yù)料到數(shù)據(jù)庫(kù)領(lǐng)域能夠如此迅速地發(fā)展至今的程度。
在向量數(shù)據(jù)庫(kù)方面,我認(rèn)為它的出現(xiàn)受到了強(qiáng)烈的驅(qū)動(dòng)力,這種驅(qū)動(dòng)力能夠快速淘汰那些不合適的技術(shù),同時(shí)也會(huì)促使新技術(shù)的不斷涌現(xiàn),這是一個(gè)逐步篩選的過(guò)程。從長(zhǎng)遠(yuǎn)來(lái)看,我堅(jiān)信向量數(shù)據(jù)庫(kù)將不斷成熟,同時(shí)也會(huì)為不同的應(yīng)用場(chǎng)景提供更加精準(zhǔn)的向量搜索結(jié)果。
以一個(gè)簡(jiǎn)單的例子來(lái)說(shuō)明,我們可能需要實(shí)時(shí)、快速的搜索,也可能需要大規(guī)模特征搜索。在未來(lái),這些需求可能會(huì)逐漸演變成不同的維度。我相信會(huì)有一些特定領(lǐng)域的向量數(shù)據(jù)庫(kù)逐漸嶄露頭角,可能會(huì)涌現(xiàn)出一兩個(gè)或者更多的適應(yīng)特定場(chǎng)景的數(shù)據(jù)庫(kù)類型。每個(gè)類型可能會(huì)在特定的領(lǐng)域得到優(yōu)化,這將是一個(gè)整合與優(yōu)化的過(guò)程。
InfoQ:未來(lái)向量數(shù)據(jù)庫(kù)會(huì)不像傳統(tǒng)數(shù)據(jù)庫(kù)那樣,在國(guó)內(nèi)涌現(xiàn) 200 多家出來(lái)?
史磊:我認(rèn)為數(shù)據(jù)庫(kù)市場(chǎng)的持續(xù)擴(kuò)張是不可避免的,這主要是因?yàn)榧夹g(shù)的迭代速度非常快,同時(shí)技術(shù)門檻也在逐漸降低。當(dāng)前存在著大量的需求,這將吸引越來(lái)越多的數(shù)據(jù)庫(kù)甚至向量數(shù)據(jù)庫(kù)加入競(jìng)爭(zhēng)。然而,從業(yè)界角度看,這種市場(chǎng)擴(kuò)張是有利的。它可以促使更多的技術(shù)和業(yè)務(wù)參與,盡管市場(chǎng)在一定范圍內(nèi)會(huì)有限制,但這將在一場(chǎng)競(jìng)爭(zhēng)中篩選出更優(yōu)秀的技術(shù)和解決方案,以更好地滿足需求。
我希望看到更多競(jìng)爭(zhēng)者涌現(xiàn)在這個(gè)領(lǐng)域,同時(shí)也期待看到哪些技術(shù)能夠經(jīng)受住應(yīng)用的考驗(yàn),證明自己在實(shí)踐中的可行性。對(duì)我而言,這種市場(chǎng)擴(kuò)張應(yīng)當(dāng)是良性的。我們不希望看到惡性競(jìng)爭(zhēng),也不應(yīng)該是通過(guò)貶低其他應(yīng)用來(lái)凸顯自身的優(yōu)越性。我認(rèn)為這對(duì)于行業(yè)的生態(tài)是不利的。相反,我期待一種良性競(jìng)爭(zhēng),讓人們有更多優(yōu)質(zhì)的選擇,從而推動(dòng)整個(gè)領(lǐng)域的進(jìn)步。
-
數(shù)據(jù)庫(kù)
+關(guān)注
關(guān)注
7文章
3841瀏覽量
64545 -
OpenAI
+關(guān)注
關(guān)注
9文章
1103瀏覽量
6602 -
ChatGPT
+關(guān)注
關(guān)注
29文章
1564瀏覽量
7866 -
AIGC
+關(guān)注
關(guān)注
1文章
366瀏覽量
1573
原文標(biāo)題:ChatGPT 和 OpenAI 都在用的 Redis,是如何從傳統(tǒng)數(shù)據(jù)庫(kù)升級(jí)為向量數(shù)據(jù)庫(kù)的?
文章出處:【微信號(hào):AI前線,微信公眾號(hào):AI前線】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論