0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

無需管理底層基礎(chǔ)設(shè)施,亞馬遜云科技向量數(shù)據(jù)庫輕松創(chuàng)建ML增強(qiáng)的搜索體驗(yàn)和應(yīng)用程序

科技新思路 ? 來源:科技新思路 ? 作者:科技新思路 ? 2023-11-15 11:11 ? 次閱讀

當(dāng)我們進(jìn)入一家圖書館時(shí),圖書館的入口處會(huì)有幾臺(tái)電腦供你檢索相關(guān)的書籍,你可以檢索你想要的書籍的名字例如:《百年孤獨(dú)》、《悲慘世界》等等,你也可以檢索作者例如:川端康成、魯迅、加繆等等,當(dāng)然你也可以檢索分類,例如:歷史、哲學(xué)、文學(xué)等等,這就是傳統(tǒng)的關(guān)系型數(shù)據(jù)庫,檢索這樣簡(jiǎn)單關(guān)系的數(shù)據(jù)是沒有任何問題的。但當(dāng)你只能記起書里的某個(gè)章節(jié)或者人物的某個(gè)特征而想檢索到這本書時(shí),你就無能為力了,甚至我們可以把視野放的更大一點(diǎn),你想檢索一段音頻或者一張偶然拍下的花朵時(shí),傳統(tǒng)的關(guān)系型數(shù)據(jù)庫恐怕對(duì)這樣的要求就捉襟見肘了,也正是基于解決這樣問題的要求,向量數(shù)據(jù)庫應(yīng)運(yùn)而生。

那么什么是向量數(shù)據(jù)庫?它的原理是怎么樣的?又為什么說未來是向量數(shù)據(jù)庫的天下呢?

要想了解什么是向量數(shù)據(jù)庫我們就必須得明白一個(gè)高中的數(shù)學(xué)知識(shí):向量。在數(shù)學(xué)中,向量是有大小和方向的量,可以使用帶箭頭的線段表示,箭頭指向即為向量的方向,線段的長(zhǎng)度表示向量的大小。兩個(gè)向量的距離或者相似性可以通過歐式距離、余弦距離等得到,這就是向量數(shù)據(jù)庫運(yùn)行的基本數(shù)學(xué)原理。

接下來就可以介入向量數(shù)據(jù)的元素了,前面舉到的圖書館的示例只是將一群事物進(jìn)行類別上標(biāo)簽的歸類,但對(duì)于復(fù)雜的事物就難以簡(jiǎn)單地打標(biāo)簽了,而且想要進(jìn)行更復(fù)雜的運(yùn)算和檢索過程就必須將一個(gè)具體的事物數(shù)據(jù)化。向量數(shù)據(jù)就是根據(jù)事物的各項(xiàng)特征進(jìn)行向量得的賦予,例如我們想要在數(shù)據(jù)世界區(qū)別梅西和C羅,就可以從具體的特征出發(fā)比如身高、發(fā)色、鼻梁高低、眼睛大小、聲音響度高低等等方面,賦予他們向量,就能發(fā)現(xiàn)兩個(gè)人的區(qū)別。

而這種向量當(dāng)賦予全球80多億人時(shí)就會(huì)發(fā)現(xiàn),每個(gè)人都不盡相同,而且給予向量的特征角度越多,那么數(shù)據(jù)就會(huì)越準(zhǔn)確。這從數(shù)學(xué)理論方面建立了每個(gè)人的模型,利用這個(gè)模型,我們就能在二進(jìn)制世界中建立另一個(gè)現(xiàn)實(shí)世界,這樣我們就可以將一本小說、一首音樂、一段視頻、一張照片數(shù)據(jù)化,這就是向量數(shù)據(jù)。

當(dāng)我們想要檢索某一事物時(shí),只需要盡可能多的提供的某些特征,電腦就會(huì)將這些特征轉(zhuǎn)化為向量,向量空間中會(huì)進(jìn)行相似度計(jì)算和索引,而向量數(shù)據(jù)庫可以實(shí)現(xiàn)高效的數(shù)據(jù)檢索和分析,例如檢索雙胞胎中的某一個(gè)時(shí),另一個(gè)就會(huì)最快出現(xiàn)。而當(dāng)你檢索一本小說中的某一橋段時(shí),這本小說也會(huì)最快的被匹配到從而被檢索出。

那么接下來就可以真正了解向量數(shù)據(jù)庫了,向量數(shù)據(jù)庫就是一種特殊類型的數(shù)據(jù)庫,用于存儲(chǔ)和索引向量數(shù)據(jù)。在傳統(tǒng)數(shù)據(jù)庫中,數(shù)據(jù)是以表格的形式進(jìn)行組織和存儲(chǔ)的,而向量數(shù)據(jù)庫則專注于處理和查詢向量數(shù)據(jù),這些數(shù)據(jù)通常表示為多維數(shù)值數(shù)組。向量數(shù)據(jù)庫的主要目的是支持高效的向量相似性搜索和查詢。向量數(shù)據(jù)庫廣泛應(yīng)用于人臉識(shí)別、圖像搜索、視頻分析、語音識(shí)別、推薦系統(tǒng)等領(lǐng)域。通過在向量空間中計(jì)算向量之間的距離和相似度,可以快速找到與目標(biāo)向量最相似的數(shù)據(jù)對(duì)象,從而實(shí)現(xiàn)高效的搜索和匹配。值得注意的是,向量數(shù)據(jù)庫主要適用于處理高維度的向量數(shù)據(jù),而且在處理大規(guī)模數(shù)據(jù)集時(shí)通常能提供更高的查詢性能和可擴(kuò)展性。因此,在某些特定的應(yīng)用場(chǎng)景下,向量數(shù)據(jù)庫可以作為傳統(tǒng)數(shù)據(jù)庫的補(bǔ)充或替代選擇。

之所以說未來是向量數(shù)據(jù)庫的天下,是因?yàn)橄蛄繑?shù)據(jù)庫讓大模型有了"記憶"的功能,在初始的大語言模型中,世界知識(shí)和語義理解被壓縮為靜態(tài)參數(shù),模型不會(huì)隨著交互記住用戶的聊天記錄和喜好,也無法調(diào)用額外知識(shí)信息來輔助判斷,因此模型只能根據(jù)歷史訓(xùn)練數(shù)據(jù)回答問題,并且經(jīng)常產(chǎn)生幻覺,給出與事實(shí)相悖的答案。也就是說大數(shù)據(jù)模型是一個(gè)計(jì)算力恐怖的大腦,但是這個(gè)大腦的記憶力奇差,而向量數(shù)據(jù)庫就相當(dāng)于給這個(gè)大腦裝配上了海馬體,讓這個(gè)大腦真正的像人一樣,能計(jì)算還能根據(jù)過去的記憶計(jì)算,從而使返回結(jié)果更精準(zhǔn),這也就是這幾年AI科技發(fā)展速度奇快的原因之一。

2023年8月1日,亞馬遜云科技推出了Amazon OpenSearch Serverless向量引擎預(yù)覽版,為用戶提供了一種簡(jiǎn)單、可擴(kuò)展且高性能的相似性搜索功能,使用戶能夠輕松地創(chuàng)建現(xiàn)代化機(jī)器學(xué)習(xí)(ML)增強(qiáng)的搜索體驗(yàn)和生成式AI應(yīng)用程序,同時(shí)無需管理底層的向量數(shù)據(jù)庫基礎(chǔ)設(shè)施。

那么Amazon OpenSearch Serverless向量引擎的優(yōu)勢(shì)又有哪些呢?

1、構(gòu)建于Amazon OpenSearch Serverless的向量引擎天然具備魯棒性(這個(gè)詞挺抽象的,可以理解為系統(tǒng)更加穩(wěn)健,性能更強(qiáng))。因?yàn)閬嗰R遜云科技向量引擎可自動(dòng)調(diào)整資源,來適應(yīng)不斷變化的工作負(fù)載模式和需求,從而提供始終如一的快速性能和適當(dāng)規(guī)模。用戶也就不必?fù)?dān)心后端基礎(chǔ)設(shè)施的選型、調(diào)優(yōu)和擴(kuò)展問題。

2、Amazon OpenSearch Serverless向量引擎由開源OpenSearch項(xiàng)目中的k近鄰(即kNN,可以理解為物以類聚算法,向量數(shù)據(jù)越接近越容易被檢索)搜索功能提供支持,該功能能夠提供可靠而精確的結(jié)果。簡(jiǎn)單來說,就是兼容了很多種算法,降低了復(fù)雜性,提升了可維護(hù)性,并且避免了數(shù)據(jù)重復(fù)、版本兼容性難題和許可問題,有效地簡(jiǎn)化了應(yīng)用程序棧。

3、向量引擎支持不同領(lǐng)域的廣泛用例,包括圖像搜索、文檔搜索、音樂檢索、產(chǎn)品推薦、視頻搜索、基于位置的搜索、欺詐檢測(cè)以及異常檢測(cè)。

在向量引擎正式版可用前,亞馬遜云科技計(jì)劃提供兩項(xiàng)功能來降低客戶使用向量引擎的成本。第一項(xiàng)功能是開發(fā)——測(cè)試選項(xiàng),讓用戶可以在不創(chuàng)建備份或副本的情況下啟動(dòng)集合,從而減少了50%的入門成本。第二項(xiàng)功能是初始配置0.5個(gè)OCU資源,根據(jù)用戶實(shí)際工作需要來擴(kuò)展資源,這可以幫助用戶進(jìn)一步節(jié)約成本。除此之外,亞馬遜云科技還將降低支持用戶首個(gè)集合所需的最低OCU數(shù)量,從每小時(shí)4個(gè)降至每小時(shí)1個(gè),以減少用戶的成本支出。

總的來說,亞馬遜云科技的向量引擎具有強(qiáng)大的性能和可擴(kuò)展性,可以滿足各種應(yīng)用程序的需求。

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)庫
    +關(guān)注

    關(guān)注

    7

    文章

    3868

    瀏覽量

    65025
  • ML
    ML
    +關(guān)注

    關(guān)注

    0

    文章

    149

    瀏覽量

    34810
  • 亞馬遜
    +關(guān)注

    關(guān)注

    8

    文章

    2687

    瀏覽量

    83993
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    數(shù)據(jù)庫要購買服務(wù)器嗎?答案在這里

    數(shù)據(jù)庫通常無需用戶購買服務(wù)器,由提供商負(fù)責(zé)底層硬件維護(hù)。用戶可通過Web界面或API配置和管理數(shù)據(jù)庫
    的頭像 發(fā)表于 01-17 09:55 ?129次閱讀

    避坑指南:服務(wù)器數(shù)據(jù)庫購買方法全攻略

    服務(wù)器數(shù)據(jù)庫購買方法包含:先明確業(yè)務(wù)需求與數(shù)據(jù)庫類型,再挑選信譽(yù)好、技術(shù)支持強(qiáng)的服務(wù)提供商,接著根據(jù)需求配置數(shù)據(jù)庫實(shí)例及選擇付費(fèi)方式。購
    的頭像 發(fā)表于 01-15 10:05 ?191次閱讀

    分布式數(shù)據(jù)庫有哪些類型

    分布式數(shù)據(jù)庫有哪些類型?分布式數(shù)據(jù)庫主要類型包括:關(guān)系型分布式數(shù)據(jù)庫、非關(guān)系型分布式數(shù)據(jù)庫
    的頭像 發(fā)表于 01-15 09:43 ?184次閱讀

    數(shù)據(jù)庫是哪種數(shù)據(jù)庫類型?

    數(shù)據(jù)庫是一種部署在虛擬計(jì)算環(huán)境中的數(shù)據(jù)庫,它融合了計(jì)算的彈性和可擴(kuò)展性,為用戶提供高效、靈活的數(shù)據(jù)庫服務(wù)。
    的頭像 發(fā)表于 01-07 10:22 ?220次閱讀

    Looker Studio連接器:一個(gè)連接器從多個(gè)數(shù)據(jù)庫應(yīng)用獲取數(shù)據(jù)

    本地數(shù)據(jù)連接器 通過 Skyvia Agent 應(yīng)用程序輕松將 Looker Studio(前身為 Google Data Studio)連接到本地數(shù)據(jù)庫
    的頭像 發(fā)表于 01-03 09:07 ?257次閱讀
    Looker Studio連接器:一個(gè)連接器從多個(gè)<b class='flag-5'>數(shù)據(jù)庫</b>和<b class='flag-5'>云</b>應(yīng)用獲取<b class='flag-5'>數(shù)據(jù)</b>

    超級(jí)應(yīng)用程序Grab選擇亞馬遜科技為首選服務(wù)商

    推動(dòng)技術(shù)創(chuàng)新與業(yè)務(wù)增長(zhǎng) 北京2024年12月19日?/美通社/ -- 在亞馬遜科技2024 re:Invent全球大會(huì)上,亞馬遜科技與東南亞領(lǐng)先的超級(jí)
    的頭像 發(fā)表于 12-19 15:31 ?339次閱讀

    服務(wù)器還需要租用數(shù)據(jù)庫嗎?

    如果你的應(yīng)用程序需要處理大量的數(shù)據(jù),并且這些數(shù)據(jù)需要高效的查詢和分析能力,那么租用專業(yè)的數(shù)據(jù)庫服務(wù)可能是更好的選擇。這些服務(wù)通常提供了更高的性能、更好的可擴(kuò)展性和更強(qiáng)的
    的頭像 發(fā)表于 10-31 10:50 ?188次閱讀

    數(shù)據(jù)庫可以租用嗎?完整租用流程來了

    數(shù)據(jù)庫是可以租用的,這是一種合法且便捷的數(shù)據(jù)存儲(chǔ)和管理方式。數(shù)據(jù)庫
    的頭像 發(fā)表于 10-28 09:54 ?266次閱讀

    恒訊科技分析:數(shù)據(jù)庫mysql有何優(yōu)缺點(diǎn)?

    隨著服務(wù)的成熟和成本的降低,將數(shù)據(jù)庫遷移到可以提供靈活、經(jīng)濟(jì)且可擴(kuò)展的數(shù)據(jù)庫管理。我們團(tuán)隊(duì)的應(yīng)用程序
    的頭像 發(fā)表于 10-23 15:08 ?267次閱讀
    恒訊科技分析:<b class='flag-5'>云</b><b class='flag-5'>數(shù)據(jù)庫</b>mysql有何優(yōu)缺點(diǎn)?

    科技報(bào)到:大模型時(shí)代下,向量數(shù)據(jù)庫的野望

    科技報(bào)到:大模型時(shí)代下,向量數(shù)據(jù)庫的野望
    的頭像 發(fā)表于 10-14 17:18 ?360次閱讀

    一文詳解企業(yè)上數(shù)據(jù)庫是干嘛的

    業(yè)上數(shù)據(jù)庫是企業(yè)將其數(shù)據(jù)庫系統(tǒng)從傳統(tǒng)的本地數(shù)據(jù)中心遷移到由第三方服務(wù)提供商管理的遠(yuǎn)程服務(wù)器上
    的頭像 發(fā)表于 09-13 11:49 ?457次閱讀

    華納:MySQL初始化操作如何創(chuàng)建新的數(shù)據(jù)庫

    要在MySQL中創(chuàng)建一個(gè)新的數(shù)據(jù)庫,可以按照以下步驟進(jìn)行操作: 登錄到MySQL數(shù)據(jù)庫管理系統(tǒng)中??梢允褂肕ySQL命令行客戶端或者圖形化工具,如phpMyAdmin。 使用CREAT
    的頭像 發(fā)表于 09-04 14:30 ?373次閱讀

    DTCC2024前瞻:天翼數(shù)據(jù)庫專家共話TeleDB發(fā)展藍(lán)圖

    數(shù)據(jù)庫是IT基礎(chǔ)設(shè)施領(lǐng)域重要的組成部分,天翼緊跟數(shù)據(jù)庫行業(yè)技術(shù)方向與創(chuàng)新趨勢(shì),強(qiáng)化核心技術(shù)的自研實(shí)力,助力企業(yè)釋放數(shù)據(jù)價(jià)值。在8月22日-
    的頭像 發(fā)表于 08-19 14:53 ?480次閱讀
    DTCC2024前瞻:天翼<b class='flag-5'>云</b><b class='flag-5'>數(shù)據(jù)庫</b>專家共話TeleDB發(fā)展藍(lán)圖

    大模型卷價(jià)格,向量數(shù)據(jù)庫“卷”什么?

    被大模型“帶飛”這一年,向量數(shù)據(jù)庫才剛剛寫下序言
    的頭像 發(fā)表于 05-23 09:24 ?1902次閱讀
    大模型卷價(jià)格,<b class='flag-5'>向量</b><b class='flag-5'>數(shù)據(jù)庫</b>“卷”什么?

    搭載英偉達(dá)GPU,全球領(lǐng)先的向量數(shù)據(jù)庫公司Zilliz發(fā)布Milvus2.4向量數(shù)據(jù)庫

    在美國(guó)硅谷圣何塞召開的 NVIDIA GTC 大會(huì)上,全球領(lǐng)先的向量數(shù)據(jù)庫公司 Zilliz 發(fā)布了 Milvus 2.4 版本。這是一款革命性的向量數(shù)據(jù)庫系統(tǒng),在業(yè)界首屈一指,它首次
    的頭像 發(fā)表于 04-01 14:33 ?640次閱讀
    搭載英偉達(dá)GPU,全球領(lǐng)先的<b class='flag-5'>向量</b><b class='flag-5'>數(shù)據(jù)庫</b>公司Zilliz發(fā)布Milvus2.4<b class='flag-5'>向量</b><b class='flag-5'>數(shù)據(jù)庫</b>