0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

當Apache Doris遇上大模型:探秘騰訊音樂如何基于大模型+OLAP構建智能數據服務平臺

OSC開源社區(qū) ? 來源:OSC開源社區(qū) ? 2023-08-30 16:01 ? 次閱讀

本文導讀當前,大語言模型的應用正在全球范圍內引發(fā)新一輪的技術革命與商業(yè)浪潮。騰訊音樂作為中國領先在線音樂娛樂平臺,利用龐大用戶群與多元場景的優(yōu)勢,持續(xù)探索大模型賽道的多元應用。本文將詳細介紹騰訊音樂如何基于 Apache Doris 構建查詢高效、實時統(tǒng)一分析的 OLAP 引擎,使 OLAP 作為底層基建加強模型連接轉化效率、結果輸出準確率,最終將大模型 + OLAP 引擎結合為用戶提供個性化、實時化、靈活化的智能數據服務平臺。

騰訊音樂娛樂集團(以下簡稱“騰訊音樂”)是中國在線音樂娛樂服務開拓者,有著廣泛的用戶基礎,總月活用戶數超過 8 億,通過“一站式”的音樂娛樂平臺,用戶可以在多場景間無縫切換并享受多元的音樂服務。我們希望通過技術和數據賦能,為用戶帶來更好的體驗,為音樂人和合作伙伴在音樂制作、發(fā)行、銷售等方面提供支持。

基于公司豐富的音樂內容資產,需要將歌曲庫、藝人資訊、專輯信息、廠牌信息等大量數據進行統(tǒng)一存儲形成音樂內容數據倉庫,并通過產品工具為業(yè)務人員提供數據分析服務。在內容數倉搭建的過程中,我們的工作始終圍繞降本增效為主要目的進行優(yōu)化與迭代,希望在數據服務方面不斷提升產品工具的開發(fā)與分析效率,同時在數倉架構方面能夠有效減少架構成本與資源開銷。

4f19e9ec-465d-11ee-a2ef-92fbcf53809c.jpg

在傳統(tǒng)數據服務中,我們?yōu)闃I(yè)務分析師提供了多種數據服務,包括 SQL 查詢、固定看板、定制化的分析工具以及人工跑數。然而,在實際應用過程中仍然存在一定痛點:

SQL 查詢平臺:業(yè)務分析師根據需求進行 SQL 語句編寫,對平臺數據進行查詢分析,每位業(yè)務人員都需要掌握 SQL,導致學習成本高、上手難度大。

固定看板(Dashboard):技術人員基于常規(guī)業(yè)務開發(fā)制作數據看板,雖然能夠簡化業(yè)務分析師查詢的過程,但是看板制作成本高且靈活度低,當面對復雜的用戶問題時,看板無法及時調整以滿足需求變更。

定制分析工具:基于特定的業(yè)務需求,技術人員需要定制化開發(fā)產品分析工具,整體開發(fā)成本過高,且單一的開發(fā)工具不具備通用性,隨著工具數量增加,操作介面變得散亂,從而降低業(yè)務效率。

人工跑數:當以上三個場景都無法滿足業(yè)務需求時,業(yè)務分析師需要向技術人員提需求進行人工跑數,溝通成本過高、整體解決效率低下。

隨著行業(yè)發(fā)展趨勢,LLMs 大語言模型(LLMs - Large Language Models,以下統(tǒng)一簡稱為大模型)出現(xiàn)有效地解決了這些問題。當平臺融入大模型后,平臺用戶輸入的問題會進入大模型進行語義解析,自動轉化為 SQL 語句觸發(fā) OLAP 引擎開啟數據分析與查詢。通過平臺智能問答交互的方式,業(yè)務分析師不再需要依靠人工編寫 SQL 提供查詢分析結果,技術人員也不需要再制作過于固定或者過于定制化的產品工具。大模型 + OLAP 引擎結合的全新數據服務模式,不僅為平臺用戶提供了個性化、靈活表達、秒級回復的服務體驗,還大幅降低了企業(yè)內部技術與業(yè)務學習成本,加速數據分析效率,實現(xiàn)多端入口統(tǒng)一、界面統(tǒng)一的平臺構建。本文將詳細介紹騰訊音樂如何基于 Apache Doris 構建查詢高效、實時寫入且統(tǒng)一的 OLAP 分析引擎,使 OLAP 作為底層基建加強大模型與之連接轉化的效率、結果輸出的準確率,最終提供更智能化的問答交互服務,也希望通過這篇文章為有相關業(yè)務需求的公司提供不同視角和思路。

大模型 + OLAP :開啟數據服務平臺新模式

在大模型 + OLAP 架構方案中,目前經典方案如下圖所示,大模型充當中間層將用戶輸入的自然語言轉化為 SQL 執(zhí)行語句,OLAP 作為底層存儲和數據處理的引擎,負責接受和執(zhí)行從大模型發(fā)送過來的 SQL 語句,對數據進行預聚合、多維分析等操作,滿足大規(guī)模數據集的查詢分析需求。

4f39818a-465d-11ee-a2ef-92fbcf53809c.png

然而,這種架構在實際落地過程中也面臨一定挑戰(zhàn),例如語義理解的準確性、查詢效率的優(yōu)化、私域知識的理解等方面,具體如下:

復雜數據口徑不統(tǒng)一:大模型對于技術方面的詞匯,如字段、行列、表等無法理解,相反對于業(yè)務方面的詞匯,如公司收入情況、日活躍用戶數量等能夠提供有效翻譯與轉換。因此挑戰(zhàn)之一是需要思考如何引導用戶進入指標范圍內提問,挑戰(zhàn)之二是當用戶存在對多種指標、多類指標查詢時,需要考慮如何保持指標維度口徑的統(tǒng)一、如何有效生成對應的指標計算公式。

模型處理效率較低:現(xiàn)階段大模型雖然支持交互能力,但推理速度較慢,需要花費十秒級以上響應,用戶每增加一個問題輸入,就需要花費更多等待時間,使服務質量降低。同時大模型整體按照 Token 收費,使用量增加時也會導致平臺成本升高。

私域知識無法識別:雖然大模型已經開展許多公開數據集的語言轉換訓練,但面對企業(yè)內部的大量專業(yè)術語仍無法很好地理解轉化。以音樂內容數據庫為例,大模型時常缺少對于某些冷門歌曲的認知,在問答過程中無法正確給出交互反饋,因此我們需要增強大模型對于私域知識的理解。

定制場景無法滿足:大模型主要依據自身數據集進行回答,會出現(xiàn)“知識幻覺”(輸出缺乏依據的內容)問題,我們需要允許第三方插件的接入使大模型得以聯(lián)網,讓用戶借助內部插件完成更定制化、更多樣的任務。因此如何接入、匹配并觸發(fā)組件功能是我們的重點優(yōu)化目標。

面對經典方案中的落地難點,我們的總體解決思路是將以上四大挑戰(zhàn)逐一拆解,通過組件疊加分階段完善大模型 + OLAP 架構構建,最終實現(xiàn)全新的交互問答服務模式,接下來我們將介紹各階段挑戰(zhàn)對應的解決方案。01增加語義層:處理復雜數據問題

4f511520-465d-11ee-a2ef-92fbcf53809c.png

為了解決復雜數據處理問題,我們在大模型與 OLAP 中間增加 Semantic Layer(以下簡稱語義層)。一方面語義層作為連接技術與業(yè)務之間的轉換橋梁,能夠將數據字段翻譯為業(yè)務用戶的術語,使業(yè)務知識作為額外的抽象層。通過語義層,業(yè)務分析師不需要在定義指標后存儲于 OLAP 數倉中,能夠直接在語義層中指定過濾條件,將所需指標篩選后生成 SQL 語句并在 OLAP 中進行字段查詢。這意味著,業(yè)務分析師能夠把多源數據按照需求定義成語義信息并形成語義標準,有效解決了多種指標、多類維度計算口徑不統(tǒng)一的挑戰(zhàn)。另一方面語義層能夠針對業(yè)務計算邏輯,進行語義加工、描述、關聯(lián)和運算。語義層在過濾數據后,能夠屏蔽由表關聯(lián)所產生的復雜指標計算公式,將多表 Join 場景進行拆解、轉化,形成較為簡單的單表查詢,以提升語義轉化的準確性。02設定人工經驗:處理模型效率問題

4f73c3ae-465d-11ee-a2ef-92fbcf53809c.png

針對模型效率問題,我們的解決思路是對指標計算、明細查詢、人群圈選等查詢場景進行復雜度判定,將簡單查詢場景直接跳過大模型解析的步驟,進入底層 OLAP 進行處理分析,使大模型更加專注處理復雜查詢場景。

為此,如上圖所示我們在模型中添加人工經驗判斷。當業(yè)務分析師輸入 “查詢各大音樂平臺收入”問題時,模型依據判定規(guī)則發(fā)現(xiàn)該場景只需要提供某個指標或幾個維度即可完成,這時不需要將問題進入大模型解析,直接使用 OLAP 進行查詢分析,能夠有效縮短響應時間,提升結果反饋效率。此外,跳過大模型解析的步驟也能夠節(jié)省 API 調用經費,解決平臺使用成本升高的問題。

03增加內容映射:處理私域知識問題

4f7ac88e-465d-11ee-a2ef-92fbcf53809c.png

針對私域知識的問題,我們在大模型上游增加 Schema Mapper 、在外部建立業(yè)務知識庫,將平臺用戶的問題與知識庫進行連接,通過 Schema Mapper 判定是否存在部份文字能夠與知識庫內容匹配。如果匹配成功,大模型將進一步解析轉化、OLAP 分析處理。Schema Mapper 與業(yè)務知識庫的引入,有效解決了大模型對私域知識理解不足的問題,提升語言處理的效果。

目前,我們正在不斷對 Schema Mapper 匹配準確性進行測試與優(yōu)化,將知識庫中的內容進行分類處理、字段評級等操作,同時將輸入文本進行不同范圍的內容映射(如全文本映射與模糊映射),通過映射結果來加強模型語義解析的能力。

04插件接入:處理定制場景問題

4f85287e-465d-11ee-a2ef-92fbcf53809c.png

定制化場景主要指代業(yè)務范圍之外的查詢需求,需要將音樂內容數據與法律、政治、金融、監(jiān)管等方面信息結合提供問答服務。通過增加插件,使平臺用戶能夠訪問實時更新且無法包含在訓練數據或業(yè)務知識庫中的信息,以實現(xiàn)定制化交互。由于插件類型不同,模型接入方式也會有所不同,常見的接入方式主要分為兩種:

Embedding 本地文本接入:該方式首先對本地文檔進行向量化處理,通過語義向量搜索,找到本地文檔中相關或者相似的詞語進行匹配,之后將文檔內容注入大模型解析窗口中生成答案。這種方式非常適合業(yè)務分析師希望將音樂內容數據庫與最新政策等一類較為私有的文件結合完成查詢需求。

ChatGPT 第三方插件接入:每款插件具備對應的 Prompt 與調用函數。業(yè)務人員在安裝某款插件之后,在與模型對話中可以通過 Prompt 詞觸發(fā)函數開啟調用。目前第三方插件類型豐富,涉及行業(yè)廣泛,能夠有效增加多元場景的處理與響應能力。

超音數平臺框架構思

根據上述大模型 + OLAP 的四大解決方案進行了方案整合,以此進行框架設計并將其命名為超音數平臺。大模型主要作用于自然語言與 SQL 分析語句的連接與轉化,OLAP 引擎則作為數據存儲與查詢分析的核心基建。

4f972902-465d-11ee-a2ef-92fbcf53809c.png

超音數平臺對于業(yè)務流程如圖所示,模型運轉具體過程如下:

用戶輸入問題通過 Schema Mapper 檢索,判定字段是否匹配與業(yè)務知識庫。

如若匹配則跳過大模型解析步驟,直接利用知識庫中的指標計算公式觸發(fā) OLAP 進行查詢分析;如若不匹配則進入大模型,開啟下一步判定。

大模型首先通過人工經驗判定問題復雜度,簡單查詢將指定 OLAP 引擎直接分析,復雜查詢則開啟語義解析形成 DSL 語句。

DSL 語句通過語義層進一步過濾、拆解關聯(lián)查詢場景,生成簡易單表 SQL 語句以觸發(fā) OLAP 數據處理與查詢加速。

針對需要與外部信息結合的查詢場景,大模型會判斷是否調用第三方插件來輔助完成查詢。

4fd4a8ae-465d-11ee-a2ef-92fbcf53809c.png

以“某首歌曲能否在綜藝節(jié)目播出”為例,在經過檢索匹配、語義解析后,大模型選擇利用 OLAP 數據查詢與第三方版權行業(yè)插件結合的方式進行回答,最終呈現(xiàn)結果由數倉中的歌曲信息與插件判定結果構成。

如今,業(yè)務分析師只需要在超音數平臺中定義指標含義、維度類型即可直接開展自然語言的問答交互服務。同時還可以在平臺中內置插件、豐富指標市場來拓展語義解析能力,完全覆蓋了業(yè)務在常規(guī)與定制化場景下的查詢需求。平臺基于大模型 + OLAP 的模式加速業(yè)務分析效率,減少技術開發(fā)成本,向智能化、個性化、實時化的全新業(yè)務服務模式更近一步。

在這里希望可以與大家分享該開源項目,讓更多人體驗和學習大模型構建,也歡迎感興趣的讀者們共同參與大模型開發(fā)與建設。

超音數開源框架:https://github.com/tencentmusic/supersonic

超音數平臺框架演進??????

在平臺構建的過程中,OLAP 引擎作為整體架構的基建對 SQL 語句處理、數據存儲分析、上游應用層的查詢響應等有著至關重要的作用,我們希望通過架構升級以加強大模型到 OLAP 引擎的轉化效率與結果輸出準確性。

接下來我們將對比介紹 OLAP 早期架構與新一代架構在數據寫入與查詢兩方面的差異,分享在架構演進過程中大模型 + OLAP 模型優(yōu)化歷程,最終助力超音數平臺的構建,開啟新一代的數據服務模式。

01數據架構 1.0

502a0aba-465d-11ee-a2ef-92fbcf53809c.jpg

我們初期的業(yè)務架構如上圖所示,分為處理層、分析層、應用層三部份,用戶文本在進入大模型之后解析為 SQL 語句使 OLAP 開始執(zhí)行任務,具體的工作原理如下:

處理層:在 ODS- DWD- DWS 三層中將數據整合為不同主題的標簽和指標體系之后,通過對 DWS 調度與采集所需字段,在 DWM 層將維度與指標數據加工成大寬表。

分析層:通過大寬表進入分析層,將數據導入 Clickhouse 與 Elasticsearch,其中 Clickhosue 主要負責維度與指標兩類數據的查詢加速,作為分析引擎為后續(xù)提供報表開發(fā)服務;Elasticsearch 主要負責維度數據處理,作為搜索/圈選引擎。

應用層:業(yè)務人員基于場景選取所需要的標簽與指標,在應用層中創(chuàng)建數據集作為邏輯視圖,同時可以二次定義衍生的標簽與指標。

在實際業(yè)務使用中,早期架構的數據處理方式存在大寬表帶來的數據延遲與存儲浪費、多套組件導致架構冗余帶來指標維度重復定義、學習與運維成本高等問題,具體如下:

數據延遲:處理層不支持部分列表更新,DWS 層數據寫入產生延遲后會造成大寬表的延遲,進而導致數據時效性下降。

運維成本高:在處理層大寬表中維度數據量平均占一張大寬表的 50%,且在大部份情況下變化緩慢,這意味著每一張寬表的開發(fā)會將維度數據疊加,造成存儲資源的浪費、維護成本增加;在分析層中存在多引擎使用的問題,查詢 SQL 語句需要同時適配 Clickhouse 與 Elasticsearch 兩個組件,增加人力成本,且兩套組件也會加大運維難度,運維成本進一步升高。

架構冗余:在應用層進行指標與維度定義時,導致相同數據會進行多次定義使各種指標、維度定義口徑不一致,造成權限不可控,例如上圖所示的 T1 (標簽)與 M1 (維度)在應用層中,被不同數據集多次定義。

02數據架構 2.0

基于以上問題,我們開始對架構進行改造升級,并在眾多 OLAP 引擎中選擇了 Apache Doris 來替換原有組件,主要因為 Apache Doris 具備以下核心優(yōu)勢:

實時導入:Apache Doris 能夠支持海量業(yè)務數據的高吞吐實時寫入,時效性可以做到秒級完成導入。

引擎統(tǒng)一:支持 Multi-Catalog 功能,能夠通過 Elasticsearch Catalog 外表查詢,實現(xiàn)查詢出口統(tǒng)一,查詢層架構實現(xiàn)鏈路極簡,維護成本也大幅降低。

查詢分析性能:Apache Doris 是 MPP 架構,支持大表分布式 Join,其倒排索引、物化視圖、行列混存等功能使查詢分析性能更加高效極速。

50317caa-465d-11ee-a2ef-92fbcf53809c.jpg

在數據架構 2.0 版本中,數據架構保留處理層部份,主要升級分析層架構,并進行了語義層疊加:

分析層:引入 Apache Doris 替換 Clickhouse 組件,利用 Doris 的 Elasticsearch Catalog 功能對 Elasticsearch 外表進行查詢,實現(xiàn)查詢出口統(tǒng)一;

語義層:應用層不再需要創(chuàng)建數據集視圖,直接通過語義層獲取指標與標簽內容執(zhí)行查詢任務,有效解決標簽與指標口徑問題。

03數據架構 3.0

由于寬表開發(fā)過程中,維度數據一般變化較小、字符存儲空間較大,且分析查詢一般只需要查詢最新的維度數據。在這種情況下,如果不斷疊加維度數據制作寬表,會造成存儲空間浪費的問題,同時查詢響應速度也受到影響。

5043220c-465d-11ee-a2ef-92fbcf53809c.jpg

為了進一步提升架構性能,數據架構 3.0 主要將處理層中大寬表進行拆分,同時將分析層統(tǒng)一使用 Apache Doris 作為查詢分析引擎:

處理層:按照業(yè)務分類在 DWM 中將大寬表拆分成緩慢維度表與指標表,使兩類表在本地 Hive 中進行關聯(lián),通過 Hive 導入 Apache Doris 分析層中加速任務;

分析層:將關聯(lián)數據表直接導入 Apache Doris 中,結合語義層暴露指標與維度以實現(xiàn)語義統(tǒng)一,用戶只需要通過過濾條件就能夠直接查詢數據,得到所需要的結果。

04數據架構 4.0

505c105a-465d-11ee-a2ef-92fbcf53809c.jpg

我們延續(xù)了 3.0 架構中分析層統(tǒng)一的優(yōu)勢,對處理層、分析層、語義層架構進一步優(yōu)化,使查詢性能顯著提升:

分析層 + 處理層:數倉 DWD 層數據采用 Rollup 功能使事實表與維度表實時關聯(lián)并創(chuàng)建多個視圖進入 DWS 中。通過這種方式,分析層與處理層中的各類指標數據無需再重復定義,能夠基于 Apache Doris 全部寫入新建的 Rollup 視圖中并利用GROUP BY將維度傳入視圖進行查詢加速,直接對外暴露所需數據。

語義層:利用 Apache Doris 物化視圖對指標與維度自定義口徑,通過語義物化層進行查詢加速,并將指標與維度通過SUM加工開發(fā)衍生標簽與維度數據。

應用層:利用 Apache Doris 2.0 版本的倒排索引功能,對現(xiàn)有的索引結構進行豐富,滿足了對知識庫進行模糊查詢、等值查詢和范圍查詢等場景中的能力,進一步加速指標、維度查詢響應速度。

數倉架構基于 Apache Doris 迭代升級,最終實現(xiàn)導入實時、引擎統(tǒng)一、查詢高效的現(xiàn)代化湖倉 OLAP 引擎,簡化架構鏈路的同時,有效解決大寬表中指標重復定義所帶來的問題。在架構演進的過程,我們也積累許多關于 Apache Doris 性能優(yōu)化經驗,希望通過分享給讀者們帶來一些參考。

Apach Doris 性能優(yōu)化實踐

01Colocate Join 寬表優(yōu)化

508f81b0-465d-11ee-a2ef-92fbcf53809c.jpg

在上文架構改造中我們提及,由于寬表開發(fā)會不斷疊加字符數據,消耗存儲空間,降低查詢性能,因此我們充分利用了 Colocate Join 功能對寬表拆分、本地關聯(lián)查詢加速進行優(yōu)化,具體過程如下:

指標大寬表:采用 Apache Doris 的 Aggregate Key 模型,使用增量的方式將數據覆蓋寫入;

緩慢維度表:主要通過start_date和end_date的設置進行表建設,同時利用end_date進行分區(qū),當我們需要查詢最新的維度數據時只需要將end_date設置為‘9999-12-31’即可。此外我們引用 Doris 2.0 版本中的寫時合并,利用 Unique Key 模型進行維度數據聚合,使查詢性能在該場景中得到很大的提升。

對外訪問視圖:在指標與維度表建設完成之后,利用CREAT VIEW提供統(tǒng)一對外訪問視圖,同時添加end_date條件,使視圖保持最新數據的展示。通過這樣的方式不僅能夠大幅度降低查詢的復雜性,還能夠充分利用 Doris 特性實現(xiàn)查詢加速。

02Rollup 解決指標膨脹問題

寬表拆分為指標表與維度表后,我們發(fā)現(xiàn)每一次視圖產生都需要定義多個指標,出現(xiàn)指標膨脹的情況。以“歌曲播放量結算”為例,當僅定義單一指標時,我們需要將各個平臺 + 各類內容進行排列組合,使語義層定義很多指標數據,造成指標數量過多。此外這些指標都需要通過離線生產任務進行加工,并通過 Hive 導入至 Apache Doris 中,造成鏈路較長、加工維護比較困難。

平臺指標:覆蓋四大音樂平臺,包括酷我、QQ 音樂、酷狗、K 歌內容指標:包含歌曲、歌手、專輯以及廠牌等數據

50ad2904-465d-11ee-a2ef-92fbcf53809c.jpg

為了有效解決指標膨脹問題,我們引入了 Doris Rollup 功能。如圖所示,在 Doris Base 表數據基礎之上,可以根據指定維度來創(chuàng)建任意多個 Rollup 視圖并自動進行GROUP BY,實現(xiàn)各個平臺與各類內容指標定義不重復、查詢性能提升的目標。

03物化視圖實現(xiàn)查詢加速

50b3c408-465d-11ee-a2ef-92fbcf53809c.jpg

除了減少指標數量外,我們還希望能夠衍生指標并且做到查詢加速。在 Apache Doris 2.0 版本中我們采用了物化視圖功能進行衍生指標的開發(fā)。目前,我們主要在單一維度表中單獨地去查詢自定義標簽與維度,在定義復雜口徑后自動的通過語義層物化任務。如上圖所示我們將指標 M1 、M2、M3 與維度 T1、T2、T3 分別進行定義,并通過 SUM 加工衍生標簽,在加工完成之后創(chuàng)建物化視圖加速查詢。此外,在 Doris 后續(xù) 2.1 版本中還會支持多表創(chuàng)建物化視圖,我們也非常期待使用該功能。

Apach Doris 導入性能調優(yōu)實踐

目前,騰訊音樂具有 90+ 數據來源表、 3000 + 維度和指標、導入數據量達到千億級別,我們希望數倉能夠支持大規(guī)模數據快速導入,且導入過程中保證數據寫入的準確性。

50c4cfaa-465d-11ee-a2ef-92fbcf53809c.jpg

導入鏈路如圖所示,主要分為離線與實時兩個部分,離線鏈路中指標表與變更維度表通過 Spark 進行批量導入,兩類表利用 Flink 聚合形成寬表后寫入;實時鏈路主要利用 Kafak 消息隊列進行流式寫入。最終,離線與實時兩條鏈路利用 Flink 實時寫入 Apache Doris 數倉中。由于 Flink 聚合為攢批寫入,如果出現(xiàn)寫入任務失敗,會導致數據丟失;同時,在聚合任務過多、字段過多的情況下存在 Compaction 不及時的情況,導致實時能力不可控;此外在加工寬表的過程中,也會造成重復寫入的問題,無法保證數據寫入準確性。在 Apache Doris 2.0 版本發(fā)布后,我們引入了其全新功能 Flink Doris Connector 與 Doris Compaction,有效解決了 Flink 聚合引起的問題。

01Flink Doris Connector 實現(xiàn)快寫入

Flink Doris Connector 主要是依賴 Checkpoint 機制進行流式寫入,同時該功能默認開啟兩階段提交,保證寫入過程中 Exactly Once 語義。值得注意的是,我們在引入最新版的 Flink Doris Connector 功能后,實現(xiàn)了從關系型數據庫到 Apache Doris 的一鍵整庫同步,承載了我們實際業(yè)務中千億級別的實時并行寫入,滿足數據快寫入與不丟不重的需求。

02Doris Compaction 保證寫入穩(wěn)定性?

為了解決 Flink 聚合引起的偶發(fā)性 Compaction 不及時問題,我們引入最新版的 Vertical Compaction 與 Segment Compaction 功能。

Vertical Compaction 功能優(yōu)勢:在單次合并過程中,我們不需要再將所有的列讀出,只需要加載部份列數據即可,這能極大減少合并過程中的內存占用問題,提高壓縮的執(zhí)行速度,實現(xiàn)在大寬表場景下的部份數據合并。

Segment Compaction 功能優(yōu)勢:在單批次大數據量的導入場景下可以有效減少 Flink 寫入過程中產生的 Segment 數量,且能夠使合并和導入兩個過程并行,避免增加導入時間。

50d4d422-465d-11ee-a2ef-92fbcf53809c.jpg

如上圖所示在引入 Doris Compation 功能后,在寫入量增加 50 % 的情況下,Compaction Score 從平均 650 分降低至 80 分,技術人員不再需要擔心夜間出現(xiàn)告警的情況,保證了整體鏈路的穩(wěn)定性。

總結收益與展望

在引入 Apache Doris 后,數據架構圍繞降本增效的目標,不僅在寫查方面的性能得到大幅度提升,并且有效減少架構成本與資源開銷,具體的收益如下:

極速查詢分析:通過 Apache Doris 的 Rollup、物化視圖、倒排索引功能,由原來的分鐘級查詢時間達到現(xiàn)如今秒級毫秒級;

導入性能提升:導入優(yōu)化完成后,原本 3000+ 維度、指標數據的導入時間需要超過一天,現(xiàn)如今能夠在 8 小時內完成導入,導入時間縮短至原來的 1/3,實現(xiàn)快速導入需求;更重要的是,Apache Doris 在保證數據快寫入的同時,使數據能夠不丟不重、準確寫入;

鏈路極簡與統(tǒng)一:Apache Doris 將查詢與分析出口引擎統(tǒng)一,去除 Elasticsearch 集群使架構鏈路極簡;

存儲成本降低:通過大寬表拆分的方式,使存儲成本降低 30%,開發(fā)成本降低 40% 。

在未來,我們將進一步拓展使用 Apache Doris 湖倉一體功能,對 Hive、MySQL、數據湖等多源異構數據庫進行網關統(tǒng)一,實現(xiàn)真正意義上的實時統(tǒng)一分析引擎。同時,嘗試 CCR 跨集群數據同步功能,通過用戶多集群的數據庫表自動同步以提升在線服務數據的可用性。未來,我們也將在測試環(huán)節(jié)中驗證讀寫負載分離以及多機房備份的性能效果。目前,Apache Doris 社區(qū)已經公布了后續(xù)版本中將推出的存算分離全新架構,能夠利用低成本的共享存儲系統(tǒng)簡化上層計算節(jié)點的復雜度,使架構帶來巨大的成本經濟優(yōu)勢。我們也希望能夠進一步探索,基于 Apache Doris 本地高速緩存 + 共享存儲系統(tǒng)的混合模式,在保障性能的同時降低系統(tǒng)存儲開銷。最后,非常感謝 SelectDB 技術團隊的積極響應與專業(yè)解答,希望通過這篇文章分享大語言模型在互聯(lián)網業(yè)務中的應用,也歡迎更多人參與 Apache Doris 社區(qū)與超音數平臺的開源框架構建。最后,我們也會持續(xù)參與社區(qū)活動,將相關成果貢獻回饋社區(qū),希望 Apache Doris 飛速發(fā)展,越來越好!

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • SQL
    SQL
    +關注

    關注

    1

    文章

    768

    瀏覽量

    44177
  • 語言模型
    +關注

    關注

    0

    文章

    530

    瀏覽量

    10298
  • 數據分析
    +關注

    關注

    2

    文章

    1452

    瀏覽量

    34077
  • 大模型
    +關注

    關注

    2

    文章

    2490

    瀏覽量

    2863

原文標題:當 Apache Doris 遇上大模型:探秘騰訊音樂如何基于大模型 + OLAP 構建智能數據服務平臺

文章出處:【微信號:OSC開源社區(qū),微信公眾號:OSC開源社區(qū)】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    胡瀚接棒騰訊多模態(tài)大模型研發(fā)

    騰訊的杰出科學家和混元大模型技術團隊的核心成員,曾在推動騰訊在人工智能領域的發(fā)展中發(fā)揮了重要作用。然而,去年11月,有消息稱劉威已從騰訊離職
    的頭像 發(fā)表于 01-09 15:49 ?191次閱讀

    【「大模型啟示錄」閱讀體驗】+開啟智能時代的新鑰匙

    的對話,提供各種信息和幫助。我也聽聞大模型智能寫作、智能客服等領域有著出色的表現(xiàn),能夠大大提高工作效率和服務質量。但是,我對于大模型背后的
    發(fā)表于 12-24 13:10

    【「大模型啟示錄」閱讀體驗】如何在客服領域應用大模型

    ,選擇有嚴格隱私保護策略的模型提供方,以保護客戶數據的安全性和隱私性。通過全面評估這些因素,企業(yè)可以選擇最適合自己的模型,以提升客戶服務質量和效率。
    發(fā)表于 12-17 16:53

    標貝科技:AI基礎數據服務,人工智能行業(yè)發(fā)展的底層支撐

    隨著不同大模型在語言理解及生成等領域的出色表現(xiàn),大模型別后的規(guī)模規(guī)律不斷強化數據在要提升AI性能上的關鍵作用,AI數據服務可加速高質量數據
    的頭像 發(fā)表于 11-14 18:32 ?279次閱讀
    標貝科技:AI基礎<b class='flag-5'>數據服務</b>,人工<b class='flag-5'>智能</b>行業(yè)發(fā)展的底層支撐

    如何使用Python構建LSTM神經網絡模型

    構建一個LSTM(長短期記憶)神經網絡模型是一個涉及多個步驟的過程。以下是使用Python和Keras庫構建LSTM模型的指南。 1. 安裝必要的庫 首先,確保你已經安裝了Python
    的頭像 發(fā)表于 11-13 10:10 ?441次閱讀

    騰訊混元Large模型及云TI平臺全新上線

    提供一站式的大模型精調、API調用及私有化部署服務騰訊云TI平臺憑借其實戰(zhàn)型的大模型精調工具鏈,將為用戶提供更加靈活和便捷的大
    的頭像 發(fā)表于 11-08 11:03 ?439次閱讀

    【「大模型時代的基礎架構」閱讀體驗】+ 未知領域的感受

    器再到大模型平臺構建,此書都有提及和講解,循序漸進,讓讀者可以由點及面,由面到體的來認識大數據模型的體系架構。 前言中,作者通過提出幾個問題來引導讀者閱讀思考——分布式AI計算依賴
    發(fā)表于 10-08 10:40

    寬凳科技獲億元B2輪融資,加速AI大模型數據服務發(fā)展

    近日,國內AI大模型數據服務領域的佼佼者寬凳科技傳來喜訊,公司成功完成了B2輪億元融資。本輪融資由廣東融泰資本攜手浙江德清政府產業(yè)基金聯(lián)合注資,彰顯了資本市場對寬凳科技業(yè)務模式及發(fā)展前景的高度認可。
    的頭像 發(fā)表于 08-09 17:46 ?810次閱讀

    言犀智能平臺上線了!趕緊來試試!連接大模型與企業(yè)應用的“最后一公里”

    即可輕松構建一個基于LLM的AI 智能體,并將其一鍵發(fā)布到主流IM和協(xié)同辦公渠道。 超低成本,構建智能化、自動化工作流 豐富的大模型,按需選
    的頭像 發(fā)表于 08-07 14:47 ?264次閱讀

    飛舞在化工企業(yè)的AI大模型夢想

    化工行業(yè)遇上AI大模型,數智化轉型其實很簡單
    的頭像 發(fā)表于 07-12 12:20 ?1239次閱讀
    飛舞在化工企業(yè)的AI大<b class='flag-5'>模型</b>夢想

    騰訊元器免費模型資源增至1億tokens,混元大模型全面降價

    騰訊方面獲悉,一站式智能體創(chuàng)作與分發(fā)平臺騰訊元器即日起全面升級了模型資源扶持方案。
    的頭像 發(fā)表于 05-27 14:22 ?865次閱讀

    【大語言模型:原理與工程實踐】大語言模型的應用

    操作。所謂零樣本提示(Zero-Shot Prompt),指的是在提示詞中不包含與指令任務相似的任何示例。 大語言模型訓練完成后,它便具備了分析情緒和識別命名實體等常見任務的能力,這些能力源于預訓練
    發(fā)表于 05-07 17:21

    【大語言模型:原理與工程實踐】大語言模型的預訓練

    增長。DeepMind在相關論文中指出,模型大小和訓練Token數應以相似速率增長,以確保最佳性能。因此,構建模型規(guī)模相匹配的預訓練數據至關重要。 在
    發(fā)表于 05-07 17:10

    【大語言模型:原理與工程實踐】揭開大語言模型的面紗

    大語言模型(LLM)是人工智能領域的尖端技術,憑借龐大的參數量和卓越的語言理解能力贏得了廣泛關注。它基于深度學習,利用神經網絡框架來理解和生成自然語言文本。這些模型通過訓練海量的文本數據
    發(fā)表于 05-04 23:55

    Apache Doris聚合函數源碼解析

    筆者最近由于工作需要開始調研 Apache Doris,通過閱讀聚合函數代碼切入 Apache Doris 內核,同時也秉承著開源的精神,開發(fā)了 array_agg 函數并貢獻給社區(qū)。
    的頭像 發(fā)表于 01-16 09:52 ?1065次閱讀
    <b class='flag-5'>Apache</b> <b class='flag-5'>Doris</b>聚合函數源碼解析