我們攜手英特爾技術(shù)團(tuán)隊(duì),顯著降低了交易系統(tǒng)的延遲并解決了風(fēng)控系統(tǒng)的瓶頸,尤其是英特爾 oneAPI 統(tǒng)一編程模型讓我們實(shí)現(xiàn)了跨架構(gòu)的靈活性,一套代碼就能夠同時支持 CPU 并行和 GPU 并行兩種場景,讓開發(fā)效率得到顯著提升。我們將進(jìn)一步攜手推進(jìn)金證極速交易系統(tǒng)的優(yōu)化,推進(jìn)產(chǎn)品信息技術(shù)應(yīng)用創(chuàng)新,賦能金融業(yè)高質(zhì)量發(fā)展。
— 何萬剛
金證股份雙基石產(chǎn)品總部
機(jī)構(gòu)交易產(chǎn)品線總經(jīng)理
"概述
伴隨著改革開放金融體制的不斷更新和完善,證券行業(yè)呈現(xiàn)出高速發(fā)展的勢態(tài),證券市場規(guī)模逐步擴(kuò)大,投資者數(shù)量不斷增加,交易量屢創(chuàng)新高,同時,交易品種也不斷地豐富。在這一市場環(huán)境下,借助于金融衍生品策略的私募基金受到了普遍歡迎。這種金融衍生品交易策略常常涉及多品種、跨市場的交易,由于策略的復(fù)雜性,交易的實(shí)現(xiàn)常常依賴于程序化、量化交易等平臺,并且為了捕捉轉(zhuǎn)瞬即逝的套利機(jī)會,對交易速度要求非常高,需要運(yùn)用先進(jìn)的軟硬件技術(shù),最大限度地提升交易通道的速度,協(xié)助套利策略的實(shí)現(xiàn)。
作為證券行業(yè)核心交易 IT 供應(yīng)商,深圳市金證科技股份有限公司(以下簡稱:金證)推出了滿足業(yè)務(wù)技術(shù)發(fā)展、監(jiān)管風(fēng)控合規(guī)要求的先進(jìn)、開放、穩(wěn)定的金證極速交易系統(tǒng)。為了進(jìn)一步提升交易系統(tǒng)的處理速度,金證與英特爾合作,將處理器升級為第四代英特爾 至強(qiáng) 可擴(kuò)展處理器,并采用英特爾 oneAPI 中的 VTune Profiler 可視化性能分析工具消除性能瓶頸,將委托業(yè)務(wù)的延遲降低了超過 26%1 。同時,為了保證交易安全、提升風(fēng)控效率,金證還使用英特爾 oneAPI DPC++ 進(jìn)行代碼重構(gòu),實(shí)現(xiàn)風(fēng)控指標(biāo)的并行化處理,并應(yīng)用 ICPX 編譯器調(diào)用 oneTBB 以及 AVX512 SIMD 指令集進(jìn)行加速,取得風(fēng)控效率提升最高超過 90 倍的效果2 。
金證極速交易系統(tǒng)
在開展策略交易的高端客戶中,以機(jī)構(gòu)投資者為主,其中私募基金占了重要的比重。近年來,伴隨著金融市場的活躍,私募基金迎來了爆發(fā)式的增長。中國證券投資基金業(yè)協(xié)會發(fā)布的私募基金管理人登記及產(chǎn)品備案月報顯示,截至 2023 年 7 月末,私募基金管理總規(guī)模達(dá)到 20.82 萬億元3 ,較 6 月末的 20.77 萬億元4增長 500 億元,增幅為 0.24%5 。
同時,隨著投資工具的豐富,私募基金的投資策略多樣化起來,阿爾法策略、套利策略、相對價值策略、管理期貨策略等借助于金融衍生品的策略受到歡迎,并且在當(dāng)今市場環(huán)境下取得了不錯的收益。要捕捉轉(zhuǎn)瞬即逝的交易機(jī)遇,就需要通過證券交易系統(tǒng),執(zhí)行程序化、量化交易。因此,證券交易系統(tǒng)的交易速度在很大程度上影響了套利策略的實(shí)現(xiàn)能力。
作為證券行業(yè)核心交易 IT 供應(yīng)商,金證自 2012 年起開始投身于新一代極速交易系統(tǒng)研發(fā)中。金證推出的極速交易系統(tǒng)是針對需要做高頻率、極速交易的機(jī)構(gòu)投資者而開發(fā)的一套極速交易系統(tǒng)。該系統(tǒng)基于交易與清算分離原則,采用全內(nèi)存、低延時等核心技術(shù),實(shí)現(xiàn)業(yè)務(wù)微秒級交易處理及交易查詢,提供訂單委托、委托撤單、成交回轉(zhuǎn)、實(shí)時委托查詢、實(shí)時成交查詢等高實(shí)時性的交易相關(guān)功能。該系統(tǒng)能夠支持程序化交易、算法交易、高頻交易等新型、專業(yè)化投資交易手段的便利接入。
金證極速交易系統(tǒng)整體基于金證微架構(gòu)技術(shù)平臺開發(fā),采用多活架構(gòu)與組件化理念設(shè)計,可實(shí)現(xiàn)業(yè)務(wù)功能的靈活擴(kuò)展;系統(tǒng)支持主備、多活等多種部署模式,基于 Raft 一致性算法,可實(shí)現(xiàn)主備、容災(zāi)之間的自動切換,實(shí)現(xiàn)業(yè)務(wù)連續(xù)和系統(tǒng)多活。系統(tǒng)在原有技術(shù)架構(gòu)基礎(chǔ)上,新增獨(dú)立的新極速模塊,新極速模塊僅完成委托申報和成交回轉(zhuǎn)功能,減少線程切換,性能實(shí)現(xiàn)突破性飛躍。
圖 1. 金證極速交易系統(tǒng)架構(gòu)
挑戰(zhàn):優(yōu)化風(fēng)控計算,提升交易速度
在證券交易中,性能對于交易速度、客戶體驗(yàn)都帶來了重要影響,金證希望通過極速交易系統(tǒng)的性能優(yōu)化,化解以下挑戰(zhàn):
挑戰(zhàn) 1:如何進(jìn)一步降低極速交易系統(tǒng)的延遲、加快交易速度
核心交易系統(tǒng)委托處理延遲越低,交易策略功能越強(qiáng)大,對券商系統(tǒng)競爭有極其重要的作用。金證極速交易系統(tǒng)通過新極速模塊的加入,在延遲上已經(jīng)取得了很大的突破,為了進(jìn)一步降低延遲,金證不斷探索新的軟硬件創(chuàng)新路徑。
從金證極速交易系統(tǒng)的極速訂單流程來看,其包含了接入、業(yè)務(wù)、報盤、內(nèi)存庫等主要進(jìn)程,這些進(jìn)程對于 CPU 的性能非常敏感,通過提升 CPU 的性能,將有助于加快上述進(jìn)程的處理速度,從而降低整體交易延遲。
挑戰(zhàn) 2:如何化解風(fēng)控系統(tǒng)性能瓶頸,提升執(zhí)行效率
金證發(fā)現(xiàn),目前風(fēng)控系統(tǒng)的性能瓶頸集中在風(fēng)控指標(biāo)計算方面。由于證券交易涉及到多種環(huán)節(jié),因此系統(tǒng)速度的提升依賴于多種因素,其中很重要的一個環(huán)節(jié)是風(fēng)控:出于監(jiān)管要求,對于程序化交易用戶而言,交易指令都需要進(jìn)行充分的業(yè)務(wù)檢查。除了驗(yàn)資、驗(yàn)券等基礎(chǔ)的風(fēng)控檢查外,杜絕和防范異常交易行為也是風(fēng)控的重要目標(biāo)。
目前業(yè)界普遍采用 “軟件數(shù)據(jù)庫” 的風(fēng)控方案,風(fēng)控計算中,每個指標(biāo)的計算量都很大,且大多采用的是串行計算模式。隨著風(fēng)控規(guī)則指標(biāo)越來越多、風(fēng)控的執(zhí)行效率越來越低,風(fēng)控環(huán)節(jié)需要耗費(fèi)較長的時間,有的指標(biāo)耗時達(dá)到秒級甚至分鐘級別,不能及時、準(zhǔn)確地進(jìn)行風(fēng)控。
要優(yōu)化風(fēng)控指標(biāo)計算,存在架構(gòu)約束 — 包含進(jìn)程模型,數(shù)據(jù)結(jié)構(gòu)模型以及持久化方式,其挑戰(zhàn)包括:
原風(fēng)控計算程序會根據(jù)定時器的觸發(fā)計算風(fēng)控指標(biāo),每次計算前會獲得計算循環(huán)次數(shù),例如有多少個賬戶就循環(huán)多少次。在計算指標(biāo)時,會訪問內(nèi)存數(shù)據(jù)庫,計算過程和內(nèi)存訪問都是串行執(zhí)行的,因此性能較差。 跟原風(fēng)控的串行相比,通過多線程的 CPU 并行優(yōu)化有助于提升性能,但是,CPU 并行需要考慮對整個交易系統(tǒng)的影響,如風(fēng)控服務(wù)不能影響交易服務(wù),對于部分有數(shù)據(jù)依賴的指標(biāo),多線程并行計算存在潛在的危險。解決方案:基于英特爾 技術(shù)的金證極速交易系統(tǒng)優(yōu)化方案
為進(jìn)一步增強(qiáng)性能,金證持續(xù)對極速交易系統(tǒng)進(jìn)行優(yōu)化,該優(yōu)化主要從降低極速交易系統(tǒng)的延遲、提升風(fēng)控指標(biāo)計算速度這兩方面進(jìn)行。
優(yōu)化 1:優(yōu)化極速交易系統(tǒng)延遲
為降低極速交易系統(tǒng)的延遲,金證進(jìn)行了軟硬件一體協(xié)同優(yōu)化。在硬件方面,金證將極速交易系統(tǒng)服務(wù)器的處理器從第二代英特爾 至強(qiáng) 可擴(kuò)展處理器升級為第四代英特爾 至強(qiáng) 可擴(kuò)展處理器,以利用新一代處理器具備的卓越性能。在軟件方面,金證將極速交易系統(tǒng)升級到 3.5 版本,在極速模塊等方面進(jìn)行了新的優(yōu)化,隨后,金證還采用英特爾 VTune Profiler 對程序熱點(diǎn) (hot spots) 進(jìn)行分析,結(jié)合處理器的特性和架構(gòu)進(jìn)行深度調(diào)優(yōu)。英特爾 VTune Profiler 用于收集軟件的性能信息,識別和分析調(diào)用棧 (call stacks) 中的熱點(diǎn),以找到系統(tǒng)中存在的性能瓶頸,更大程度地提高性能。
第四代英特爾 至強(qiáng) 可擴(kuò)展處理器通過創(chuàng)新架構(gòu)增加了每個時鐘周期的指令,每個插槽多達(dá) 60 個核心,支持 8 通道 DDR5 內(nèi)存,有效提升了內(nèi)存帶寬與速度,并通過 PCIe 5.0(80 個通道)實(shí)現(xiàn)了更高的 PCIe 帶寬提升。第四代英特爾 至強(qiáng) 可擴(kuò)展處理器提供了出色性能和安全性,可根據(jù)用戶的業(yè)務(wù)需求進(jìn)行擴(kuò) 展。借助內(nèi)置的加速器,用戶可以在 AI、分析、云和微服務(wù)、網(wǎng)絡(luò)、數(shù)據(jù)庫、存儲等類型的工作負(fù)載中獲得優(yōu)化的性能。通過與強(qiáng)大的生態(tài)系統(tǒng)相結(jié)合,第四代英特爾 至強(qiáng) 可擴(kuò)展處理器能夠幫助用戶構(gòu)建更加高效、安全的基礎(chǔ)設(shè)施。
在性能驗(yàn)證中,金證極速交易系統(tǒng)采用了英特爾 至強(qiáng) 金牌 6444Y 處理器。該處理器提供了多達(dá) 16 個核心、32 個線程,使其將部分核心與交易服務(wù)綁定之外,還能夠有充足的核心分配給風(fēng)控服務(wù),保證性能的釋放。
本次驗(yàn)證針對普通委托業(yè)務(wù)和查詢業(yè)務(wù),完成了極速訂單性能測試。測試數(shù)據(jù)如圖 2 所示,對比采用第二代處理器的極速交易系統(tǒng) 3.0,采用新一代處理器的極速交易系統(tǒng) 3.5 通過版本迭代、 硬件升級與軟件調(diào)優(yōu),將委托業(yè)務(wù)的延遲降低超過 26%6 。
圖 2. 普通買入委托上行延遲性能比較 (TPS = 5000) 7
優(yōu)化 2:通過并行計算提升風(fēng)控計算效率
如上文所述,在原系統(tǒng)的風(fēng)控計算中,計算過程和內(nèi)存訪問都是串行執(zhí)行的,因此性能較差。如果能將串行計算改為并行計算,同時減少對內(nèi)存數(shù)據(jù)庫的訪問,那么性能會有望得到顯著提升。為此,金證決定重新設(shè)計程序內(nèi)的執(zhí)行流和數(shù)據(jù)流,更好地利用CPU 與 GPU 來實(shí)現(xiàn)并行的風(fēng)控計算,這需要考慮如下限制:
首先,要能兼顧原風(fēng)控邏輯。即使 GPU 風(fēng)控計算程序失效,原風(fēng)控程序仍然能生效; 其次,系統(tǒng)要能夠靈活使用 CPU 或 GPU 來運(yùn)行風(fēng)控計算,以滿足客戶的不同需求; 最后,要考慮代碼的可維護(hù)性,同一份代碼可兼顧 CPU 和GPU。綜合以上考慮,金證采用英特爾 oneAPI 庫進(jìn)行新的風(fēng)控計算開發(fā)工作。oneAPI 提供了一個適用于各類計算架構(gòu)的統(tǒng)一編程模型,應(yīng)用程序的開發(fā)者只需要開發(fā)一次代碼,就可以讓代碼在跨平臺的異構(gòu)系統(tǒng)上執(zhí)行,底層的硬件架構(gòu)可以是 CPU、GPU、FPGA。這意味著,使用 oneAPI 開發(fā)新的風(fēng)控計算,可以直接支持 CPU 并行和 GPU 并行兩種場景。
金證采用 oneAPI 庫來對風(fēng)控計算的執(zhí)行流和數(shù)據(jù)流進(jìn)行優(yōu)化。原風(fēng)控服務(wù)的執(zhí)行流和數(shù)據(jù)流都是簡單的串行,對每個指標(biāo)計算,首先從內(nèi)存數(shù)據(jù)庫讀取數(shù)據(jù),然后計算,最后將結(jié)果寫入到內(nèi)存數(shù)據(jù)庫。而新的風(fēng)控服務(wù)則從以下三個步驟入手進(jìn)行了優(yōu)化:
(1)數(shù)據(jù)讀取新風(fēng)控進(jìn)程計算時不再訪問內(nèi)存數(shù)據(jù)庫,而是同新極速進(jìn)程一致,直接訪問共享內(nèi)存,將共享內(nèi)存的數(shù)據(jù)卸載到 GPU 設(shè)備上。針對硬件設(shè)備沒有足夠存儲空間容納風(fēng)控數(shù)據(jù)的情況,系統(tǒng)提供了兩種卸載策略:第一種,如果存儲空間足夠,則將風(fēng)控數(shù)據(jù)一次性卸載到 GPU 上計算;第二種,如果存儲空間不夠,則需要將數(shù)據(jù)分批次卸載到 GPU 上計算。
(2)并行計算使用 Data Parallel C++ (DPC++) 編程模型和 SYCL 模型,編寫并行代碼,通過使用特定的并行構(gòu)造(如 parallel_for)來實(shí)現(xiàn)并行計算。此外,還可以使用向量化指令來利用硬件的 SIMD(單指令多數(shù)據(jù))能力,從而在單個指令中處理多個數(shù)據(jù)項(xiàng)。
(3)結(jié)果處理新風(fēng)控進(jìn)程將計算的結(jié)果,寫到共享內(nèi)存供新極速進(jìn)程使用,寫到內(nèi)存數(shù)據(jù)庫供原極速進(jìn)程使用。
圖 3. 金證極速交易系統(tǒng)風(fēng)控模塊實(shí)時觸發(fā)風(fēng)險指標(biāo)計算
金證極速交易系統(tǒng) 3.5 新風(fēng)控進(jìn)程的測試數(shù)據(jù)如圖 4 所示,使用CPU 并行策略之后,個股集中度指標(biāo)計算時間最高可降低超過94%,效率提升超過 90 倍8。
圖 4. 個股集中度指標(biāo)計算用時測試數(shù)據(jù)(100 客戶各持有1000 只證券)9
收益
在經(jīng)過優(yōu)化之后,金證極速交易系統(tǒng)有效提高了極速交易與風(fēng)控計算的效率,為用戶帶來如下收益:
-
提升了全鏈路的交易速度,在瞬息萬變的證券市場環(huán)境中,幫助客戶敏銳抓住轉(zhuǎn)瞬即逝的市場機(jī)遇,推動獲利的最大化。
-
通過英特爾 oneAPI 的統(tǒng)一編程模型直接支持 CPU并行和 GPU 并行兩種場景,提升了方案的靈活性,能夠滿足不同客戶與場景的需求。
-
有效釋放了硬件潛力,特別是當(dāng)升級到第四代英特爾至強(qiáng) 可擴(kuò)展處理器之后,能夠?qū)⑾到y(tǒng)性能提升到新的高度。
展望
IDC 發(fā)布的《中國證券業(yè) IT 解決方案市場份額,2021:市場永不眠,核心交易系統(tǒng)波瀾再起》報告顯示,2021 年,中國證券業(yè) IT 解決方案市場規(guī)模約為 45 億元,中國證券業(yè)核心交易系統(tǒng)市場規(guī)模約為 11.72 億元10。金證股份作為證券業(yè) IT 解決方案市場主要廠商之一,在中國證券業(yè) IT 解決方案市場份額、中國證券業(yè)核心交易系統(tǒng)市場份額中占有率位居前列。
通過采用英特爾 oneAPI 統(tǒng)一編程模型進(jìn)行優(yōu)化,并搭載第四代英特爾 至強(qiáng) 可擴(kuò)展處理器,金證極速交易系統(tǒng)的性能得以“更上一層樓”,能夠有效提升交易通道的速度,協(xié)助套利策略的實(shí)現(xiàn)。雙方將在未來進(jìn)行深度合作,探索如何進(jìn)一步利用第四代英特爾 至強(qiáng) 可擴(kuò)展處理器搭載的創(chuàng)新技術(shù),釋放硬件潛能,助力打造更加卓越的極速交易系統(tǒng),幫助用戶獲得更高收益。
附錄:金證極速交易系統(tǒng) 3.5 |
|
處理器 |
英特爾 至強(qiáng) 金牌 6444Y 處理器 |
內(nèi)存 |
256 GB |
網(wǎng)卡 |
低時延網(wǎng)卡 |
軟件 |
金證極速交易系統(tǒng) 3.5 |
參考資料:
1 金證科技截至 2023 年 7 月的內(nèi)部測試結(jié)果。測試配置 — 基準(zhǔn)配置:英特爾 至強(qiáng) 金牌 6250 處理器,128 GB 總內(nèi)存,RHEL7.5;新配置:英特爾 至強(qiáng) 金牌 6444Y 處理器,256 GB 總內(nèi)存,RHEL 7.5,通過比較 TPS = 5000 時兩種配置的普通買入委托上行延遲性能中位數(shù)結(jié)果得出。英特爾并不控制或?qū)徲嫷谌綌?shù)據(jù)。請您審查該內(nèi)容,咨詢其他來源,并確認(rèn)提及數(shù)據(jù)是否準(zhǔn)確。
2 金證科技截至 2023 年 7 月的內(nèi)部測試結(jié)果。測試配置 — 原風(fēng)控進(jìn)程配置:英特爾 至強(qiáng) 金牌 6250 處理器,128 GB 總內(nèi)存,RHEL 7.5;新風(fēng)控進(jìn)程配置:英特爾 至強(qiáng) 金牌 6444Y 處理器,256 GB 總內(nèi)存,RHEL 7.5。英特爾并不控制或?qū)徲嫷谌綌?shù)據(jù)。請您審查該內(nèi)容,咨詢其他來源,并確認(rèn)提及數(shù)據(jù)是否準(zhǔn)確。
3https://www.amac.org.cn/researchstatistics/report/zgsmjjhysjbg/202308/P020230818629745714316.pdf
4https://www.amac.org.cn/researchstatistics/report/zgsmjjhysjbg/202307/P020230727632823396771.pdf
5 通過對比 2023 年 6 月和 7 月的數(shù)據(jù)計算得出。
6,7 金證科技截至 2023 年 7 月的內(nèi)部測試結(jié)果。測試配置 — 基準(zhǔn)配置:英特爾 至強(qiáng) 金牌 6250 處理器,128 GB 總內(nèi)存,RHEL 7.5;新配置:英特爾 至強(qiáng) 金牌 6444Y 處理器,256 GB 總內(nèi)存,RHEL 7.5,通過比較 TPS = 5000 時兩種配置的普通買入委托上行延遲性能中位數(shù)結(jié)果得出。英特爾并不控制或?qū)徲嫷谌綌?shù)據(jù)。請您審查該內(nèi)容,咨詢其他來源,并確認(rèn)提及數(shù)據(jù)是否準(zhǔn)確。
8,9 金證科技截至 2023 年 7 月的內(nèi)部測試結(jié)果。測試配置 — 原風(fēng)控進(jìn)程配置:英特爾 至強(qiáng) 金牌 6250 處理器,128 GB 總內(nèi)存,RHEL 7.5;新風(fēng)控進(jìn)程配置:英特爾 至強(qiáng) 金牌 6444Y 處理器,256 GB 總內(nèi)存,RHEL 7.5。英特爾并不控制或?qū)徲嫷谌綌?shù)據(jù)。請您審查該內(nèi)容,咨詢其他來源,并確認(rèn)提及數(shù)據(jù)是否準(zhǔn)確。
10 數(shù)據(jù)援引自 IDC 發(fā)布《中國證券業(yè) IT 解決方案市場份額,2021:市場永不眠,核心交易系統(tǒng)波瀾再起》。
-
英特爾
+關(guān)注
關(guān)注
61文章
9967瀏覽量
171796 -
cpu
+關(guān)注
關(guān)注
68文章
10863瀏覽量
211799
原文標(biāo)題:英特爾? 軟硬件,讓金證極速交易系統(tǒng)“起飛”
文章出處:【微信號:英特爾中國,微信公眾號:英特爾中國】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論