傳統(tǒng)的銀行、保險行業(yè)的人工柜臺、信貸申請、承保和理賠等業(yè)務(wù)除了在數(shù)據(jù)庫中記錄交易信息,往往也會產(chǎn)生大量的非結(jié)構(gòu)化數(shù)據(jù):身份證照片、紙質(zhì)文件掃描件、取證文件掃描件、現(xiàn)場照片等,依據(jù)金融行業(yè)相關(guān)法規(guī)要求,這些文件需長期保存,以便于后督審計和避免可能存在的法律風(fēng)險。
隨著互聯(lián)網(wǎng)金融的迅猛發(fā)展,金融行業(yè)的競爭日趨白熱化,越來越多的金融公司希望金融科技能夠幫助企業(yè)降低攬客成本和客戶服務(wù)成本,提升辦公效率和風(fēng)險評估效率。為此,各大金融機構(gòu)競相實施金融科技項目,如:智能化柜臺,降低營業(yè)網(wǎng)點業(yè)務(wù)開通成本;無紙化柜臺,提升柜臺工作和服務(wù)效率;理賠智能手機客戶端,提升用戶理賠效率;智能化信貸審核,提升風(fēng)險評估效率,降低人力投入成本;基礎(chǔ)架構(gòu)云化、容器化,提升基礎(chǔ)資源的利用和管理效率等。
這些新型金融科技的背后,顯而易見地會產(chǎn)生海量的圖片、文檔、音頻和視頻等非結(jié)構(gòu)化數(shù)據(jù),其文件個數(shù)和數(shù)據(jù)量都呈現(xiàn)爆發(fā)性增長,對原有的存儲系統(tǒng)架構(gòu)帶來了更多的新挑戰(zhàn)。
海量非結(jié)構(gòu)化數(shù)據(jù)帶來的挑戰(zhàn)
對業(yè)務(wù)部門來說,海量小文件的訪問性能至關(guān)重要,直接關(guān)系到終端用戶的體驗,而一個股份制銀行省分行的柜臺系統(tǒng)、信貸系統(tǒng)每年會新增上億個文件,大量小文件對文件存儲是一大挑戰(zhàn),而很多銀行已經(jīng)在考慮如何實現(xiàn)文件大集中。
而隨著VTM(遠程虛擬銀行服務(wù)系統(tǒng))、雙錄系統(tǒng)的上線,存儲容量需求高速增長,如保險公司銀保的雙錄數(shù)據(jù)半年即可增加數(shù)百TB數(shù)據(jù),存儲是否能夠提供高吞吐能力,來保障音視頻文件的讀寫性能是重要的關(guān)注點。
大多數(shù)金融機構(gòu)已經(jīng)采用分布式數(shù)據(jù)庫、大數(shù)據(jù)技術(shù),來實現(xiàn)歷史數(shù)據(jù)的在線統(tǒng)一存儲和查詢,而非結(jié)構(gòu)化數(shù)據(jù)的存儲規(guī)??赡軙_到PB級甚至EB級,在這種情況下如何實現(xiàn)數(shù)據(jù)的統(tǒng)一存儲和管理、歷史數(shù)據(jù)的實時查詢、未來的大數(shù)據(jù)分析,對存儲高度智能化的管理能力提出了更高的要求。
當(dāng)前IaaS層云化是大趨勢,私有云實現(xiàn)了計算和存儲資源的云化,分布式數(shù)據(jù)庫實現(xiàn)了結(jié)構(gòu)化數(shù)據(jù)的云化,云化后的資源可按需分配、彈性擴展。而非結(jié)構(gòu)化數(shù)據(jù)存儲的云化卻缺乏很好的解決方案,尤其是隨著音視頻數(shù)據(jù)的加入,占用的存儲空間越來越大,而這些數(shù)據(jù)的單位價值不高,如何降低單位存儲成本也需重點考量。
為了解決銀行、保險關(guān)鍵系統(tǒng)(如:柜臺、信貸、承保、理賠等)的海量票據(jù)、證件、合同等文件數(shù)量龐大且不斷累積導(dǎo)致的存儲性能和擴展性瓶頸問題,金融行業(yè)非結(jié)構(gòu)化數(shù)據(jù)存儲的技術(shù)發(fā)展經(jīng)歷了四個階段:
NAS存儲階段
在金融行業(yè)早期文件數(shù)量不多、存儲容量不大的階段, 金融客戶普遍采用NAS外置存儲設(shè)備來放置影像資料,但隨著文件的海量增長,單臺NAS可管理的文件數(shù)量和容量都出現(xiàn)了瓶頸。在實際項目中我們看到,用戶的文件數(shù)量達到數(shù)千萬時,訪問時延可能達到秒級,這將直接影響到對最終用戶的金融服務(wù)體驗。而增加多臺NAS外置存儲設(shè)備,又會導(dǎo)致存儲管理復(fù)雜性更高,同一應(yīng)用系統(tǒng)數(shù)據(jù)存放在不同設(shè)備上導(dǎo)致數(shù)據(jù)割裂。在中大型企業(yè),IT人員將花費大量時間完成IT運維變更審批流程,同時還要時刻提防這種頻繁變更可能導(dǎo)致的IT運維風(fēng)險,無法真正聚焦在為業(yè)務(wù)創(chuàng)造價值上。
ECM階段
隨著文件數(shù)量的增加,金融機構(gòu)開始引入ECM(企業(yè)內(nèi)容管理系統(tǒng)),ECM統(tǒng)一管理多個NAS外置存儲設(shè)備,并可動態(tài)增加NAS,對外提供統(tǒng)一的名字空間,文件管理規(guī)模相對于單臺NAS存儲大大增加。同時,ECM系統(tǒng)還支持文件的屬性存放和屬性檢索,可以實現(xiàn)跨業(yè)務(wù)系統(tǒng)的文件檢索,滿足文件管理的需要。
但由于ECM接口為非標(biāo)準(zhǔn)協(xié)議,需要專門進行應(yīng)用開發(fā),應(yīng)用改造成本高,目前主要應(yīng)用在金融的柜臺、信貸和后督的影像系統(tǒng)。更重要的是,ECM的投資成本較高,百TB數(shù)據(jù)的存儲成本高達數(shù)百萬,不適合存儲音視頻等價值密度較低的數(shù)據(jù),維護的成本也非常高。
分布式數(shù)據(jù)庫階段
隨著大數(shù)據(jù)技術(shù)、MPP分布式數(shù)據(jù)庫在金融行業(yè)的興起,金融行業(yè)嘗試?yán)眠@些技術(shù)解決非結(jié)構(gòu)化數(shù)據(jù)存儲問題,對于海量小文件性能和擴展性確實有較大突破,且分布式數(shù)據(jù)庫可以實現(xiàn)文件元數(shù)據(jù)的統(tǒng)一存儲和檢索,滿足對內(nèi)容管理的需求。
但分布式數(shù)據(jù)庫是結(jié)構(gòu)化存儲架構(gòu),替換文件存儲存在很多局限性。首先,由于MPP分布式數(shù)據(jù)庫的架構(gòu)限制,很難實現(xiàn)傳統(tǒng)存儲的部分高級功能,如:糾刪碼功能(類似分布式RAID)、文件去重等,導(dǎo)致存儲成本過高,不適用于音視頻等低價值密度數(shù)據(jù)的存儲。其次,受限于SQL接口,無法實現(xiàn)目錄和子目錄的權(quán)限管理、配額管理、目錄快照回滾等傳統(tǒng)NAS存儲的基本功能,導(dǎo)致數(shù)據(jù)缺乏安全性機制及數(shù)據(jù)可靠性保障機制。此外,SQL、NoSQL作為文件存儲,標(biāo)準(zhǔn)性差、接口使用復(fù)雜,不便于企業(yè)用戶使用。該技術(shù)方案在部分金融機構(gòu)嘗試后,未能成為主流形態(tài)大范圍推廣應(yīng)用。
對象存儲階段
反觀互聯(lián)網(wǎng)行業(yè),近幾年隨著移動互聯(lián)網(wǎng)和智能手機的蓬勃發(fā)展,微信、直播、短視頻等新型應(yīng)用帶來的非結(jié)構(gòu)化數(shù)據(jù)量已遠遠超過金融行業(yè)。由于數(shù)據(jù)量大、文件數(shù)多,因此需要尋找性價比高的存儲方案,互聯(lián)網(wǎng)在十年前就已經(jīng)開始采用基于x86服務(wù)器的分布式架構(gòu)來解決海量數(shù)據(jù)存儲問題,出現(xiàn)過的技術(shù)包括谷歌的GoogleFS、亞馬遜的S3、阿里的FastDFS等基于HTTP訪問協(xié)議的文件存儲方案,由于亞馬遜的公有云影響力,AWS S3對象存儲逐步成為互聯(lián)網(wǎng)行業(yè)的事實標(biāo)準(zhǔn),目前阿里、騰訊、華為的公有云都采用兼容S3協(xié)議的對象存儲技術(shù)。
對象存儲的技術(shù)特點是基于x86服務(wù)器+分布式存儲軟件技術(shù)構(gòu)建統(tǒng)一存儲池,利用服務(wù)器本地磁盤實現(xiàn)PB級甚至EB級的大規(guī)模存儲集群,可擴展性強。軟硬件解耦,可實現(xiàn)硬件的動態(tài)淘汰和更新,無需像NAS進行設(shè)備更新時要完成數(shù)據(jù)遷移。采用簡化的文件操作接口,單一名字空間可管理的文件數(shù)量相比NAS大數(shù)百倍。基于HTTP協(xié)議的SDK訪問,無需掛載操作系統(tǒng),應(yīng)用可直接訪問,適合應(yīng)用云化和容器化場景及手機APP程序訪問場景。協(xié)議標(biāo)準(zhǔn)化,符合基礎(chǔ)架構(gòu)標(biāo)準(zhǔn)化需求且與公有云兼容,便于應(yīng)用系統(tǒng)在公有云和私有云間無縫遷移。
除了具備對象存儲的基本特點,杉巖分布式對象存儲軟件聚焦金融行業(yè),幫助金融客戶構(gòu)建本地私有云存儲資源池。同時,將互聯(lián)網(wǎng)對象存儲技術(shù)進行深度產(chǎn)品化,并推出了更多的特性:
兼容FTP/文件接口,支持金融行業(yè)傳統(tǒng)應(yīng)用實現(xiàn)向?qū)ο蟠鎯Φ钠交w移;
支持文件元數(shù)據(jù)和元數(shù)據(jù)檢索,代替ECM功能,滿足企業(yè)內(nèi)容管理需求;
支持目錄快照和快照策略、文件多版本和快速回滾,實現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)免備份,解決磁帶庫備份帶寬不足和調(diào)取慢的問題;
支持多數(shù)據(jù)中心容災(zāi)及數(shù)據(jù)中心AA模式,實現(xiàn)業(yè)務(wù)的就近讀寫訪問;
一套環(huán)境同時支持副本和糾刪碼(類似分布式RAID),兼顧金融核心業(yè)務(wù)系統(tǒng)的性能和音視頻存儲成本型應(yīng)用需求;
支持?jǐn)?shù)據(jù)冷熱自動分層,滿足業(yè)務(wù)性能的同時,降低歷史冷數(shù)據(jù)的存儲成本。
綜上所述,隨著金融科技的不斷引入,非結(jié)構(gòu)化數(shù)據(jù)類型更多、數(shù)據(jù)量增長更快,存儲需要對數(shù)據(jù)進行統(tǒng)一管理和利用,金融行業(yè)的IT管理者需要根據(jù)信息化需求選擇更為合適和具有前瞻性的存儲方案。未來,能夠結(jié)合大數(shù)據(jù)分析、人工智能技術(shù),實現(xiàn)對金融海量非結(jié)構(gòu)化數(shù)據(jù)的價值挖掘,推動金融行業(yè)蓬勃發(fā)展。
【關(guān)于杉巖數(shù)據(jù)】
企業(yè)級軟件定義存儲(SDS)方案和服務(wù)提供商,“+存儲”理念的倡導(dǎo)者和踐行者,由來自世界500強企業(yè)的專業(yè)存儲團隊為技術(shù)班底組成。幫助企業(yè)級用戶輕松應(yīng)對IT向云遷移的存儲挑戰(zhàn),為大數(shù)據(jù)時代的商業(yè)決策提供智能存儲。
評論
查看更多