大數(shù)據(jù)智能決策
來源:《自動化學(xué)報》?,作者于洪等
摘 要?在全球信息化快速發(fā)展的背景下,大數(shù)據(jù)已經(jīng)成為一種戰(zhàn)略資源.各行各業(yè)的決策活動在頻度、廣度及復(fù)雜性上較以往有著本質(zhì)的不同.決策過程中的不確定性因素增多,決策分析的難度不斷加大.傳統(tǒng)的數(shù)據(jù)分析方法以及基于人工經(jīng)驗的決策已難以滿足大數(shù)據(jù)時代的決策需求,大數(shù)據(jù)驅(qū)動的智能決策將成為決策研究的主旋律.該文結(jié)合大數(shù)據(jù)特性,對大數(shù)據(jù)決策的特點進行了歸納,并從智能決策支持系統(tǒng)、不確定性處理、信息融合、關(guān)聯(lián)分析和增量分析等方面綜述了大數(shù)據(jù)智能決策的研究與發(fā)展現(xiàn)狀,討論了大數(shù)據(jù)智能決策依然面臨的挑戰(zhàn),并對一些潛在的研究方向進行了展望分析.
關(guān)鍵詞?大數(shù)據(jù),智能決策,不確定性,信息融合,關(guān)聯(lián)分析,增量式學(xué)習(xí)
當今社會處于一個信息技術(shù)高速發(fā)展時期,數(shù)據(jù)信息的交互、共享與開放程度持續(xù)加快,使得各行業(yè)領(lǐng)域的數(shù)據(jù)信息呈爆炸式增長.“大數(shù)據(jù)時代” 如約而至,并成為當今社會的代名詞.大數(shù)據(jù)以其蘊藏巨大的經(jīng)濟、社會和科研價值受到社會各界的廣泛關(guān)注[1].2012 年1 月,達沃斯世界經(jīng)濟論壇發(fā)布的大數(shù)據(jù)報告“Big data,big impact:new possibilities for international development” 將大數(shù)據(jù)列為和貨幣與黃金同等重要的新經(jīng)濟資產(chǎn)[2].2012 年5 月,聯(lián)合國發(fā)布的Big Data for Development:Challenges& Opportunities?白皮書指出,大數(shù)據(jù)是聯(lián)合國和各國政府的一個歷史性機遇,利用大數(shù)據(jù)進行決策,是提升國家治理能力,實現(xiàn)治理能力現(xiàn)代化的必然要求,可以幫助政府更好地參與經(jīng)濟社會的運行與發(fā)展[3].在科研領(lǐng)域,大數(shù)據(jù)正引領(lǐng)數(shù)據(jù)密集型科學(xué)(Data-intensive science) 的到來,形成繼實驗科學(xué)、理論科學(xué)以及計算科學(xué)之后的第四科學(xué)范式[4],有望推動傳統(tǒng)科學(xué)的假設(shè)驅(qū)動模式向基于大數(shù)據(jù)探索的數(shù)據(jù)密集型方法轉(zhuǎn)變.在全球信息化快速發(fā)展的背景下,大數(shù)據(jù)已逐漸成為世界各國的基礎(chǔ)性戰(zhàn)略資源,運用大數(shù)據(jù)推動社會經(jīng)濟發(fā)展正成為趨勢.
現(xiàn)階段加快發(fā)展智能經(jīng)濟、智能服務(wù)和智能制造是我國經(jīng)濟增長的內(nèi)在需求和必然選擇.目前我國處于工業(yè)化和信息化的深度融合時期,我國制造業(yè)正處于從價值鏈的低端向中高端、從中國制造向中國創(chuàng)造轉(zhuǎn)變的關(guān)鍵歷史時期,發(fā)展基于大數(shù)據(jù)的人工智能新技術(shù)是實現(xiàn)從制造大國向制造強國邁進的戰(zhàn)略舉措.在此背景之下,國家相繼出臺了“‘互聯(lián)網(wǎng)+’ 行動計劃” 和“中國制造2025” 戰(zhàn)略規(guī)劃,特別是國務(wù)院頒布的“促進大數(shù)據(jù)發(fā)展行動綱要” 和“新一代人工智能發(fā)展規(guī)劃” 都將大數(shù)據(jù)智能作為重點發(fā)展方向,大數(shù)據(jù)的戰(zhàn)略資源地位進一步凸顯.近年來,以大數(shù)據(jù)與人工智能技術(shù)為基礎(chǔ)的“智能制造[5]” 成為推動大數(shù)據(jù)從概念到落地的重要模式和手段.從大數(shù)據(jù)的供給需求來看,智能制造的核心要義便是在兩化融合的基礎(chǔ)上構(gòu)建智能分析優(yōu)化系統(tǒng)“工業(yè)大腦”,對大數(shù)據(jù)進行智能化分析進而實現(xiàn)智能決策.
決策存在于人類一切實踐活動當中.小到一臺機器的操作,大到一個國家的治理,都離不開決策.例如,工業(yè)領(lǐng)域的操作優(yōu)化與資源分配、商業(yè)領(lǐng)域的個性化推薦與供應(yīng)商選擇、交通領(lǐng)域的車流控制與路徑導(dǎo)航、醫(yī)療領(lǐng)域的疾病診斷與治療策略等都屬于決策范疇.隨著社會節(jié)奏的持續(xù)加快,來自各領(lǐng)域行業(yè)的決策活動在頻度、廣度及復(fù)雜性上較以往都有著本質(zhì)的提高.決策問題的不確定性程度隨著決策環(huán)境的開放程度以及決策資源的變化程度而越來越大.傳統(tǒng)的基于人工經(jīng)驗、直覺及少量數(shù)據(jù)分析的決策方式已經(jīng)遠不能滿足日益?zhèn)€性化、多樣化、復(fù)雜化的決策需求.在當前信息開放與交互的經(jīng)營環(huán)境下,機遇與挑戰(zhàn)并存.如何把握機遇,這就需要企業(yè)或組織具備出色的決策能力.在這個過程中大數(shù)據(jù)正扮演著越來越重要的角色.
大數(shù)據(jù)作為一種重要的信息資產(chǎn),可望為人們提供全面的、精準的、實時的商業(yè)洞察和決策指導(dǎo).楊善林院士等指出,大數(shù)據(jù)的價值在于其“決策有用性”,通過分析、挖掘來發(fā)現(xiàn)其中蘊藏的知識,可以為各種實際應(yīng)用提供其他資源難以提供的決策支持[6].美國應(yīng)用信息經(jīng)濟學(xué)家Hubbard 認為“一切皆可量化”,并積極倡導(dǎo)數(shù)據(jù)化決策[7].紐約大學(xué)Provost教授等認為數(shù)據(jù)科學(xué)的終極目標就是改善決策[8].從數(shù)據(jù)到知識,從知識到?jīng)Q策,是當前大數(shù)據(jù)智能的計算范式[9],研究大數(shù)據(jù)的意義就是不斷提高“從數(shù)據(jù)到?jīng)Q策的能力”.隨著大數(shù)據(jù)技術(shù)的發(fā)展,人們傳統(tǒng)的決策模式與思維方式正在發(fā)生著變革,基于大數(shù)據(jù)的決策方式正逐漸成為決策應(yīng)用與研究領(lǐng)域的主旋律,大數(shù)據(jù)決策時代已經(jīng)到來.大數(shù)據(jù)能夠突破事物之間隱性因素?zé)o法被量化的瓶頸,充分闡述生產(chǎn)的主客體和生產(chǎn)全過程、全時段的客觀狀態(tài),通過智能化分析和預(yù)測判斷來提高企業(yè)的決策能力[10].在商業(yè)領(lǐng)域,利用大數(shù)據(jù)相關(guān)分析,可以更加精準地了解客戶的消費行為,幫助決策者挖掘新的商業(yè)模式,制定商品價格,實現(xiàn)供應(yīng)商協(xié)同工作,緩和供需之間的矛盾,控制預(yù)算開支.例如,全球零售巨頭沃爾瑪(Wal-Mart),通過對銷售交易大數(shù)據(jù)的知識獲取,成功用于價格策略和推薦活動中的決策支持[11].而在工業(yè)領(lǐng)域,為實現(xiàn)智能制造,每個影響生產(chǎn)決策的因素都可以經(jīng)過工業(yè)大數(shù)據(jù)的預(yù)測,以直觀明了的量化信息形式加以呈現(xiàn),方便決策者對制造能力進行整體評估,進而快速有效地制定各項生產(chǎn)決策,優(yōu)化勞動力投入,避免產(chǎn)能過剩[10].目前,百度的工業(yè)大數(shù)據(jù)監(jiān)測平臺已經(jīng)應(yīng)用到汽車、日化等制造行業(yè).三一重工則利用大數(shù)據(jù)分析技術(shù)為智能工程機械物聯(lián)網(wǎng)提供決策支持,推進了制造服務(wù)化的步伐.Google 公司旗下的AlphaGo 以4:1 的總比分戰(zhàn)勝世界圍棋冠軍李世石同樣是大數(shù)據(jù)決策頗具代表性的案例.
基于大數(shù)據(jù)的科學(xué)決策,是公共管理、工業(yè)制造、醫(yī)療健康、金融服務(wù)等眾多行業(yè)領(lǐng)域未來發(fā)展的方向和目標.如何進行大數(shù)據(jù)的智能分析與科學(xué)決策,實現(xiàn)由數(shù)據(jù)優(yōu)勢向決策優(yōu)勢的轉(zhuǎn)化,仍然是當前大數(shù)據(jù)應(yīng)用研究中的關(guān)鍵問題.然而,對大數(shù)據(jù)的分析和處理在不同行業(yè)和領(lǐng)域均存在著巨大的挑戰(zhàn),大數(shù)據(jù)的大體量、高通量、多源異構(gòu)性和不確定性等對傳統(tǒng)的數(shù)據(jù)處理硬件設(shè)備和軟件處理方法均構(gòu)成前所未有的挑戰(zhàn).目前,機器學(xué)習(xí)、數(shù)據(jù)挖掘及統(tǒng)計理論等傳統(tǒng)理論方法已經(jīng)廣泛地應(yīng)用于大數(shù)據(jù)分析,但多數(shù)方法是建立在“獨立同分布” 的假設(shè)之上,難以應(yīng)對大數(shù)據(jù)的不確定性顯著、關(guān)聯(lián)復(fù)雜、動態(tài)增長、來源和分布廣泛等問題,多數(shù)只能挖掘到底層的數(shù)據(jù)特征,而對于挖掘高層次的符合人類認知的知識依然無法取得較好的效果,難以高效地將大數(shù)據(jù)轉(zhuǎn)化為決策價值.基于大數(shù)據(jù)的智能決策是一門集應(yīng)用性和科研性于一體的學(xué)科領(lǐng)域,目前還存在眾多待研究的問題.大數(shù)據(jù)智能決策在內(nèi)涵外延、模型理論、技術(shù)方法及實施策略等方面還需要人們繼續(xù)投入更多的研究與實踐.
本文旨在綜述大數(shù)據(jù)決策的特點以及大數(shù)據(jù)決策技術(shù)的發(fā)展現(xiàn)狀,分析大數(shù)據(jù)智能決策面臨的問題與挑戰(zhàn),并對一些潛在研究方向進行展望.文章結(jié)構(gòu)如下:第1 節(jié)介紹了大數(shù)據(jù)的概念及特性,總結(jié)了大數(shù)據(jù)決策的特點; 第2 節(jié)從智能決策支持系統(tǒng)、基于不確定性分析的智能決策、基于信息融合的智能決策、基于關(guān)聯(lián)分析的智能決策和基于增量分析的智能決策五個方面綜述了大數(shù)據(jù)智能決策的研究與發(fā)展現(xiàn)狀; 第3 節(jié)討論了大數(shù)據(jù)智能決策面臨的挑戰(zhàn)與發(fā)展趨勢; 第4 節(jié)為結(jié)束語.
1 大數(shù)據(jù)決策
1.1 大數(shù)據(jù)的概念及特性
由于不同領(lǐng)域的大數(shù)據(jù)在特性上存在差異,并且人們分析大數(shù)據(jù)的背景和應(yīng)用大數(shù)據(jù)的目的不同,因此不同的領(lǐng)域?qū)<覍Υ髷?shù)據(jù)的定義也各不相同.高德納咨詢公司、維基百科、美國國家科學(xué)基金會分別從不同的角度給出了大數(shù)據(jù)的定義.我國的《工業(yè)大數(shù)據(jù)白皮書(2019 版)》還對工業(yè)大數(shù)據(jù)進行了定義[12].簡言之,大數(shù)據(jù)就是無法在合理時間內(nèi)利用現(xiàn)有的數(shù)據(jù)處理手段進行諸如存儲、管理、抓取等分析和處理的數(shù)據(jù)集合[13].
有關(guān)大數(shù)據(jù)的特性,業(yè)界普遍將其歸納為4V 特性:一是數(shù)據(jù)體量(Volume) 大,如一些電商企業(yè)日常處理PB 級別的數(shù)據(jù)已經(jīng)常態(tài)化; 二是數(shù)據(jù)類型多樣(Variety),如在工業(yè)大數(shù)據(jù)中數(shù)據(jù)類型包含了數(shù)值、文本、圖片、音頻、視頻以及傳感器信號等;三是大數(shù)據(jù)的價值(Value) 巨大,但價值密度稀疏,需要通過分析和挖掘來獲取數(shù)據(jù)當中有價值的信息;四是大數(shù)據(jù)的高通量(Velocity),它除了指數(shù)據(jù)高速產(chǎn)生以外,還意味著數(shù)據(jù)的采集與分析過程必須迅速及時,以滿足用戶“及時、實時” 的決策需求.
在特定領(lǐng)域,大數(shù)據(jù)還有著特有的性質(zhì).如在工業(yè)領(lǐng)域,人們還強調(diào)大數(shù)據(jù)的實時性、閉環(huán)性、強關(guān)聯(lián)性、多層面不規(guī)則采樣性、多時空時間序列性等[14]; 在管理與商業(yè)領(lǐng)域,人們更關(guān)注大數(shù)據(jù)的商用價值,并提出大數(shù)據(jù)應(yīng)用的5R 模型,即相關(guān)性(Relevant)、實時性(Real-time)、真實性(Realistic)、可靠性(Reliable)、投資回報(ROI)[13].在科研領(lǐng)域,Wang 等著重分析了大數(shù)據(jù)的不確定性特征[15].Wu等則從大數(shù)據(jù)的異構(gòu)(Heterogeneous)、自治(Autonomous)、復(fù)雜(Complex)、演化(Evolving) 四個角度提出了描述大數(shù)據(jù)特性的HACE 定理[16].
1.2 大數(shù)據(jù)決策及其特點
決策是人們?yōu)閷崿F(xiàn)某一特定的目標,在占有一定的信息和經(jīng)驗(知識) 的基礎(chǔ)上,根據(jù)主客觀條件的可能性,提出各種可行方案,采用一定的科學(xué)方法和手段,對解決問題的方案進行比較、分析和評價,并最終進行方案選擇的全過程.從本質(zhì)上來講,決策通常是目標驅(qū)動的行為,是目標導(dǎo)向下的問題求解過程,該過程也廣泛地被認為是人類的認知過程.大數(shù)據(jù)決策便是以大數(shù)據(jù)為主要驅(qū)動的決策方式.隨著大數(shù)據(jù)技術(shù)的發(fā)展,大數(shù)據(jù)逐漸成為人們獲取對事物和問題更深層次認知的決策資源,特別是人工智能技術(shù)與大數(shù)據(jù)的深度融合,為復(fù)雜決策的建模和分析提供了強有力的工具.
隨著大數(shù)據(jù)應(yīng)用越來越多地服務(wù)于人們的日常生活,基于大數(shù)據(jù)的決策方式將形成其固有的特性和潛在的趨勢,在此我們將它們一并歸納為大數(shù)據(jù)決策的特點.在固有特性方面:大數(shù)據(jù)的實時產(chǎn)生及動態(tài)變化決定了大數(shù)據(jù)決策的動態(tài)性; 大數(shù)據(jù)的多方位感知意味著通過多源數(shù)據(jù)的整合可以實現(xiàn)更加全面的決策; 大數(shù)據(jù)潛在的不確定性也使得決策問題的求解過程呈現(xiàn)不確定性特征.在潛在趨勢方面:相關(guān)分析或?qū)⒋嬉蚬治?成為獲取大數(shù)據(jù)隱含知識更有效的手段; 用戶的興趣偏好在大數(shù)據(jù)時代將更受關(guān)注,更多的商業(yè)決策向滿足個性化需求轉(zhuǎn)變.基于以上理解,本文對大數(shù)據(jù)決策的特點進行如下總結(jié):
1) 大數(shù)據(jù)決策的動態(tài)特性
大數(shù)據(jù)是對事物客觀表象和演化規(guī)律的抽象表達,其動態(tài)性和增量性是對事物狀態(tài)的持續(xù)反映.不可否認的是,人們在決策過程中的每一步行動都將影響事物的發(fā)展進程,并全程由大數(shù)據(jù)所反映.此時決策問題的描述以及決策求解的策略都需要跟隨動態(tài)數(shù)據(jù)給予及時調(diào)整,通過面向大數(shù)據(jù)的增量式學(xué)習(xí)方法實現(xiàn)知識的動態(tài)演化與有效積累,進而反饋到?jīng)Q策執(zhí)行當中.大數(shù)據(jù)決策的動態(tài)特性決定了問題的求解過程應(yīng)該是一個集描述、預(yù)測、引導(dǎo)為一體的迭代過程,該過程須形成一個完整的、閉環(huán)的、動態(tài)的體系結(jié)構(gòu).簡要來說,大數(shù)據(jù)環(huán)境下的決策模型將是一種具備實時反饋的閉環(huán)模型,決策模式將更多地由相對靜態(tài)的模式或多步驟模式轉(zhuǎn)變?yōu)閷Q策問題動態(tài)描述的漸進式求解模式.
2) 大數(shù)據(jù)決策的全局特性
截至目前,人們已經(jīng)開發(fā)出多種多樣的決策支持系統(tǒng),但多數(shù)是面向具體領(lǐng)域中的單一生產(chǎn)環(huán)節(jié)或特定目標下的局部決策問題,往往無法較好地實現(xiàn)全局決策優(yōu)化與多目標任務(wù)協(xié)同.在信息開放與交互的大數(shù)據(jù)時代,大數(shù)據(jù)的跨視角、跨媒介、跨行業(yè)等多源特性創(chuàng)造了信息的交叉、互補與綜合運用的條件,這促使了人們進一步提升問題求解的關(guān)聯(lián)意識和全局意識.在大數(shù)據(jù)環(huán)境下決策分析會更加注重數(shù)據(jù)的全方位性,生產(chǎn)流程的系統(tǒng)性、業(yè)務(wù)各環(huán)節(jié)的交互性、多目標問題的協(xié)同性.通過多源異構(gòu)信息的融合分析,可以實現(xiàn)不同信源信息對全局決策問題求解的有效協(xié)同.基于大數(shù)據(jù)的決策系統(tǒng),對每個單一問題的決策,都將以優(yōu)先考慮整體決策的優(yōu)化作為前提,進而為決策者提供企業(yè)級、全局性的決策支持.
3) 大數(shù)據(jù)決策的不確定性特征
一般而言,決策的不確定性來源于三個方面:一是決策信息不完整、不確定而導(dǎo)致的決策不確定性;二是決策信息分析能力不足而導(dǎo)致的決策不確定性[17]; 三是決策問題過于復(fù)雜而難以建模導(dǎo)致的不確定性.大數(shù)據(jù)決策的不確定性不外乎以上三個方面.在信息不完整和不確定方面,首先,大數(shù)據(jù)具有來源和分布廣泛、關(guān)聯(lián)關(guān)系復(fù)雜等特性,對于多數(shù)企業(yè)而言,即便借助各種先進的數(shù)據(jù)收集手段盡可能地將各種信源數(shù)據(jù)進行整合,但仍難以保證信息的全面性和完整性; 其次,大數(shù)據(jù)固有的動態(tài)特性決定了大數(shù)據(jù)的分布存在隨時間變化的不確定性; 另外,大數(shù)據(jù)中普遍存在的噪聲與數(shù)據(jù)缺失現(xiàn)象決定了大數(shù)據(jù)的不完備、不精確性.在大數(shù)據(jù)分析能力方面,顯然現(xiàn)有的大數(shù)據(jù)分析處理技術(shù)還存在著不足,諸如多源異構(gòu)數(shù)據(jù)融合分析、不確定性知識發(fā)現(xiàn)及大數(shù)據(jù)關(guān)聯(lián)分析等方面仍是當前頗具挑戰(zhàn)的研究方向.在決策問題建模方面,在一些非穩(wěn)態(tài)、強耦合的系統(tǒng)環(huán)境下,建立精確的動態(tài)決策模型往往異常困難,比如流程工業(yè)中的操作優(yōu)化決策.現(xiàn)階段面向大數(shù)據(jù)的決策問題求解,人們通常使用滿意近似解代替精確解,以此保證問題求解的經(jīng)濟性和高效性.這種近似求解方式實際上也反映了大數(shù)據(jù)決策的不確定性特征.
4) 從因果分析向相關(guān)分析轉(zhuǎn)變
在過往的數(shù)據(jù)分析中,人們往往假設(shè)數(shù)據(jù)的精確性,并通過反復(fù)試驗的手段探索事物之間的因果關(guān)系.但在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)的精確性難以保證,數(shù)據(jù)總體對價值獲取的完備性異常重要,此時用于發(fā)現(xiàn)因果關(guān)系的反復(fù)嘗試方法變得異常困難.從統(tǒng)計學(xué)角度看,變量之間的關(guān)系大體可以分兩種類型:函數(shù)關(guān)系和相關(guān)關(guān)系,一般情況下,數(shù)據(jù)很難嚴格地滿足函數(shù)關(guān)系,而相關(guān)關(guān)系的要求較為寬松,在大數(shù)據(jù)環(huán)境下更加容易被接受[18],并能滿足人類的眾多決策需求.該方面的成功案例有Google 公司的流感預(yù)測[19]、啤酒與尿布關(guān)聯(lián)規(guī)則的挖掘等.在面向大數(shù)據(jù)智能化分析的決策應(yīng)用中,相關(guān)性分析技術(shù)可為正確數(shù)據(jù)的選擇提供必要的判定與依據(jù),同時將其與其他智能分析方法相結(jié)合,可有效避免對數(shù)據(jù)獨立同分布的假設(shè),提高數(shù)據(jù)分析的合理性和認可度.
5) 決策向滿足個性化需求轉(zhuǎn)變
在商業(yè)和制造業(yè)領(lǐng)域,對用戶進行精準營銷,滿足用戶的個性化需求是提升客戶價值和實現(xiàn)企業(yè)競爭力的經(jīng)營準則.在大數(shù)據(jù)背景下,產(chǎn)品和服務(wù)的提供以及價值的創(chuàng)造有望更加貼近社會大眾的個性化需求.以互聯(lián)網(wǎng)大數(shù)據(jù)為基礎(chǔ),企業(yè)通過輿情分析、情感挖掘等以用戶為中心的數(shù)據(jù)驅(qū)動方法,可以精準挖掘消費者的興趣與偏好,做出有針對性的個性化需求預(yù)測,進而為消費者提供專屬的個性化產(chǎn)品與服務(wù).宏觀上講,大數(shù)據(jù)可以打通企業(yè)和消費者之間的信息主動反饋機制.社會大眾通過意見的表達,可以迅速轉(zhuǎn)化為商業(yè)經(jīng)營的決策依據(jù),反向指導(dǎo)產(chǎn)品的設(shè)計和制造環(huán)節(jié),實現(xiàn)生產(chǎn)與市場需求的有效對接.以Netflix[20]?為代表的推薦系統(tǒng)正是一個基于個性化需求的大數(shù)據(jù)決策系統(tǒng).隨著社會化媒體應(yīng)用的深入,多元主體參與決策有了更多的便捷性和可能性,決策過程中價值多元的作用更加明顯,由此傳統(tǒng)自上而下的精英決策模型將會改變,并逐漸形成面向公眾與滿足用戶個性化需求的決策模式.
通過以上有關(guān)大數(shù)據(jù)決策特點的總結(jié),我們不難發(fā)現(xiàn)大數(shù)據(jù)決策有著相較于傳統(tǒng)基于小數(shù)據(jù)分析決策的諸多不同之處.更進一步,大數(shù)據(jù)決策的特點反應(yīng)了當前大數(shù)據(jù)智能決策的研究重點與需求.大數(shù)據(jù)決策的不確定性、動態(tài)性、全局性以及向相關(guān)性分析的轉(zhuǎn)變,決定了面向大數(shù)據(jù)的關(guān)聯(lián)分析、不確定性分析、對增量與多源數(shù)據(jù)的有效利用都將是大數(shù)據(jù)智能決策研究中的關(guān)鍵內(nèi)容.
2 大數(shù)據(jù)智能決策研究現(xiàn)狀分析
從靜態(tài)決策到動態(tài)決策、從單人決策到群體決策、從基于小規(guī)模數(shù)據(jù)分析的決策到基于大數(shù)據(jù)知識發(fā)現(xiàn)的決策,決策理論與方法已經(jīng)發(fā)生了巨大的變化[21],基于大數(shù)據(jù)的智能決策逐漸成為新時代決策應(yīng)用及研究的新生力量.大數(shù)據(jù)智能決策就是用智能計算方法對大數(shù)據(jù)進行智能化分析與處理,從中抽取結(jié)構(gòu)化的知識,進而對問題進行求解或?qū)ξ磥碜龀鲎顑?yōu)判斷的過程.該過程需要滿足大數(shù)據(jù)決策在不確定性、動態(tài)性、全局性以及關(guān)聯(lián)性上的分析需求.
在面向大數(shù)據(jù)的決策應(yīng)用中,關(guān)聯(lián)分析為問題假設(shè)的初步分析以及正確數(shù)據(jù)選擇提供必要的判定與依據(jù),它既是一個重要前提也是一種必要的分析手段; 不確定性是大數(shù)據(jù)決策的顯著特征,同時也是大數(shù)據(jù)智能決策研究的重點與難點; 大數(shù)據(jù)決策的動態(tài)性決定了大數(shù)據(jù)知識動態(tài)演化的重要性,如何有效利用數(shù)據(jù)的增量性同樣是大數(shù)據(jù)智能決策研究的關(guān)鍵點; 大數(shù)據(jù)決策追求的全局性,要求大數(shù)據(jù)智能決策能夠?qū)⒍嘣葱畔⑦M行融合與協(xié)同以消除信息孤島.需要指出的是,大數(shù)據(jù)的關(guān)聯(lián)性、不確定性、增量性和多源性不是相互獨立的因素,四者之間存在著潛在的聯(lián)系,在實際應(yīng)用中可能并發(fā)存在,但從研究的角度出發(fā),一般很難將上述四種因素的分析同時討論.此外,智能決策支持系統(tǒng)是智能決策分析方法的載體,隨著大數(shù)據(jù)應(yīng)用的普及,智能決策支持系統(tǒng)的發(fā)展也是大數(shù)據(jù)決策領(lǐng)域備受人們關(guān)注的研究方向.結(jié)合以上討論,本節(jié)將從智能決策支持系統(tǒng)、基于不確定性分析的智能決策、基于信息融合的智能決策、基于關(guān)聯(lián)分析的智能決策和基于增量分析的智能決策五個方面展開對大數(shù)據(jù)智能決策研究與發(fā)展現(xiàn)狀的綜述分析.
2.1 智能決策支持系統(tǒng)
決策支持是在管理科學(xué)和運籌學(xué)的基礎(chǔ)上發(fā)展而來的一門學(xué)科,20 世紀70 年代,Scott-Morton 提出了決策支持系統(tǒng)(Decision support system,DSS)的概念[22].DSS 是以提高決策有效性為目的,綜合利用大量數(shù)據(jù),有機地結(jié)合各種模型,通過人機交互的方式,輔助各級決策者實現(xiàn)科學(xué)決策的計算機系統(tǒng).1980 年,Sprague[23]?將DSS 設(shè)計為由用戶接口、數(shù)據(jù)庫管理系統(tǒng)、模型庫管理系統(tǒng)三部件集成的兩庫(數(shù)據(jù)庫和模型庫) 框架.隨著人們對DSS研究和應(yīng)用的深入,DSS 相繼引入方法庫管理系統(tǒng)、知識庫管理系統(tǒng)和推理機并形成四庫(數(shù)據(jù)庫、模型庫、方法庫和知識庫) 框架.經(jīng)過幾十年的發(fā)展,DSS 不斷與新技術(shù)、新學(xué)科相互交叉融合,并在體系結(jié)構(gòu)、問題處理模式、功能模塊集成等方面發(fā)生了巨大變化,其應(yīng)用也被推廣到諸多領(lǐng)域.
智能決策支持系統(tǒng)(Intelligent decision support system,IDSS) 是由DSS 不斷升級和演化得來.20 世紀80 年代,專家系統(tǒng)(Expert system,ES)廣泛流行,Bonczek 等[24]?將決策支持系統(tǒng)與專家系統(tǒng)相結(jié)合,充分發(fā)揮DSS 的數(shù)值分析能力和ES 的符號知識的處理能力,用于解決定量與定性問題以及半結(jié)構(gòu)化、非結(jié)構(gòu)化問題,有效擴大了DSS 處理問題的范圍.這種DSS 與ES 結(jié)合的思想即構(gòu)成智能決策支持系統(tǒng)的初期模型.智能決策支持系統(tǒng)利用人工智能和專家系統(tǒng)技術(shù)在定性分析和不確定推理上的優(yōu)勢,以及人類在問題求解中的經(jīng)驗和知識,為決策問題的求解提供了更加廣闊的思路.近年來,幾乎所有有關(guān)決策支持系統(tǒng)的研究都是圍繞著人工智能技術(shù)的應(yīng)用而展開的.人工智能方法已經(jīng)逐漸滲透到IDSS 的體系結(jié)構(gòu)、問題求解方法等各個方面.綜合來看,智能決策系統(tǒng)的研究逐漸由過去的決策部件功能的擴展發(fā)展到部件的綜合集成,由過去的定量模型發(fā)展到基于知識的智能決策方法[25].
和許多正在發(fā)展中的事物一樣,智能決策支持系統(tǒng)是一個發(fā)展中的概念.隨著社會的發(fā)展,信息量的激增,管理、決策日趨復(fù)雜,單純依靠某一個決策者做出的決策往往不夠完善,于是Gray 將群決策理論引入DSS,提出了群決策支持系統(tǒng)(Group decision support system,GDSS) 的概念[26],旨在吸收群體的經(jīng)驗和智慧,實現(xiàn)群體對決策問題的共同求解.GDSS 為企業(yè)的組織決策提供一種開放與協(xié)同的決策環(huán)境,達到提高決策質(zhì)量的目的.GDSS是智能決策支持系統(tǒng)的一個重要研究方向,目前分布式環(huán)境下的GDSS 和基于人工智能的群決策方法仍然是該領(lǐng)域的研究熱點[27].
傳統(tǒng)的DSS 多采用靜態(tài)模型,決策過程需要用戶自主選擇方法和模型,系統(tǒng)缺乏主動決策機制.針對該問題,Manheim 等[28]?最早提出了主動決策支持系統(tǒng)(Active DSS,ADSS) 的概念,并給出了相應(yīng)框架.ADSS 通過建立人類認知模型,在決策問題求解的不同階段,給決策者提供不同的方法選擇,從而形成不同的問題求解路徑.ADSS 是基于人類先驗知識的,但其前提假設(shè)是系統(tǒng)運行在靜態(tài)的決策環(huán)境下,因此在實際應(yīng)用中ADSS 仍然存在適應(yīng)性較差的局限性.不過人們對ADSS 的研究為自適應(yīng)決策支持的提出奠定了基礎(chǔ).為了適應(yīng)決策環(huán)境的變化,Shaw[29]?于1993 年提出了自適應(yīng)決策支持系統(tǒng)(Adaptive decision support system,Ad DSS)框架,并嘗試用機器學(xué)習(xí)和案例推理等方法從大量歷史數(shù)據(jù)和過往經(jīng)驗中發(fā)現(xiàn)與決策問題相關(guān)的知識,以此來使系統(tǒng)具有隨時間和決策過程變化調(diào)整自身行為的能力.在此基礎(chǔ)之上,人們對AdDSS 展開了大量的研究,包括系統(tǒng)結(jié)構(gòu)自適應(yīng)、領(lǐng)域知識自適應(yīng)、用戶接口自適應(yīng)等,自適應(yīng)性和自學(xué)習(xí)能力已經(jīng)成為智能決策支持系統(tǒng)的一個主要標志.
互聯(lián)網(wǎng)技術(shù)在決策支持領(lǐng)域的應(yīng)用,使得決策環(huán)境出現(xiàn)了新特點,即決策分析中的數(shù)據(jù)不再集中于一個物理位置,而是分散在不同部門或地區(qū).在此環(huán)境下許多大規(guī)模的管理決策活動已不可能或者不便于用集中方式進行,而分布式?jīng)Q策支持系統(tǒng)(Distribute decision support system,DDSS) 正是為適應(yīng)這類決策問題而建立的信息系統(tǒng).DDSS 將傳統(tǒng)集中式DSS 發(fā)展為網(wǎng)絡(luò)環(huán)境下的分布式并行處理的方式[30],通過網(wǎng)絡(luò)連接工作平臺和分布式數(shù)據(jù)庫、模型庫等,支持分布在各地的DSS 彼此交互,從而使他們共同為決策問題求解提供高效及時的決策支持.在大數(shù)據(jù)環(huán)境下分布式?jīng)Q策支持系統(tǒng)將得到更加廣泛的關(guān)注,分布式數(shù)據(jù)倉庫、分布式人工智能、分布式并行化決策已經(jīng)成為當下決策支持領(lǐng)域的重要研究方向.
隨著智能體(Agent) 在人工智能領(lǐng)域的深入研究,相關(guān)學(xué)者將Agent 技術(shù)引入了智能決策支持系統(tǒng),特別是多Agent 理論與技術(shù)為分布式?jīng)Q策支持系統(tǒng)的分析、設(shè)計和實現(xiàn)提供了新的途徑.Bui 和Lee[31]?將決策支持系統(tǒng)中的Agent 應(yīng)具備的能力歸納為:獨立能力、學(xué)習(xí)能力、協(xié)作能力、推理能力、智能性等.目前,多Agent 智能決策支持系統(tǒng)已經(jīng)成為趨勢,通過加入諸如人機交互Agent、模型選擇Agent、模型求解Agent 等可以使決策系統(tǒng)減少對專家的依賴,實現(xiàn)系統(tǒng)由“模型驅(qū)動” 轉(zhuǎn)為“問題驅(qū)動”,提高決策系統(tǒng)的整體智能性.Ghadimi 等[32]提出一種面向供應(yīng)鏈可持續(xù)供應(yīng)商選擇和訂單分配的多Agent 系統(tǒng)方法,通過設(shè)計數(shù)據(jù)庫Agent、供應(yīng)商Agent、決策者Agent 和訂單分配Agent,有效提高供應(yīng)商選擇和訂單分配質(zhì)量.
隨著云計算(Cloud computing) 技術(shù)興起,基于云計算的智能決策支持系統(tǒng)成為大數(shù)據(jù)智能決策支持的一個研究方向.云計算通過互聯(lián)網(wǎng)將虛擬化的數(shù)據(jù)中心和智能用戶終端有機地聯(lián)系起來,為用戶提供了便捷的信息服務(wù)環(huán)境.在大數(shù)據(jù)環(huán)境下,云計算平臺可以為大數(shù)據(jù)的決策分析提供龐大的存儲空間和強大的分布式并行計算能力.決策環(huán)境的開放性、決策資源的虛擬化、問題求解的分布式協(xié)作性將使得基于云計算的智能決策有著與傳統(tǒng)智能決策不同的特征[21].隨著移動智能設(shè)備和移動互聯(lián)網(wǎng)的普及,分布式移動云計算環(huán)境下智能決策方法成為當前的一個研究熱點[33].
隨著社會節(jié)奏的加快,企業(yè)或組織所面臨的內(nèi)外部環(huán)境更加復(fù)雜,業(yè)務(wù)問題呈現(xiàn)非線性、不確定性、多維化和實時性等特點,此時繼續(xù)使用傳統(tǒng)IDSS 工具和利用局部數(shù)據(jù)進行決策分析的方法已經(jīng)難以獲取高質(zhì)量的決策效果.在大數(shù)據(jù)環(huán)境下,智能決策支持系統(tǒng)應(yīng)具備大數(shù)據(jù)的分析處理能力.通過綜合運用互聯(lián)網(wǎng)、云平臺和人工智能技術(shù),將大數(shù)據(jù)的采集、存儲、管理、分析、共享、可視化等一系列知識發(fā)現(xiàn)技術(shù)與現(xiàn)有的智能決策支持技術(shù)深度融合,構(gòu)建形成基于大數(shù)據(jù)的智能決策支持系統(tǒng)是智能決策應(yīng)用領(lǐng)域的發(fā)展方向.未來基于大數(shù)據(jù)的決策支持系統(tǒng)有望具備海量數(shù)據(jù)匯聚融合能力、快速感知和認知能力、強大的分析與推理能力、自適應(yīng)與自優(yōu)化能力,可以實現(xiàn)復(fù)雜業(yè)務(wù)的自動識別、判斷,并做出前沿性和實時性的決策支持.
2.2 基于不確定性分析的智能決策
不確定性是指客觀事物聯(lián)系與發(fā)展過程中無序的、隨機的、偶然的、模糊的、粗糙的、近似的屬性[34].現(xiàn)實世界的多樣性、隨機性、運動性,以及人類對事物描述和信息表達的不精確性、模糊性決定了人們所能獲取的數(shù)據(jù)本身存在著較多的不確定性.而在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)的多源、多樣、增量及不完備等特點,加之人們對數(shù)據(jù)分析處理需求的多樣性(如數(shù)據(jù)融合等),使得大數(shù)據(jù)從宏觀上有著相較于傳統(tǒng)數(shù)據(jù)更多的不確定性.正如Wang 等指出,大數(shù)據(jù)的不確定性不僅存在于大數(shù)據(jù)本身,還體現(xiàn)在大數(shù)據(jù)的處理過程當中[15].因此,關(guān)于大數(shù)據(jù)不確定性信息的表示與處理成為大數(shù)據(jù)智能決策理論方法研究中不可缺少的一部分.在不確定性理論方法中模糊集、粗糙集、貝葉斯理論、證據(jù)理論等在智能決策方法中都起到了關(guān)鍵作用.隨著大數(shù)據(jù)應(yīng)用的增多,以上方法也逐漸被用于面向大數(shù)據(jù)不確定性處理的智能決策當中.本小節(jié)將從大數(shù)據(jù)不確定性處理的角度對相關(guān)方法進行回顧和綜述.
模糊集于上世紀60 年代由Zadeh 提出,通過隸屬度函數(shù)表達模糊性概念,其本身是一種有效的不確定性信息表示與處理方法.目前模糊集方法已經(jīng)形成一整套較為完整的理論體系,包括模糊集、模糊邏輯、模糊系統(tǒng)以及它們的擴展形式[35].由于模糊集方法可以在不同信息粒度層次上對不確定性數(shù)據(jù)進行表示與處理,因此具有較強的可解釋性和可理解性.模糊集在大數(shù)據(jù)中的應(yīng)用,形成對大數(shù)據(jù)不確定性的表示與處理的有效手段.在面向大數(shù)據(jù)的聚類應(yīng)用中,模糊C-means 算法(FCM) 已經(jīng)成為一種常用的軟聚類方法.文獻[36] 將FCM 應(yīng)用于機器人觸覺感知數(shù)據(jù)的分析,解決機器人觸覺識別問題.Chang 等[37]?針對高維度數(shù)據(jù)聚類問題,提出稀疏正則化FCM 算法.Di Martino 等[38]?將FCM擴展應(yīng)用于超大型事件數(shù)據(jù)集中的熱點檢測,并進一步提出了一種時空FCM 方法,用于面向時空大數(shù)據(jù)的熱點檢測與預(yù)測問題[39].模糊規(guī)則分類系統(tǒng)廣泛地應(yīng)用于模式識別和分類任務(wù),可以為用戶提供帶有語義標簽的可解釋分類規(guī)則,降低決策失誤的風(fēng)險.Jindal 等[40]?設(shè)計了云環(huán)境下的模糊規(guī)則分類器,用于處理多源異構(gòu)的遠程醫(yī)療大數(shù)據(jù),實現(xiàn)對病人的遠程實時診斷決策.針對面向大數(shù)據(jù)的模糊分類,Segatori 等[41]?提出了基于Map Reduce 的分布式模糊決策樹(FDTs) 計算模型.模糊推理系統(tǒng)還常與神經(jīng)網(wǎng)絡(luò)相結(jié)合,以提高決策問題求解的自適應(yīng)性.在電力系統(tǒng)控制領(lǐng)域,文獻[42] 將神經(jīng)網(wǎng)絡(luò)與模糊推理系統(tǒng)相結(jié)合,提出三種自適應(yīng)神經(jīng)模糊推理系統(tǒng),用于太陽能發(fā)電企業(yè)控制決策中的短時電力預(yù)測問題.Jindal 等[43]?針對疾病診斷決策中的分類問題,提出了用于醫(yī)療大數(shù)據(jù)維度約簡的模糊神經(jīng)分類器方法,有效提高疾病診斷準確率.更多有關(guān)模糊集在大數(shù)據(jù)決策方面的研究可以參見文獻[35].從現(xiàn)有的基于模糊集方法的大數(shù)據(jù)決策文獻來看,模糊集方法是適用于大數(shù)據(jù)不確定性分析的有力工具,其數(shù)據(jù)表示的多粒度特性符合人類的認知習(xí)慣,可以滿足更多特定領(lǐng)域的大數(shù)據(jù)決策需求.
粗糙集由波蘭數(shù)學(xué)家Pawlak 于1982 年提出.粗糙集使用具有精確概念的上近似集和下近似集對一個不精確概念/知識進行近似表示與度量,其獨特之處在于不需要主觀先驗知識,可以直接對數(shù)據(jù)進行分析與推理,并揭示潛在規(guī)律.目前,粗糙集及其擴展理論已經(jīng)成為處理不精確、不一致、不完備信息的有力工具,并廣泛用于數(shù)據(jù)挖掘、知識獲取以及各類決策問題的求解.為滿足粗糙集方法的大數(shù)據(jù)決策分析需求,已有較多學(xué)者從粗糙集的并行化開展了研究.基于粗糙集的多粒度思想,Qian 等[44]?提出基于MapReduce 的粗糙集的并行化層次屬性約簡方法.Li 等[45]?設(shè)計了并行化優(yōu)勢粗糙集近似計算方法.針對大數(shù)據(jù)常見的不完備特性,Abdel-Basset等提出將中性集(Neutrosophic sets) 和粗糙集相結(jié)合的方法來處理智慧城市大數(shù)據(jù)的不完備性問題[46].El-Alfy 等基于遺傳算法研究了面向決策粗糙集的大規(guī)模數(shù)據(jù)集的并行化屬性約簡方法,并成功用于網(wǎng)絡(luò)入侵檢測[47].Banerjee 等通過粗糙集理論和蟻群算法解決大數(shù)據(jù)中的不確定性和最優(yōu)特征抽取分析問題,提出了面向移動大數(shù)據(jù)的評價決策分析方法[48].針對大規(guī)模多模態(tài)數(shù)據(jù)的屬性約簡問題,Hu 等給出了多核模糊粗糙集方法[49].為降低多粒度決策粗糙集在大數(shù)據(jù)分析中的時間復(fù)雜度,同時使其滿足大數(shù)據(jù)的半監(jiān)督特性,Qian 等提出了局部多粒度粗糙集方法[50-51].
近年來,由決策粗糙集發(fā)展而來的三支決策理論[52]?成為一種更為一般化且符合人類認知的不確定性決策工具,正受到越來越多的關(guān)注.在基于Web 的醫(yī)療決策支持系統(tǒng)中,Yao 等將博弈論粗糙集(GTRS) 用于面向醫(yī)療數(shù)據(jù)的不確定性分析,通過生成三支決策規(guī)則,提高系統(tǒng)整體決策質(zhì)量[53].Yu 等研究了面向多視圖數(shù)據(jù)的不確定性聚類問題,并提出一種主動三支聚類方法[54].Zhang 和Yang等[55]?基于區(qū)間值決策粗糙集提出一種三支群決策模型.針對現(xiàn)實中有用信息隨時間不斷增長,Li等[56]?提出了代價敏感序貫三支決策,并將其應(yīng)用于人臉識別.Qian 等[57]?基于多粒度思想,提出一種更為一般化的多粒度序貫三支決策模型.
基于貝葉斯理論的方法已經(jīng)在人工智能領(lǐng)域中的不確定性推理、計算機學(xué)習(xí)等方面取得了許多成果.對于不同規(guī)模大小的貝葉斯網(wǎng)絡(luò),可以分別采用精確推理和近似推理算法進行分析,并提供決策支持.Lake 等[58]?通過一個基于貝葉斯的BPL(Bayesian program learning) 模型來建模實現(xiàn)人類層次的概念學(xué)習(xí).Sturlaugson 和Sheppard[59]?研究了連續(xù)時間貝葉斯網(wǎng)絡(luò)中的不確定推理.Abadpour[60]?利用貝葉斯推理構(gòu)造了模糊可能性聚類算法的目標函數(shù).胡支軍等[61]?研究發(fā)現(xiàn)對項目價值事前估計不確定性的貝葉斯建模可以在風(fēng)險項目投資組合決策中給出更加精確的價值估計.Hao 等[62]?研究了不確定性環(huán)境下動態(tài)決策中的信息權(quán)重確定問題,提出基于直覺模糊貝葉斯網(wǎng)絡(luò)的動態(tài)屬性權(quán)重確定方法,同時構(gòu)建了面向風(fēng)險決策問題的動態(tài)直覺模糊決策概念框架.貝葉斯網(wǎng)絡(luò)同樣適用于不完備數(shù)據(jù)的處理,Feng 等先后提出了不完備數(shù)據(jù)環(huán)境下基于貝葉斯網(wǎng)絡(luò)的巖爆災(zāi)難預(yù)測方法[63]?和隧道擠壓預(yù)測方法[64].
證據(jù)理論(Dempster-shafer theory) 通過引入信任函數(shù),把不確定與不知道區(qū)分開來,能夠在先驗概率未知的情況下,以簡單的推理形式,得到較好的結(jié)果.例如,Zhang 等[65]?采用證據(jù)推理方法研究了不確定環(huán)境下的多屬性決策分析問題.Sun 和Wang[66]?針對基于屬性描述的知識,通過組合證據(jù)來解決多屬性融合問題.Troiano 等[67]?應(yīng)用D-S 證據(jù)理論挖掘用戶的偏好信息用于推薦決策.杜元偉等[68]?將頭腦風(fēng)暴方法中的基本原則引入到主觀證據(jù)的提取過程之中,并在此基礎(chǔ)上結(jié)合證據(jù)理論提出了主觀證據(jù)融合決策方法.
由于專家知識總是有限的,并且能夠以符號邏輯表示并用來推理的知識更為有限,所以許多專家知識并不是一開始就已經(jīng)具備,更多的還是在決策過程中學(xué)習(xí)得到的.因此,人們將人工智能中的仿生方法引入到?jīng)Q策過程中,并取得了很好的效果.仿生方法是一類重要的人工智能方法,能夠適應(yīng)現(xiàn)實環(huán)境中普遍的不確定性,解決那些無法精確定義或建模的決策問題.神經(jīng)網(wǎng)絡(luò)、進化算法、蟻群算法等均被用于對存在大量不確定性信息的學(xué)習(xí),并得到較好的決策效果.例如,Bukharov 等[69]?基于神經(jīng)網(wǎng)絡(luò)和遺傳算法構(gòu)建了一個決策支持系統(tǒng),該系統(tǒng)采用區(qū)間神經(jīng)網(wǎng)絡(luò)來處理不確定數(shù)據(jù),使用遺傳算法來選擇最重要的輸入.Yu 等[70]?結(jié)合與或圖和粗糙集等方法將蟻群優(yōu)化算法應(yīng)用于屬性約簡、約簡選擇以及Web 服務(wù)選擇中.
此外,概率推理、賦值代數(shù)、連接分析、聚類分析等方法也常常應(yīng)用于不確定性決策分析中.上述理論與方法為智能決策問題的求解提供了有力的支持,但是有關(guān)不確定環(huán)境下面向復(fù)雜大群體決策等方面的求解方法仍然有待進一步的研究.
2.3 基于信息融合的智能決策
多源信息融合是人類所固有的一種基本功能.人類可以本能地將各種感知器官所探測的信息與先驗知識進行綜合,進而對周圍的環(huán)境和正在發(fā)生的事件做出準確的估計.“盲人摸象” 的故事告知我們,單憑一種感官獲得的感知信息,難以獲得對客觀事物的全面認知,而通過對不同度量特征的融合處理可以將多源信息轉(zhuǎn)化成對環(huán)境有價值的解釋.多源信息融合就是對人腦綜合處理多源信息功能的模擬[71],以實現(xiàn)自動的或半自動的將不同來源和不同時間點的信息轉(zhuǎn)化為統(tǒng)一表示形式,進而為人們提供有效決策支持的一系列技術(shù)方法[72].
在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)的分布式存儲與交互式共享會更加普遍,而具有分布式和分散控制的自治數(shù)據(jù)源是大數(shù)據(jù)應(yīng)用的主要特征之一[16].此時,多源信息融合是提升大數(shù)據(jù)價值不可或缺的技術(shù)手段.從決策應(yīng)用的角度來看,社會經(jīng)濟活動中的企業(yè)或組織在決策時需要收集大量的數(shù)據(jù),匯集不同的觀點,才能制定出符合客觀規(guī)律的決策.隨著數(shù)據(jù)獲取便利性的增加,信息的全面性和多源信息的協(xié)同作用將更多地被人們關(guān)注,而越來越多的決策任務(wù)的開展,將尋求多源數(shù)據(jù)甚至是跨平臺、跨區(qū)域、跨領(lǐng)域數(shù)據(jù)的參與.例如,在城市規(guī)劃決策中,政府部門需要結(jié)合路網(wǎng)結(jié)構(gòu)、交通流量、城市人口分布以及POIs 數(shù)據(jù)進行綜合分析[73]; 在醫(yī)療診斷中,有時專家需要將多家醫(yī)療機構(gòu)的診斷結(jié)果進行融合分析;在工業(yè)生產(chǎn)過程中,可以借助火眼圖像、槽音頻以及其他監(jiān)控數(shù)據(jù)來綜合判斷鋁電解槽過熱度狀態(tài)[74].多源信息融合對于大數(shù)據(jù)決策的意義可以歸納為兩方面:一方面,信息融合有利于進一步挖掘數(shù)據(jù)價值,從眾多分散、異構(gòu)的數(shù)據(jù)源獲取隱含價值信息,豐富決策的內(nèi)涵; 另一方面,通過多源數(shù)據(jù)的交叉引證,可以降低大數(shù)據(jù)潛在的噪音、數(shù)據(jù)缺失、信息不一致和語義模糊等不確定性因素[72],提高決策的置信度.
簡單來說,信息融合是一種概念框架.在不同需求和應(yīng)用場景下,信息融合所面對的問題不同,人們提出的模型方法與技術(shù)手段也各不相同.信息融合技術(shù)最早以多傳感器數(shù)據(jù)融合(Multi-sensor data fusion) 的概念出現(xiàn)在軍事領(lǐng)域.上世紀70 年代美國國防部聯(lián)合指揮實驗室(Joint Directors of Laboratories) 提出了頗具代表性的JDL 模型[72],旨在將來自不同源的數(shù)據(jù)信息進行多層面的融合處理,來提高目標識別、身份評估、戰(zhàn)況評估和威脅評估的準確性.在此之后,信息融合技術(shù)不斷地被豐富和拓展,并發(fā)展成為涉及信號處理、信息理論、統(tǒng)計學(xué)、人工智能、機器學(xué)習(xí)的多學(xué)科研究領(lǐng)域.
從信源之間的關(guān)系來看,學(xué)者們把信息融合的類型劃分為互補型、競爭型及合作型[75-76].互補型中的各信源互不依賴,各信源感知目標/場景的不同方面,通過信源融合來獲取目標的全局信息; 競爭型中的各信源描述相同目標/場景的同一方面,多源信息融合用于冗余校準和增強信任; 合作型中各信源之間相互依賴,從不同角度感知目標,多源信息融合用于獲得全新的信息.從信息融合的抽象層次來看,人們常把融合劃分為數(shù)據(jù)層融合、特征層融合及決策層融合[75].數(shù)據(jù)層融合也稱作像素層或信號層融合.由于數(shù)據(jù)層融合一般面向等價信源的數(shù)據(jù)[75],因此其常用融合機制為競爭型.數(shù)據(jù)層融合因盡可能多的保持了現(xiàn)場數(shù)據(jù),其具有信息損失小的優(yōu)點,但由于要對現(xiàn)場數(shù)據(jù)進行整體傳輸和集中處理,導(dǎo)致其有通信負載大、計算代價高、處理時間長、抗干擾能力差的缺點.決策層融合也稱作語義層融合,其操作對象是規(guī)則或知識.決策層融合依賴于人們對數(shù)據(jù)特征意義和關(guān)系的理解,是一種高層次的和更符合人類認知的融合方式.由于決策層融合不受信源數(shù)據(jù)形式差異的限制,使其融合機制也更加靈活,它可以面向競爭型、合作型和互補型的融合需求.由于決策層融合傳輸和處理的是規(guī)模較小的知識,因此其具有通信負載小,抗干擾能力強,融合中心計算代價低的優(yōu)點,不過在各信源的知識獲取階段仍需花費一定的計算代價且產(chǎn)生一定的信息損失,使得決策層融合存在信息損失相對較大且整體計算代價不一定會低的問題.特征層融合的操作對象是從數(shù)據(jù)中抽取的特征屬性,常用融合機制有競爭型、互補型及合作型,其優(yōu)缺點介于數(shù)據(jù)層融合和決策層融合之間.Gravina 等[75]?總結(jié)了不同層次下數(shù)據(jù)融合對比情況,見表1.
表1 不同層次下數(shù)據(jù)融合對比情況表
Table 1 Comparison of data fusion under different levels
在大數(shù)據(jù)時代,信息來源更加廣泛,數(shù)據(jù)交互更加頻繁,大數(shù)據(jù)的多源分布現(xiàn)象普遍存在.隨著社會媒體網(wǎng)絡(luò)、軀體傳感網(wǎng)絡(luò)、智能推薦系統(tǒng)、城市計算等新興技術(shù)領(lǐng)域的崛起,人們對數(shù)據(jù)融合技術(shù)的需求進一步加大.然而復(fù)雜的大數(shù)據(jù)環(huán)境對信息融合任務(wù)的開展構(gòu)成諸多挑戰(zhàn).覃雄派等[77]?指出隨著大數(shù)據(jù)的增長,對大數(shù)據(jù)進行分析的基本策略是把計算推向數(shù)據(jù),而不是移動大量的數(shù)據(jù).吳信東指出大數(shù)據(jù)應(yīng)用的自治數(shù)據(jù)源和分布式控制的特點使得整合多源數(shù)據(jù)進而集中式挖掘的方法會因傳輸代價高昂以及隱私暴露等問題而不可取[16].為實現(xiàn)對城市大規(guī)模人群聚集事件的有效預(yù)測,Huang 等[78]?通過對多源大數(shù)據(jù)的知識融合,提出一種基于大數(shù)據(jù)融合的人群聚集預(yù)警方法.Lin 等[79]?基于鄰域?;姆椒?提出一種多信源決策規(guī)則表示方法,進而通過一致性度量原則計算各信源權(quán)重,實現(xiàn)多源決策規(guī)則的融合.Zheng[73]?指出大數(shù)據(jù)時代的信息融合任務(wù)會更多地面向跨領(lǐng)域數(shù)據(jù).然而跨領(lǐng)域數(shù)據(jù)在表示、分布、尺度上普遍存在的模態(tài)差異,這對傳統(tǒng)數(shù)據(jù)層融合方法構(gòu)成巨大挑戰(zhàn).雖然已有相關(guān)研究工作將深度神經(jīng)網(wǎng)絡(luò)(Deep neural network,DNN)用于多模態(tài)數(shù)據(jù)的統(tǒng)一特征表示[80-81],并在一定程度上解決了多源數(shù)據(jù)特征層融合問題,但是基于DNN 的融合方法的效果取決于參數(shù)調(diào)整的好壞,最優(yōu)參數(shù)的尋找依然是一項耗時耗力的過程.另外,對于DNN 中間層特征表示依然存在可解釋性問題.針對上述問題,Zheng[73]?提出跨領(lǐng)域大數(shù)據(jù)融合范式(如圖1 所示),即對各個數(shù)據(jù)源分別進行知識提取,在知識層面實現(xiàn)多源信息語義融合.語義層的信息融合可以大體分為基于多視圖的數(shù)據(jù)融合、基于相似性的數(shù)據(jù)融合、基于概率依賴的數(shù)據(jù)融合以及基于遷移學(xué)習(xí)的數(shù)據(jù)融合[73].
圖1 跨領(lǐng)域大數(shù)據(jù)融合范式[73]
Fig.1 The paradigm of cross-domain big data fusion[73]
在大數(shù)據(jù)多源信息融合任務(wù)中,如何對信源進行評價與選擇同樣是一項挑戰(zhàn)性問題.Xu 等首次提出了使用內(nèi)部信任度和外部信任度兩個指標來評估信源的可靠性方法,實現(xiàn)對冗余和不可靠信源的過濾,并通過將原始數(shù)據(jù)轉(zhuǎn)換為三角模糊信息粒,實現(xiàn)基于粒計算的多源數(shù)據(jù)融合[82].但上述方法僅適用于多源同構(gòu)數(shù)據(jù)集,難以適應(yīng)多源異構(gòu)數(shù)據(jù)環(huán)境.目前對信源的評價選擇問題依然是信息融合領(lǐng)域的一個開放性研究課題.多源數(shù)據(jù)信息潛在的不完備、不一致、沖突、語義模糊等不確定性是多源信息融合所要解決的最根本問題,相關(guān)學(xué)者已嘗試將概率論、粗糙集、模糊集、可能性理論以及D-S 證據(jù)理論等應(yīng)用到數(shù)據(jù)融合當中,并分別在特定領(lǐng)域取得了較好的效果.Khaleghi 等對以上各種融合方法的優(yōu)缺點做了詳細分析,讀者可以參閱文獻[72].
2.4 基于關(guān)聯(lián)分析的智能決策
在現(xiàn)實世界中,諸多看似沒有關(guān)系的事物之間其實存在有普遍關(guān)聯(lián),而這些普遍關(guān)聯(lián)往往在一些問題求解中起到關(guān)鍵作用.相關(guān)分析便是一種發(fā)掘事物之間普遍關(guān)聯(lián)的數(shù)據(jù)驅(qū)動方法.自19 世紀80 年代Galton 通過研究人類身高遺傳問題首次提出“相關(guān)” 概念以來[83],相關(guān)分析便引起人們的關(guān)注,并逐漸成為一種決策分析的重要手段.作為度量事物之間協(xié)同關(guān)系和關(guān)聯(lián)關(guān)系的有效方法,大數(shù)據(jù)的相關(guān)分析能夠滿足人類的眾多決策需求.例如,Google 公司的趨勢系統(tǒng),通過對互聯(lián)網(wǎng)搜索數(shù)據(jù)的關(guān)聯(lián)分析,實時預(yù)測了2009 年美國H1N1 流感的爆發(fā)[19].沃爾瑪通過對用戶消費數(shù)據(jù)的關(guān)聯(lián)分析,發(fā)現(xiàn)啤酒與尿布間的關(guān)聯(lián)關(guān)系.需要特別指出的是,相關(guān)關(guān)系有別于因果關(guān)系.在大數(shù)據(jù)時代基于相關(guān)關(guān)系挖掘的數(shù)據(jù)分析具有重要的價值.李國杰院士等指出,對于簡單封閉的系統(tǒng),基于小數(shù)據(jù)的因果關(guān)系分析是可行的,但對于開放復(fù)雜的巨系統(tǒng)(大數(shù)據(jù)環(huán)境),傳統(tǒng)的因果關(guān)系分析難以奏效[84].首先,大數(shù)據(jù)環(huán)境下數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)關(guān)系錯綜復(fù)雜且存在很多噪音,人們很難在變量間建立精確的函數(shù)關(guān)系并在此基礎(chǔ)上探討因果關(guān)系,尋找因果關(guān)系的代價高昂;其次,大數(shù)據(jù)的動態(tài)與演化特性,決定了變量間的因果關(guān)系具有時效性,環(huán)境狀態(tài)稍有變化,探尋到的因果關(guān)系或已失效.然而相關(guān)關(guān)系的要求較為寬松,可以幫助人們更加快捷、高效地發(fā)現(xiàn)事物之間的內(nèi)在關(guān)聯(lián).
從決策應(yīng)用的角度來看,大數(shù)據(jù)相關(guān)性分析對大數(shù)據(jù)智能決策的推動作用主要體現(xiàn)于以下兩個方面.一方面,相關(guān)性分析技術(shù)不僅用于發(fā)現(xiàn)變量之間的潛在關(guān)聯(lián),而且還用于判定分析變量之間偽相關(guān)、假關(guān)聯(lián).試想,通過對一組數(shù)據(jù)的回歸分析,可以學(xué)到一個精度較高的回歸模型,但如果數(shù)據(jù)之間是偽相關(guān)的,那么學(xué)到的模型將導(dǎo)致錯誤的科學(xué)推斷及毫無價值的預(yù)測結(jié)果.在面向大數(shù)據(jù)智能化分析的決策應(yīng)用中,由于數(shù)據(jù)混雜且體量大,如何選擇與問題相關(guān)且正確的數(shù)據(jù)來開展分析是一項極為重要的問題.在該環(huán)節(jié),相關(guān)性分析可以為問題假設(shè)的初步分析以及正確數(shù)據(jù)的選擇,提供必要的判定與依據(jù).在這一方面,牛津大學(xué)Mayer-Schonberger 教授等也給出了相同的觀點:“建立在相關(guān)分析法基礎(chǔ)上的預(yù)測才是大數(shù)據(jù)的核心”[85].另一方面,在實際應(yīng)用中,相關(guān)性分析不是一個獨立的環(huán)節(jié),而是需要將其與其他模型方法進行有機結(jié)合,進而提高數(shù)據(jù)分析過程的合理性以及分析結(jié)果的認可度.目前,較多的數(shù)據(jù)挖掘與機器學(xué)習(xí)方法仍建立在數(shù)據(jù)的獨立同分布假設(shè)之上,顯然獨立同分布只是一種理想假設(shè),這樣的分析結(jié)果存在較大的局限性且不能充分反映數(shù)據(jù)中蘊含的真實知識.近年來,為提高數(shù)據(jù)分析的合理性和準確性,越來越多的學(xué)者將相關(guān)分析納入到智能信息處理當中,諸如多準則/屬性決策[86-87]、分類[88]、聚類[89-90]、多標簽學(xué)習(xí)[91-92]?等,均取得了較好的效果.綜合來看,大數(shù)據(jù)相關(guān)分析已經(jīng)成為大數(shù)據(jù)智能決策中的一項關(guān)鍵應(yīng)用技術(shù).
傳統(tǒng)相關(guān)分析中的相關(guān)系數(shù)法往往會忽視很多變量間隱含的邏輯關(guān)系,難以對非線性相關(guān)關(guān)系和非函數(shù)相關(guān)關(guān)系進行準確測量,這些局限性限制了傳統(tǒng)相關(guān)分析法在處理大數(shù)據(jù)問題時的應(yīng)用范圍.近年來,相關(guān)學(xué)者從典型相關(guān)分析、基于互信息的相關(guān)分析、基于距離的相關(guān)分析展開了對非線性相關(guān)關(guān)系的研究,此外在偽相關(guān)以及時序數(shù)據(jù)延遲相關(guān)方面也取得了較多研究成果.以上幾個方面對大數(shù)據(jù)相關(guān)性分析提供了理論依據(jù),下述內(nèi)容是以上幾點代表性研究成果的介紹.
目前典型相關(guān)分析(Canonical correlation analysis,CCA)已經(jīng)較多地應(yīng)用在大數(shù)據(jù)分析當中,它不僅可以揭示大數(shù)據(jù)間的關(guān)聯(lián)關(guān)系,還可以提取大數(shù)據(jù)中的低維特征.具有代表性的應(yīng)用有數(shù)據(jù)降維[93]、特征融合[94]、數(shù)據(jù)流挖掘[95]、跨模態(tài)檢索[96]等.在典型相關(guān)分析的非線性拓展方面,Yin[97]?基于互信息對CCA 進行了擴展.Lai 和Fyfe[98]?基于核方法提出了非線性CCA.Hardoon 等[99]?使用Kernel 典型相關(guān)分析方法來學(xué)習(xí)圖片和問題描述之間的語義表示.針對傳統(tǒng)典型相關(guān)分析在大數(shù)據(jù)PB級數(shù)據(jù)規(guī)模時不再適應(yīng)的情況,楊靜等[100]?提出一種基于云模型的大數(shù)據(jù)CCA 方法.
互信息作為相關(guān)分析的度量,其優(yōu)勢在于能有效地刻畫變量之間的非線性關(guān)系[18],能夠有效探測數(shù)據(jù)的內(nèi)在結(jié)構(gòu)和規(guī)律,因此在大數(shù)據(jù)相關(guān)分析中日益受到重視.Reshef 等[101]?通過互信息定義了最大信息系數(shù)(Maximal information coefficient,MIC) 用來衡量兩個變量間的相關(guān)性,可以對變量間的非函數(shù)相關(guān)關(guān)系進行有效識別.MIC 被認為具有通用性和均等性,并適用于大規(guī)模的數(shù)據(jù)集,但由于其僅針對兩個隨機變量的相關(guān)分析,因此在實際應(yīng)用中還存在一定的局限性.Nguyen 等[102]?根據(jù)MIC 方法,提出了更為一般化的相關(guān)分析方法,即最大相關(guān)分析(Maximal correlation analysis,MAC),擴展了MIC 的應(yīng)用范圍,實現(xiàn)對兩組變量之間的非線性相關(guān)關(guān)系的準確測量.
基于距離的相關(guān)系數(shù)(Distance correlation coefficient) 由Sz′ekely 等于2007 年提出[103],可以提供比皮爾遜相關(guān)系數(shù)更多的信息.基于距離的相關(guān)系數(shù)從特征函數(shù)的距離視角考察了兩個隨機向量之間的非線性相關(guān)關(guān)系,為高維數(shù)據(jù)的非線性相關(guān)分析提供了有效的度量準則.Mart′?nez-G′omez 等[104]將基于距離的相關(guān)系數(shù)應(yīng)用于高維巨量的天體物理數(shù)據(jù)集中,用于發(fā)現(xiàn)變量之間的非線性關(guān)聯(lián)關(guān)系,從而實現(xiàn)特征的提取,增強分類及模式識別的效果.Davis 等將基于距離的相關(guān)系數(shù)用于時間序列分析當中[105].基于距離的相關(guān)系數(shù)從特征函數(shù)視角構(gòu)造相關(guān)性度量方法,不但可以度量非線性相關(guān)性,而且可以度量任意兩個不同維度的隨機向量的相關(guān)性.但是,距離相關(guān)系數(shù)涉及高維向量間的距離計算及矩陣點乘運算,具有較高的時間復(fù)雜度.如何提高計算效率是基于距離相關(guān)系數(shù)分析方法的未來研究方向[18].
時序數(shù)據(jù)的延遲相關(guān)性(Lagged correlation)是時間序列數(shù)據(jù)挖掘領(lǐng)域的一個重要研究內(nèi)容.延遲相關(guān)是時序數(shù)據(jù)之間普遍存在的現(xiàn)象.例如,國際原油價格走勢常常會影響到國內(nèi)成品油的價格行情,但是這種相關(guān)性并不會立即表現(xiàn)出來,而是存在一定的延遲.在時間序列的相關(guān)性判定中,既要判斷數(shù)據(jù)之間是否存在時差(也稱作“時間彎曲”),又要考慮數(shù)據(jù)之間是否具有真實的相關(guān)性.曲線排齊法(Curve registration) 是對延遲序列進行矯正的常用方法.經(jīng)典的曲線排齊方法包括位移排齊法、特征點排齊法、連續(xù)單調(diào)排齊法等.針對BRAID方法(一種位移排齊法) 在最大延遲相關(guān)點較大時準確率不高的問題,林子雨等[106]?提出了三點預(yù)測探查法(TPFP),該方法可有效處理最大延遲相關(guān)點位置較大的情形,并可應(yīng)對延遲突變問題.姜高霞和王文劍[107]?構(gòu)造了基于時間序列相關(guān)系數(shù)特征的相關(guān)性判定方法,并基于光滑廣義期望最大化算法提出一種基于相關(guān)系數(shù)最大化的曲線排齊模型.針對基于采樣的曲線排齊法中均勻采樣存在的缺陷,張文凱等[108]?提出了基于非均勻采樣的相關(guān)系數(shù)最大化曲線排齊方法.此外動態(tài)時間彎曲法(Dynamic time warping) 也是時下較為流行的時移序列排齊方法[109].
偽相關(guān)(Spurious correlation)是指不具有相關(guān)關(guān)系的兩組數(shù)據(jù)卻具有較高樣本相關(guān)系數(shù)的一種統(tǒng)計現(xiàn)象.該現(xiàn)象將產(chǎn)生誤導(dǎo)性的統(tǒng)計推斷.關(guān)于偽相關(guān)的產(chǎn)生原因,學(xué)界普遍認為是由其他未見因素(共有因素) 的影響而產(chǎn)生.偽相關(guān)的判定問題和如何降低潛在偽相關(guān)的影響是相關(guān)分析應(yīng)用中的重要問題,并且多需要結(jié)合數(shù)據(jù)的背景知識來分析.在生態(tài)系統(tǒng)研究當中,Baldocchi 等[110]?針對冠層光合作用和生態(tài)系統(tǒng)呼吸之間可能存在的潛在偽相關(guān)性,通過改變數(shù)據(jù)匯總和集成的采樣方法和時間尺度,來驗證不同采樣方法對以上兩者之間偽相關(guān)度的影響.在基于元社區(qū)結(jié)構(gòu)的物種分類研究當中,Clappe等[111]?分析了由空間自相關(guān)(獨立發(fā)生) 引起的物種分布和空間環(huán)境之間的偽相關(guān)問題,并基于空間約束空模型(Spatially-constrained null model) 提出一種新的方差分解方法,用于從環(huán)境數(shù)據(jù)中校準空間自相關(guān)帶來的偽相關(guān)貢獻.Gao 等[112]?提出一種新的兩個非獨立變量之間偽相關(guān)性的判定方法,通過引入一個“純” 偽相關(guān)指標,并將其與偽相關(guān)指標進行回歸分析,實現(xiàn)對區(qū)域徑流懸沙年產(chǎn)量與徑流深度之間偽相關(guān)性判定,并進一步分析表明偽相關(guān)性受變量易變性的顯著影響.在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)的海量性、高維性、動態(tài)及不確定性等增加了發(fā)現(xiàn)偽相關(guān)的難度,特別是大數(shù)據(jù)的高維特征將顯著增加偽相關(guān)的可能性[113],因此面向大數(shù)據(jù)的相關(guān)分析,不可一味地追求對數(shù)據(jù)相關(guān)性探尋,而忽略了對偽相關(guān)的分析與判斷.
2.5 基于增量分析的智能決策
增量性是大數(shù)據(jù)的固有特性之一.現(xiàn)實生活中廣泛分布的傳感與監(jiān)控設(shè)備、實時互聯(lián)的社會媒體等都構(gòu)成了大數(shù)據(jù)動態(tài)增長的在線場景.基于大數(shù)據(jù)決策的數(shù)據(jù)分析,不單要從歷史大數(shù)據(jù)中獲取知識,更多的是要對新增數(shù)據(jù)進行動態(tài)知識發(fā)現(xiàn).傳統(tǒng)機器學(xué)習(xí)方法對歷史大數(shù)據(jù)的挖掘與分析往往是建立在數(shù)據(jù)隱含規(guī)律對未來預(yù)測有效性的假設(shè)之上,或假定決策狀態(tài)始終處于決策模型的閉環(huán)之內(nèi).顯然現(xiàn)實世界的復(fù)雜多變性決定了從歷史數(shù)據(jù)中獲取的知識多數(shù)只具備歷史有效性,在實用性較強的決策應(yīng)用領(lǐng)域,特別是對決策時效性要求較高的工業(yè)控制領(lǐng)域和智能交通領(lǐng)域等,實時動態(tài)的增量式知識獲取是保證決策質(zhì)量的必要條件.近年來隨著大數(shù)據(jù)應(yīng)用的普及,更多專家學(xué)者開始關(guān)注大數(shù)據(jù)的增量式學(xué)習(xí)問題.分類或聚類也是實現(xiàn)決策分析任務(wù)的常見方法.在這類典型的基于機器學(xué)習(xí)的決策應(yīng)用中,增量性主要體現(xiàn)于三個方面:一是數(shù)據(jù)樣本的增量; 二是樣本特征描述信息的增量; 三是類別的增量與數(shù)據(jù)分布的變化.
在數(shù)據(jù)樣本增量方面.針對以往增量式學(xué)習(xí)均假設(shè)新增樣本是獨立且同分布的,Xu 等[114]?研究了依賴采樣方法對增量式支持向量機算法的影響,并提出了一種基于馬爾科夫重采樣的增量式支持向量機算法(MR-ISVM),實現(xiàn)ISVM 學(xué)習(xí)效率的顯著提高.Gu 等[115]?基于代價敏感鉸鏈損失的支持向量機(CSHL-SVM) 構(gòu)建了數(shù)據(jù)塊增量式學(xué)習(xí)算法,實現(xiàn)在線場景下的分類模型的快速更新.粗糙集方法是處理不確定性數(shù)據(jù)的有效決策工具.目前已經(jīng)有專家學(xué)者基于粗糙集的決策方法進行了有關(guān)增量式知識發(fā)現(xiàn)的研究.Chen 等[116]?將變精度粗糙集方法引入集值序信息系統(tǒng),研究了變精度集值序信息系統(tǒng)下的近似集增量更新方法.為應(yīng)對決策信息系統(tǒng)中數(shù)據(jù)對象的動態(tài)增加問題,Li 等[117]?提出基于優(yōu)勢粗糙集的增量式近似集更新方法,該方法可以有效解決多準則決策中的動態(tài)增量問題.針對數(shù)據(jù)樣本的增量以及數(shù)據(jù)中潛在的不確定性,Yu[118]?提出了三支聚類計算框架,并進一步提出了基于樹的增量式三支聚類模型,該模型為不確定性大數(shù)據(jù)的增量式聚類計算提供了新思路.Hu 等[119]?通過粗糙集表示聚類問題中數(shù)據(jù)的不確定性,形成一套基于粗糙集的增量式模糊聚類集成方法,實現(xiàn)對不確定性數(shù)據(jù)的增量式聚類計算.
在樣本特征描述信息的增量方面.Hu 等[120]?基于互信息的差異生成策略和特征增量樹生長機制提出一種特征增量隨機森林(FIRF) 學(xué)習(xí)方法,解決老年人健康護理中因傳感器增加形成的數(shù)據(jù)特征增量問題.Huang 等[121]?在分布式信息系統(tǒng)下基于屬性一般化提出了增量式粗糙近似集更新方法.Jing等[122]?研究了多粒度視角下的知識粒表示方法,針對大規(guī)模動態(tài)增量決策信息系統(tǒng),提出了多粒度增量式屬性約簡方法,有效避免數(shù)據(jù)增加過程中對等價類的重復(fù)計算.針對層次化多準則分類問題中屬性值在不同粒度層次上的動態(tài)更新,Luo 等[123]?通過屬性值分類對知識粒進行細化和粗化,實現(xiàn)知識粒的動態(tài)特性的形式化表示,并在此基礎(chǔ)上提出了層次化多準則決策系統(tǒng)下的優(yōu)勢粗糙集增量式學(xué)習(xí)方法.面向?qū)傩栽隽康木垲愃惴梢詾榛跓o監(jiān)督數(shù)據(jù)的決策活動提供有益幫助,不過現(xiàn)階段面向?qū)傩栽隽康木垲愌芯恳廊惠^少.
在類別的增量與數(shù)據(jù)分布的變化方面.傳統(tǒng)的增量式機器學(xué)習(xí)方法常假設(shè)訓(xùn)練數(shù)據(jù)和新增數(shù)據(jù)符合相同的模式,卻較少考慮新數(shù)據(jù)所屬類別的增加與數(shù)據(jù)分布變化情況,這使得傳統(tǒng)增量式機器學(xué)習(xí)方法難以適應(yīng)實際生產(chǎn)中的大數(shù)據(jù)環(huán)境.現(xiàn)實中的諸多因素會導(dǎo)致模型在學(xué)習(xí)階段只能接觸到有限的數(shù)據(jù)類別,而在測試和實際應(yīng)用階段的數(shù)據(jù)卻包含了在學(xué)習(xí)階段未曾出現(xiàn)的類別.該類場景下的學(xué)習(xí)問題被稱作開集學(xué)習(xí)(Open-set learning) 問題,意在尋求對已知類識別的同時,能有效識別未知新類.Da 等[124]?嘗試從無標簽數(shù)據(jù)中獲取更多分類信息,并基于支持向量機的大邊緣準則和半監(jiān)督學(xué)習(xí)中的低密度分離器技術(shù),提出了基于無標簽數(shù)據(jù)增廣類學(xué)習(xí)框架及相應(yīng)的支持向量機方法,用于開放空間下的樣本預(yù)測.Ristin 等[125-126]?基于隨機森林算法提出了最近類平均森林算法和支持向量機森林算法,研究了大規(guī)模圖像分類中數(shù)據(jù)類別增加的增量式學(xué)習(xí)問題.J′unior 等[127]?將最近鄰分類器擴展應(yīng)用到開集學(xué)習(xí)當中,提出一種開集最近鄰方法.在基于神經(jīng)網(wǎng)絡(luò)的圖形識別領(lǐng)域,使用數(shù)據(jù)集增廣技術(shù)是應(yīng)對開集識別問題的一種方法,Neal 等[128]?提出一種反事實圖像生成的數(shù)據(jù)增廣方法,并通過訓(xùn)練后的生成對抗網(wǎng)絡(luò)生成開集訓(xùn)練樣本,用于對開集圖像識別任務(wù)的學(xué)習(xí).通過在深度網(wǎng)絡(luò)中引入新的模型層OpenMax 并結(jié)合元識別(Meta-recognition)算法來估計未知新類的概率,Bendale 和Boult[129]提出一種深度網(wǎng)絡(luò)開集識別方法,實現(xiàn)深度網(wǎng)絡(luò)對高置信度欺騙圖像以及相似于訓(xùn)練樣本的對抗圖像的識別.分布外圖像檢測問題同樣可看作是一類特殊的開集學(xué)習(xí)問題.Liang 等[130]?針對基于神經(jīng)網(wǎng)絡(luò)的分布外圖像檢測問題,提出了基于神經(jīng)網(wǎng)絡(luò)的分布外檢測器,通過控制溫度標定并結(jié)合添加輸入擾動的方法,增加分布內(nèi)圖像與分布外圖像之間的Softmax 分數(shù)間隔,在無需重新訓(xùn)練網(wǎng)絡(luò)的情況下,有效降低分布外樣本的誤判率.目前已有的開集學(xué)習(xí)的研究主要關(guān)注了如何檢測到新類,然而如何進一步區(qū)分新類同樣具有重要的實際意義和研究價值,目前該方面的研究還較少.
在流式數(shù)據(jù)和時間序列數(shù)據(jù)的實時處理任務(wù)中,如何將新增數(shù)據(jù)的分布變化納入學(xué)習(xí)任務(wù)當中是一項極其重要的研究工作.基于概念漂移(Concept drift) 的增量式學(xué)習(xí)方法是應(yīng)對上述問題的有效途徑之一.Ahmad 等[131]?將概念漂移方法用于流式數(shù)據(jù)的非監(jiān)督學(xué)習(xí)當中,有效提高了在線異常檢測的精度.針對傳統(tǒng)DSS 中的靜態(tài)數(shù)據(jù)分析方法在發(fā)生概念漂移時無法做出正確決策的問題,Dong 等[132]研究了數(shù)據(jù)驅(qū)動決策支持系統(tǒng)中的概念漂移問題,提出一種基于數(shù)據(jù)分布的概念漂移檢測方法,為數(shù)據(jù)流提供更好、更精細的經(jīng)驗分布,使得DSS 可以在適當?shù)臅r間調(diào)整決策知識以適應(yīng)不斷變化的環(huán)境.Lobo 等[133]?使用核密度估計構(gòu)建了一種進化多樣化生成方法,用于在線學(xué)習(xí)中概念漂移后學(xué)習(xí)策略的快速適應(yīng).
3 挑戰(zhàn)問題與發(fā)展趨勢
誠然大數(shù)據(jù)可以為人們帶來更加科學(xué)全面的決策支持,但大數(shù)據(jù)智能決策的應(yīng)用研究還處于初期階段,并仍面臨諸多挑戰(zhàn).在此,我們討論大數(shù)據(jù)智能決策面臨的一些問題挑戰(zhàn),并指出潛在的應(yīng)對方法或未來的發(fā)展趨勢.
3.1 大數(shù)據(jù)多樣性帶來的挑戰(zhàn)
多樣性是構(gòu)成大數(shù)據(jù)復(fù)雜性的主要因素之一,也是大數(shù)據(jù)智能決策面臨的主要困難.當一項綜合決策需要整合多方面數(shù)據(jù)時,不同來源的大數(shù)據(jù)在類型、分布、頻率及密度上可能各不相同,這對多源大數(shù)據(jù)融合分析、多源信息協(xié)同決策等構(gòu)成巨大的挑戰(zhàn).現(xiàn)階段對于處理大數(shù)據(jù)的多源異構(gòu)性,已經(jīng)有一些研究成果,但多數(shù)還是面向具體場景和特定一些類型的大數(shù)據(jù).解決多源異構(gòu)大數(shù)據(jù)的協(xié)同分析問題,消除信息孤島進而實現(xiàn)通用性、魯棒性更好的大數(shù)據(jù)智能決策,是目前大數(shù)據(jù)智能決策的一個關(guān)鍵性研究課題.
多源大數(shù)據(jù)之間的關(guān)系普遍為互補型或合作型,通過數(shù)據(jù)層面的融合決策不一定那么有效.目前在特征層實現(xiàn)異構(gòu)數(shù)據(jù)的融合方法中,有很多基于DNN 的優(yōu)秀成果.然而,基于DNN 的方法只克服了多樣性中的數(shù)據(jù)類型多樣,而對于分布、頻率等多樣性還無法應(yīng)對.需要指出的是,任何決策都是有風(fēng)險代價的,數(shù)據(jù)分析過程的可解釋性對于決策者而言至關(guān)重要,然而可解釋性卻是DNN 的短板.基于粒計算的DNN 可解釋性研究可望成為大數(shù)據(jù)智能分析的一個潛在研究方向.
通過語義層/決策層實現(xiàn)多源數(shù)據(jù)的綜合利用是解決數(shù)據(jù)異質(zhì)性較好的方法,可以有效避免各種異質(zhì)性問題.在大數(shù)據(jù)環(huán)境下,分布式自治數(shù)據(jù)源是大數(shù)據(jù)應(yīng)用的一大特點[16],去中心化將成為一大趨勢.通過分布式知識獲取與協(xié)同的方法可以有效實現(xiàn)多源異構(gòu)數(shù)據(jù)的協(xié)同感知與交互.所謂協(xié)同,可解釋為對不一致信息的沖突分析.研究基于粗糙集、模糊集和群體智能決策的沖突分析方法如何應(yīng)用到大數(shù)據(jù)決策是未來的一個發(fā)展方向.
3.2 大數(shù)據(jù)動態(tài)性帶來的挑戰(zhàn)
日益加快的人、機、物之間的交互活動,使得數(shù)據(jù)的快速增長成為大數(shù)據(jù)顯著特性之一.從決策需求的及時性和準確性來看,大數(shù)據(jù)的動態(tài)性對現(xiàn)有的增量式機器學(xué)習(xí)方法構(gòu)成巨大的挑戰(zhàn).例如,在流式數(shù)據(jù)處理中,如何在發(fā)生概念漂移時及時調(diào)整數(shù)據(jù)分析策略并實現(xiàn)知識庫的自適應(yīng)更新,仍是一項挑戰(zhàn)性的研究任務(wù).
針對大數(shù)據(jù)動態(tài)增量問題,可以考慮形成一個訓(xùn)練學(xué)習(xí)、執(zhí)行預(yù)測、漂移檢測、漂移理解、漂移自適應(yīng)的多步驟自適應(yīng)學(xué)習(xí)模型.這類模型的重點和難點在于漂移理解與漂移自適應(yīng).在漂移理解方面可以融入高層次的、符合認知的方法,可以采用粗糙集、模糊集、商空間等粒計算方法建立不同粒度層次下的漂移認知模型,實現(xiàn)符合人類認知的層次化概念漂移理解.針對漂移自適應(yīng)問題,可以通過構(gòu)建有效的知識距離度量方法來度量概念漂移距離與方向,同時綜合運用進化計算與神經(jīng)網(wǎng)絡(luò)等方法構(gòu)建與問題相符的參數(shù)自適應(yīng)模型,實現(xiàn)對學(xué)習(xí)模型的演化更新.
3.3 大數(shù)據(jù)極弱監(jiān)督性帶來的挑戰(zhàn)
大數(shù)據(jù)的快速增長性也決定了大數(shù)據(jù)的極弱監(jiān)督性甚至是非監(jiān)督性.大數(shù)據(jù)分類學(xué)習(xí)中的極弱監(jiān)督性帶來的問題通常表現(xiàn)在兩個方面:一是因標記稀缺而不能正確詳盡地反映出整體數(shù)據(jù)集的特點,導(dǎo)致學(xué)到的學(xué)習(xí)器泛化能力弱.二是標記稀缺使得構(gòu)造多分類器時多樣性不足,導(dǎo)致集成學(xué)習(xí)不能奏效.大數(shù)據(jù)的極弱監(jiān)督性決定了以聚類算法為特點的無監(jiān)督學(xué)習(xí)方法在大數(shù)據(jù)增量問題上的研究具有巨大的決策應(yīng)用價值.不過大數(shù)據(jù)的增量性不僅體現(xiàn)于數(shù)據(jù)樣本的增加,還體現(xiàn)于屬性的增加.針對大數(shù)據(jù)屬性增量式聚類問題仍然缺乏有效的方法.
針對大數(shù)據(jù)的極弱監(jiān)督性,可以充分利用多視角信息、相似領(lǐng)域信息、先驗知識等,采用大數(shù)據(jù)耦合與關(guān)聯(lián)分析、大數(shù)據(jù)與經(jīng)驗知識相融合等技術(shù)增加額外的監(jiān)督信息.三支決策[134]?體現(xiàn)了一種漸進決策的思想.我們可以設(shè)計三支聚類模型逐步地、有效地利用少量標簽信息或者領(lǐng)域?qū)<抑R.根據(jù)數(shù)據(jù)類型與問題求解需求,采用合適的粒計算方法構(gòu)建多粒度聚類分析算法模型,也可望為大數(shù)據(jù)屬性增量式聚類帶來新的解決思路.
3.4 大數(shù)據(jù)不確定性帶來的挑戰(zhàn)
不確定性是當前人工智能技術(shù)研究中的關(guān)鍵問題,同時也是貫穿于大數(shù)據(jù)智能決策整個過程的核心問題.目前研究較多的就是獲取大數(shù)據(jù)中的不確定性知識.然而不確定性的形式眾多,難以用統(tǒng)一的形式化方法表達,也無法憑單一的技術(shù)手段來獲取大數(shù)據(jù)中的不確定性知識.不確定性知識發(fā)現(xiàn)的研究難度大、價值高,一直是各領(lǐng)域知識發(fā)現(xiàn)研究所面臨的核心困難問題.
要實現(xiàn)復(fù)雜數(shù)據(jù)中不確定性知識的高效獲取,需要為描述不確定性概念知識提供合適的數(shù)學(xué)模型,建立不確定性知識空間中的計算模型,實現(xiàn)對不確定性知識空間的認知和理解,進而從數(shù)據(jù)中高效動態(tài)獲取滿足約束要求的知識.粒計算[135-136]?是一種基于認知科學(xué)的智能信息計算范式,它適用于近似求解具有不確定性和層次結(jié)構(gòu)的問題,可以達到對問題的簡化、提高問題求解效率等目的.從多粒度計算的角度來看,不確定性和確定性是信息在不同粒度層面上的不同表示形式,在某一層次上的不確定性問題可能是其他層次上的確定性問題[34].通過研究大數(shù)據(jù)在不同粒度層次上的粒度尋優(yōu)與粒度切換方法可望實現(xiàn)對不確定性信息的有效處理.此外,粒計算往往從實際問題的需求出發(fā),用可行的滿意近似解替代精確解,提高問題求解效率.
3.5 大數(shù)據(jù)隱私問題帶來的挑戰(zhàn)
目前大數(shù)據(jù)隱私保護問題已經(jīng)被廣泛關(guān)注[16].諸如企業(yè)供應(yīng)鏈數(shù)據(jù)、銀行交易數(shù)據(jù)、患者醫(yī)療數(shù)據(jù)、導(dǎo)航用戶軌跡數(shù)據(jù)等均構(gòu)成了隱私保護的敏感信息范疇.大數(shù)據(jù)的應(yīng)用過程中往往不可避免地觸及到敏感數(shù)據(jù)的傳輸、交互與分析處理,特別是在跨平臺、跨企業(yè)、跨領(lǐng)域數(shù)據(jù)的決策分析中,用戶隱私數(shù)據(jù)暴露問題顯得尤為突出.現(xiàn)階段,由于缺乏有效的隱私保護手段,多數(shù)擁有數(shù)據(jù)的企業(yè)不愿或不能將數(shù)據(jù)公開,這在很大程度上放慢了大數(shù)據(jù)研究與應(yīng)用的落地.目前,有關(guān)大數(shù)據(jù)應(yīng)用中的隱私保護還沒有標準化的處理手段,在技術(shù)層面和管理層面數(shù)據(jù)隱私都面臨嚴峻的挑戰(zhàn).有學(xué)者提出通過制定數(shù)據(jù)訪問與分享的隱私保護策略,比如設(shè)置一定的訪問資格和權(quán)限,或采用匿名數(shù)據(jù)的方法[137].對于設(shè)置數(shù)據(jù)訪問權(quán)限的方法,難點在于對安全認證和訪問控制機制的設(shè)計以及對用戶信用的把握; 而采用匿名數(shù)據(jù)的方法,將顯著增加數(shù)據(jù)的不確定性,為數(shù)據(jù)分析帶來更多困難[7,16].
隱私信息一般是以最細粒度原始數(shù)據(jù)的形式存在的[136].根據(jù)粒計算的觀點,數(shù)據(jù)是知識在最細粒度上的表現(xiàn),知識是數(shù)據(jù)在不同粒度層次上的抽象[138-139].面對復(fù)雜大數(shù)據(jù),數(shù)據(jù)、信息、知識都可以被?;?并映射到不同的粒度層次上.此時的計算單元從原有的最細粒度的“數(shù)據(jù)” 轉(zhuǎn)變?yōu)榫哂姓J知特征的、規(guī)模較小的“知識?!?經(jīng)過?;蟮闹R粒隱藏了細節(jié)信息,從而可以實現(xiàn)大數(shù)據(jù)隱私信息有效保護.
3.6 特例狀況帶來的挑戰(zhàn)
眾所周知,基于機器學(xué)習(xí)的大數(shù)據(jù)智能化分析處理方法本質(zhì)上是建立在對大數(shù)據(jù)的統(tǒng)計分析基礎(chǔ)之上的.在完全信息環(huán)境下,通過對大數(shù)據(jù)的智能化分析可以很好地預(yù)測、判斷大數(shù)據(jù)已經(jīng)覆蓋的事物狀態(tài),但現(xiàn)實中的決策環(huán)境多是開放性的,事物的狀態(tài)是千變?nèi)f化的,因此即便是經(jīng)過長期積累的大數(shù)據(jù)也無法保證信息的完全性.比如在航天領(lǐng)域中的故障、交通行業(yè)中的事故等多數(shù)都是特例.并且由于現(xiàn)實條件的約束人們往往無法通過反復(fù)試驗的方法來獲取覆蓋各種特例的大數(shù)據(jù)進行學(xué)習(xí)預(yù)測,因此對特例狀況的預(yù)測和判斷是實際應(yīng)用中的一大挑戰(zhàn).
對于特例狀況的學(xué)習(xí),有望借助平行系統(tǒng)和平行學(xué)習(xí)的方法進行解決.平行系統(tǒng)的概念是由中科院自動化所王飛躍研究員于2004 年提出[140],通過利用大型計算模擬、預(yù)測并誘發(fā)引導(dǎo)復(fù)雜系統(tǒng)現(xiàn)象,構(gòu)建一種軟件定義的人工系統(tǒng)[141].平行學(xué)習(xí)利用計算實驗方法進行預(yù)測學(xué)習(xí),通過人工系統(tǒng),依據(jù)原始“小數(shù)據(jù)” 生成大量的人工合成數(shù)據(jù).將人工合成數(shù)據(jù)與原始的小數(shù)據(jù)一起構(gòu)成解決問題的所需的“大數(shù)據(jù)”,通過學(xué)習(xí)提取,得到應(yīng)用于某些具體場景或任務(wù)的知識,進而用于平行控制和平行決策.平行系統(tǒng)和平行學(xué)習(xí)可以滿足人們對特例狀況模擬與預(yù)測學(xué)習(xí)的需求,在一定程度上可能會解決特例對大數(shù)據(jù)智能決策帶來的挑戰(zhàn).
3.7 大數(shù)據(jù)認知困難帶來的挑戰(zhàn)
從本質(zhì)上講,決策活動是人類的一種認知活動,認知過程是所有決策過程的共性.現(xiàn)階段的人工智能技術(shù)與機器學(xué)習(xí)方法對于大數(shù)據(jù)的處理以及知識的獲取多數(shù)還處于對事物的感知層面,如特征提取,模式識別、預(yù)測、回歸、聚類等,它們在實質(zhì)上都是對事物的分類認知.然而分類僅是人類的一種低層次認知,其功能本質(zhì)在于對事物的區(qū)分、辨別與歸類.單純依靠對事物的分類還不足以構(gòu)成一項完整的決策.決策是任務(wù)和需求驅(qū)動的問題求解過程,需要決策者在的分類認知的基礎(chǔ)之上,繼續(xù)賦予研究對象以價值尺度認知或功能偏好認知,并最終做出選擇的全過程.讓機器擁有意識和理解能力才是人工智能最根本的目標,在這方面人工智能剛走出了決策認知的第一步(即分類認知),而偏好認知還多依賴于人的參與.在實際應(yīng)用中,只有不斷提高對大數(shù)據(jù)快速的、完整的認知能力,才能實現(xiàn)高效及時的大數(shù)據(jù)智能決策.
陳純院士指出,當前大數(shù)據(jù)智能正從規(guī)則的學(xué)習(xí)推理方法,到數(shù)據(jù)驅(qū)動的知識挖掘方法,邁向數(shù)據(jù)驅(qū)動與知識引導(dǎo)的新時代.將數(shù)據(jù)驅(qū)動的機器學(xué)習(xí)方法與人類的常識先驗與隱式直覺相結(jié)合,可以實現(xiàn)可解釋、更魯棒和更通用的人工智能[9].鄭南寧院士指出,由于人類生活環(huán)境的高度不確定性和脆弱性以及面臨問題的開放性,任何智能程度的機器都無法完全取代人類,因此有必要將人類的認知能力或類人認知模型引入人工智能系統(tǒng),形成混合增強智能形態(tài)[142].張鈸院士指出,人類在問題求解中具有天生的知識驅(qū)動能力、對不確定性問題的處理優(yōu)勢和對全局整體的感知能力; 傳統(tǒng)機器學(xué)習(xí)具有在數(shù)據(jù)分析處理中的數(shù)據(jù)驅(qū)動能力、高速計算能力,二者結(jié)合是未來信息處理的發(fā)展趨勢[143].因此,人機結(jié)合的智能形態(tài)有望構(gòu)造出更加有效的認知計算方法.在今后的大數(shù)據(jù)智能決策的應(yīng)用與研究中,人機結(jié)合的增強智能有望實現(xiàn)對大數(shù)據(jù)更加有效的處理,并創(chuàng)造出更好的結(jié)果.
4 結(jié)束語
在全球信息化快速發(fā)展的背景下,大數(shù)據(jù)以其蘊含的巨大價值正受到社會各界的廣泛關(guān)注.發(fā)展基于大數(shù)據(jù)的人工智能新技術(shù),實現(xiàn)基于大數(shù)據(jù)的智能決策是推動發(fā)展智能經(jīng)濟、智能服務(wù)、智能制造的關(guān)鍵手段.現(xiàn)階段,智能決策理論方法在大數(shù)據(jù)驅(qū)動的模式下快速發(fā)展,并逐漸形成一系列圍繞多源異構(gòu)大數(shù)據(jù)智能化處理的新方法和新趨勢.為了深入了解大數(shù)據(jù)智能決策的發(fā)展現(xiàn)狀,文章對大數(shù)據(jù)的特性以及大數(shù)據(jù)決策的特點進行了歸納總結(jié),并著重從智能決策支持系統(tǒng)的發(fā)展、不確定性信息處理、信息融合、關(guān)聯(lián)分析以及增量分析五個方面綜述了當前大數(shù)據(jù)智能決策的發(fā)展現(xiàn)狀.最后文章討論了大數(shù)據(jù)智能決策仍然面臨的問題與挑戰(zhàn),展望了一些潛在的方法及研究方向.作為一門快速發(fā)展的開放性學(xué)科領(lǐng)域,大數(shù)據(jù)智能決策在內(nèi)涵外延、模型理論、技術(shù)方法及實施策略等方面還需要人們繼續(xù)投入更多的研究與實踐.希望本文對大數(shù)據(jù)智能決策的相關(guān)介紹與探討能夠?qū)ψx者提供有益的借鑒和幫助.
審核編輯:符乾江
評論
查看更多