現(xiàn)在企業(yè)都擁有海量數(shù)據(jù)。就在十年前,千兆字節(jié)的數(shù)據(jù)似乎還很龐大。而如今,有些大型企業(yè)已經(jīng)在管理澤字節(jié)數(shù)據(jù)。為了讓你了解這種數(shù)據(jù)規(guī)模,我們打個比方,如果你的筆記本電腦或臺式機裝有1 TB硬盤驅(qū)動器,則澤字節(jié)相當于10億個這樣的硬盤驅(qū)動器。
企業(yè)如何從如此多的數(shù)據(jù)中挖掘商業(yè)價值呢?他們需要能夠分析這些數(shù)據(jù),這就像在大海撈針。而這正是數(shù)據(jù)科學、機器學習和AI發(fā)揮作用的地方,但你并不需要澤字節(jié)規(guī)模的數(shù)據(jù)來使這三項技術(shù)具有相關(guān)性。
對于各種行業(yè)中各種類型和規(guī)模的企業(yè),這三項技術(shù)都是關(guān)鍵技術(shù)主題。但是,對于數(shù)據(jù)科學、機器學習、人工智能以及它們各自涉及的內(nèi)容,人們?nèi)匀唤?jīng)常感到困惑。你需要了解這些變革性概念的性質(zhì)和目的,以幫助你學習如何最好地利用它們以滿足緊迫的業(yè)務需求。
下面讓我們看看這些技術(shù),了解它們之間的差異以及如何讓它們協(xié)同工作。
數(shù)據(jù)科學
雖然從數(shù)據(jù)出現(xiàn)以來,數(shù)據(jù)就是計算的核心,但在數(shù)據(jù)出現(xiàn)的幾十年后,才出現(xiàn)專門處理數(shù)據(jù)分析的單獨領(lǐng)域。數(shù)據(jù)科學專注于統(tǒng)計方法、科學方法和高級分析技術(shù)–而不是數(shù)據(jù)管理的技術(shù)方面,這些技術(shù)將數(shù)據(jù)視為離散資源,而不管其存儲或操作方式如何。
在其核心,數(shù)據(jù)科學旨在從數(shù)據(jù)中提取有用的見解,基于企業(yè)高管和其他潛在用戶的特定要求。客戶想要購買什么?企業(yè)的特定產(chǎn)品或在某個地理區(qū)域的情況如何?COVID-19疫情是否正在縮減或增加資源?這些是可以通過數(shù)據(jù)科學回答的問題,其中利用數(shù)學、統(tǒng)計和數(shù)據(jù)分析。
傳統(tǒng)上來看,企業(yè)依靠商業(yè)智能系統(tǒng)從不斷增長的數(shù)據(jù)池中獲得見解。但是,BI系統(tǒng)部分依靠人類來發(fā)現(xiàn)電子表格、儀表板、圖表或圖形中的趨勢。他們也受到大數(shù)據(jù)4個屬性的挑戰(zhàn):數(shù)量、速度、多樣性和準確性。隨著企業(yè)存儲越來越多的數(shù)據(jù),以更快的速度從各種各樣的數(shù)據(jù)源中收集數(shù)據(jù),以不同的格式和不同的數(shù)據(jù)質(zhì)量級別,BI的常規(guī)數(shù)據(jù)倉庫和業(yè)務分析方法已經(jīng)不夠用。
相比之下,亞馬遜、谷歌、Netflix和Spotify等領(lǐng)先公司的經(jīng)驗表明,應用數(shù)據(jù)科學的基本方面可以幫助發(fā)現(xiàn)更深刻的見解,從而提供比商業(yè)競爭對手更大的競爭優(yōu)勢。他們和其他組織(銀行和保險公司、零售商、制造商等)都在利用數(shù)據(jù)科學來發(fā)現(xiàn)數(shù)據(jù)集的模式、識別潛在的異常交易、發(fā)現(xiàn)錯失客戶的機會,并創(chuàng)建未來行為和事件的預測模型。
同樣,醫(yī)療保健提供者依靠數(shù)據(jù)科學來幫助診斷醫(yī)療狀況,并改善患者護理,而政府機構(gòu)則將其用于提早通知可能危及生命的情況,以及確保關(guān)鍵系統(tǒng)和基礎(chǔ)設施的安全性等。
數(shù)據(jù)科學工作主要由數(shù)據(jù)科學家完成。盡管對其工作描述尚未達成共識,但下面是有效的數(shù)據(jù)科學家必須具備的最低技能:
完全掌握統(tǒng)計數(shù)據(jù)和概率;
了解用于分析數(shù)據(jù)的各種算法方法;
懂得使用各種工具、技術(shù)來探究大型數(shù)據(jù)集以獲得所需分析結(jié)果;
數(shù)據(jù)可視化功能,可提供對所生成見解的可視性。
作為數(shù)據(jù)科學團隊的一部分,數(shù)據(jù)科學家經(jīng)常與數(shù)據(jù)工程師合作,以從多個源系統(tǒng)中收集和整理數(shù)據(jù);數(shù)據(jù)科學家還需要與業(yè)務分析師合作,以了解不斷發(fā)展的業(yè)務需求,以及數(shù)據(jù)分析師,以了解不斷變化的數(shù)據(jù)集特性,還有開發(fā)人員–他們可以幫助將由數(shù)據(jù)科學應用程序生成的分析模型投入生產(chǎn)環(huán)境。
現(xiàn)在企業(yè)越來越多地要求這些模型做更多的事情,而不僅僅是提供對當前數(shù)據(jù)狀態(tài)的見解的快照。數(shù)據(jù)科學家可以訓練算法來學習樣本數(shù)據(jù)的模式、相關(guān)性和其他特征,然后分析他們從未見過的完整數(shù)據(jù)集。通過這種方式,數(shù)據(jù)科學推動人工智能的發(fā)展,特別是通過使用機器學習來支持AI的目標。
機器學習
智能的標志之一是從經(jīng)驗中學習的能力。如果機器可以識別數(shù)據(jù)中的模式,則它們可以使用這些模式來對新數(shù)據(jù)生成見解或預測。這是機器學習背后的基本概念。
機器學習依賴于算法,這些算法可以將從良好數(shù)據(jù)示例中學習編碼為模型。這些模型可用于廣泛的應用程序,例如將數(shù)據(jù)分類(“此圖像是貓嗎?”),根據(jù)給定的先前識別模式預測某些數(shù)據(jù)的值(“此交易是欺詐的概率是多少? ?”),以及標識數(shù)據(jù)集中的組(“我還可以向購買該產(chǎn)品的人推薦其他哪些產(chǎn)品?”)。
機器學習的核心概念體現(xiàn)在分類、回歸和聚類中?,F(xiàn)在已經(jīng)創(chuàng)建各種各樣的機器學習算法,可跨不同的數(shù)據(jù)集執(zhí)行任務。可用的算法包括決策樹、支持向量機、K均值聚類、K最近鄰、樸素貝葉斯分類器、隨機森林、高斯混合模型、線性回歸、邏輯回歸、主成分分析等。數(shù)據(jù)科學家通常會構(gòu)建和運行算法;現(xiàn)在,有些數(shù)據(jù)科學團隊還包括機器學習工程師,他們可以幫助編碼和部署結(jié)果模型。
機器學習過程涉及不同類型的學習,其中數(shù)據(jù)科學家和分析師的指導水平各不相同。主要的替代方法是:
有監(jiān)督學習,從人為標記的培訓數(shù)據(jù)開始,幫助指導算法學習什么;
無監(jiān)督學習,在這種方法中,算法使用未標記的訓練數(shù)據(jù)自行發(fā)現(xiàn)信息;
強化學習,它使算法可以通過反復試驗來學習初始指令,并受到數(shù)據(jù)科學家的持續(xù)監(jiān)督。
現(xiàn)在沒有哪種算法方法能像人工神經(jīng)網(wǎng)絡那樣讓人感到興奮和充滿希望。就像生物系統(tǒng)一樣,神經(jīng)網(wǎng)絡包含神經(jīng)元,這些神經(jīng)元可以獲取輸入數(shù)據(jù),對輸入施加權(quán)重和偏差調(diào)整,然后將結(jié)果輸出饋送到其他神經(jīng)元。通過這些神經(jīng)元之間一系列復雜的互連和相互作用,隨著時間的推移,神經(jīng)網(wǎng)絡可以學習如何調(diào)整權(quán)重和偏差,以提供所需結(jié)果。
在1950年代還是感知器算法中的單層神經(jīng)元,現(xiàn)在已經(jīng)發(fā)展成為一種更為復雜的方法,稱為深度學習,該方法使用多層來產(chǎn)生細微而復雜的結(jié)果。這些多層神經(jīng)網(wǎng)絡已經(jīng)顯示出強大功能,可從大型數(shù)據(jù)集中學習并支持面部識別、多語言對話系統(tǒng)、自動駕駛汽車和高級預測分析等。
在數(shù)據(jù)密集型公司(例如Google、Netflix、亞馬遜、微軟和IBM)的大力推動下,曾經(jīng)看起來像是一種假設的研究迅速成為可能現(xiàn)實,并在2000年代初開始發(fā)展。大數(shù)據(jù)的可用性、數(shù)據(jù)科學的能力和機器學習的力量,不僅為面臨挑戰(zhàn)的當今企業(yè)提供了答案,而且還可以幫助克服長期挑戰(zhàn),使AI照進現(xiàn)實。
人工智能
人工智能是比計算本身更古老的想法:是否有可能創(chuàng)造出具有人類認知能力的機器?人工智能的想法最早出現(xiàn)在在20世紀中葉,長期以來,這個想法激勵著學者、研究人員和科幻小說作家。在1950年,計算機先驅(qū)和著名的代碼破解者Alan Turing提出機器智能的基本測試,該測試被稱為圖靈測試。人工智能一詞是在1956年在達特茅斯舉行的AI會議上提出。
AI仍然是一個夢想,幾十年前很多人所設想人工智能仍然沒有實現(xiàn)。具有完全認知和智力能力的機器的概念被稱為人工智能(AGI)或通用AI。目前還沒有人建立這樣的系統(tǒng),如果可行的話,AGI的開發(fā)可能還需要數(shù)十年的時間。
但是,我們已經(jīng)能夠解決弱AI任務。我的研究公司Cognilytica已經(jīng)定義七種AI模式,這些模式專注于感知、預測或規(guī)劃的特定需求。
例如,它們包括訓練機器:
準確識別圖像、對象和非結(jié)構(gòu)化數(shù)據(jù)中的其他元素;
與人類進行有意義的對話互動; 使用生成的見解來推動預測分析系統(tǒng);
發(fā)現(xiàn)大數(shù)據(jù)集中的模式和異常; 為超個性化用途創(chuàng)建個人的詳細配置文件;
支持自治系統(tǒng)–在很少人或沒有人參與的情況下;
解決情景模擬和其他具有挑戰(zhàn)的目標驅(qū)動型問題。
這些用例都提供重要功能和價值,盡管沒有解決AGI的總體目標。機器學習的發(fā)展直接帶來這些弱AI應用程序的發(fā)展。而且由于數(shù)據(jù)科學使機器學習變得切實可行,因此它也使機器學習成為現(xiàn)實。
數(shù)據(jù)科學、機器學習和AI之間的差異
盡管數(shù)據(jù)科學、機器學習和AI很相似,并可在分析應用程序和其他用例中互相支持,但它們的概念、目標和方法卻有很大不同。為了進一步區(qū)分它們,請考慮下列關(guān)鍵屬性。
數(shù)據(jù)科學:
專注于從海量數(shù)據(jù)中提取有效信息,以幫助決策和計劃;
通過描述性、預測性和規(guī)范性分析應用程序,適用于廣泛的業(yè)務問題;
可處理小規(guī)模數(shù)據(jù)到非常大的數(shù)據(jù)集;
使用統(tǒng)計、數(shù)學、數(shù)據(jù)整理、大數(shù)據(jù)分析、機器學習和其他各種方法來回答分析問題。
機器學習:
專注于為算法和系統(tǒng)提供方法,以從數(shù)據(jù)經(jīng)驗中學習并利用該經(jīng)驗隨著時間的推移而改進;
通過檢查數(shù)據(jù)集而不是顯式編程來學習,利用數(shù)據(jù)科學方法、技術(shù)和工具;
可以通過有監(jiān)督、無監(jiān)督或強化學習方法來完成;
支持人工智能用例,尤其是處理特定任務的弱AI應用程序。
人工智能:
專注于賦予機器類似于人類的認知和智力能力;
包含智能概念的集合,包括感知、規(guī)劃和預測元素;
能夠在特定任務和工作流程中增強或代替人類;
當前還沒有解決人類智能的關(guān)鍵方面,例如常識理解、將知識從一種環(huán)境應用到另一種環(huán)境、適應變化并展示感知力和意識。
數(shù)據(jù)科學、機器學習和AI如何結(jié)合
數(shù)據(jù)科學本身的力量很巨大,當與機器學習相結(jié)合,可提供更大的潛在價值,從不斷增長的數(shù)據(jù)池中獲得洞察力。當這二者結(jié)合使用時,還可以驅(qū)動各種弱AI應用程序,并最終可能解決通用AI的挑戰(zhàn)。
更具體地說,下面是企業(yè)如何結(jié)合數(shù)據(jù)科學、機器學習和AI以產(chǎn)生有效效果的示例:
預測性分析應用程序,可基于對不斷變化數(shù)據(jù)集的分析,預測客戶行為、業(yè)務趨勢和事件;
AI會話系統(tǒng),可與客戶、用戶、患者和其他個人進行高度交互的通信;
由機器學習和AI驅(qū)動的異常檢測系統(tǒng),可響應不斷發(fā)展的威脅并增強自適應網(wǎng)絡安全和欺詐檢測系統(tǒng);
超個性化系統(tǒng),可實現(xiàn)有針對性的廣告、產(chǎn)品推薦、財務指導和醫(yī)療保健,以及其他針對客戶的個性化產(chǎn)品。
數(shù)據(jù)科學、機器學習和AI是獨立的概念,它們各自提供強大的功能,而這三者相結(jié)合正在改變我們管理企業(yè)和業(yè)務運營的方式-以及我們?nèi)绾紊睢⒐ぷ饕约芭c周圍世界交互。
責編AJX
-
人工智能
+關(guān)注
關(guān)注
1792文章
47514瀏覽量
239236 -
機器學習
+關(guān)注
關(guān)注
66文章
8428瀏覽量
132843 -
數(shù)據(jù)科學
+關(guān)注
關(guān)注
0文章
165瀏覽量
10081
發(fā)布評論請先 登錄
相關(guān)推薦
評論