從我的AI /機(jī)器學(xué)習(xí)歷程中學(xué)到的教訓(xùn)
我最近有幸與幾位AI /機(jī)器學(xué)習(xí)專家一起參加了小組討論。 有很多偉大的問題,但大多數(shù)與如何在大型組織中最有效地建立AI /機(jī)器學(xué)習(xí)(AI / ML)有關(guān)。
這使我有機(jī)會反思自己的經(jīng)驗,以幫助大型企業(yè)加速其AI /機(jī)器學(xué)習(xí)之旅,并且更具體地說,評估什么是行得通的,也許同樣重要的是,什么行不通的。 我將這些總結(jié)為幾個簡單的"經(jīng)驗教訓(xùn)",希望它們對您組織的AI / ML之旅有用。
第1課:不要讓完美成為夠用的敵人
以我的經(jīng)驗,您的模型將永遠(yuǎn)不會是完美的。 因此,請勿嘗試使其完美。 現(xiàn)在,請不要誤會我-模型的準(zhǔn)確性(或適用于您的情況的任何指標(biāo))很重要,但是獲得絕對最佳的模型可能僅在Kaggle比賽中起作用。
相反,您的重點應(yīng)該是使模型足夠好以滿足業(yè)務(wù)需求。 事實是,幾乎所有企業(yè)都認(rèn)為,要獲得一個可以提供價值的"足夠好"的模型,要獲得完美的模型要花很長時間。 因此,我的建議非常簡單:找出對您的組織"足夠好"的內(nèi)容,并專注于將模型投入生產(chǎn)。
第2課:建立模型只是工作量的10%
這是一個基本但基本上未被認(rèn)可的事實:如今,企業(yè)中數(shù)據(jù)科學(xué)的絕大部分時間并沒有真正花費在數(shù)據(jù)科學(xué)上。 相反,大部分時間(根據(jù)我的經(jīng)驗,有90%以上的時間)都花在了其他事情上,包括:獲取數(shù)據(jù),工程數(shù)據(jù)和功能集,解決安全問題,設(shè)置基礎(chǔ)架構(gòu)(云或數(shù)據(jù)中心)或 工作站,用于生產(chǎn)的包裝模型,以及創(chuàng)建DEVOPS腳本以將完整的模型遷移到產(chǎn)品中……這還不是完整列表!
不幸的是,在大多數(shù)不成熟的組織(也就是說,大多數(shù)組織都認(rèn)識到相對的"新穎性"或AI / ML)中,每個項目實際上都經(jīng)歷了這種額外的非數(shù)據(jù)科學(xué)工作。
這有什么大不了的嗎? 的確如此。 假設(shè)您小組的預(yù)算為100萬美元(一個很好的整數(shù),這使數(shù)學(xué)很容易),這意味著某人(在很多情況下是您的高價數(shù)據(jù)科學(xué)家)將90%或90萬美元用于與其他任務(wù)不直接相關(guān)的任務(wù) 到您雇用他們的目的。 那是很多錢! 這不僅令人痛苦,而且體驗起來更加痛苦!
那么,如何避免這種痛苦呢? 好吧,這導(dǎo)致了我的下一堂課……
第3課:秘訣:AI / ML平臺
正如我之前強(qiáng)調(diào)的那樣,太多的項目將太多的時間花費在與AI / ML不直接相關(guān)的任務(wù)上。
解決方案:" AI / ML平臺"。
首先,不要混淆" AI / ML平臺"的含義。 不僅僅是云供應(yīng)商提供的環(huán)境和工具包。 別誤會,我喜歡AWS,Azure和Google提供的工具-沒有它們,您真的無法有效地進(jìn)行AI / ML。 但是,存在一些云供應(yīng)商工具無法解決的重要考慮因素。 換句話說,云供應(yīng)商工具是必需的,但還不夠。
那么,什么是" AI / ML平臺"? 簡而言之,AI / ML平臺的目的是加速將AI / ML模型投入生產(chǎn)。 它是在AI / ML環(huán)境和工具之上實現(xiàn)的"膠水",即腳本,安全策略,可操作性問題和自我配置基礎(chǔ)結(jié)構(gòu)。
讓我們解決關(guān)鍵因素:
·安全性:解決訪問敏感數(shù)據(jù)所需的安全性問題,需要大量的盡職調(diào)查。在大多數(shù)組織中,其根本原因是幾乎每個項目都討論,辯論和實施了幾乎相同的安全問題。另一方面,AI / ML平臺根據(jù)您組織的安全狀況實施安全模型,執(zhí)行一次,然后將其提供給所有項目。大多數(shù)組織,尤其是受到嚴(yán)格監(jiān)管的組織,都需要遠(yuǎn)遠(yuǎn)超出云供應(yīng)商通常提供的"虛擬公共云"功能的安全控制。至少應(yīng)具有的一組附加功能包括:基于身份的訪問控制(將解決幾乎所有黑客問題),配置漂移管理(例如,捕獲Capital One發(fā)生的錯誤防火墻規(guī)則更改),以及數(shù)據(jù)流的方式(例如,數(shù)據(jù)可以存儲在平臺上,但只能使用"類似于Citrix"的門戶來可視化以使用工具-數(shù)據(jù)永遠(yuǎn)不會離開平臺)
·可操作性:所有大型企業(yè)對生產(chǎn)代碼都有嚴(yán)格的要求。 如今,AI / ML模型被認(rèn)為是可部署的代碼,并且受到與其他生產(chǎn)代碼相同的要求的約束。 不幸的是,在大多數(shù)不成熟的組織中,這些要求是在每個項目的基礎(chǔ)上實現(xiàn)的。 相比之下,AI / ML平臺提供了生產(chǎn)級工具,可通過常用的日志記錄,警報,異常處理,統(tǒng)計信息和指標(biāo)捕獲以及與企業(yè)操作控制臺的集成來增強(qiáng)裸機(jī)模型,從而確保AI / ML模型也能解決 基本的企業(yè)關(guān)注點
·自我配置的基礎(chǔ)架構(gòu):我發(fā)現(xiàn)組織遷移到云時發(fā)生了不幸的事情:他們帶來了舊的數(shù)據(jù)中心包(主要是笨拙的流程和手動流程),并在云上實施了同樣低效的流程。 錯誤的答案! 云供應(yīng)商花費了數(shù)年時間優(yōu)化工具和流程,以使數(shù)據(jù)科學(xué)家能夠自行配置工具和環(huán)境,而無需其他監(jiān)督或流程。 AI / ML平臺整合了必要的DEVOPS和安全功能,以允許數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師快速獲取數(shù)據(jù)并提供訓(xùn)練環(huán)境。
第4課:" AI / ML市場"是現(xiàn)代AI / ML的基本要求
簡而言之,AI / ML市場是與AI / ML模型相關(guān)的所有工件的目錄,可實現(xiàn)模型的可再現(xiàn)性,可追溯性,可解釋性和可驗證性:
· 為了解決可重復(fù)性問題,AI / ML Marketplace提供了對模型源代碼的引用(當(dāng)前版本和先前版本),并且用于訓(xùn)練模型的數(shù)據(jù)都保存在清單中
· 為了解決可追溯性,AI / ML Marketplace保留了對原始源系統(tǒng)數(shù)據(jù)和數(shù)據(jù)工程腳本的引用,這些數(shù)據(jù)用于轉(zhuǎn)換和豐富其內(nèi)容,從而在整個交付生命周期中提供對數(shù)據(jù)的所有更改的可見性。
· 為了解決可驗證性,AI / ML市場管理對訓(xùn)練輸出,日志和相關(guān)工件(包括與模型偏差和"道德"檢查相關(guān)的輸出日志)的引用,從而捕獲模型有效性的證據(jù)。
· 為了自動化信息捕獲過程,AI / ML市場將與AI / OPS(用于AI / ML的DEVOPS)過程集成在一起,以自動捕獲上述工件。 有趣的是,主要的云提供商,傳統(tǒng)的DEVOPS供應(yīng)商以及較新的AI / OPS初創(chuàng)公司都可以使用工具和功能,可以將它們組合在一起以捕獲許多所需的指標(biāo)和元數(shù)據(jù)。
簡而言之,AI / ML市場是目錄和存儲庫,可通過充分解決可重復(fù)性,可追溯性,可驗證性和可解釋性來促進(jìn)現(xiàn)代AI / ML開發(fā),管理和治理。
第5課:立即開始您的Cloud-Native AI / ML程序!
在大多數(shù)企業(yè)中,我看到計算平臺和數(shù)據(jù)/存儲量的擴(kuò)展遠(yuǎn)遠(yuǎn)超出了內(nèi)部數(shù)據(jù)中心的功能。 GPU不在議程中。 三倍和四倍的存儲池正在建設(shè)中。 但事實是,事實證明,即使是大型組織也無法跟上步伐。
大型國際咨詢公司埃森哲(Accenture)說,問題很少:首先,"到現(xiàn)在為止,還沒有經(jīng)過驗證的擴(kuò)展藍(lán)圖,組織可能陷入一些常見的陷阱。"其次,"人工智能的陌生環(huán)境 意味著企業(yè)可以被誘使放棄久負(fù)盛名的行為,重新發(fā)明輪子并從頭開始構(gòu)建。"最后,"有許多行之有效的低成本AI選項可以立即購買并開始使用。 "
那么,當(dāng)大型云供應(yīng)商提供其他功能更強(qiáng)大,成本效益更高,可擴(kuò)展的最新選項時,為什么要與之抗衡呢? 我的簡單建議是:拋開批評家,讓您的云原生AI / ML程序啟動!
第六課:使AI / ML民主化
大多數(shù)組織,尤其是那些將AI / ML遷移到云中的組織,都有千載難逢的機(jī)會來組織其組織以取得成功。 我的愿景(我在大型企業(yè)中看到過的愿景)是"使AI / ML民主化"。 我的意思是,任何小組(假設(shè)他們具有技能)都應(yīng)該能夠隨時隨地使用他們需要的任何工具和庫來構(gòu)建AI / ML模型。
但是,您如何擴(kuò)展和管理這種類型的組織結(jié)構(gòu)? 簡單來說,基本要求是在AI / ML平臺和AI / ML市場中實現(xiàn)了規(guī)模和管理所需的必要防護(hù)欄。 考慮到這一點,以下是AI / ML組織中一組實用的組:
· AI / ML平臺團(tuán)隊:該團(tuán)隊對建立,運行,支持和發(fā)展包括基礎(chǔ)架構(gòu),云環(huán)境,安全性,工具和DEVOPS在內(nèi)的所有組件具有完全的端到端責(zé)任。 該團(tuán)隊不僅要對平臺負(fù)責(zé),而且還要培訓(xùn),支持和指導(dǎo)數(shù)據(jù)科學(xué)團(tuán)隊
· 分布式數(shù)據(jù)科學(xué)團(tuán)隊:由于許多跨領(lǐng)域的問題都融入了AI / ML平臺中,因此這使數(shù)據(jù)科學(xué)家可以騰出時間從事數(shù)據(jù)科學(xué)工作,還可以使整個組織中的數(shù)據(jù)科學(xué)家快速,無縫地入職。 該指導(dǎo)原則允許任何具有數(shù)據(jù)科學(xué)技能的小組,以其小組的需求和業(yè)務(wù)需求所決定的速度進(jìn)行數(shù)據(jù)科學(xué)。 沒有集中的組。 沒有象牙塔。
總結(jié)
我在本文中的目的是提供一些簡單的經(jīng)驗教訓(xùn),這些經(jīng)驗教訓(xùn)將幫助您加速企業(yè)的AI / ML之旅,并避免一些我遇到的減速帶和坑洼。 希望我已經(jīng)實現(xiàn)了這個目標(biāo)。
但是我可以肯定地說的是,事情發(fā)展很快。 技術(shù)和方法可能會發(fā)展,而且很可能我應(yīng)該考慮從現(xiàn)在開始一年編寫一個新版本。 或者,也許,一年后,您將能夠?qū)懗鰪哪慕M織的AI / ML之旅中學(xué)到的一些經(jīng)驗教訓(xùn)!
-
AI
+關(guān)注
關(guān)注
87文章
30998瀏覽量
269304 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8422瀏覽量
132723
發(fā)布評論請先 登錄
相關(guān)推薦
評論