今年,雖然不少公司都在部署人工智能解決方案,也取得了一定的成果,但只有少數(shù)公司做到了全面部署人工智能,從而為公司帶來真正的附加價(jià)值。
據(jù)我所知,只有不到20%的機(jī)器學(xué)習(xí)PoC(概念驗(yàn)證)項(xiàng)目能夠順利投產(chǎn),而這其中的大部分也可能會(huì)止步于其方案的“產(chǎn)品化”階段。
PoC的困境
大多數(shù)公司首先通過概念驗(yàn)證(proof of concept , PoC)項(xiàng)目來證明人工智能方案可以削減成本,改善客戶體驗(yàn),或者在某種程度上形成業(yè)務(wù)差異化。
PoC通常采用相對簡單的算法,訓(xùn)練數(shù)據(jù)也是即時(shí)可用的或內(nèi)部標(biāo)記的,其主要目標(biāo)是證明可以用少量的數(shù)據(jù)訓(xùn)練算法以解決特定場景的問題。
如果PoC獲得成功,那么項(xiàng)目將繼續(xù)進(jìn)入產(chǎn)品化階段。
進(jìn)入產(chǎn)品化階段意味著AI項(xiàng)目將變得更加復(fù)雜。這個(gè)階段不再需要證明該解決方案的有效性,而是要將AI項(xiàng)目集成到公司的基礎(chǔ)架構(gòu)中,并保證它在真實(shí)環(huán)境下能夠很好地工作。
為了使項(xiàng)目取得成功,機(jī)器學(xué)習(xí)項(xiàng)目需要從一開始就將公司結(jié)構(gòu)、客戶、公司規(guī)模和內(nèi)部工作流程等考慮在內(nèi)。
PoC往往會(huì)影響系統(tǒng)基礎(chǔ)架構(gòu)的性能以及知識(shí)和數(shù)據(jù)管理等,這些都將阻礙它們進(jìn)入下一階段——產(chǎn)品化。在AI項(xiàng)目中,產(chǎn)品化階段的困難程度往往容易被低估。在這個(gè)階段里,系統(tǒng)的工作方式很有可能需要完全改變,并且當(dāng)我們越來越接近解決方案的最終版本時(shí),新的問題也會(huì)不時(shí)出現(xiàn)。
在人工智能集成的最后階段,AI項(xiàng)目可能會(huì)跨多個(gè)業(yè)務(wù)線,甚至可能直面普通用戶/客戶,面臨著來自企業(yè)級(jí)基礎(chǔ)架構(gòu)、安全性和技術(shù)支持等多方面的挑戰(zhàn)。
產(chǎn)品:在現(xiàn)實(shí)生活中使用的系統(tǒng)。它不像PoC那樣是為了測試某些東西是否有效,也不像用樣本數(shù)據(jù)做的簡單實(shí)驗(yàn)。它是用真實(shí)數(shù)據(jù)來解決現(xiàn)實(shí)問題的系統(tǒng)。
很多時(shí)候,AI方案提供商都未能證明其初始方案的有效性。為什么AI項(xiàng)目的實(shí)施過程會(huì)變成一場噩夢呢?其實(shí),大多數(shù)時(shí)候,AI項(xiàng)目沒能進(jìn)入產(chǎn)品化階段是因?yàn)橐韵乱蛩兀?/p>
PoC項(xiàng)目沒有產(chǎn)生期望的結(jié)果
運(yùn)營成本過高
操作過于復(fù)雜
缺乏數(shù)據(jù)
PoC項(xiàng)目沒能達(dá)到利益相關(guān)者的要求
比如,某公司有一個(gè)業(yè)務(wù)問題,剛好可以用人工智能來解決,但如果需要提供核心數(shù)據(jù)或必須使用新的工作流程,那么這個(gè)公司可能就會(huì)放棄該項(xiàng)目。實(shí)際上,在AI項(xiàng)目產(chǎn)品化之前,必須先處理好它與軟件、數(shù)據(jù)安全和大規(guī)模的新的訓(xùn)練數(shù)據(jù)等一系列相關(guān)的問題。
另一個(gè)原因可能是低估了構(gòu)建一個(gè)具有實(shí)際功能的AI所需的成本。將原型進(jìn)行產(chǎn)品化需要很大的投資!公司管理層要確保他們能夠負(fù)擔(dān)得起。
機(jī)器學(xué)習(xí)的概念驗(yàn)證(PoC)是漫長實(shí)踐過程中的第一步。當(dāng)你將其擴(kuò)展到實(shí)際規(guī)模的應(yīng)用時(shí),你需要站在更高的角度來看待所出現(xiàn)的問題。
為什么會(huì)失?。?/h2>
AI項(xiàng)目的概念驗(yàn)證(PoC)路線圖上存在某些挑戰(zhàn),比如數(shù)據(jù)的缺乏,法律上的問題,公司員工對AI相關(guān)應(yīng)用的畏懼以及系統(tǒng)集成能力是否足夠等,因此任何公司都必須在將模型產(chǎn)品化之前先分析相關(guān)影響因素。
在我看來,公司應(yīng)該同時(shí)開展多個(gè)PoC項(xiàng)目,因?yàn)檫@樣有助于了解公司的潛力,改善內(nèi)部行為方式,快速終止那些沒有前景的人工智能PoC,并發(fā)掘出最有前景的項(xiàng)目以便繼續(xù)監(jiān)控和投入資源。我看到有些公司指望用他們的第一個(gè)PoC來賺錢并且解決復(fù)雜問題,這么做十有八九會(huì)失??!
公司還應(yīng)該考慮到,進(jìn)行概念驗(yàn)證所需的技能與將其轉(zhuǎn)化為產(chǎn)品所需的技能是大不相同的。如果沒有一個(gè)支持AI集成的架構(gòu),那么即使是最有前景的項(xiàng)目也會(huì)夭折。
人工智能項(xiàng)目還需要得到管理層的支持,如果沒有長期投資的恒心,AI應(yīng)用就只能是小打小鬧,永遠(yuǎn)達(dá)不到任何有意義的規(guī)?;?qū)嵱眯运?。這類項(xiàng)目的成功需要時(shí)間和耐心。
為了使PoC獲得成功,必須進(jìn)行廣泛的研究,建立一個(gè)跨職能部門的團(tuán)隊(duì),并調(diào)研和測試各種硬件規(guī)格,此外還可能需要請外部專家對模型進(jìn)行微調(diào)。雖然我們在最初研究的2-3周內(nèi)就做可以做出原型,但接下來的開發(fā)需要更長的時(shí)間,并且需要大量的資金和時(shí)間投入。
根據(jù)我的經(jīng)驗(yàn),一個(gè)好的PoC需要大約半個(gè)月時(shí)間。事實(shí)上,整個(gè)數(shù)據(jù)收集過程是非常耗時(shí)的。更不必說,大多數(shù)公司在提到使用AI都有驚奇的想法,但往往得不到對的數(shù)據(jù)。
舉個(gè)例子,如果在做PoC的時(shí)候,算法可以識(shí)別在相同光線、距離和角度下拍攝到的人臉,那么在試點(diǎn)項(xiàng)目中該算法就需要適應(yīng)不同的光線、距離、角度、膚色、性別,等等。這自然意味著更多的數(shù)據(jù)。
PoC中的機(jī)器學(xué)習(xí)模型所需的輸入數(shù)據(jù)與產(chǎn)品中持續(xù)大規(guī)模的輸入數(shù)據(jù)之間存在很大差別,能認(rèn)識(shí)到這一點(diǎn)很重要,但這經(jīng)常被公司或者項(xiàng)目組所忽視。
我在幾個(gè)項(xiàng)目中使用了不一樣的和不完善的數(shù)據(jù)集,這使我意識(shí)到:人們在將小規(guī)模的ML算法轉(zhuǎn)移到生產(chǎn)過程中時(shí),可能會(huì)大大低估為獲取數(shù)據(jù)而投入的時(shí)間和精力,而這些數(shù)據(jù)是擴(kuò)展原有ML算法所必不可少的。
關(guān)鍵之處在于將實(shí)際需求和POC數(shù)據(jù)集之間的“差距”最小化。因此,我強(qiáng)烈建議使用真實(shí)場景的數(shù)據(jù)。
構(gòu)建一個(gè)可靠且相關(guān)的數(shù)據(jù)集需要很多時(shí)間。為了正確地訓(xùn)練一個(gè)預(yù)測模型,必須遵循特定的流程來生成符合標(biāo)準(zhǔn)的數(shù)據(jù)。
當(dāng)PoC成功后,一些AI團(tuán)隊(duì)會(huì)考慮獨(dú)立完成整個(gè)項(xiàng)目的數(shù)據(jù)準(zhǔn)備工作。我相信,他們低估了公司提供所需數(shù)據(jù)的難度(信息孤島,效率低下等)。在這一步,我們通常會(huì)開始了解公司的運(yùn)作方式。
實(shí)際上,生產(chǎn)系統(tǒng)中會(huì)包含許多未知案例,訓(xùn)練算法會(huì)產(chǎn)生對大量數(shù)據(jù)的需求(通常是壓倒性的)。
試點(diǎn)階段
一個(gè)成功的POC將說服項(xiàng)目所有者交付試點(diǎn)階段(a pilot phase)的資金。試點(diǎn)是POC與生產(chǎn)項(xiàng)目之間的一個(gè)項(xiàng)目步驟,組織不會(huì)關(guān)停任何其他系統(tǒng)或更改人員配置。在對算法進(jìn)行調(diào)整和訓(xùn)練的過程中,試點(diǎn)與現(xiàn)有系統(tǒng)一起運(yùn)行。這是一個(gè)必要的步驟,因?yàn)樵诖诉^程中會(huì)面臨許多問題或工作流程挑戰(zhàn)。
生產(chǎn)的持續(xù)時(shí)間在某種程度上是由生產(chǎn)所需的人工智能精度水平?jīng)Q定的。顯然,一些項(xiàng)目需要更多的時(shí)間來達(dá)到一定的成熟水平(自動(dòng)駕駛汽車等)。其他項(xiàng)目可以在明顯較低的置信水平下帶來積極的投資回報(bào)率(Return On Investment, ROI)。
大多數(shù)情況下,試點(diǎn)項(xiàng)目沒有足夠多樣化的數(shù)據(jù)來進(jìn)行大規(guī)模運(yùn)作。
從PoC到產(chǎn)品
正如我們所說的,很少有項(xiàng)目團(tuán)隊(duì)能夠成功地跨越這個(gè)階段并繼續(xù)下去。實(shí)際上,大多數(shù)項(xiàng)目從PoC到產(chǎn)品化需要大量不同的資源。在生產(chǎn)步驟中,當(dāng)我們意識(shí)到可能存在的新的問題時(shí),通常會(huì)發(fā)現(xiàn)項(xiàng)目需要更多的時(shí)間才能完全運(yùn)行。此外,我們越多地涉及終端用戶,就越發(fā)意識(shí)到PoCs離現(xiàn)實(shí)應(yīng)用還有很遠(yuǎn)的距離。
PoC所有形式的數(shù)據(jù)建模都必須簡化但又要反映真實(shí)情況,而在這個(gè)過程中,總會(huì)丟失一些真實(shí)性。這為ML帶來了風(fēng)險(xiǎn),因?yàn)閷?shí)際數(shù)據(jù)可能比概念驗(yàn)證(POC)所用的訓(xùn)練數(shù)據(jù)更容易出現(xiàn)建模問題。
對此,明顯的解決方案是為模型添加更多細(xì)節(jié),并擁有更多字段、表格、關(guān)系等。但是,模型越精細(xì),就越難以使用和理解。這也是建立在你可以獲得更多數(shù)據(jù)的假設(shè)之下。我見過許多項(xiàng)目因?yàn)槿狈?shù)據(jù)而失敗,還有一些項(xiàng)目使用了數(shù)據(jù)增廣技術(shù)(在圖像識(shí)別項(xiàng)目中,這是一種減少過擬合的好方法)。
部署常規(guī)的軟件應(yīng)用程序本就是困難的——但是如果軟件是基于機(jī)器學(xué)習(xí)的,情況可能會(huì)更糟!ML具有一些特性,將使得大規(guī)模部署變得更加困難。
在我最近的一個(gè)項(xiàng)目中,我意識(shí)到一旦你的算法訓(xùn)練好后,它們就不會(huì)一直被使用。例如,你的客戶/終端用戶只會(huì)在需要的時(shí)候調(diào)用它們。
管理API調(diào)用的想法是關(guān)鍵。實(shí)際上,你需要確保免為不需要的服務(wù)器付費(fèi)。一旦AI解決方案的運(yùn)行成本過高,公司可能會(huì)憂心于繼續(xù)使用它。
進(jìn)入生產(chǎn)階段后,從數(shù)據(jù)的角度來看,事情將開始變得更加復(fù)雜。除非算法的問題空間非常簡單或是完全靜態(tài)的,否則訓(xùn)練永遠(yuǎn)不會(huì)結(jié)束。問題空間在演變,新的使用案例也在不斷變化,以及來自競爭對手的壓力——他們也試圖實(shí)施差異化ML策略,所有這些意味著組織必須使他們的模型勝任更加模糊的特定案例。而在已經(jīng)很高的模型置信水平下,就訓(xùn)練數(shù)據(jù)而言,每1%的增量增長都相當(dāng)昂貴。
信息系統(tǒng)中的AI集成
AI解決方案可能已準(zhǔn)備就緒,但是還有一步工作要做。事實(shí)上,實(shí)際規(guī)模的實(shí)現(xiàn)還包括將AI與信息系統(tǒng)和架構(gòu)連接起來。根據(jù)經(jīng)驗(yàn),我得出的結(jié)論是——人工智能部署中最大的問題是難以將認(rèn)知項(xiàng)目與現(xiàn)有流程和系統(tǒng)進(jìn)行集成。最佳選擇是提供機(jī)器學(xué)習(xí)模型的API,或?qū)⑵渥鳛楝F(xiàn)有系統(tǒng)中的程序代碼模塊。
評(píng)論
查看更多