在人工智能應(yīng)用方面,企業(yè)需要獲取商業(yè)利益、構(gòu)建技術(shù)框架和模型,以獲得更好的商業(yè)成果。
在人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方面,目前有很多市場(chǎng)熱議和技術(shù)探討。大多數(shù)問(wèn)題有的過(guò)于松散,有的過(guò)于數(shù)學(xué)化,有的過(guò)于籠統(tǒng),有的過(guò)于專(zhuān)注于特定的應(yīng)用程序,與業(yè)務(wù)成果和指標(biāo)脫節(jié),有的沒(méi)有方向性。
本文通過(guò)以下方式概述這些相關(guān)技術(shù):
?定義人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí),解釋與傳統(tǒng)方法的區(qū)別,描述何時(shí)使用它們,并指出它們的優(yōu)缺點(diǎn)。
?解釋它們?nèi)绾窝a(bǔ)充業(yè)務(wù)框架并實(shí)現(xiàn)業(yè)務(wù)成果和指標(biāo)。
?描述常見(jiàn)類(lèi)型的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型培訓(xùn)、算法、架構(gòu)、性能評(píng)估和良好性能的障礙。
?提供工作中的機(jī)器學(xué)習(xí)模型和算法的示例。
?為業(yè)務(wù)成果的人工智能實(shí)施提出潛在的框架。
商業(yè)環(huán)境中的人工智能
所有的組織都致力于實(shí)現(xiàn)特定的結(jié)果,他們同時(shí)兼顧了一些業(yè)務(wù)指標(biāo)和流程來(lái)實(shí)現(xiàn)這一目標(biāo),例如收入、成本、上市時(shí)間、流程準(zhǔn)確性和效率。但他們的資源有限(費(fèi)用、時(shí)間、人力和其他資產(chǎn))。因此,問(wèn)題歸結(jié)為對(duì)資源配置做出正確的決策(什么樣的資源、多少資源、應(yīng)該做什么、需要什么能力等等),并且比競(jìng)爭(zhēng)對(duì)手更快、比市場(chǎng)變化更快地做出正確的決策。
做出這些決定很困難,但是很明顯,當(dāng)可以獲得數(shù)據(jù)、信息和知識(shí)時(shí),它們變得非常容易。假設(shè)這些輸入信息可用,則需要對(duì)它們進(jìn)行匯總和挖掘。分析人員需要時(shí)間獲得行業(yè)專(zhuān)家的專(zhuān)業(yè)知識(shí)和經(jīng)驗(yàn),以適應(yīng)不斷變化的業(yè)務(wù)規(guī)則,在可能的情況下針對(duì)個(gè)人偏見(jiàn)進(jìn)行校準(zhǔn),并找出模式并產(chǎn)生見(jiàn)解。在理想情況下,分析人員和管理人員應(yīng)該(在時(shí)間允許的情況下)評(píng)估多種情況并進(jìn)行多次實(shí)驗(yàn),以增強(qiáng)對(duì)其建議和決策的信心。最后,需要將決策付諸實(shí)踐。
輸入人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí),其中:
?根據(jù)觀(guān)察為組織建模。
?通過(guò)同時(shí)審查許多因素和變量來(lái)產(chǎn)生見(jiàn)解(遠(yuǎn)遠(yuǎn)超出在合理的時(shí)間段和成本約束下所能達(dá)到的水平)。
?在提供新的觀(guān)察結(jié)果時(shí)不斷學(xué)習(xí)。
?量化結(jié)果的可能性(即預(yù)測(cè)可能發(fā)生的事情)。
?規(guī)定具體行動(dòng),以?xún)?yōu)化業(yè)務(wù)目標(biāo)和指標(biāo)。
?通過(guò)更快的再培訓(xùn)與傳統(tǒng)的較慢的重新編程,快速適應(yīng)新的業(yè)務(wù)規(guī)則。
使人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)成為可能的是數(shù)據(jù)量和數(shù)據(jù)類(lèi)型的激增,加上計(jì)算和存儲(chǔ)硬件和工具的成本降低。Facebook、Google、Amazon和Netflix等公司已經(jīng)證明了它的有效性,所有行業(yè)的組織都在緊隨其后。結(jié)合商業(yè)智能,人工智能、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)三者克服了決策的障礙,從而促進(jìn)組織實(shí)現(xiàn)其商業(yè)目標(biāo)。
人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)適用于指標(biāo)驅(qū)動(dòng)型組織和企業(yè)中的每個(gè)人。
麥肯錫全球研究院在其2011年5月出版的《大數(shù)據(jù):創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)力的下一個(gè)前沿》一書(shū)中指出,美國(guó)對(duì)于使用分析結(jié)果的管理人員和分析師的需求為150萬(wàn)人,超過(guò)了對(duì)分析人員(例如數(shù)據(jù)分析師和數(shù)據(jù)科學(xué)家)的需求。
換句話(huà)說(shuō),數(shù)據(jù)價(jià)值鏈中的瓶頸不是數(shù)據(jù)或分析,而是能夠根據(jù)場(chǎng)景和智能方式利用數(shù)據(jù)/分析實(shí)施的能力。對(duì)于業(yè)務(wù)和流程專(zhuān)業(yè)人員來(lái)說(shuō),這是一個(gè)將人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)與已經(jīng)很好理解的業(yè)務(wù)框架和概念結(jié)合起來(lái)的機(jī)會(huì)。這是一個(gè)在這些框架和概念中定義問(wèn)題和假設(shè)的機(jī)會(huì),然后使用人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)來(lái)發(fā)現(xiàn)模式(洞察)和測(cè)試假設(shè),這些假設(shè)需要太長(zhǎng)時(shí)間才能測(cè)試,否則識(shí)別和測(cè)試成本太高,或者對(duì)人們來(lái)說(shuō)太難執(zhí)行。
組織越來(lái)越多地轉(zhuǎn)向人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí),而業(yè)務(wù)正變得越來(lái)越復(fù)雜。組織一次要處理的事情太多了。也就是說(shuō),有太多數(shù)據(jù)點(diǎn)(相關(guān)的和不相關(guān)的)需要整合。這樣看,處理太多的數(shù)據(jù)可能是一個(gè)責(zé)任。
但是,人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)可以通過(guò)系統(tǒng)地確定數(shù)據(jù)的重要性、預(yù)測(cè)結(jié)果、規(guī)定具體行動(dòng)和自動(dòng)化決策,將這堆數(shù)據(jù)變成一種資產(chǎn)。簡(jiǎn)而言之,人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)使組織和企業(yè)能夠承擔(dān)驅(qū)動(dòng)業(yè)務(wù)復(fù)雜性的因素,其中包括:
?價(jià)值鏈和供應(yīng)鏈更加全球化,相互交織,并專(zhuān)注于微細(xì)分市場(chǎng)。
?快速變化的業(yè)務(wù)規(guī)則,以與競(jìng)爭(zhēng)對(duì)手以及客戶(hù)的需求和偏好保持同步。
?正確預(yù)測(cè)和部署稀缺資源,以?xún)?yōu)化競(jìng)爭(zhēng)項(xiàng)目/投資和業(yè)務(wù)指標(biāo)。
?需要同時(shí)提高質(zhì)量和客戶(hù)體驗(yàn),同時(shí)降低成本。
在許多方面,人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)要優(yōu)于顯式編程和傳統(tǒng)統(tǒng)計(jì)分析:
?不需要真正了解業(yè)務(wù)規(guī)則即可達(dá)到預(yù)期的結(jié)果,只需對(duì)機(jī)器進(jìn)行樣例輸入和輸出方面的培訓(xùn)即可。
?如果業(yè)務(wù)規(guī)則發(fā)生變化,使得相同的輸入不再導(dǎo)致相同的輸出,則只需對(duì)機(jī)器進(jìn)行重新培訓(xùn)(而不是重新編程)即可,從而可以縮短響應(yīng)時(shí)間,并減輕人們學(xué)習(xí)新業(yè)務(wù)規(guī)則的需要。
?與傳統(tǒng)的統(tǒng)計(jì)分析相比,人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型的建立相對(duì)較快,因此可以通過(guò)嘗試學(xué)習(xí)重試方法快速迭代多個(gè)模型。
然而,人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)確實(shí)有不利之處。其中,仍以統(tǒng)計(jì)數(shù)據(jù)為依據(jù),因此產(chǎn)出存在不確定性因素。這使得將人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)集成到工作流中變得棘手,因?yàn)闄C(jī)器決策中的高度模糊性很可能由一個(gè)人來(lái)處理。為了提高機(jī)器的準(zhǔn)確性,錯(cuò)誤或正確的答案應(yīng)該反饋給機(jī)器,用于額外的訓(xùn)練(學(xué)習(xí))。
此外,人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型的解釋也較少;也就是說(shuō),可能不清楚他們?nèi)绾巫龀鰶Q定。對(duì)于具有許多“層”和“神經(jīng)元”的復(fù)雜深度學(xué)習(xí)模型尤其如此。在高度管制的行業(yè)中,這種不清晰可能會(huì)特別令人擔(dān)憂(yōu)。應(yīng)該注意的是,有很多研究集中在這一領(lǐng)域,因此也許將來(lái)不會(huì)成為不利條件。
考慮到這些優(yōu)點(diǎn)和缺點(diǎn),那么什么時(shí)候使用人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)是合適的?以下是一些想法:
?值得一提的是:取得高潛力的業(yè)務(wù)成果,但傳統(tǒng)的方法過(guò)于繁瑣、耗時(shí),或者根本不合適。
?相關(guān)數(shù)據(jù)可用且可訪(fǎng)問(wèn)。
?主題專(zhuān)家認(rèn)為數(shù)據(jù)包含有意義的信號(hào)(也就是說(shuō),可以從數(shù)據(jù)中獲得洞察力)。
?問(wèn)題定義與機(jī)器學(xué)習(xí)或深度學(xué)習(xí)問(wèn)題相關(guān),例如分類(lèi)、聚類(lèi)或異常檢測(cè)。
?用例的成功可以映射到機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型的性能指標(biāo),例如精確調(diào)用和準(zhǔn)確性。
人工智能定義:從商業(yè)智能到人工智能的自然演進(jìn)
人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)是商業(yè)智能的自然發(fā)展。在商業(yè)智能描述和診斷過(guò)去事件的地方,人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)試圖預(yù)測(cè)未來(lái)事件的可能性,并規(guī)定如何增加這些事件實(shí)際發(fā)生的可能性。說(shuō)明這一點(diǎn)的一個(gè)簡(jiǎn)單示例是GPS可以引導(dǎo)車(chē)輛從A點(diǎn)行駛到B點(diǎn):
?描述:車(chē)輛行駛了哪條路線(xiàn),行駛了多長(zhǎng)時(shí)間?
?診斷:為什么車(chē)輛在特定的交通信號(hào)燈下花費(fèi)很長(zhǎng)時(shí)間(假設(shè)GPS平臺(tái)/工具跟蹤事故和車(chē)流情況等)?
?預(yù)測(cè):如果車(chē)輛從A點(diǎn)到B點(diǎn),預(yù)計(jì)到達(dá)時(shí)間是多少?
?規(guī)定:如果車(chē)輛從A點(diǎn)駛向B點(diǎn),則該車(chē)輛應(yīng)在哪條路線(xiàn)行駛可以預(yù)期到達(dá)?
人工智能的預(yù)測(cè)
預(yù)測(cè)的一個(gè)例子是情感分析(某人喜歡某事的概率)。假設(shè)組織可以跟蹤和存儲(chǔ)任何用戶(hù)發(fā)布的文本內(nèi)容(例如推文、博客文章和論壇消息)。然后,組織可以建立一個(gè)模型,根據(jù)用戶(hù)發(fā)布來(lái)預(yù)測(cè)其情緒。
另一個(gè)例子是提高客戶(hù)轉(zhuǎn)化率:如果人們有機(jī)會(huì)獲得他們想要的獎(jiǎng)品,人們更有可能注冊(cè)訂閱,因此就可以預(yù)測(cè)哪些獎(jiǎng)品會(huì)帶來(lái)最高的轉(zhuǎn)化次數(shù)。
人工智能中的處方
人工智能的處方是關(guān)于在營(yíng)銷(xiāo)、銷(xiāo)售和客戶(hù)服務(wù)等各個(gè)流程中優(yōu)化業(yè)務(wù)指標(biāo)的,它是通過(guò)告訴規(guī)范分析系統(tǒng)應(yīng)優(yōu)化哪些指標(biāo)來(lái)實(shí)現(xiàn)的。這就像告訴GPS要優(yōu)化的內(nèi)容,例如最少的油耗、最快的時(shí)間、最低的行駛里程,或者經(jīng)過(guò)的快餐店。在業(yè)務(wù)環(huán)境中,組織可以將轉(zhuǎn)化率提高10%,銷(xiāo)售額提高20%或?qū)⑼茝V者得分(NPS)提高5點(diǎn)。
從那里,說(shuō)明性分析系統(tǒng)將規(guī)定一系列操作,這些操作可以導(dǎo)致組織想要的相應(yīng)業(yè)務(wù)成果。
假設(shè)要實(shí)現(xiàn)10%的轉(zhuǎn)化率提升。系統(tǒng)可能會(huì)規(guī)定:
?將直接郵件營(yíng)銷(xiāo)的頻率降低15%。
?同時(shí)將Twitter和Facebook的參與度分別提高10%和15%。
?當(dāng)企業(yè)的社交媒體總參與度達(dá)到12%時(shí),開(kāi)始將公眾引導(dǎo)到組織的客戶(hù)社區(qū)門(mén)戶(hù)以實(shí)現(xiàn)客戶(hù)的參與。
這些說(shuō)明性操作就像GPS系統(tǒng)建議組織在旅途中進(jìn)行的轉(zhuǎn)彎以?xún)?yōu)化其設(shè)定的目標(biāo)一樣。
商業(yè)智能、統(tǒng)計(jì)數(shù)據(jù)和人工智能之間的關(guān)系
這是定義商業(yè)智能、統(tǒng)計(jì)信息和人工智能之間差異的一種方法:
?傳統(tǒng)上,商業(yè)智能是面向查詢(xún)的,并且依靠分析師來(lái)確定模式(例如最賺錢(qián)的客戶(hù),為什么他們最賺錢(qián),它們與眾不同的屬性(例如年齡或工作類(lèi)型)。
?統(tǒng)計(jì)數(shù)據(jù)還依賴(lài)于分析人員了解數(shù)據(jù)的屬性(或結(jié)構(gòu))以在數(shù)據(jù)中找到有關(guān)總體的信息,但它在推斷一般化方面增加了數(shù)學(xué)上的嚴(yán)謹(jǐn)性(例如,實(shí)際生活中的這些客戶(hù)群體與樣本數(shù)據(jù)中的客戶(hù)群體之間是否存在差異)。
?人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)依靠算法(而非分析師)來(lái)自主找到數(shù)據(jù)中的模式并啟用預(yù)測(cè)和處方。
請(qǐng)注意,商業(yè)智能和人工智能,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)可以做的更多。
雖然一方面使用統(tǒng)計(jì)建模,另一方面使用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)來(lái)建立業(yè)務(wù)狀況模型,但兩者之間存在一些關(guān)鍵差異,尤其是:
?統(tǒng)計(jì)建模需要在輸入和輸出之間建立一個(gè)數(shù)學(xué)方程式。相比之下,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)并不會(huì)嘗試使用該數(shù)學(xué)方程;與其相反,它們只是嘗試在給定輸入的情況下重新創(chuàng)建輸出。
?統(tǒng)計(jì)建模需要了解變量之間的關(guān)系,并對(duì)數(shù)據(jù)總體的統(tǒng)計(jì)屬性進(jìn)行假設(shè)。機(jī)器學(xué)習(xí)和深度學(xué)習(xí)則沒(méi)有。
通常,由于統(tǒng)計(jì)建模需要數(shù)學(xué)方程式,并且需要了解數(shù)據(jù)之間的關(guān)系,因此統(tǒng)計(jì)模型在建立統(tǒng)計(jì)模型以研究和處理數(shù)據(jù)時(shí)需要花費(fèi)相對(duì)較長(zhǎng)的時(shí)間。但是,如果成功完成(即找到方程式并且很好地理解數(shù)據(jù)之間的統(tǒng)計(jì)關(guān)系),則該模型可能會(huì)致命。
另一方面,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型的構(gòu)建速度非常快,但啟動(dòng)時(shí)可能無(wú)法獲得高性能。但是由于它們很容易在早期階段構(gòu)建,因此可以同時(shí)嘗試許多算法,并不斷嘗試最有希望的算法,直到模型性能變得非常好為止。
機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型還具有額外的優(yōu)勢(shì),即可以“獨(dú)立”不斷地從新數(shù)據(jù)中學(xué)習(xí),從而提高其性能。
如果數(shù)據(jù)的性質(zhì)發(fā)生變化,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型只需對(duì)新數(shù)據(jù)進(jìn)行再培訓(xùn);而統(tǒng)計(jì)模型通常需要全部或部分重建。
機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型在解決高度非線(xiàn)性問(wèn)題方面也很出色(人們很難做到這一點(diǎn),因?yàn)檫@些方程太長(zhǎng)了)。隨著微細(xì)分成為規(guī)范(例如細(xì)分的客戶(hù)群、大規(guī)模定制、個(gè)性化客戶(hù)體驗(yàn)、個(gè)人和精準(zhǔn)醫(yī)療),并且流程和根本原因分析變得越來(lái)越多方面和相互依賴(lài),機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的這一屬性真的很有用。
人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)有何不同
到目前為止,把人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)結(jié)合在一起。但它們并不完全相同。
一般來(lái)說(shuō):
人工智能是機(jī)器執(zhí)行人類(lèi)智能特征任務(wù)的地方。它包括計(jì)劃、理解語(yǔ)言、識(shí)別物體和聲音、學(xué)習(xí)和解決問(wèn)題。這可以是人工通用智能(AGI)或人工狹義智能(ANI)的形式。
?人工通用智能(AGI)具有人類(lèi)智慧的所有特征,包括人們的所有感官(甚至更多)和推理能力,因此可以像人們一樣思考。有些人將其描述為“認(rèn)知”,例如C3PO等。
?人工狹義智能(ANI)具有人類(lèi)智能的某些方面,但不是全部。它用于執(zhí)行特定任務(wù)。例子包括Pinterest等服務(wù)中的圖像分類(lèi)和Facebook上的人臉識(shí)別。人工狹義智能(ANI)是大多數(shù)業(yè)務(wù)應(yīng)用程序當(dāng)前關(guān)注的焦點(diǎn)。
機(jī)器學(xué)習(xí)是指機(jī)器使用算法來(lái)學(xué)習(xí)和執(zhí)行任務(wù)而無(wú)需進(jìn)行顯式編程(也就是說(shuō),不必向它們提供特定的業(yè)務(wù)規(guī)則來(lái)從數(shù)據(jù)中學(xué)習(xí);換句話(huà)說(shuō),它們不需要諸如“如果看到X,就做Y”)。
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的子集,通常使用人工神經(jīng)網(wǎng)絡(luò)。深度學(xué)習(xí)的好處是,從理論上說(shuō),無(wú)需告知哪些數(shù)據(jù)元素(或機(jī)器學(xué)習(xí)中的“特征”很重要),但是大多數(shù)時(shí)候,它需要大量數(shù)據(jù)。
以識(shí)別手寫(xiě)數(shù)字為例,可以更好地理解顯式編程、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)之間的差異。對(duì)于人們來(lái)說(shuō),識(shí)別手寫(xiě)數(shù)字并不難。多年來(lái),人們已經(jīng)從父母、老師、兄弟姐妹和同學(xué)學(xué)到很多知識(shí)和技能。
現(xiàn)在假設(shè)讓一臺(tái)機(jī)器通過(guò)顯式編程執(zhí)行相同的操作。在顯式編程中,必須告訴機(jī)器要查找的內(nèi)容。例如,圓形對(duì)象為零,豎線(xiàn)為1,依此類(lèi)推。但是,如果對(duì)象不是完美的圓形,或者末端沒(méi)有連接而并不是一個(gè)完整的圓形,會(huì)發(fā)生什么?當(dāng)直線(xiàn)不是豎直線(xiàn)而是向側(cè)面傾斜時(shí),或者該行的頂部有一個(gè)鉤子(例如“ 1”)時(shí),會(huì)發(fā)生什么?是數(shù)字7嗎?手寫(xiě)字母的多種變體使編寫(xiě)一個(gè)明確的程序變得困難。組織將不斷添加新的“業(yè)務(wù)規(guī)則”以說(shuō)明差異。在機(jī)器學(xué)習(xí)方法中,將顯示機(jī)器示例1s,2s等,并告訴它要尋找什么“特性”(重要特征)。特征工程很重要,重要特征的示例可以是圓的數(shù)量、直線(xiàn)的數(shù)量、直線(xiàn)的方向、直線(xiàn)相交的數(shù)量以及直線(xiàn)相交的位置。不重要特征的示例可能是顏色、長(zhǎng)度、寬度和深度。假設(shè)組織為機(jī)器提供了正確的功能,并提供了示例和答案,則機(jī)器最終將自行了解這些功能對(duì)于不同數(shù)字的重要性,然后希望能夠正確區(qū)分(或分類(lèi))數(shù)字。
需要注意,使用機(jī)器學(xué)習(xí)時(shí),必須告訴機(jī)器重要的功能(即要查找的內(nèi)容),因此機(jī)器與確定適當(dāng)功能的人員一樣好。
深度學(xué)習(xí)的承諾是,無(wú)需工作人員告訴機(jī)器要使用哪些功能(即哪些功能最重要),它就會(huì)自動(dòng)發(fā)現(xiàn)這一點(diǎn)。需要做的就是為它提供所有功能,它會(huì)從中自動(dòng)選擇重要的功能。盡管這是一個(gè)明顯的優(yōu)勢(shì),但它是以高數(shù)據(jù)量要求和長(zhǎng)時(shí)間培訓(xùn)的形式付出的代價(jià),而這需要大量的計(jì)算處理能力。
人工智能模型概念綜述
機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型背后的思想是,它們從給定的數(shù)據(jù)(他們以前看到的東西)中學(xué)習(xí),然后可以概括為對(duì)新數(shù)據(jù)(他們以前沒(méi)有看到的東西)做出正確的決策。
但是什么構(gòu)成模型?模型的一種定義是由三個(gè)部分組成:
?數(shù)據(jù):歷史數(shù)據(jù)用于訓(xùn)練模型。例如,在學(xué)習(xí)彈鋼琴時(shí),輸入的數(shù)據(jù)是不同的音符、不同類(lèi)型的音樂(lè)、不同的作曲家風(fēng)格等。
?算法:模型用于學(xué)習(xí)過(guò)程的一般規(guī)則。在鋼琴示例中,組織的內(nèi)部算法可能會(huì)告訴尋找音符,如何在琴鍵上移動(dòng)手指、如何以及何時(shí)按下踏板等。
?超參數(shù):這些是數(shù)據(jù)科學(xué)家為改善模型性能而進(jìn)行調(diào)整的“旋鈕”,它們并不是從數(shù)據(jù)中學(xué)習(xí)到的。再次以鋼琴為例,超參數(shù)包括人們練習(xí)音樂(lè)作品的頻率、練習(xí)的位置、一天中的練習(xí)時(shí)間,用于練習(xí)的鋼琴等。這種想法是,調(diào)整這些“旋鈕”可以提高其學(xué)習(xí)如何演奏音樂(lè)的能力。
將所有這些放在一起,便會(huì)構(gòu)建一個(gè)鋼琴演奏模型。從理論上講,根據(jù)其訓(xùn)練水平,可以創(chuàng)作以前從未彈奏過(guò)的新音樂(lè)作品,并且可以演奏它們。
機(jī)器學(xué)習(xí)的類(lèi)型
機(jī)器就像人一樣可以通過(guò)不同的方式學(xué)習(xí)。在此將再次使用鋼琴訓(xùn)練的例子進(jìn)行解釋?zhuān)?/p>
?有人監(jiān)督:鋼琴教師向彈奏者展示或告訴其正確的演奏方法,以及糾正錯(cuò)誤的演奏方法。在理想的情況下,將提供相同數(shù)量的示例,說(shuō)明如何正確和錯(cuò)誤地演奏方法。實(shí)質(zhì)上,訓(xùn)練數(shù)據(jù)由要從一組預(yù)測(cè)變量(獨(dú)立變量)中預(yù)測(cè)的目標(biāo)/結(jié)果變量(或因變量)組成。使用這些變量集,將生成一個(gè)將輸入映射到所需輸出的函數(shù)。訓(xùn)練過(guò)程一直持續(xù)到模型在訓(xùn)練數(shù)據(jù)上達(dá)到期望的性能水平為止。監(jiān)督培訓(xùn)的業(yè)務(wù)示例顯示了已獲批準(zhǔn)或被拒絕(目標(biāo)結(jié)果和決策)的貸款申請(qǐng)的系統(tǒng)示例(由信用歷史、工作歷史、資產(chǎn)所有權(quán)、收入和教育等預(yù)測(cè)變量組成)。
?無(wú)人監(jiān)督:如果演奏者自己一個(gè)人在演奏,也就是說(shuō)沒(méi)有人教他如何彈鋼琴,因此他可以根據(jù)自己的想法來(lái)決定對(duì)與錯(cuò),以?xún)?yōu)化對(duì)其重要的參數(shù),例如完成樂(lè)曲的速度,高音符與柔和音符的比率,或觸按琴鍵的數(shù)量。本質(zhì)上,數(shù)據(jù)點(diǎn)沒(méi)有與之關(guān)聯(lián)的標(biāo)簽來(lái)告知是對(duì)還是錯(cuò)。與其相反,目標(biāo)是以某種方式組織數(shù)據(jù)或描述其結(jié)構(gòu)。這可能意味著將其分組,或者尋找查看復(fù)雜數(shù)據(jù)的不同方法,從而使其看起來(lái)更簡(jiǎn)單或更有組織。通常,無(wú)監(jiān)督學(xué)習(xí)在訓(xùn)練模型方面不如無(wú)監(jiān)督學(xué)習(xí)有效,但是當(dāng)沒(méi)有標(biāo)簽存在時(shí)(換句話(huà)說(shuō),“正確”的答案是未知的),這可能是必要的。一個(gè)常見(jiàn)的商業(yè)例子是市場(chǎng)細(xì)分:通常不清楚什么是“正確”的市場(chǎng)細(xì)分,但每個(gè)營(yíng)銷(xiāo)人員都在尋找自然親緣關(guān)系的細(xì)分,以便他們能夠以正確的信息、提議和產(chǎn)品接近這些細(xì)分。
?半監(jiān)督:受監(jiān)督和無(wú)監(jiān)督的組合。在沒(méi)有足夠監(jiān)督數(shù)據(jù)的情況下使用此方法。在鋼琴示例中,就會(huì)得到一些指導(dǎo),但不會(huì)得到很多指導(dǎo)(可能是因?yàn)檎n程昂貴或老師人數(shù)不足)。
?強(qiáng)化:系統(tǒng)不會(huì)告知演奏者正確和錯(cuò)誤的演奏方式,也不知道要優(yōu)化的參數(shù)是什么,但是會(huì)告訴何時(shí)做對(duì)或錯(cuò)。在進(jìn)行鋼琴訓(xùn)練的情況下,當(dāng)彈錯(cuò)音符或以不正確的節(jié)奏演奏時(shí),鋼琴教師可能會(huì)糾正,并且當(dāng)演奏者彈奏得很好時(shí),就會(huì)給予鼓勵(lì)。強(qiáng)化學(xué)習(xí)現(xiàn)在非常流行,因?yàn)樵谀承┣闆r下,每種情況下沒(méi)有足夠的監(jiān)督數(shù)據(jù),但是已知“正確”的答案。例如,在國(guó)際象棋游戲中,要記錄到文檔(標(biāo)簽)的移動(dòng)過(guò)多。但是強(qiáng)化學(xué)習(xí)仍然可以告訴機(jī)器何時(shí)做出對(duì)與錯(cuò)的決定,進(jìn)而贏(yíng)得勝利(比如在國(guó)際象棋中捕捉棋子和強(qiáng)化位置)。
?轉(zhuǎn)移學(xué)習(xí):演奏者已經(jīng)掌握了一些可轉(zhuǎn)移的技能(例如閱讀筆記的能力,甚至掌握了手指的敏捷性),因此可以利用自己的彈奏鋼琴知識(shí)來(lái)學(xué)習(xí)另一種樂(lè)器,以此來(lái)學(xué)習(xí)如何吹小號(hào)。之所以使用轉(zhuǎn)移學(xué)習(xí),是因?yàn)樗鼫p少了學(xué)習(xí)時(shí)間,對(duì)于使用深度學(xué)習(xí)架構(gòu)的模型而言,這可能很重要(數(shù)小時(shí)甚至數(shù)天)。
通用機(jī)器學(xué)習(xí)算法
常見(jiàn)的算法類(lèi)型包括:
?回歸只是通過(guò)數(shù)據(jù)點(diǎn)繪制曲線(xiàn)或直線(xiàn)。
?分類(lèi)是確定某物屬于哪個(gè)組。二進(jìn)制分類(lèi)(兩組)正在確定某物是否屬于一類(lèi),例如圖片中的動(dòng)物是否是狗。以動(dòng)物為例,多種分類(lèi)(兩個(gè)以上類(lèi)別)是動(dòng)物是狗、貓、鳥(niǎo)等。
?聚類(lèi)類(lèi)似于分類(lèi),但是并不會(huì)提前知道分類(lèi)。再次以識(shí)別動(dòng)物圖片為示例,可以確定存在三種類(lèi)型的動(dòng)物,但是不知道這些動(dòng)物是什么,因此只需將它們分為幾類(lèi)即可。一般而言,當(dāng)沒(méi)有足夠的受監(jiān)管數(shù)據(jù)時(shí),或者當(dāng)想在數(shù)據(jù)中找到自然分組而不受限于特定組(例如狗、貓或鳥(niǎo))時(shí),可以使用聚類(lèi)。
?時(shí)間序列假定數(shù)據(jù)順序很重要(隨著時(shí)間的推移獲取的數(shù)據(jù)點(diǎn)具有應(yīng)考慮的內(nèi)部結(jié)構(gòu))。例如,可以將銷(xiāo)售數(shù)據(jù)視為時(shí)間序列,因?yàn)榭赡芟MS時(shí)間變化收入趨勢(shì),以檢測(cè)季節(jié)性并將其與促銷(xiāo)活動(dòng)相關(guān)聯(lián)。
深度學(xué)習(xí)模型
深度學(xué)習(xí)基于人工神經(jīng)網(wǎng)絡(luò)(ANN)的概念。這樣可以就像人類(lèi)的大腦一樣工作,在這種情況下,根據(jù)某種反饋,突觸變得更強(qiáng)或更弱,而神經(jīng)元?jiǎng)t根據(jù)特定條件激發(fā)。通過(guò)深度學(xué)習(xí)模型解決了難題,其中包括自動(dòng)駕駛汽車(chē)、圖像檢測(cè)、視頻分析和語(yǔ)言處理。
為了避免認(rèn)為深度學(xué)習(xí)模型是唯一應(yīng)該使用的東西,這里有一些注意事項(xiàng):
?首先,它們需要大量數(shù)據(jù),通常比機(jī)器學(xué)習(xí)模型要多得多。如果沒(méi)有大量數(shù)據(jù),深度學(xué)習(xí)通常會(huì)表現(xiàn)不佳。
?其次,由于深度學(xué)習(xí)模型需要大量數(shù)據(jù),因此訓(xùn)練過(guò)程需要很長(zhǎng)時(shí)間,并且需要大量的計(jì)算處理能力。這一點(diǎn)正被越來(lái)越強(qiáng)大和更快的CPU和存儲(chǔ)器以及更新的GPU和FPGAs(現(xiàn)場(chǎng)可編程邏輯陣列)所解決。
?第三,深度學(xué)習(xí)模型通常比機(jī)器學(xué)習(xí)模型更難解釋。可解釋性是深度學(xué)習(xí)研究的主要領(lǐng)域,因此也許會(huì)有所改善。
如何衡量機(jī)器學(xué)習(xí)模型的性能
模型就像人類(lèi)一樣,可以對(duì)其性能進(jìn)行評(píng)估。這里有幾種方法可以衡量相對(duì)簡(jiǎn)單的回歸模型的性能。
所有這些都可以被認(rèn)為是一種成本函數(shù),它可以幫助模型知道它是否離“正確”答案越來(lái)越近,或者距該答案“足夠近”。成本函數(shù)告訴模型需要多長(zhǎng)時(shí)間才能獲取之前從未見(jiàn)過(guò)的新數(shù)據(jù),并以足夠高的概率輸出正確的預(yù)測(cè)。訓(xùn)練模型時(shí),目標(biāo)是最小化成本函數(shù)。
分類(lèi)模型中的精度與召回率
一旦成本函數(shù)完成了根據(jù)訓(xùn)練數(shù)據(jù)(正在顯示的數(shù)據(jù))幫助模型朝著“正確答案”方向發(fā)展的工作,就需要評(píng)估模型在尚未處理的數(shù)據(jù)上的表現(xiàn)如何看過(guò)。在分類(lèi)模型的場(chǎng)景中進(jìn)行解釋?zhuān)ǚ诸?lèi)模型可以確定某物是否屬于一組或另一組,例如圖片是狗、貓、老鼠等)。
要評(píng)估分類(lèi)模型的性能,請(qǐng)使用方程式以提高準(zhǔn)確性。但是,通常認(rèn)為,當(dāng)訓(xùn)練數(shù)據(jù)顯示等級(jí)不平衡時(shí),準(zhǔn)確性指標(biāo)可能會(huì)誤導(dǎo),因此可以使用稱(chēng)為精度和召回率的指標(biāo)。這些術(shù)語(yǔ)的含義如下:
?等級(jí)不平衡:數(shù)據(jù)在一個(gè)方向相對(duì)于其他方向偏斜??紤]預(yù)測(cè)信用卡交易是否為欺詐的示例。絕大多數(shù)交易不是欺詐性的,數(shù)據(jù)集將朝這個(gè)方向傾斜。因此,如果預(yù)測(cè)給定的交易不是欺詐,那么即使對(duì)交易本身一無(wú)所知,也可能是對(duì)的。在此示例中應(yīng)用準(zhǔn)確性指標(biāo)會(huì)使人們誤以為在預(yù)測(cè)非欺詐性交易方面做得很好。
?精確性是相關(guān)性的衡量標(biāo)準(zhǔn)。假設(shè)使用搜索引擎來(lái)了解人們喜歡網(wǎng)球運(yùn)動(dòng)的程度。精確測(cè)量返回的項(xiàng)目中有多少與此有關(guān),而鏈接則表示人們喜歡網(wǎng)球的程度,人們喜歡網(wǎng)球活動(dòng)的方式等等。
?召回是衡量完整性的標(biāo)準(zhǔn)。以喜歡網(wǎng)球運(yùn)動(dòng)為例,召回率可以衡量搜索引擎捕獲所有可用參考的程度。缺少零引用是令人驚訝的,缺少一兩個(gè)參考值還可以,缺少數(shù)千個(gè)參考值將是可怕的。
不幸的是,在現(xiàn)實(shí)世界中,精確性和召回率是相互抵消的;也就是說(shuō),當(dāng)一個(gè)指標(biāo)提高時(shí),另一個(gè)指標(biāo)就會(huì)降低。所以,必須確定哪個(gè)指標(biāo)更重要。
以一個(gè)約會(huì)應(yīng)用程序?yàn)槔?,該?yīng)用程序?qū)⒛橙伺c異性匹配。如果相貌端正、富有并且個(gè)性十足,那么可能會(huì)傾向于更高的精度,因?yàn)橹罆?huì)有很多潛在的匹配,但只想要真正合適的匹配,并且篩選潛在對(duì)手的可能性很高。為了評(píng)估模型在精度和召回率之間的平衡程度,使用了F1評(píng)分。
這些指標(biāo)可以繪制在圖表上;一個(gè)稱(chēng)為ROC曲線(xiàn)(接收者工作特性曲線(xiàn)),另一個(gè)稱(chēng)為PR曲線(xiàn)(精度召回曲線(xiàn))。一條完美的曲線(xiàn)(除非作弊,否則永遠(yuǎn)得不到它)是Y軸到1,然后越過(guò)頂點(diǎn)的曲線(xiàn)。在ROC曲線(xiàn)的情況下,對(duì)角線(xiàn)上的一條直線(xiàn)是不好的,這意味著模型以50%的比率平均預(yù)測(cè)正值和負(fù)值(不比隨機(jī)猜測(cè)好)。這些指標(biāo)經(jīng)常轉(zhuǎn)換為曲線(xiàn)下的面積(AUC),因此將看到AUC ROC和AUC PR等術(shù)語(yǔ)。
為什么建立機(jī)器學(xué)習(xí)模型會(huì)很困難
既然了解了什么是模型以及如何判斷模型的性能,那么探討一下為什么構(gòu)建一個(gè)性能良好的模型會(huì)很困難。這有幾個(gè)原因,其中包括:?jiǎn)栴}表述、數(shù)據(jù)問(wèn)題、選擇合適的模型算法和結(jié)構(gòu)、選擇合適的特征、調(diào)整超參數(shù)、訓(xùn)練模型、代價(jià)(誤差)函數(shù)、欠擬合(偏差)和過(guò)擬合(方差)。
要知道,數(shù)據(jù)科學(xué)和其他任何科學(xué)一樣,既是一門(mén)藝術(shù),也是一門(mén)科學(xué)。當(dāng)然,做事情總是有一些簡(jiǎn)單的方法,但是這些方法可能會(huì)很費(fèi)時(shí),可能會(huì)減少洞察力,而且很可能適得其反。當(dāng)前的數(shù)據(jù)科學(xué)方法是匯集行業(yè)專(zhuān)家(如業(yè)務(wù)線(xiàn)、運(yùn)營(yíng)、轉(zhuǎn)型和改進(jìn)專(zhuān)家)和數(shù)據(jù)科學(xué)家的知識(shí),以創(chuàng)建滿(mǎn)足業(yè)務(wù)需求的模型。
過(guò)擬合與欠擬合
過(guò)擬合與欠擬合是最受歡迎的問(wèn)題結(jié)果,因此對(duì)其進(jìn)行深入研究。它們涉及偏差和方差。
過(guò)擬合(高方差)意味著該模型對(duì)數(shù)據(jù)的變化反應(yīng)過(guò)多,因此它并未真正了解其真正含義,而是“記憶”了數(shù)據(jù)。就像學(xué)習(xí)一本數(shù)學(xué)書(shū)一樣,當(dāng)接受測(cè)試時(shí),只知道書(shū)中給出的三個(gè)例子的答案。當(dāng)老師問(wèn)你這些數(shù)學(xué)問(wèn)題時(shí)(例如2+1=3,7+2=9,和4+2=6),會(huì)發(fā)現(xiàn)它們是正確的。但是當(dāng)她問(wèn)一些不同的東西(例如7×9 =?)時(shí),就可能不知道答案。這是因?yàn)榧词沽私饫拥拇鸢福](méi)有掌握算法。
欠擬合(高偏差)是相反的問(wèn)題,因?yàn)榫芙^學(xué)習(xí)新知識(shí)。也許你學(xué)會(huì)簡(jiǎn)單的算法。但是現(xiàn)在情況已經(jīng)改變了,要求實(shí)施更難的算法。如果表現(xiàn)出很高的偏見(jiàn),則將繼續(xù)學(xué)習(xí)簡(jiǎn)單的算法而不學(xué)習(xí)更難的算法的話(huà),那么就會(huì)得到錯(cuò)誤的答案。
這兩者都是問(wèn)題,數(shù)據(jù)科學(xué)具有幫助緩解這些問(wèn)題的機(jī)制。
機(jī)器學(xué)習(xí)模型示例
可以了解一下使用兩種算法的機(jī)器學(xué)習(xí)示例:急切算法和懶惰算法。
急切算法不使用顯式訓(xùn)練,而懶惰算法是顯式訓(xùn)練。由于急切算法未經(jīng)過(guò)明確訓(xùn)練,因此它們的訓(xùn)練階段很快(實(shí)際上不存在),但是其執(zhí)行(或推斷階段)比經(jīng)過(guò)訓(xùn)練的懶惰算法慢。急切算法也使用更多的內(nèi)存,因?yàn)樾枰鎯?chǔ)整個(gè)數(shù)據(jù)集,而一旦訓(xùn)練完成,用于訓(xùn)練懶惰算法的數(shù)據(jù)可以被丟棄,而占用的總內(nèi)存更少。
示例:使用TF-IDF進(jìn)行文檔搜索
在應(yīng)用于文本分析的急切算法的第一個(gè)示例中,使用的是稱(chēng)為T(mén)F-IDF的算法。將在短期內(nèi)解釋TF和IDF的含義,但首先明確一下這個(gè)示例的目標(biāo)。有五個(gè)簡(jiǎn)單的簡(jiǎn)短文檔(文檔1至5)。這些文檔還有一個(gè)關(guān)鍵字詞典;該詞典用于關(guān)鍵字搜索。還有一個(gè)用戶(hù)查詢(xún),目的是檢索最適合用戶(hù)查詢(xún)的文檔。在這個(gè)例子中,要按優(yōu)先級(jí)相關(guān)性順序返回五個(gè)文檔。
首先解釋一下TF和IDF的縮寫(xiě)。TF代表術(shù)語(yǔ)頻率或術(shù)語(yǔ)出現(xiàn)的頻率(即該術(shù)語(yǔ)在文檔中的密度)。人們關(guān)心的原因是,假設(shè)當(dāng)“重要”術(shù)語(yǔ)出現(xiàn)得更頻繁時(shí),它所在的文檔更相關(guān);TF幫助將用戶(hù)查詢(xún)中的術(shù)語(yǔ)映射到最相關(guān)的文檔。
IDF代表反文檔頻率。這幾乎是相反的想法,在所有文檔中頻繁出現(xiàn)的術(shù)語(yǔ)的重要性較低,因此希望減少這些術(shù)語(yǔ)的重要性。顯而易見(jiàn)的詞是“a”、“an”和“the”,但對(duì)于特定的主題或領(lǐng)域,還有許多其他詞??梢园堰@些常見(jiàn)的術(shù)語(yǔ)看作是干擾搜索過(guò)程的噪音。
為文檔和查詢(xún)計(jì)算出TF和IDF值后,只需計(jì)算用戶(hù)查詢(xún)與每個(gè)文檔之間的相似度即可。相似性評(píng)分越高,文檔越相關(guān)。然后,按照相關(guān)性順序?qū)⑦@些文檔呈現(xiàn)給用戶(hù)。
現(xiàn)在已經(jīng)了解了如何完成操作,只需要進(jìn)行計(jì)算即可。
可以看看計(jì)算結(jié)果。將會(huì)看到幾個(gè)矩陣。機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型使用矩陣數(shù)學(xué)進(jìn)行大量計(jì)算。與數(shù)據(jù)科學(xué)家合作時(shí),需要意識(shí)到這一點(diǎn),需要幫助他們以對(duì)業(yè)務(wù)問(wèn)題有意義的方式將數(shù)據(jù)轉(zhuǎn)換為這些類(lèi)型的格式。這并不難,但這是數(shù)據(jù)科學(xué)預(yù)處理階段的一部分。
在第一個(gè)TF矩陣中,計(jì)算每個(gè)文檔的每個(gè)關(guān)鍵字(在字典中指定)的規(guī)范化(“相對(duì)”)頻率。分子表示該文檔中的單詞計(jì)數(shù)頻率,分母表示單詞在任何給定文檔中出現(xiàn)的最大次數(shù);換句話(huà)說(shuō),它是所有分子之間的最大值。
在第二個(gè)矩陣中,為字典中的每個(gè)術(shù)語(yǔ)在最后一行添加一個(gè)IDF向量。只需應(yīng)用已經(jīng)給出的方程:IDF(t)=log(N/N(t)),其中
?N =推薦文件數(shù)
?n(t)=出現(xiàn)關(guān)鍵字t的文檔數(shù)
下一步是通過(guò)將文檔的每一行乘以IDF的最后一行來(lái)為文檔創(chuàng)建TF-IDF矩陣?,F(xiàn)在,已經(jīng)完成了文檔矩陣。重復(fù)相同的過(guò)程以創(chuàng)建用戶(hù)查詢(xún)矩陣。
最后,將兩個(gè)矩陣組合起來(lái),并計(jì)算每個(gè)文檔和用戶(hù)查詢(xún)之間的相似度。在這種情況下,可以使用方程式來(lái)計(jì)算相似度,稱(chēng)為余弦相似度(也可以使用其他相似度計(jì)算)。注意,用戶(hù)查詢(xún)和自身之間的相似度值是1,因?yàn)樗鼞?yīng)該是1,因?yàn)樗谂c自身進(jìn)行比較。
從這里,可以將相似度值(在矩陣的最后一列)從高到低排序,從而向用戶(hù)呈現(xiàn)從高到低的相關(guān)文檔?,F(xiàn)在完成了。但要注意的是,該模型沒(méi)有“訓(xùn)練”,只應(yīng)用了一些方程式。
示例:使用基于內(nèi)容的協(xié)作方法推薦寵物
再了解一下推薦引擎中使用的急切機(jī)器學(xué)習(xí)算法的另一個(gè)例子,類(lèi)似于人們?cè)谠S多網(wǎng)站上看到的內(nèi)容。在這種情況下,假設(shè)你有四名寵物愛(ài)好者的數(shù)據(jù),并且可以了解他們喜歡的寵物的類(lèi)型以及他們對(duì)特定寵物的喜歡程度。假設(shè)有第五個(gè)寵物愛(ài)好者(Amy),你對(duì)他的偏愛(ài)知之甚少。
你的目標(biāo)有兩個(gè):預(yù)測(cè)Amy對(duì)特定寵物的評(píng)價(jià),并預(yù)測(cè)Amy喜歡寵物的偏好。應(yīng)該看到,這與相似性問(wèn)題非常相似,這是在你認(rèn)識(shí)的人與不太了解的的人之間使用屬性相似性來(lái)實(shí)現(xiàn)的。
有兩種方法可以確定推薦系統(tǒng)中的相似性:協(xié)作和基于內(nèi)容,協(xié)作可以進(jìn)一步定義為基于用戶(hù)或基于項(xiàng)目。
在協(xié)作方法中,需要對(duì)社區(qū)中的用戶(hù)進(jìn)行評(píng)級(jí)。通過(guò)基于用戶(hù)的方法來(lái)應(yīng)用此功能,可以根據(jù)社區(qū)中相似用戶(hù)的喜歡來(lái)預(yù)測(cè)用戶(hù)喜歡什么。相比之下,使用基于項(xiàng)目的方法,可以根據(jù)社區(qū)喜歡的項(xiàng)目之間的相似性來(lái)預(yù)測(cè)用戶(hù)喜歡什么。
基于內(nèi)容的方法不使用社區(qū)中用戶(hù)的評(píng)分。取而代之的是,它基于商品本身的特征,而分配給這些特征的值(或標(biāo)簽)則由領(lǐng)域?qū)<姨峁?/p>
每種方法都有其優(yōu)點(diǎn)和缺點(diǎn)。
考慮這個(gè)例子:在協(xié)作方法中,使用其他用戶(hù)的寵物等級(jí)來(lái)預(yù)測(cè)個(gè)人對(duì)寵物的未知等級(jí)。
首先,嘗試基于用戶(hù)的方法。因?yàn)檎诒容^可能因人為偏見(jiàn)而歪曲的總體個(gè)人評(píng)級(jí)(他們的基準(zhǔn)可能會(huì)有所不同),所以使用了一個(gè)稱(chēng)為Pearson相似性的相似性函數(shù),該函數(shù)試圖通過(guò)規(guī)范化評(píng)分(即通過(guò)從每個(gè)用戶(hù)評(píng)分中減去評(píng)分的平均值)。在該示例中,就會(huì)發(fā)現(xiàn)Alice的評(píng)分與Bill的評(píng)分最為相似,因此可以假設(shè)Amy的缺失評(píng)分與Bill的評(píng)分相同。
現(xiàn)在嘗試基于項(xiàng)目的方法。通過(guò)這種方法,不必關(guān)注個(gè)人的評(píng)分,而是關(guān)注項(xiàng)目的評(píng)分。而且,由于項(xiàng)目的評(píng)分是由幾個(gè)人提供的評(píng)分的綜合,因此不必?fù)?dān)心偏差,因此可以使用余弦相似度函數(shù)。在這里,你會(huì)看到貓和刺猬最相似,因此可以推斷出Amy對(duì)貓的評(píng)分與她對(duì)刺猬的評(píng)分相同。
最后,嘗試基于內(nèi)容的方法。這種方法不需要對(duì)社區(qū)成員進(jìn)行評(píng)分。取而代之的是,專(zhuān)家標(biāo)記了數(shù)據(jù),在這種情況下,數(shù)據(jù)是每種寵物類(lèi)型的屬性(可愛(ài)、整潔、忠誠(chéng))。如果知道某人對(duì)每種屬性的偏好,則可以使用余弦相似度函數(shù)來(lái)預(yù)測(cè)該人最可能喜歡的寵物。在此示例中,Amy最有可能按照偏好降序依次選擇刺猬、兔子、狗、豬、貓。
以下學(xué)習(xí)一些數(shù)學(xué)。舉例來(lái)說(shuō),要確定Amy對(duì)刺猬的評(píng)分,會(huì)發(fā)現(xiàn)刺猬的寵物屬性與Amy對(duì)寵物屬性的重要性等級(jí)之間存在相似之處:
?刺猬的向量是(4,3,1,1)
?Amy的向量是(3,3,2,1)
?需要找到這兩個(gè)向量之間的相似性
?余弦相似度= [4(3)+(3)(3)+(1)(2)+(1)(1)]/[SQRT(4^2 + 3^2 + 1^2 + 1^2)* SQRT(3^2 + 3^2 + 2^2 + 1^2] = 0.96
對(duì)于協(xié)作方法,可以使用Pearson方程,因?yàn)樗梢詷?biāo)準(zhǔn)化各個(gè)用戶(hù)的評(píng)分(他們的評(píng)分可能不一致)。如果具有客觀(guān)等級(jí)((比如不是基于不同等級(jí)的人的評(píng)分),可以使用余弦相似度。以下是方程式中的變量:
?u:用戶(hù)
?i:需要評(píng)級(jí)的項(xiàng)目
?N:#個(gè)最近的鄰居
?j:鄰居
?rj,I:j對(duì)i的評(píng)分
?rj bar:j的平均值
?ru bar:用戶(hù)評(píng)分的平均值
?alpha:等級(jí)的縮放比例; 1表示按原樣使用(沒(méi)有正確的alpha值;這是那些超參數(shù)之一),有經(jīng)驗(yàn)的數(shù)據(jù)科學(xué)家可以根據(jù)問(wèn)題的目標(biāo)和背景進(jìn)行調(diào)整,以得出更好的結(jié)果。
示例:使用支持向量機(jī)(SVM)的懶惰算法
最后,這里是一個(gè)稱(chēng)為支持向量機(jī)(SVM)的懶惰機(jī)器學(xué)習(xí)算法的例子。在這種方法中,需要確定一個(gè)項(xiàng)目屬于哪個(gè)組,例如一個(gè)新客戶(hù)最終是一個(gè)利潤(rùn)高還是低的客戶(hù)。要使用支持向量機(jī)完成此操作,需要計(jì)算兩個(gè)參數(shù):
?每個(gè)屬性的權(quán)重(重要性)(屬性的示例可能是客戶(hù)的收入、家庭成員的數(shù)量、職業(yè)和教育成就)
?支持向量,它是最接近將各組分開(kāi)的曲線(xiàn)(稱(chēng)為超平面)的數(shù)據(jù)集。
然后使用這兩個(gè)參數(shù)并將它們插入方程式。
計(jì)算這些參數(shù)的方法是使用可用的數(shù)據(jù)集,這就是所謂的訓(xùn)練數(shù)據(jù)。
在訓(xùn)練階段計(jì)算出的值是:
?用于最小化成本函數(shù)的權(quán)重(alpha和theta)。
?支持向量xi,它是訓(xùn)練數(shù)據(jù)的子集。
一旦模型得到訓(xùn)練,就可以插入x的新值(例如新客戶(hù)的屬性),然后預(yù)測(cè)x的這些新值所屬的類(lèi)h(x)(例如它們是否預(yù)期是高利潤(rùn)客戶(hù))。
人工智能項(xiàng)目失敗的原因
人工智能項(xiàng)目在業(yè)務(wù)環(huán)境中失敗的常見(jiàn)方式很多。任何人工智能框架都應(yīng)解決這些問(wèn)題。
失敗的第一個(gè)驅(qū)動(dòng)因素或者是選擇了錯(cuò)誤的用例,或者是在沒(méi)有足夠能力和基礎(chǔ)設(shè)施的情況下使用了太多的用例??梢允褂们懊婷枋龅臈l件來(lái)確定更好地適合于人工智能解決方案的問(wèn)題。此外,明智的做法是建立一系列用例,以使功能和知識(shí)以漸進(jìn)的方式構(gòu)建,并隨著技術(shù)的成熟程度的提高而提高。
選擇正確的用例最好與以下人員協(xié)作:
?企業(yè)員工,他們知道業(yè)務(wù)問(wèn)題、環(huán)境和約束,以及他們想要測(cè)試的假設(shè)。
?分析師,他們可以提出問(wèn)題以闡明業(yè)務(wù)意圖和要求,并且可以識(shí)別數(shù)據(jù)源和轉(zhuǎn)換。
?可以制定機(jī)器學(xué)習(xí)和深度學(xué)習(xí)問(wèn)題的數(shù)據(jù)科學(xué)家,以便模型可以為企業(yè)的假設(shè)提供答案。
?可以提供對(duì)數(shù)據(jù)訪(fǎng)問(wèn)權(quán)限的數(shù)據(jù)工程師和IT資源。
正確地預(yù)先組織和安排這些類(lèi)型的活動(dòng)需要經(jīng)驗(yàn)豐富的跨職能領(lǐng)導(dǎo)者,他們需要了解并可以平衡業(yè)務(wù)影響,運(yùn)營(yíng)驅(qū)動(dòng)因素、工作流障礙和機(jī)遇、數(shù)據(jù)需求和約束以及技術(shù)支持因素。
失敗的第二個(gè)驅(qū)動(dòng)程序錯(cuò)誤地自己構(gòu)建了人工智能模型。這包括兩個(gè)元素:
?盡管數(shù)據(jù)科學(xué)和其他科學(xué)一樣,在本質(zhì)上是實(shí)驗(yàn)性的(在使用數(shù)據(jù)之前,并不真正知道數(shù)據(jù)會(huì)告訴你什么),但數(shù)據(jù)科學(xué)的方法應(yīng)該定義明確,應(yīng)該具有紀(jì)律性,并且應(yīng)該加快價(jià)值時(shí)間。
?優(yōu)秀的數(shù)據(jù)科學(xué)家可以快速進(jìn)行實(shí)驗(yàn)和迭代,從他們的實(shí)驗(yàn)中學(xué)習(xí),區(qū)分有前途和無(wú)效的方法,并在必要時(shí)研究和調(diào)整前沿方法。優(yōu)秀的數(shù)據(jù)科學(xué)家以快速、并行的方式構(gòu)建最小可行產(chǎn)品(MVP)。
失敗的第三個(gè)驅(qū)動(dòng)因素是缺乏同時(shí)快速構(gòu)建和改進(jìn)多個(gè)人工智能模型的規(guī)模。通常,這歸結(jié)于數(shù)據(jù)科學(xué)家能夠協(xié)同工作,重用數(shù)據(jù)管道、工作流和模型/算法,并重現(xiàn)模型結(jié)果。此外,他們還需要能夠捕獲并快速合并操作反饋(在測(cè)試、登臺(tái)或生產(chǎn)環(huán)境中),以進(jìn)一步構(gòu)建規(guī)模。實(shí)現(xiàn)這一點(diǎn)既需要正確的基礎(chǔ)設(shè)施環(huán)境,也需要正確的模型治理方法。
失敗的第四個(gè)驅(qū)動(dòng)因素是無(wú)法實(shí)現(xiàn)人工智能模型的運(yùn)營(yíng)和貨幣化。一般來(lái)說(shuō),開(kāi)發(fā)人工智能模型是出于以下兩個(gè)目的之一:
?發(fā)現(xiàn)以前未經(jīng)確認(rèn)的見(jiàn)解
?自動(dòng)化決策(以降低成本和提高效率/生產(chǎn)率)。
很明顯,從來(lái)沒(méi)有出過(guò)實(shí)驗(yàn)室的模型不能完成這些任務(wù)。
此外,不僅需要部署模型(即使人們或系統(tǒng)可以訪(fǎng)問(wèn)模型),而且還必須以在操作和異常中“使用”它們的方式將它們合并到工作流中。無(wú)法做出具有較高正確性概率的決策,必須進(jìn)行優(yōu)雅的管理(例如通過(guò)人工干預(yù)、模型重新訓(xùn)練和模型回滾)。人工智能的運(yùn)營(yíng)和貨幣化需要逐步但完整的模型工作流集成,數(shù)據(jù)輸入和模型性能參數(shù)的監(jiān)視以及頻繁模型部署的管理。
如何使用人工智能?端到端的人工智能解決方案框架
最后,將所有這些與人工智能解決方案框架結(jié)合在一起。
有四個(gè)組成部分:
?數(shù)據(jù)管理。
?模型開(kāi)發(fā)。
?模型操作。
?確保使用模型,影響業(yè)務(wù)并改善業(yè)務(wù)指標(biāo)。
第一個(gè)組件是數(shù)據(jù)管理,是當(dāng)前商業(yè)智能環(huán)境的常規(guī)組成部分。
第二部分是模型開(kāi)發(fā),包括兩個(gè)廣泛的領(lǐng)域:
?定義適合機(jī)器學(xué)習(xí)模型的用例并確定其優(yōu)先級(jí)。
?大規(guī)模構(gòu)建機(jī)器學(xué)習(xí)模型。
第三個(gè)組成部分,模型操作化,不僅需要模型部署,還需要持續(xù)的再培訓(xùn)和重新部署過(guò)程,模型與操作工作流的集成,以及集成操作反饋以改進(jìn)模型。
所有這些目的是通過(guò)模型的功能獲利。
最后,組織和業(yè)務(wù)影響的第四部分很簡(jiǎn)單(很明顯),但對(duì)組織的人工智能能力的未來(lái)成熟至關(guān)重要。這個(gè)組件的功能是確保人工智能模型被業(yè)務(wù)線(xiàn)實(shí)際使用(也就是說(shuō),他們信任人工智能模型并從中獲取價(jià)值),并且它們正在影響業(yè)務(wù)結(jié)果。如果沒(méi)有業(yè)務(wù)的支持,人工智能將不會(huì)迅速發(fā)展。
這四個(gè)組件之上是協(xié)作組:IT、數(shù)據(jù)工程師、數(shù)據(jù)科學(xué)家、業(yè)務(wù)部門(mén)。人工智能是一項(xiàng)團(tuán)隊(duì)工作。
可以采用這些組件并在其周?chē)胖脜⒖俭w系結(jié)構(gòu),添加一個(gè)稱(chēng)為模型治理的組件,以確保實(shí)現(xiàn)模型的可再現(xiàn)性,數(shù)據(jù)科學(xué)的可重用性以及數(shù)據(jù)科學(xué)家的協(xié)作,并確保對(duì)模型進(jìn)行重新訓(xùn)練/回滾需要時(shí)可能。
設(shè)計(jì)和實(shí)施類(lèi)似這個(gè)參考體系結(jié)構(gòu)的解決方案將以健壯性、上市速度和業(yè)務(wù)成果來(lái)支持人工智能解決方案框架。
責(zé)任編輯:ct
評(píng)論
查看更多