電子發(fā)燒友App

硬聲App

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示
創(chuàng)作
電子發(fā)燒友網(wǎng)>電子資料下載>人工智能>機(jī)器學(xué)習(xí)模型再訓(xùn)練的指南詳細(xì)概述

機(jī)器學(xué)習(xí)模型再訓(xùn)練的指南詳細(xì)概述

2020-04-10 | doc | 0.02 MB | 次下載 | 3積分

資料介紹

  機(jī)器學(xué)習(xí)模型的訓(xùn)練,通常是通過學(xué)習(xí)某一組輸入特征與輸出目標(biāo)之間的映射來進(jìn)行的。一般來說,對(duì)于映射的學(xué)習(xí)是通過優(yōu)化某些成本函數(shù),來使預(yù)測(cè)的誤差最小化。在訓(xùn)練出最佳模型之后,將其正式發(fā)布上線,再根據(jù)未來生成的數(shù)據(jù)生成準(zhǔn)確的預(yù)測(cè)。這些新數(shù)據(jù)示例可能是用戶交互、應(yīng)用處理或其他軟件系統(tǒng)的請(qǐng)求生成的——這取決于模型需要解決的問題。在理想情況下,我們會(huì)希望自己的模型在生產(chǎn)環(huán)境中進(jìn)行預(yù)測(cè)時(shí),能夠像使用訓(xùn)練過程中使用的數(shù)據(jù)一樣,準(zhǔn)確地預(yù)測(cè)未來情況。

  當(dāng)我們將模型部署到生產(chǎn)中時(shí),往往會(huì)假設(shè)未來將使用到的數(shù)據(jù)會(huì)類似于過去模型評(píng)估期間所使用的數(shù)據(jù)。具體來說,我們可能會(huì)假設(shè),特征和目標(biāo)的分布將保持相當(dāng)?shù)暮愣ā5沁@種假設(shè)通常不成立。趨勢(shì)會(huì)隨著時(shí)間的推移而變化,人們的興趣會(huì)隨著季節(jié)的變化而變化,股票市場(chǎng)會(huì)起伏不定。因此,我們的模型必須適應(yīng)這些變化。

  世界是持續(xù)變化的,因此模型部署應(yīng)視為一個(gè)連續(xù)的過程,而不是完成第一次部署之后就扭頭去開展下一個(gè)項(xiàng)目。如果機(jī)器學(xué)習(xí)團(tuán)隊(duì)的工程師發(fā)現(xiàn)數(shù)據(jù)分布與原始訓(xùn)練集的數(shù)據(jù)分布有明顯出入,則需要重新訓(xùn)練模型。這個(gè)現(xiàn)象——通常被稱為模型漂移(model drift)——可以緩解,但是會(huì)帶來額外的開銷,如監(jiān)視基礎(chǔ)設(shè)施、監(jiān)督和流程等等。

  在本文中,筆者想對(duì)模型漂移下定義,并討論如何去識(shí)別和跟蹤模型漂移。然后,我將描述如何重新訓(xùn)練模型,來減輕漂移對(duì)預(yù)測(cè)性能的影響,并對(duì)應(yīng)多久重新訓(xùn)練一次模型做出建議。最后,我將介紹啟用模型重新訓(xùn)練的幾種方法。

  機(jī)器學(xué)習(xí)模型的訓(xùn)練,通常是通過學(xué)習(xí)某一組輸入特征與輸出目標(biāo)之間的映射來進(jìn)行的。一般來說,對(duì)于映射的學(xué)習(xí)是通過優(yōu)化某些成本函數(shù),來使預(yù)測(cè)的誤差最小化。在訓(xùn)練出最佳模型之后,將其正式發(fā)布上線,再根據(jù)未來生成的數(shù)據(jù)生成準(zhǔn)確的預(yù)測(cè)。這些新數(shù)據(jù)示例可能是用戶交互、應(yīng)用處理或其他軟件系統(tǒng)的請(qǐng)求生成的——這取決于模型需要解決的問題。在理想情況下,我們會(huì)希望自己的模型在生產(chǎn)環(huán)境中進(jìn)行預(yù)測(cè)時(shí),能夠像使用訓(xùn)練過程中使用的數(shù)據(jù)一樣,準(zhǔn)確地預(yù)測(cè)未來情況。

  當(dāng)我們將模型部署到生產(chǎn)中時(shí),往往會(huì)假設(shè)未來將使用到的數(shù)據(jù)會(huì)類似于過去模型評(píng)估期間所使用的數(shù)據(jù)。具體來說,我們可能會(huì)假設(shè),特征和目標(biāo)的分布將保持相當(dāng)?shù)暮愣?。但是這種假設(shè)通常不成立。趨勢(shì)會(huì)隨著時(shí)間的推移而變化,人們的興趣會(huì)隨著季節(jié)的變化而變化,股票市場(chǎng)會(huì)起伏不定。因此,我們的模型必須適應(yīng)這些變化。

  世界是持續(xù)變化的,因此模型部署應(yīng)視為一個(gè)連續(xù)的過程,而不是完成第一次部署之后就扭頭去開展下一個(gè)項(xiàng)目。如果機(jī)器學(xué)習(xí)團(tuán)隊(duì)的工程師發(fā)現(xiàn)數(shù)據(jù)分布與原始訓(xùn)練集的數(shù)據(jù)分布有明顯出入,則需要重新訓(xùn)練模型。這個(gè)現(xiàn)象——通常被稱為模型漂移(model drift)——可以緩解,但是會(huì)帶來額外的開銷,如監(jiān)視基礎(chǔ)設(shè)施、監(jiān)督和流程等等。

  在本文中,筆者想對(duì)模型漂移下定義,并討論如何去識(shí)別和跟蹤模型漂移。然后,我將描述如何重新訓(xùn)練模型,來減輕漂移對(duì)預(yù)測(cè)性能的影響,并對(duì)應(yīng)多久重新訓(xùn)練一次模型做出建議。最后,我將介紹啟用模型重新訓(xùn)練的幾種方法。

  什么是模型漂移?

  模型漂移是指,由于環(huán)境的變化違反了模型假設(shè),而導(dǎo)致模型的預(yù)測(cè)性能隨時(shí)間而降低。模型漂移有點(diǎn)用詞不當(dāng),因?yàn)樽兓牟皇悄P停悄P瓦\(yùn)行的環(huán)境。因此,概念漂移(concept drift)一詞實(shí)際上可能是一個(gè)更好的用詞,不過兩個(gè)術(shù)語都描述了相同的現(xiàn)象。

  請(qǐng)注意,筆者對(duì)模型漂移的定義實(shí)際上包括幾個(gè)可以更改的變量。預(yù)測(cè)性能將下降,它將在一段時(shí)間內(nèi)以某種速率下降,并且這種下降會(huì)歸因于違反建模假設(shè)的環(huán)境變化。在確定如何診斷ai服務(wù)器模型漂移以及如何通過模型再訓(xùn)練糾正模型漂移時(shí),應(yīng)考慮這些變量中的每一個(gè)。

  如何跟蹤模型漂移?

  目前業(yè)內(nèi)已有多種識(shí)別和跟蹤模型漂移的技術(shù)。在介紹這些技術(shù)之前,值得一提的是,并沒有一種萬能的方法。不同的模型問題需要不同的解決方案,您可能有、也可能沒有相應(yīng)的基礎(chǔ)架構(gòu)或資源來利用某些技術(shù)策略。

  模型性能降級(jí)

  識(shí)別模型漂移的最直接方法是明確預(yù)測(cè)性能是否已下降,同時(shí)量化這種下降。測(cè)量實(shí)時(shí)數(shù)據(jù)上已部署模型的準(zhǔn)確性是一個(gè)眾所周知的難題。之所以出現(xiàn)這種困難,部分原因是我們需要訪問生成的模型的預(yù)測(cè)和基本事實(shí)信號(hào)。出于以下這些原因,這可能無法實(shí)現(xiàn):

  ·預(yù)測(cè)的數(shù)據(jù)在生成后沒有存儲(chǔ)——?jiǎng)e讓這種事發(fā)生在你身上。

  ·預(yù)測(cè)已存儲(chǔ),但是您無法訪問基本事實(shí)標(biāo)簽。

  ·預(yù)測(cè)和標(biāo)簽均可用,但不能結(jié)合在一起。

  即使預(yù)測(cè)和標(biāo)簽可以合并在一起,也可能需要一段時(shí)間才能使用標(biāo)簽。例如一個(gè)可以預(yù)測(cè)下一季度收入的財(cái)務(wù)預(yù)測(cè)模型。在這種情況下,只有在該季度過去之后才能觀察到實(shí)際收入,所以直到那個(gè)時(shí)候你才能夠量化模型的效果。在此類預(yù)測(cè)問題中, 回填預(yù)測(cè)(即訓(xùn)練模型,并根據(jù)過去的歷史數(shù)據(jù)生成預(yù)測(cè))可以幫助您了解模型性能下降的速度。

  正如Josh Wills 指出的那樣,在部署模型之前您可以做的最重要的事情之一就是試圖了解離線環(huán)境中的模型漂移。數(shù)據(jù)科學(xué)家應(yīng)想辦法回答以下問題:“如果我使用六個(gè)月前的浪潮ai服務(wù)器數(shù)據(jù)對(duì)這組特征進(jìn)行訓(xùn)練,并將其應(yīng)用于今天生成的數(shù)據(jù),那么這個(gè)模型比我一個(gè)月前未經(jīng)訓(xùn)練而創(chuàng)建并應(yīng)用到今天的模型差多少呢?”。離線執(zhí)行此分析,您可以估計(jì)模型性能下降的速度以及需要重新訓(xùn)練的頻率。當(dāng)然,這種方法的前提是要有一臺(tái)“時(shí)光機(jī)”來訪問過去任何時(shí)候的實(shí)時(shí)數(shù)據(jù)。

下載該資料的人也在下載 下載該資料的人還在閱讀
更多 >

評(píng)論

查看更多

下載排行

本周

  1. 1電子電路原理第七版PDF電子教材免費(fèi)下載
  2. 0.00 MB  |  1491次下載  |  免費(fèi)
  3. 2單片機(jī)典型實(shí)例介紹
  4. 18.19 MB  |  95次下載  |  1 積分
  5. 3S7-200PLC編程實(shí)例詳細(xì)資料
  6. 1.17 MB  |  27次下載  |  1 積分
  7. 4筆記本電腦主板的元件識(shí)別和講解說明
  8. 4.28 MB  |  18次下載  |  4 積分
  9. 5開關(guān)電源原理及各功能電路詳解
  10. 0.38 MB  |  11次下載  |  免費(fèi)
  11. 6100W短波放大電路圖
  12. 0.05 MB  |  4次下載  |  3 積分
  13. 7基于單片機(jī)和 SG3525的程控開關(guān)電源設(shè)計(jì)
  14. 0.23 MB  |  4次下載  |  免費(fèi)
  15. 8基于AT89C2051/4051單片機(jī)編程器的實(shí)驗(yàn)
  16. 0.11 MB  |  4次下載  |  免費(fèi)

本月

  1. 1OrCAD10.5下載OrCAD10.5中文版軟件
  2. 0.00 MB  |  234313次下載  |  免費(fèi)
  3. 2PADS 9.0 2009最新版 -下載
  4. 0.00 MB  |  66304次下載  |  免費(fèi)
  5. 3protel99下載protel99軟件下載(中文版)
  6. 0.00 MB  |  51209次下載  |  免費(fèi)
  7. 4LabView 8.0 專業(yè)版下載 (3CD完整版)
  8. 0.00 MB  |  51043次下載  |  免費(fèi)
  9. 5555集成電路應(yīng)用800例(新編版)
  10. 0.00 MB  |  33562次下載  |  免費(fèi)
  11. 6接口電路圖大全
  12. 未知  |  30320次下載  |  免費(fèi)
  13. 7Multisim 10下載Multisim 10 中文版
  14. 0.00 MB  |  28588次下載  |  免費(fèi)
  15. 8開關(guān)電源設(shè)計(jì)實(shí)例指南
  16. 未知  |  21539次下載  |  免費(fèi)

總榜

  1. 1matlab軟件下載入口
  2. 未知  |  935053次下載  |  免費(fèi)
  3. 2protel99se軟件下載(可英文版轉(zhuǎn)中文版)
  4. 78.1 MB  |  537793次下載  |  免費(fèi)
  5. 3MATLAB 7.1 下載 (含軟件介紹)
  6. 未知  |  420026次下載  |  免費(fèi)
  7. 4OrCAD10.5下載OrCAD10.5中文版軟件
  8. 0.00 MB  |  234313次下載  |  免費(fèi)
  9. 5Altium DXP2002下載入口
  10. 未知  |  233046次下載  |  免費(fèi)
  11. 6電路仿真軟件multisim 10.0免費(fèi)下載
  12. 340992  |  191183次下載  |  免費(fèi)
  13. 7十天學(xué)會(huì)AVR單片機(jī)與C語言視頻教程 下載
  14. 158M  |  183277次下載  |  免費(fèi)
  15. 8proe5.0野火版下載(中文版免費(fèi)下載)
  16. 未知  |  138039次下載  |  免費(fèi)