無論是在傳統(tǒng)機器學習領域還是現(xiàn)今炙手可熱的深度學習領域,基于訓練樣本有明確標簽或結(jié)果的監(jiān)督學習仍然是一種主要的模型訓練方式。尤其是深度學習領域,需要更多數(shù)據(jù)以提升模型效果。目前,已經(jīng)有一些規(guī)模較大的公開數(shù)據(jù)集,如ImageNet,COCO等。對于深度學習入門者,這些公開數(shù)據(jù)集可以提供非常大的幫助;但是對于大部分企業(yè)開發(fā)者,特別在醫(yī)學成像、自動駕駛、工業(yè)質(zhì)檢等領域中,他們更需要利用專業(yè)領域的實際業(yè)務數(shù)據(jù)定制AI模型應用,以保證其能夠更好地應用在業(yè)務中。因此,業(yè)務場景數(shù)據(jù)的采集和標注也是在實際AI模型開發(fā)過程中必不可少的重要環(huán)節(jié)。
數(shù)據(jù)標注的質(zhì)量和規(guī)模通常是提升AI模型應用效果的重要因素,然而完全通過人力手動標注數(shù)據(jù)建立一個高質(zhì)量、大規(guī)模專業(yè)領域數(shù)據(jù)集卻并不容易:標注人員的培訓與手工標注成本高、耗時長。為解決此問題,我們可以利用主動學習的方法,采用“Human-in-the-loop”的交互式框架(圖1)進行數(shù)據(jù)標注,以有效減少人工數(shù)據(jù)標注量。
圖1 基于主動學習的“Human-in-the-loop”交互式數(shù)據(jù)標注框架
主動學習(ActiveLearning, AL)是一種挑選具有高信息度數(shù)據(jù)的有效方式,它將數(shù)據(jù)標注過程呈現(xiàn)為學習算法和用戶之間的交互。其中,算法負責挑選對訓練AI模型價值更高的樣本,而用戶則標注那些挑選出來的樣本。如“Human-in-the-loop”交互式數(shù)據(jù)標注框架,通過用戶已標注的一部分數(shù)據(jù)來訓練AI模型,通過此模型來標注剩余數(shù)據(jù),再從中篩選出AI模型標注較為困難的數(shù)據(jù)進行人工標注,再將這些數(shù)據(jù)用于模型的優(yōu)化。幾輪過后,用于數(shù)據(jù)標注的AI模型將會具備較高的精度,更好地進行數(shù)據(jù)標注。以圖像分類問題舉例,首先,人工挑選并標注一部分圖像數(shù)據(jù),訓練初始模型,然后利用訓練的模型預測其余未標注的數(shù)據(jù),再通過“主動學習”中的“查詢方法”挑選出模型比較難分辨類別的數(shù)據(jù),再人為修正這些“難”數(shù)據(jù)的標簽并加入訓練集中再次微調(diào)(Fine-tuning)訓練模型?!安樵兎椒ā笔侵鲃訉W習的核心之一,最常見的“查詢方法”有基于不確定性的樣本查詢策略和基于多樣性的樣本查詢策略。
基于不確定性的樣本查詢策略可查詢出深度學習模型預測時,靠近決策邊界的樣本。以二分類問題舉例,當一個未標注樣本被預測為任一標簽的概率都是50%時,則該樣本對于預測模型而言是“不確定”的,極有可能被錯誤分類。要注意的是,主動學習是一個迭代過程,每次迭代,模型都會接收認為修正后的標注數(shù)據(jù)微調(diào)模型,通過這個過程直接改變模型決策的邊界,提高分類的正確率。
基于多樣性的查詢策略,可實現(xiàn)對當前深度學習模型下狀態(tài)未知樣本的查詢。將通過多樣性查詢挑選出的數(shù)據(jù)加入訓練集,可豐富訓練集的特征組合,提升模型的泛化能力。模型學習過的數(shù)據(jù)特征越豐富,泛化能力越強,預測模型適用的場景也越廣。
為解決大數(shù)據(jù)量標注的痛點,基于主動學習且融合多樣查詢策略的智能標注AI解決方案應運而生。通過EasyDL平臺使用智能標注后,開發(fā)者們只需標注數(shù)據(jù)集中30%左右的數(shù)據(jù),即可啟動智能標注在EasyDL后臺自動標注剩余數(shù)據(jù),再返回少量后臺難以確定的數(shù)據(jù)再次進行人工標注,同時提升自動標注的準確性,經(jīng)過幾輪之后,在實際項目測試中,智能標注功能可以幫助用戶節(jié)省70%的數(shù)據(jù)標注量,極大地減少數(shù)據(jù)標注中的人力成本和時間成本。
EasyDL零門檻AI開發(fā)平臺,面向企業(yè)開發(fā)者提供智能標注、模型訓練、服務部署等全流程功能,針對AI模型開發(fā)過程中繁雜的工作,提供便捷高效的平臺化解決方案。目前,EasyDL的智能標注功能已支持計算機視覺CV方向的物體檢測模型、圖像分割、自然語言處理NLP方向的文本分類模型的數(shù)據(jù)標注。
智能標注解決了模型開發(fā)過程中龐大的數(shù)據(jù)準備難題,那么在模型訓練與部署階段,EasyDL是否還有其他“武功秘籍”幫助開發(fā)者高效開發(fā)?
本周六,AI快車道EasyDL零門檻模型訓練營來到六朝古都南京,依托槳聲燈影里的秦淮河,為這座歷史悠久的城市帶來AI科技的新氣息!
各行業(yè)如何做到技術(shù)與場景結(jié)合,高效用AI?
視覺模型背后的核心技術(shù)點如何理解?
從云到端,端側(cè)模型的技術(shù)原理與部署如何操作?
模型精度難以提升,有沒有關(guān)鍵效果提升技巧尚未掌握?
責任編輯:xj
原文標題:百度工程師帶來干貨分享,助你轉(zhuǎn)型AI應用工程師!
文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
-
數(shù)據(jù)采集
+關(guān)注
關(guān)注
39文章
6200瀏覽量
113831 -
AI
+關(guān)注
關(guān)注
87文章
31262瀏覽量
269627 -
機器學習
+關(guān)注
關(guān)注
66文章
8428瀏覽量
132835 -
深度學習
+關(guān)注
關(guān)注
73文章
5510瀏覽量
121337
原文標題:百度工程師帶來干貨分享,助你轉(zhuǎn)型AI應用工程師!
文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論