數(shù)據(jù)標注是大多數(shù)人工智能的基礎(chǔ),它決定了機器學習和深度學習模型的質(zhì)量。今天的數(shù)據(jù)呈現(xiàn)指數(shù)級的爆發(fā),比如僅在2018年,就產(chǎn)生了超過30 ZB的數(shù)據(jù)。而在在任何人工智能項目中,對于數(shù)據(jù)科學家而言,數(shù)據(jù)問題都是其中的癥結(jié)所在。
什么是數(shù)據(jù)標注?
訓(xùn)練機器學習和深度學習模型,需要豐富的數(shù)據(jù),以便將其用于部署,訓(xùn)練和調(diào)整模型。訓(xùn)練機器學習和深度學習模型需要大量經(jīng)過仔細標注的數(shù)據(jù)。標注原始數(shù)據(jù)并準備將其應(yīng)用于機器學習模型和其他AI工作流,被稱為數(shù)據(jù)標注。根據(jù)相關(guān)統(tǒng)計,數(shù)據(jù)整理在AI項目中消耗了80%以上的時間。
數(shù)據(jù)如何標注?
如今,大多數(shù)數(shù)據(jù)都沒有標注。帶標簽的數(shù)據(jù),意味著標注或注釋目標模型的數(shù)據(jù),以便可以預(yù)測。通常,數(shù)據(jù)標注包括數(shù)據(jù)標注,注釋,審核,分類,轉(zhuǎn)錄和處理。
標注的數(shù)據(jù)突出顯示某些特征,并根據(jù)這些特征對其進行分類,可以通過模型分析其模式以預(yù)測新的目標。例如,對于自動駕駛汽車中的計算機視覺,AI專業(yè)人員或數(shù)據(jù)標注者可以使用視頻標注工具來指示路牌的位置,并通過行人和其他車輛的位置來訓(xùn)練模型。
數(shù)據(jù)標注中包含的一系列任務(wù):
豐富數(shù)據(jù)的工具
質(zhì)量保證
流程迭代
管理數(shù)據(jù)標簽
培訓(xùn)新的數(shù)據(jù)標簽
項目計劃
成功指標
流程運作
AI專業(yè)人員的數(shù)據(jù)標簽挑戰(zhàn)?
在典型的AI項目中,專業(yè)人員在進行數(shù)據(jù)標注時會遇到以下幾個方面的挑戰(zhàn)。
數(shù)據(jù)標簽質(zhì)量低下。數(shù)據(jù)標簽質(zhì)量低可能有很多原因。其中最突出的原因之一是任何企業(yè)或工作流程確實三個決定因素:人員,流程和技術(shù)。
無法擴展數(shù)據(jù)標注操作。當數(shù)據(jù)量不斷增長并且業(yè)務(wù)或項目需要擴展其容量時,由于大多數(shù)企業(yè)都在內(nèi)部標記數(shù)據(jù),因此它們通常也難以擴展其數(shù)據(jù)標注任務(wù)。
難以承受的成本和不存在的結(jié)果。企業(yè)和AI項目經(jīng)理通常雇用高薪數(shù)據(jù)科學家和AI專業(yè)人士或一組業(yè)余人員來處理數(shù)據(jù)標簽,而企業(yè)需要承擔高昂的人工成本,當然企業(yè)也會面臨數(shù)據(jù)標簽不確定所帶來的問題,所以合適的專業(yè)人員至關(guān)重要。
質(zhì)量保證。進行質(zhì)量檢查可以為數(shù)據(jù)標注過程提供重要價值,尤其是在機器學習模型測試和驗證的迭代階段。
誰來標注數(shù)據(jù)?
相關(guān)調(diào)查顯示,2019年,企業(yè)在數(shù)據(jù)標簽上的支出超過17億美元。到2024年,這一數(shù)字將達到41億美元。進行數(shù)據(jù)標注工作,除了雇傭?qū)I(yè)的數(shù)據(jù)科學家和AI專家之外,還可以考慮通過其他方式。
雇員。這包括雇用包括AI專業(yè)人員在內(nèi)的全職或兼職員工,參與AI項目的各個方面,其中之一是數(shù)據(jù)標注。
托管團隊。他們是經(jīng)驗豐富,且訓(xùn)練有素的數(shù)據(jù)標簽團隊。
承包商。他們包括自由職業(yè)者和臨時工。
眾包。企業(yè)可以使用第三方平臺一次性尋找數(shù)據(jù)標注團隊。
-
人工智能
+關(guān)注
關(guān)注
1792文章
47387瀏覽量
238899 -
計算機視覺
+關(guān)注
關(guān)注
8文章
1698瀏覽量
46028 -
深度學習
+關(guān)注
關(guān)注
73文章
5506瀏覽量
121265
發(fā)布評論請先 登錄
相關(guān)推薦
評論