AI加速落地的大背景下,作為人工智能產(chǎn)業(yè)落地重要的環(huán)節(jié),AI數(shù)據(jù)標(biāo)注越來(lái)越受到業(yè)界的關(guān)注,并在發(fā)生著很大的變化。
不久前的服貿(mào)會(huì)上,數(shù)據(jù)標(biāo)注領(lǐng)域的頭部企業(yè)云測(cè)數(shù)據(jù)首次對(duì)外發(fā)布了一項(xiàng)標(biāo)準(zhǔn),其AI數(shù)據(jù)項(xiàng)目的最高交付精準(zhǔn)度達(dá)到了99.99%,這是一個(gè)新的行業(yè)紀(jì)錄。對(duì)此,有自媒體“曾響鈴”評(píng)論認(rèn)為,AI數(shù)據(jù)標(biāo)注已經(jīng)由“勞動(dòng)密集”進(jìn)入“技能密集”時(shí)代。
在AI數(shù)據(jù)產(chǎn)業(yè)中,數(shù)據(jù)精準(zhǔn)度=驗(yàn)收合格數(shù)量/全部數(shù)量,這意味極高的精準(zhǔn)度不僅要滿足一些客觀標(biāo)準(zhǔn),還需要與AI項(xiàng)目方的需求深度契合,通過(guò)基于需求的驗(yàn)收過(guò)程。
事實(shí)上,對(duì)AI數(shù)據(jù)標(biāo)注這種與制造業(yè)在很多地方相似的產(chǎn)業(yè)而言,更高的精準(zhǔn)度的打造過(guò)程,就如同制造業(yè)的“精益制造”一樣,在多個(gè)方面有著發(fā)展方式的契合,只不過(guò)一個(gè)交付數(shù)據(jù)服務(wù),一個(gè)產(chǎn)出實(shí)體產(chǎn)品。
這種契合,從行業(yè)頭部企業(yè)的動(dòng)作看,包括四個(gè)方面。
業(yè)務(wù)平臺(tái):應(yīng)對(duì)復(fù)雜的AI數(shù)據(jù)交接和作業(yè),出現(xiàn)線上自動(dòng)化“流水線”
制造業(yè)的精益制造首先是“流水線”的自動(dòng)化、智能化升級(jí),引入更多精密的工具或機(jī)械,為產(chǎn)品的精益打磨提供了生產(chǎn)環(huán)境基礎(chǔ)。
數(shù)據(jù)標(biāo)注也類似,粗放式的業(yè)務(wù)平臺(tái)越來(lái)越無(wú)法承接復(fù)雜的AI數(shù)據(jù)交接和作業(yè),在這種背景下,線上的自動(dòng)化“流水線”開(kāi)始出現(xiàn)。
以往,數(shù)據(jù)標(biāo)注過(guò)程的“線下”痕跡濃厚,尤其是數(shù)據(jù)導(dǎo)入和導(dǎo)出,硬碟拷貝、交接的“原始模式”不時(shí)出現(xiàn)。
為了提升效率和安全,做到短時(shí)間無(wú)縫對(duì)接,以云測(cè)數(shù)據(jù)為代表的企業(yè)探索出線上“流水線”業(yè)務(wù)平臺(tái)化模式。具體來(lái)說(shuō),就是根據(jù)AI企業(yè)的自身數(shù)據(jù)處理流程,完成標(biāo)準(zhǔn)化API接口的流程嵌入,數(shù)據(jù)在線上接入,完成作業(yè)后從線上輸出,中間有模板化的任務(wù)創(chuàng)建與責(zé)任安排,支持不同標(biāo)注類型和標(biāo)注方法。
這個(gè)過(guò)程,對(duì)應(yīng)到制造業(yè),其實(shí)就是“物料進(jìn)入、找到眾多產(chǎn)線中合適的那一條并安排好生產(chǎn)工人、產(chǎn)品輸出”的過(guò)程。在線上,數(shù)據(jù)標(biāo)注已經(jīng)做到了數(shù)據(jù)進(jìn)入、標(biāo)注、交付的云上無(wú)縫連接過(guò)程。
這其中,對(duì)數(shù)據(jù)標(biāo)注“精益制造”價(jià)值最為明顯的可能是“生產(chǎn)工具”的優(yōu)化,工具能力的提升,大幅提升了數(shù)據(jù)標(biāo)注的效率和精準(zhǔn)度,這就好比流水線上功能豐富的自動(dòng)化機(jī)械臂能夠幫助企業(yè)大大提升效率和質(zhì)量一樣。
以云測(cè)數(shù)據(jù)為代表的企業(yè)開(kāi)發(fā)的工具為案例,目前來(lái)看,工具對(duì)數(shù)據(jù)標(biāo)注的價(jià)值有這三個(gè)體現(xiàn):
一是直接的操作輔助,例如對(duì)人臉進(jìn)行26點(diǎn)、54點(diǎn)、96點(diǎn)、206點(diǎn)的人臉關(guān)鍵點(diǎn)標(biāo)注、貼合度在3像素以內(nèi)的特定任務(wù)關(guān)鍵點(diǎn)追蹤,這使得標(biāo)注員的操作能夠更加精細(xì)化,且擁有不錯(cuò)的效率。
二是特殊數(shù)據(jù)的操作輔助,例如自動(dòng)駕駛中激光雷達(dá)形成的3D點(diǎn)云數(shù)據(jù)不同于攝像頭形成的2D圖像數(shù)據(jù),標(biāo)注起來(lái)更有難度也更可能出現(xiàn)偏差,這時(shí)候,融合標(biāo)注工具(把3D點(diǎn)云數(shù)據(jù)和2D圖像數(shù)據(jù)結(jié)合在一起對(duì)照)的價(jià)值就體現(xiàn)出來(lái)。
三是數(shù)據(jù)標(biāo)注的糾錯(cuò)保障,這類似于“精益制造”中人工質(zhì)檢前的機(jī)器自動(dòng)質(zhì)檢,在數(shù)據(jù)標(biāo)注過(guò)程中,工具根據(jù)AI項(xiàng)目需求設(shè)定查錯(cuò)規(guī)則,保障標(biāo)注的精準(zhǔn)度(例如,一個(gè)三米高的物體標(biāo)注為人體就錯(cuò)了)
當(dāng)然,工具質(zhì)檢只是一種輔助,在數(shù)據(jù)標(biāo)注的“精益制造”過(guò)程中,人工質(zhì)檢(抽檢)同樣必不可少。云測(cè)數(shù)據(jù)不僅在標(biāo)注流程上實(shí)現(xiàn)了正規(guī)化和科學(xué)化,設(shè)計(jì)了從創(chuàng)建任務(wù)、分配任務(wù)、標(biāo)注流轉(zhuǎn),還完善了了從質(zhì)檢/抽檢環(huán)節(jié)到最后的驗(yàn)收的管理流程。
數(shù)據(jù)作業(yè):應(yīng)對(duì)AI落地的深度需求,出現(xiàn)“數(shù)據(jù)工藝”般的精細(xì)化作業(yè)
生產(chǎn)工藝是“精益制造”的核心之一,工藝越好,產(chǎn)品往往更為優(yōu)質(zhì),也更掌握市場(chǎng)的話語(yǔ)權(quán)。在“流水線”生產(chǎn)環(huán)境基礎(chǔ)上,隨著AI落地需求的加深,AI數(shù)據(jù)標(biāo)注開(kāi)始出現(xiàn)可以稱之為“數(shù)據(jù)工藝”的類似精細(xì)化作業(yè)過(guò)程,99.99%的精準(zhǔn)度本身就是“數(shù)據(jù)工藝”的結(jié)果。
在云測(cè)數(shù)據(jù)的日常作業(yè)中,可以發(fā)現(xiàn)很多這種“數(shù)據(jù)工藝”般的做法,例如更豐富的數(shù)據(jù)標(biāo)注類型,“線段”這種看起來(lái)簡(jiǎn)單的標(biāo)注對(duì)象也分出了折線、曲線、貝塞爾曲線等。
此外,如同制造業(yè)不斷積累工藝經(jīng)驗(yàn),逐步提升工藝水準(zhǔn)生產(chǎn)出更高等級(jí)的產(chǎn)品一樣,數(shù)據(jù)標(biāo)注也存在一個(gè)經(jīng)驗(yàn)積累的過(guò)程來(lái)提升“數(shù)據(jù)工藝”水準(zhǔn),例如,工業(yè)中的大量看起來(lái)差不多的零件的標(biāo)注,做到更細(xì)節(jié)層面才能區(qū)分出兩個(gè)型號(hào)類似的螺絲;零售行業(yè)大量相似的SKU,需要從品牌、標(biāo)簽等多種細(xì)化角度來(lái)標(biāo)注,幫助算法識(shí)別。
總的看來(lái),對(duì)AI數(shù)據(jù)的復(fù)雜需求是促使數(shù)據(jù)標(biāo)注朝著“數(shù)據(jù)工藝”方向發(fā)展的直接原因。
當(dāng)下的AI數(shù)據(jù)呈現(xiàn)三個(gè)特征,一是由于AI產(chǎn)品落地場(chǎng)景的復(fù)雜性導(dǎo)致數(shù)據(jù)場(chǎng)景需求的多元化,如光線強(qiáng)度、拍攝角度、噪聲要求、室內(nèi)室外等;二是同類數(shù)據(jù)表現(xiàn)出樣本多樣性,僅就聲音的數(shù)據(jù),可能就包括年齡、性別、口音等差別;三是針對(duì)同一應(yīng)用目標(biāo)的數(shù)據(jù)多維化,例如智能駕駛就可能同時(shí)需要攝像頭、激光雷達(dá)、超聲波雷達(dá)等不同傳感器產(chǎn)生的數(shù)據(jù)。
很顯然,在這種背景下,AI發(fā)展初期那種直接應(yīng)用或者購(gòu)買成品“數(shù)據(jù)集”的做法行不通了,它們可以幫助算法快速成型,但卻難以支撐更多樣化的AI落地需求。
于是,“數(shù)據(jù)工藝”般的精細(xì)化作業(yè)對(duì)數(shù)據(jù)標(biāo)注的需求自然而然就超出了單純數(shù)據(jù)標(biāo)注的業(yè)務(wù)范疇,必然要整合上游數(shù)據(jù)采集這個(gè)關(guān)鍵環(huán)節(jié)。可以看到,以云測(cè)數(shù)據(jù)為代表的企業(yè)都在大力提升場(chǎng)景化數(shù)據(jù)采集的能力。幫助客戶還原落地場(chǎng)景所需要的AI數(shù)據(jù),從源頭保證AI數(shù)據(jù)的質(zhì)量,才能更好的應(yīng)用于AI產(chǎn)業(yè)化的深度落地。
或許正因?yàn)檫@樣的原因,可以看到,云測(cè)數(shù)據(jù)在發(fā)布了最高項(xiàng)目交付99.99%精準(zhǔn)度的同時(shí),為了貼合實(shí)際場(chǎng)景、幫助更多行業(yè)實(shí)現(xiàn)“AI產(chǎn)品更快更好的落地”, 云測(cè)數(shù)據(jù)結(jié)合自身的服務(wù)能力積累和行業(yè)專業(yè)性,還推出了智慧城市、智能家居、智能駕駛、智慧金融四個(gè)場(chǎng)景下的“AI訓(xùn)練數(shù)據(jù)服務(wù)解決方案”。
在這些整合了數(shù)據(jù)采集與標(biāo)注的場(chǎng)景AI數(shù)據(jù)解決方案中,可以發(fā)現(xiàn)更明顯的“數(shù)據(jù)工藝”痕跡。
例如,在戶外場(chǎng)景中,攝像頭囊括了大量的行人、機(jī)動(dòng)車、自行車等道路場(chǎng)景數(shù)據(jù),但智慧城市的AI應(yīng)用可能需要識(shí)別人流檢測(cè)、突發(fā)事件等長(zhǎng)尾場(chǎng)景數(shù)據(jù)。
在云測(cè)數(shù)據(jù)的智慧城市解決方案中,就通過(guò)行業(yè)首創(chuàng)的數(shù)據(jù)場(chǎng)景實(shí)驗(yàn)室來(lái)還原搭建真實(shí)場(chǎng)景,用于采集長(zhǎng)尾場(chǎng)景數(shù)據(jù),例如多種不同光線下的人員檢測(cè)、危險(xiǎn)動(dòng)作檢測(cè)等。
類似的還有智能駕駛場(chǎng)景。智能駕駛的車外環(huán)境感知需要大量真實(shí)場(chǎng)景數(shù)據(jù)用于算法訓(xùn)練,為了確保行駛安全,需要覆蓋非常多的長(zhǎng)尾場(chǎng)景數(shù)據(jù),例如舉傘的行人、突然出現(xiàn)的寵物等,疫情發(fā)生后,帶口罩的行人也是另一種車外環(huán)境感知所需要的“場(chǎng)景AI數(shù)據(jù)”。
從細(xì)節(jié)上滿足更復(fù)雜深度的AI數(shù)據(jù)需求,提供獨(dú)特的、無(wú)法替代的AI數(shù)據(jù)獲取能力,將幫助數(shù)據(jù)標(biāo)注持續(xù)獲得更高的產(chǎn)業(yè)地位。
人力建設(shè):應(yīng)對(duì)高精細(xì)化的“數(shù)據(jù)工藝”,出現(xiàn)專業(yè)的“人工智能訓(xùn)練師”
“流水線”的生產(chǎn)基礎(chǔ)加上更高的生產(chǎn)工藝之后,“精益制造”考驗(yàn)的還有產(chǎn)業(yè)工人是否能將工藝實(shí)現(xiàn)的能力,在產(chǎn)業(yè)升級(jí)的浪潮下,產(chǎn)業(yè)工人的素質(zhì)成為“精益制造”的關(guān)鍵因素之一。
映射到數(shù)據(jù)標(biāo)注,為了應(yīng)對(duì)高精細(xì)化的“數(shù)據(jù)工藝”,專業(yè)的“人工智能訓(xùn)練師”開(kāi)始出現(xiàn),這表現(xiàn)在三個(gè)方面。
一是體系化的人才培訓(xùn),整體技能專業(yè)性、領(lǐng)域知識(shí)專業(yè)性、人員素養(yǎng)等都在提升。
以云測(cè)數(shù)據(jù)為例,云測(cè)數(shù)據(jù)不僅提供崗前培訓(xùn),還帶有員工技能培訓(xùn)、職能培訓(xùn)、行業(yè)領(lǐng)域知識(shí)、責(zé)任培訓(xùn)、標(biāo)注內(nèi)容的培訓(xùn),以及一對(duì)一的持續(xù)交流來(lái)提升員工的能力;與此同時(shí),配備在線化、體系化的打分系統(tǒng)來(lái)評(píng)估員工的能力。
過(guò)去,數(shù)據(jù)標(biāo)注那種隨便在街上、學(xué)校里拉一些人,只要認(rèn)得圖片、懂基本的語(yǔ)法拼寫就開(kāi)始干活的做法,已經(jīng)不再具備任何競(jìng)爭(zhēng)力了。
二是匹配不同需求的“人才梯隊(duì)”開(kāi)始出現(xiàn)。
這一點(diǎn),如同“精益制造”里更復(fù)雜產(chǎn)品配以技藝手段更高的工人一樣,在數(shù)據(jù)標(biāo)注領(lǐng)域,出現(xiàn)了一些數(shù)據(jù)需求上的分化,倒逼企業(yè)培養(yǎng)某種意義上的“人才梯隊(duì)”。
典型的如醫(yī)療、法律、金融、家居等高度專業(yè)化的領(lǐng)域中,不論是CV還是NLP,人工智能訓(xùn)練師需要非常專業(yè),才能進(jìn)行正確的數(shù)據(jù)標(biāo)注與解讀,這甚至不是光有培訓(xùn)就能解決的。云測(cè)數(shù)據(jù)在NLP領(lǐng)域就吸納了一些金融及家居行業(yè)的專才來(lái)提升對(duì)應(yīng)領(lǐng)域的數(shù)據(jù)標(biāo)注能力,這也意味著數(shù)據(jù)標(biāo)注產(chǎn)業(yè)開(kāi)始對(duì)人才來(lái)源口徑有了一些要求,不再是泛化的人群。
三是大量的操作細(xì)節(jié)和專業(yè)性不斷疊加。
產(chǎn)業(yè)工人變成“老師傅”,一方面來(lái)源于苛刻的工作要求,另一方面來(lái)自不斷的專業(yè)經(jīng)驗(yàn)積累。在數(shù)據(jù)標(biāo)注這里也是如此。
粗放式管理下,傳統(tǒng)數(shù)據(jù)標(biāo)注行業(yè)有一種“混亂”的旗氣質(zhì),草臺(tái)班子稀里糊涂完成了大量的數(shù)據(jù)標(biāo)注工作。但現(xiàn)在,高精準(zhǔn)度的大旗下,數(shù)據(jù)服務(wù)團(tuán)隊(duì)的專業(yè)化能力被嚴(yán)格要求,在云測(cè)數(shù)據(jù),智能客服單個(gè)場(chǎng)景的意圖標(biāo)注就分為10-20個(gè)大類、上百個(gè)子類(表達(dá)同一個(gè)意圖,算法面臨的用戶可能有不同的表達(dá)方式,故越細(xì)分越好),根據(jù)業(yè)務(wù)需求可能還會(huì)有進(jìn)一步的標(biāo)注細(xì)分。
這倒逼數(shù)據(jù)標(biāo)注員提升對(duì)話意圖的判斷能力,需要對(duì)句子進(jìn)行泛化、以不同的描述方式重組或擴(kuò)充句式、標(biāo)簽(比如,用戶只是單純口誤了,或者夾雜了方言,數(shù)據(jù)都需要標(biāo)注清晰,供AI算法去學(xué)習(xí))。
在整體素質(zhì)不斷提升的基礎(chǔ)上,人工智能訓(xùn)練師呈現(xiàn)出更多樣化的梯度,更多優(yōu)質(zhì)的標(biāo)注人才將脫穎而出。
需求交互:應(yīng)對(duì)縱深的項(xiàng)目需求,出現(xiàn)深度交互的專業(yè)化服務(wù)模式
最后,“精益制造”階段的制造業(yè),往往伴隨訂單方與生產(chǎn)方的深度溝通,需求方深度介入生產(chǎn)制造,才能生產(chǎn)出更符合初衷的產(chǎn)品。
這其實(shí)是支撐“精益制造”的專業(yè)化服務(wù)模式,在數(shù)據(jù)標(biāo)注領(lǐng)域也是如此。為了明確AI數(shù)據(jù)標(biāo)準(zhǔn),云測(cè)數(shù)據(jù)這種追求高精準(zhǔn)度的企業(yè)早已要求項(xiàng)目經(jīng)理與AI項(xiàng)目方在項(xiàng)目開(kāi)展前反復(fù)溝通需求,配合行業(yè)培訓(xùn)師對(duì)標(biāo)注員們進(jìn)行前期培訓(xùn),并在標(biāo)注作業(yè)過(guò)程中保持實(shí)時(shí)的溝通和反饋。
這種反復(fù)溝通中,涉及到大量影響最終數(shù)據(jù)結(jié)果精準(zhǔn)度的細(xì)節(jié),例如,CV項(xiàng)目中,什么樣的光線要標(biāo)注和定義為“強(qiáng)光線”?不同需求方的理解可能并不一樣。
除了明確數(shù)據(jù)標(biāo)準(zhǔn)的溝通,在作業(yè)方式上,數(shù)據(jù)標(biāo)注現(xiàn)在也更為靈活。
典型的是金融場(chǎng)景中,由于行業(yè)的特殊性,尤其是對(duì)數(shù)據(jù)安全的極高要求,數(shù)據(jù)標(biāo)注企業(yè)除了要提供了一套針對(duì)金融行業(yè)深度結(jié)合企業(yè)自身業(yè)務(wù)流程的AI數(shù)據(jù)服務(wù)方案,一些時(shí)候還必須改變部署與作業(yè)的物理方式,例如云測(cè)數(shù)據(jù)提供的私有化部署和駐場(chǎng)作業(yè)服務(wù),在這種服務(wù)方式下,數(shù)據(jù)標(biāo)注“企業(yè)服務(wù)”的本質(zhì)也更明顯了一些。
值得強(qiáng)調(diào)的是,在數(shù)據(jù)隱私安全方面,云測(cè)數(shù)據(jù)設(shè)置了一系列嚴(yán)格措施。其中一條核心原則就是數(shù)據(jù)絕不復(fù)用,當(dāng)數(shù)據(jù)合格交付后從不留底,會(huì)清毀相關(guān)數(shù)據(jù);其二,所有和云測(cè)數(shù)據(jù)進(jìn)行數(shù)據(jù)采集的用戶都會(huì)簽訂數(shù)據(jù)授權(quán)協(xié)議,從來(lái)源上確保企業(yè)用于訓(xùn)練的數(shù)據(jù)合法合規(guī);同時(shí),云測(cè)數(shù)據(jù)內(nèi)部還設(shè)定了數(shù)據(jù)隔離、質(zhì)量保障等一系列數(shù)據(jù)安全流程和技術(shù)。
總而言之,AI加速落地催生出更為復(fù)雜的AI數(shù)據(jù)需求,使得本來(lái)與制造業(yè)在過(guò)程上有些類似的AI數(shù)據(jù)標(biāo)注也走入屬于產(chǎn)業(yè)自身的“精益制造”過(guò)程,在生產(chǎn)環(huán)境、作業(yè)標(biāo)準(zhǔn)、人才建設(shè)以及服務(wù)模式上都有了很大的轉(zhuǎn)變。而云測(cè)數(shù)據(jù)帶來(lái)的這種轉(zhuǎn)變,不只是帶來(lái)了更高的精準(zhǔn)度、更高質(zhì)量的AI數(shù)據(jù),也使得數(shù)據(jù)標(biāo)注產(chǎn)業(yè)在AI時(shí)代的產(chǎn)業(yè)鏈條中作用愈加突出。數(shù)據(jù)標(biāo)注就像是信息世界的新基建,只有基石的建設(shè)穩(wěn)妥了,AI產(chǎn)業(yè)的高樓才能拔地而起,才能加速人工智能更好的到來(lái)。
責(zé)編AJX
-
AI
+關(guān)注
關(guān)注
87文章
30947瀏覽量
269217 -
隱私保護(hù)
+關(guān)注
關(guān)注
0文章
298瀏覽量
16448 -
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
8893瀏覽量
137464
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論