掐指一算八年之前,那時正是國內(nèi)互聯(lián)網(wǎng)卯足勁頭起飛的一年,各行各業(yè)表現(xiàn)都很突出,尤其是與人們生活密切相關(guān)的手機,正大踏步地從功能機向智能手機轉(zhuǎn)型,其中的市場需求可想而知,阿晶覺得那種爆炸程度完全不亞于如今人們對5G的狂熱追逐。
伴隨智能手機的迅速普及并大舉助力產(chǎn)業(yè)化發(fā)展進(jìn)程,各類 APP 宛如新生。同樣是那一年,一家名為云測的企業(yè)在業(yè)內(nèi)初現(xiàn),迎著移動互聯(lián)網(wǎng)的風(fēng)口做起了應(yīng)用測試的業(yè)務(wù)?;仡櫘?dāng)時的云測,創(chuàng)始團(tuán)隊幾乎將市面上所有“露頭”的手機機型都采購回來,建立云真機平臺,提供包括質(zhì)量測試、自動化測試等在內(nèi)的諸多服務(wù),為加快移動互聯(lián)網(wǎng)產(chǎn)品的迭代無私地貢獻(xiàn)了自己的血汗。
隨著時間推移,企業(yè)發(fā)展且技術(shù)演進(jìn),在云測積累大量客戶的過程中,一些 AI 企業(yè)主動找到云測提出 AI 數(shù)據(jù)服務(wù)的需求。如果說最初選擇應(yīng)用測試是行業(yè)所趨的話,這次與“數(shù)”結(jié)緣則完全是需求導(dǎo)向,就這樣云測開始布局AI數(shù)據(jù)服務(wù)行業(yè),旗下的 AI 數(shù)據(jù)服務(wù)品牌“云測數(shù)據(jù)”就此誕生。
據(jù)阿晶了解,作為AI數(shù)據(jù)資源服務(wù)的頭部品牌,云測數(shù)據(jù)早已走在行業(yè)前列。其擁有足夠的方法論和對應(yīng)的協(xié)同工作的處理方式,為智能駕駛、智能家居、智能安防、智慧金融保險等領(lǐng)域提供定制化的數(shù)據(jù)采集標(biāo)注服務(wù),可以做到全方位支持文本、語音、圖像、視頻等各類型數(shù)據(jù)的處理。截至目前,云測數(shù)據(jù)在華東、華北、華南都設(shè)有數(shù)據(jù)交付中心和采集基地,已成功為數(shù)百家企業(yè)提供了一站式AI數(shù)據(jù)服務(wù)。
說到此處,不容忽視的一點,伴隨 AI 應(yīng)用落地,對于數(shù)據(jù)種類、質(zhì)量以及場景匹配程度的要求正逐漸提升,擁有特定場景數(shù)據(jù)的優(yōu)勢會逐漸成為 AI 企業(yè)在行業(yè)內(nèi)縱橫捭闔的“殺手锏”之一。
對此,云測數(shù)據(jù)總經(jīng)理賈宇航強調(diào),為了貫徹這種戰(zhàn)略導(dǎo)向,獲取更多特定場景的數(shù)據(jù),云測數(shù)據(jù)結(jié)合多年的項目管理流程能力,在全國多地自建了數(shù)據(jù)場景實驗室和數(shù)據(jù)標(biāo)注基地,并配備多種采集軟、硬件設(shè)備,著力打造了一只專業(yè)的定制化采集和高質(zhì)量的標(biāo)注隊伍。
“我們要做到能盡可能多的覆蓋 AI 客戶的不同長尾場景,滿足各類場景要求高、采集難度大等采集作業(yè),從源頭提升數(shù)據(jù)適用性。此外還需憑借管理、風(fēng)控等方式,最大程度確保數(shù)據(jù)精確度、保密性等進(jìn)而完成企業(yè)賦能?!彼M(jìn)一步補充道。
縱觀AI技術(shù)以及行業(yè)的發(fā)展,阿晶覺得其實云測的“數(shù)據(jù)戰(zhàn)略”不無道理。
從整體人工智能的發(fā)展歷程來說,背后支撐的三大要素分別是數(shù)據(jù)、算法和算力,當(dāng)人們將過多的精力聚焦在算法和算力上時,殊不知 AI 數(shù)據(jù)在人工智能商業(yè)化落地中發(fā)揮著不可替代的作用。
舉個例子來說,算法模型被設(shè)計好后就需要大量標(biāo)注好的數(shù)據(jù)進(jìn)行訓(xùn)練才能實現(xiàn)更智能的結(jié)果;如果希望性能和算法精準(zhǔn)度得到進(jìn)一步提升,細(xì)化精準(zhǔn)的數(shù)據(jù)更是必不可少,否則會制約整個數(shù)據(jù)行業(yè)以及人工智能產(chǎn)業(yè)的發(fā)展。
具體到商業(yè)化的落地,賈宇航表示,雖然算法和算力得到巨大提升,但只有擁有貼近真實場景的精準(zhǔn)數(shù)據(jù),企業(yè)才能在AI落地和商業(yè)化道路上越走越穩(wěn)。
這么看,數(shù)據(jù)對 AI 就像水電一樣關(guān)鍵,如果從 AI 數(shù)據(jù)服務(wù)的發(fā)展進(jìn)程考量,互聯(lián)網(wǎng)沉積數(shù)據(jù)可被認(rèn)為是初始期,時間大致可以追溯到 5-10 年前。當(dāng)時很多 AI 領(lǐng)域的企業(yè)依托互聯(lián)網(wǎng)上沉積的大量數(shù)據(jù)投身算法驗證,通過爬蟲和數(shù)據(jù)清洗等簡單易操作的方式,至此一些主營數(shù)據(jù)集產(chǎn)品的公司應(yīng)運而生。
發(fā)展到第二階段,主要涌現(xiàn)的是通用型數(shù)據(jù)產(chǎn)品,催生了以“識別”為主,用于實現(xiàn)簡單數(shù)據(jù)分析的用途。“第三階段,有些企業(yè)發(fā)現(xiàn)通用性產(chǎn)品確實存在不小的問題,例如無法解決諸多企業(yè)面臨的實際問題,由此定制化需求的產(chǎn)生勢在必行,例如亞馬遜 Amazon Mechanical Turk?!辟Z宇航總結(jié)道。
“發(fā)展到第四階段,部分企業(yè)為了突破行業(yè)內(nèi)算法的局限性,選擇通過硬件升級或者數(shù)據(jù)維度多樣化得角度著手,進(jìn)一步豐富自己的數(shù)據(jù)庫存,但有一點困難之處,這些定制化數(shù)據(jù)很難通過眾包途徑獲得,定制市場機會無限?!?
發(fā)展到如今,用戶數(shù)據(jù)進(jìn)入到沉淀時期。該階段,企業(yè)在使用過程中會不斷積累數(shù)據(jù),進(jìn)而讓產(chǎn)品迭代更加智能。值得注意的是,有些產(chǎn)品自帶分享或社交功能,很大程度上會豐富互聯(lián)網(wǎng)的數(shù)據(jù)沉積,助力企業(yè)進(jìn)入到下一個階段并加強其中的循環(huán)往復(fù)。
總體來看,企業(yè)在不同的階段需要不同類型的數(shù)據(jù)服務(wù),但眾包采集和定制化采集是數(shù)據(jù)采集行業(yè)的兩種常見模式。 其中眾包模式的優(yōu)勢主要體現(xiàn)在樣本的豐富性上,但對于今日的 AI 數(shù)據(jù)服務(wù)業(yè)務(wù)的特性,通過眾包模式解決所有數(shù)據(jù)采集的需求顯然不現(xiàn)實。更關(guān)鍵的是,定制化需求的采集任務(wù)中,眾包用戶采集到的數(shù)據(jù)往往差強人意,反倒出現(xiàn)增加審核成本的情況。
此處阿晶搜羅了一些有關(guān)具體企業(yè)級數(shù)據(jù)采集的資料,其顯示 2018 年中國AI公司的總?cè)谫Y規(guī)模達(dá)到千億元以上,其中數(shù)據(jù)采標(biāo)的市場約為 100 億元— 300 億元。具體來說 AI 公司內(nèi)部的標(biāo)注部門之間消化,基本占三分之一;剩下的 25%—33% 則流向?qū)iT做數(shù)據(jù)采標(biāo)的第三方公司。
如此看來,數(shù)據(jù)采集對企業(yè)來說不但必要而且重要,但如果企業(yè)選擇自建團(tuán)隊進(jìn)行數(shù)據(jù)采集和標(biāo)注,必然面臨耗費大量時間成本、人力成本的局面;另一方面,花錢花時間不說,要做到壁壘般獨享數(shù)據(jù),又對數(shù)據(jù)安全提出更高要求,輕易分享怎么能行?
基于 AI 數(shù)據(jù)發(fā)展路徑以及諸多企業(yè)痛點,云測主要瞄準(zhǔn)了為企業(yè)提供定制化場景的數(shù)據(jù)采集與提供自建團(tuán)隊式的高精度標(biāo)注服務(wù)的業(yè)務(wù)重點。對此賈宇航解釋道,投身做定制化場景數(shù)據(jù)采集主要在于,目前很多企業(yè)已存在的數(shù)據(jù)維度對于算法提升的效果早就面臨瓶頸,必然需要引入更多維度的數(shù)據(jù),例如對應(yīng)場景的多模態(tài)數(shù)據(jù),將 2D、3D 數(shù)據(jù)以及聲音等多維度的數(shù)據(jù)結(jié)合起來提升算法性能,而這樣的數(shù)據(jù)在互聯(lián)網(wǎng)的條件下或者通過已有的眾包數(shù)據(jù)采集很難獲得。
此外有些企業(yè)為了提升算法精度自研了一些硬件,而這些硬件只能通過定制化場景去實現(xiàn)更好的效果。所以幫助企業(yè)還原想要的定制化場景是顯示業(yè)務(wù)優(yōu)勢的手段之一,這項實踐被賈宇航稱之為場景實驗室。
據(jù)阿晶了解,這些場景實驗室目前主要分布在華東、華北和華南。在場景實驗室中,云測數(shù)據(jù)會根據(jù)客戶需求,邀請?zhí)囟L氐綄嶒炇抑羞M(jìn)行數(shù)據(jù)采集。可以這樣定義,場景實驗室是云測數(shù)據(jù)布局高度定制化、多模態(tài)的 AI 數(shù)據(jù)服務(wù)的重要組成部分,借此能使得其交付能力與客戶需求平行,甚至領(lǐng)先客戶的需求一點點。
當(dāng)然除了很智慧的場景實驗室之外,云測數(shù)據(jù)的核心優(yōu)勢還可總結(jié)為三方面。 從人才專業(yè)性角度出發(fā),目前云測數(shù)據(jù)主要服務(wù)于智能駕駛、金融、智能生活、安防等四大領(lǐng)域,每一領(lǐng)域均由不同的項目經(jīng)理組負(fù)責(zé)。
其中項目經(jīng)理都經(jīng)過包括 AI 基礎(chǔ)、作業(yè)管理、場景搭建、突發(fā)事件處理等至少 350 小時的職前培訓(xùn),完全能夠做到為客戶梳理項目需求文檔并提供專業(yè)咨詢服務(wù),從源頭上保證高質(zhì)量輸出。 更重要的是,云測數(shù)據(jù)配備了專業(yè)的軟硬件設(shè)備,針對客戶不同的定制化需求持續(xù)優(yōu)化工具、迭代產(chǎn)品,滿足技術(shù)要求高、采集難度大的采集任務(wù),如此一來工具層面確實很給力。
對數(shù)據(jù)質(zhì)量和安全的把控方面,云測數(shù)據(jù)進(jìn)行了嚴(yán)格的質(zhì)量風(fēng)險評估、過程質(zhì)量控制、質(zhì)量審核以及質(zhì)量驗收等,用于輸出高質(zhì)量的數(shù)據(jù)作業(yè);據(jù)了解員工都按照流程協(xié)同作業(yè),將采集后的數(shù)據(jù)傳輸至數(shù)據(jù)中心,項目交付后直接清毀數(shù)據(jù),杜絕員工接觸數(shù)據(jù)的機會,提升數(shù)據(jù)安全性。
此外以云測為背書,企業(yè)還針對數(shù)據(jù)采集業(yè)務(wù)搭建了定制化采集場景?;诳蛻羲惴P吞岢龅木唧w需求定制化搭建采集場景,以達(dá)到覆蓋盡可能多的實際場景及邊際場景的目的,保證采集數(shù)據(jù)契合算法模型,為客戶提供高精度的采集數(shù)據(jù)。
值得提及的是,此環(huán)節(jié)備采樣本覆蓋全國及海外的數(shù)據(jù)采集體系,涵蓋各類型圖片、視頻、音頻和文本數(shù)據(jù)等,同時配備了專業(yè)的備采人群樣本,可依照客戶實際需求快速采集合適的數(shù)據(jù)樣本。
在高精度的數(shù)據(jù)標(biāo)注服務(wù)上,云測數(shù)據(jù)自建數(shù)據(jù)基地,所有標(biāo)注員統(tǒng)一管理、規(guī)范生產(chǎn),在保證數(shù)據(jù)準(zhǔn)確率的同時有效確保標(biāo)注作業(yè)的信息流轉(zhuǎn),提升標(biāo)注效率;而自研標(biāo)注平臺則聚合了各種數(shù)據(jù)標(biāo)注應(yīng)用場景,配置靈活,可滿足各種數(shù)據(jù)標(biāo)注需求,保證標(biāo)注作業(yè)高質(zhì)量輸出。
在數(shù)據(jù)的審核機制方面,主要采用工、審分離的審核模式,即審核團(tuán)隊不參與標(biāo)注作業(yè);同時將附有標(biāo)準(zhǔn)答案的作業(yè)項目無感知地安插在標(biāo)注人員的正式標(biāo)注作業(yè)中,精準(zhǔn)把握標(biāo)注人員的對標(biāo)注規(guī)則的理解度。
談及宏觀市場,賈宇航認(rèn)為數(shù)據(jù)標(biāo)注和采集的確是一個新興行業(yè),但目前來說整個行業(yè)市場足夠大,各家其實并沒有很激烈的競爭關(guān)系。一般情況下,企業(yè)在面對滿足自身需求的同時,可選擇的形式也變得多種多樣。當(dāng)下而言,數(shù)據(jù)行業(yè)更像是一個蹣跚學(xué)步的孩童,每個階段被不同類型的數(shù)據(jù)服務(wù)所滿足,面對著不斷變化的服務(wù)需求,企業(yè)服務(wù)市場的變革也在同時加速。
在此基礎(chǔ)上,未來云測數(shù)據(jù)的發(fā)展目標(biāo)將更多著力在細(xì)分領(lǐng)域中,做到領(lǐng)域知識積累更深厚,數(shù)據(jù)更精準(zhǔn)安全?!拔覀儠饾u將業(yè)務(wù)向更細(xì)分領(lǐng)域場景做深入,以滿足企業(yè)的未來需求?!比绱丝磥?,云測數(shù)據(jù)的“硬核英雄之路”才剛剛開始…
-
智能手機
+關(guān)注
關(guān)注
66文章
18513瀏覽量
180586 -
互聯(lián)網(wǎng)
+關(guān)注
關(guān)注
54文章
11177瀏覽量
103548 -
數(shù)據(jù)采集
+關(guān)注
關(guān)注
39文章
6200瀏覽量
113831
原文標(biāo)題:AIの幕后人:探秘“硬核英雄”的超級武器
文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論