如今,智能設(shè)備越來(lái)越多地出現(xiàn)在每個(gè)人的生活中,在享受它們帶來(lái)的便利時(shí),很多人或許沒(méi)有意識(shí)到,自己說(shuō)的話(huà)可能會(huì)被人工“竊聽(tīng)”并分析標(biāo)注,而原因是——廠商想讓這些設(shè)備變得更智能。
“放首牛德華的歌”,一段帶口音的成年女聲從電腦里響起,但機(jī)器把它識(shí)別成了“兒童”的聲音,這是機(jī)器常犯的錯(cuò)誤,標(biāo)注員唐頓把它修改為“成人”,緊接著還要把“牛德華”注釋為“劉德華”,好讓機(jī)器下次變得“聰明”一點(diǎn)。
聽(tīng)寫(xiě)、標(biāo)注這些聲音,是唐頓五年來(lái)的日常工作。
這五年,她每天大約要聽(tīng)1000個(gè)陌生人的聲音,這些聲音出現(xiàn)在不同場(chǎng)景:一位帶有南方口音的尖銳男聲發(fā)出指令“小薇你好,請(qǐng)播放沙漠駱駝”,背景里伴隨著車(chē)輛閃光燈滴答滴答的聲響;一位略帶不耐煩的女聲高喊“關(guān)閉導(dǎo)航”;偶爾,還有車(chē)主通過(guò)罵臟話(huà)發(fā)泄情緒的聲音……
唐頓不明白為何要對(duì)這些聲音進(jìn)行標(biāo)注,她把問(wèn)題拋給領(lǐng)導(dǎo)后,得到的反饋是——“機(jī)器需要數(shù)據(jù)來(lái)自我優(yōu)化”。唐頓因此調(diào)侃自己是人工智能背后的女人。
人工智能的進(jìn)化,需要大量數(shù)據(jù)來(lái)“喂養(yǎng)”,這催生出一個(gè)全新的產(chǎn)業(yè),像唐頓一樣的標(biāo)注員越來(lái)越多,一個(gè)龐大的系統(tǒng)正在形成。
為AI打工的青年
早上8點(diǎn),家在河南的張藝誠(chéng)打開(kāi)電腦,帶上耳機(jī),輸入賬號(hào)密碼后進(jìn)入到一個(gè)后臺(tái)系統(tǒng),開(kāi)始一天的工作。
1個(gè)月前,他陸續(xù)加入了兩個(gè)近2000人規(guī)模和兩個(gè)50人規(guī)模的標(biāo)注團(tuán)隊(duì),每次能領(lǐng)到一個(gè)約有150條語(yǔ)音的數(shù)據(jù)包,大概要在1小時(shí)內(nèi)做完,做完后才能繼續(xù)領(lǐng)任務(wù)。
張藝誠(chéng)向燃財(cái)經(jīng)展示搶到的不知來(lái)源的語(yǔ)音包,從內(nèi)容上看場(chǎng)景較為私密,有“濤哥,下班了一起斗地主啊”、“好心累吶”、“你在哪”等。
相比“領(lǐng)”任務(wù),張藝誠(chéng)認(rèn)為,用“搶”更貼切,“僧多粥少,能搶到多少取決于老大的能力?!?/p>
張藝誠(chéng)向燃財(cái)經(jīng)展示的50人團(tuán)隊(duì)里,大家稱(chēng)管理員為“老大”,老大們之間也有競(jìng)爭(zhēng),團(tuán)隊(duì)轉(zhuǎn)錄的數(shù)據(jù)質(zhì)量越高、速度越快,老大能拿到的單子就越多,才能“喂飽”團(tuán)隊(duì)并繼續(xù)擴(kuò)大規(guī)模。同時(shí),團(tuán)隊(duì)規(guī)模越大,對(duì)上游的話(huà)語(yǔ)權(quán)也就越大,能領(lǐng)到的單量也更多、質(zhì)量也更高,這是相輔相成的關(guān)系。
不管團(tuán)隊(duì)是上千人還是幾十人,新人加入都必須先經(jīng)過(guò)測(cè)試,測(cè)試之后是培訓(xùn),緊接著才是領(lǐng)任務(wù),最后還得有一輪人工質(zhì)檢審核,因?yàn)榭蛻?hù)通常要求最終的準(zhǔn)確率在95%以上。
想通過(guò)測(cè)試并不容易,需要記住繁瑣的細(xì)節(jié)規(guī)范,比如哪些客戶(hù)需要在轉(zhuǎn)寫(xiě)英文字母時(shí)大寫(xiě)、哪些要求小寫(xiě),哪些情況會(huì)直接視語(yǔ)音為“無(wú)效”,發(fā)音不清的字詞哪些需要加音標(biāo)、哪些不加,“且動(dòng)不動(dòng)就要整批打回”,除此之外還得聽(tīng)得懂特定場(chǎng)景的術(shù)語(yǔ)。
語(yǔ)音標(biāo)注員需要遵循的標(biāo)注規(guī)范(部分)
張藝誠(chéng)讓燃財(cái)經(jīng)嘗試轉(zhuǎn)錄了10條他收到的語(yǔ)音包,從內(nèi)容看是發(fā)生在游戲同伴間的對(duì)話(huà),里面出現(xiàn)了包括“呂布”、“李白”、“房主”等在內(nèi)的王者榮耀游戲里的稱(chēng)呼,通常帶有環(huán)境噪音,麥克風(fēng)偶有噴麥,并不容易聽(tīng)清。
標(biāo)注員需要熟悉的專(zhuān)業(yè)詞匯
張藝誠(chéng)展示的錄音,大多來(lái)自擁有語(yǔ)音交互功能的產(chǎn)品,如車(chē)載語(yǔ)音、智能音箱,其中包括百度小度、天貓精靈的用戶(hù)錄音,還有來(lái)自攜程的客服錄音和來(lái)自滴滴的司乘錄音。但大部分任務(wù)并不以客戶(hù)名稱(chēng)命名,而是以音頻長(zhǎng)短來(lái)區(qū)分。
燃財(cái)經(jīng)體驗(yàn)后發(fā)現(xiàn),交互類(lèi)型的音頻多在2-5秒之間,通常夾雜噪音,大部分是用戶(hù)和語(yǔ)音產(chǎn)品的對(duì)話(huà),少數(shù)能明顯判斷為意外觸發(fā)的錄音,且未出現(xiàn)暴露用戶(hù)身份信息、位置信息的情況。
語(yǔ)音標(biāo)注員需要用到的后臺(tái)系統(tǒng)及顯示界面
其中,小度音箱的轉(zhuǎn)錄注意事項(xiàng)注明:如果整句跟旁人聊天的無(wú)效,只有跟小度對(duì)話(huà)的才有效。
而在燃財(cái)經(jīng)體驗(yàn)的車(chē)載語(yǔ)音中,大部分為帶口音的普通話(huà)用戶(hù),點(diǎn)播的歌曲類(lèi)型多為東北社會(huì)搖和快手熱門(mén)歌曲。
張藝誠(chéng)表示,這是一項(xiàng)完全沒(méi)有技術(shù)的累活,1小時(shí)有效時(shí)長(zhǎng)錄音,能帶來(lái)100元報(bào)酬,但聽(tīng)下來(lái)需要30個(gè)小時(shí),平均時(shí)薪只有3塊多錢(qián)。即使是干了五年的唐頓,平均月薪也只有三千。
AI迫切需要成長(zhǎng),張藝誠(chéng)和唐頓們只會(huì)越來(lái)越多,他們大多遍布在河南、山東、河北等地的四五線小城里, 夜以繼日地為世界領(lǐng)先的AI產(chǎn)品服務(wù)。
美國(guó)AI研究機(jī)構(gòu)Cognilytica預(yù)計(jì),截止2018年,全球數(shù)據(jù)標(biāo)注相關(guān)產(chǎn)業(yè)的產(chǎn)值將增長(zhǎng)66%達(dá)到5億美元,2023年產(chǎn)值更將翻一番,而由于大部分工作都在“水下”,具體產(chǎn)值尚且難以準(zhǔn)確估算。
財(cái)大氣粗的數(shù)據(jù)服務(wù)商
與遍布在四五線小城鎮(zhèn)里的打工者不同,被轉(zhuǎn)錄的數(shù)據(jù)包通常由具備一定規(guī)模的人工智能公司或數(shù)據(jù)服務(wù)商發(fā)布。
在BOSS直聘上,燃財(cái)經(jīng)以“數(shù)據(jù)標(biāo)注員”為關(guān)鍵詞,搜索到超過(guò)100條相關(guān)職位信息,發(fā)布這類(lèi)職位的公司通常處于B輪或C輪階段、具備一定的資金實(shí)力,有的直接在職責(zé)介紹中注明——“智能語(yǔ)音、圖片等相關(guān)數(shù)據(jù)的語(yǔ)義理解及標(biāo)注”、“對(duì)已標(biāo)注數(shù)據(jù)的清洗,保證標(biāo)注數(shù)據(jù)的正確率”。
對(duì)于燃財(cái)經(jīng)“數(shù)據(jù)清洗是什么”的疑問(wèn),一位負(fù)責(zé)招聘的hr回答:使用軟件對(duì)數(shù)據(jù)進(jìn)行操作,不是很難。
當(dāng)燃財(cái)經(jīng)繼續(xù)詢(xún)問(wèn)是否是“將錄音內(nèi)容轉(zhuǎn)寫(xiě)成文字”時(shí),對(duì)方表示“是的”,同時(shí)透露客戶(hù)是小米,但問(wèn)到具體會(huì)是什么語(yǔ)音包時(shí),對(duì)方不再回復(fù)。
而在張藝誠(chéng)加入的四個(gè)群背后,發(fā)布的任務(wù)大多來(lái)自一個(gè)叫海天瑞聲的公司。
公開(kāi)資料顯示,該公司成立于2005年,專(zhuān)注于人工智能上游的數(shù)據(jù)資源服務(wù),服務(wù)場(chǎng)景包括人機(jī)交互、智能家居、智慧城市等。
招股書(shū)顯示,海天瑞聲有三大主營(yíng)業(yè)務(wù),分別是數(shù)據(jù)資源定制服務(wù)、數(shù)據(jù)庫(kù)產(chǎn)品和數(shù)據(jù)資源相關(guān)的應(yīng)用服務(wù)。前五大客戶(hù)為阿里巴巴、三星、騰訊、微軟、百度,貢獻(xiàn)了2018年?duì)I業(yè)收入的59.6%,總計(jì)1.1億元,其中阿里巴巴排名第一為5179萬(wàn)。
2016年-2018年,海天瑞聲分別實(shí)現(xiàn)營(yíng)業(yè)收入8422.86萬(wàn)元、1.19億元、1.93億元,凈利潤(rùn)為1028.93萬(wàn)元、3414.96萬(wàn)元、6714.16萬(wàn)元。
2016年-2018年,數(shù)據(jù)資源定制服務(wù)及數(shù)據(jù)庫(kù)產(chǎn)品兩項(xiàng)收入合計(jì)占營(yíng)業(yè)收入近99%,兩者毛利潤(rùn)合計(jì)占比也是超過(guò)95%。海天瑞聲的招股書(shū)中,對(duì)數(shù)據(jù)資源定制服務(wù)和數(shù)據(jù)庫(kù)產(chǎn)品定義如圖:
來(lái)源 / 海天瑞聲招股書(shū)
無(wú)論是從數(shù)據(jù)資源定制服務(wù)還是數(shù)據(jù)庫(kù)產(chǎn)品的銷(xiāo)售情況來(lái)看,智能語(yǔ)音數(shù)據(jù)資源的銷(xiāo)售是主要收入來(lái)源。
來(lái)源 / 海天瑞聲招股書(shū)
2019年,海天瑞聲還上演了一場(chǎng)科創(chuàng)板“逃跑計(jì)”。7月26日,其上會(huì)審核狀態(tài)變更為終止審核,科創(chuàng)板上市之路告一段落,輿論認(rèn)為原因在于其核心技術(shù)不足。
從公布的軟件著作權(quán)以及在申請(qǐng)專(zhuān)利來(lái)看,海天瑞聲的大部分技術(shù)是用于語(yǔ)音數(shù)據(jù)采集與處理環(huán)節(jié)??梢?jiàn),公司的核心技術(shù)主要體現(xiàn)在錄制及標(biāo)注語(yǔ)音數(shù)據(jù)方面。
來(lái)源 / 海天瑞聲招股書(shū)
而由于錄制及標(biāo)注語(yǔ)音數(shù)據(jù)需要大量廉價(jià)勞動(dòng)力,這也是公司經(jīng)常大規(guī)模招兼職的原因。
“在能看得見(jiàn)的未來(lái),我們還得為AI打工”
在電影《她》中,那個(gè)由斯嘉麗·約翰遜配音的人聲智能系統(tǒng)Samantha擁有極高的情商,為討好使用者繼續(xù)訂閱,Samantha不僅需要讓男主人泰奧多爾完全相信她與人類(lèi)無(wú)差,同時(shí)還要嘗試讓對(duì)方愛(ài)上自己,為此,永遠(yuǎn)都不能聽(tīng)錯(cuò)或理解錯(cuò)泰奧多爾說(shuō)過(guò)的任何一個(gè)字。
這是一部來(lái)自2013年的電影,時(shí)間來(lái)到2019,距離電影中的愿景還很遙遠(yuǎn)。
一位來(lái)自北郵人工智能研究院的研究員周洲告訴燃財(cái)經(jīng),一個(gè)好的模型數(shù)據(jù)量基本都是上百萬(wàn)級(jí)別的,通過(guò)用戶(hù)自發(fā)產(chǎn)生的數(shù)據(jù),才是最貼合實(shí)際業(yè)務(wù)的好數(shù)據(jù)。
“機(jī)器學(xué)習(xí),你教他什么,他才能學(xué)會(huì)什么。以目前的技術(shù),脫離大數(shù)據(jù)學(xué)習(xí)的強(qiáng)人工智能模型還是很遙遠(yuǎn)的?!敝苤拚f(shuō)。
他解釋了AI的訓(xùn)練過(guò)程:“首先,AI訓(xùn)練需要一個(gè)模型,這個(gè)模型需要通過(guò)一定量的基礎(chǔ)標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,獲得一個(gè)預(yù)期的訓(xùn)練結(jié)果,比如對(duì)預(yù)測(cè)天氣的語(yǔ)句識(shí)別率達(dá)到60%或更高。這時(shí)候投入使用環(huán)境會(huì)產(chǎn)生大量的用戶(hù)數(shù)據(jù),這些數(shù)據(jù)再經(jīng)過(guò)甲方脫敏處理——去掉姓名地址等能透露用戶(hù)身份的信息,再交由人工進(jìn)行二次標(biāo)注。
這就來(lái)到了大量廉價(jià)標(biāo)注員標(biāo)注的環(huán)節(jié)。通過(guò)一些標(biāo)準(zhǔn),把質(zhì)量高的音頻篩選出來(lái),因?yàn)橐胍恍├溟T(mén)的數(shù)據(jù)反而會(huì)降低模型的表現(xiàn)。通過(guò)這些數(shù)據(jù)進(jìn)一步調(diào)整模型,使模型能夠更加適合自己的業(yè)務(wù)場(chǎng)景,這樣就構(gòu)成了一次迭代,然后不斷循環(huán)?!?/p>
具體到語(yǔ)音交互產(chǎn)品,周洲補(bǔ)充,如果一個(gè)音箱恰好在南方地區(qū)銷(xiāo)售比較好,那么他們就可以通過(guò)數(shù)據(jù)調(diào)整,對(duì)南方口音有更好的識(shí)別率。
曾做過(guò)語(yǔ)音交互產(chǎn)品的創(chuàng)業(yè)者告訴燃財(cái)經(jīng),目前對(duì)智能語(yǔ)音產(chǎn)品的需求是,它能聽(tīng)懂我說(shuō)的話(huà)并反饋給我想要的東西,而中華文化博大精深,不同地域又有不同表達(dá),加上生活和書(shū)面語(yǔ)言還不一樣,這些都需要交代在系統(tǒng)里。
AI的生長(zhǎng)需要優(yōu)質(zhì)數(shù)據(jù)喂養(yǎng),而另一邊,不知情的用戶(hù)也開(kāi)始反擊。
2019年4月,亞馬遜被爆在世界各地雇傭了數(shù)千名員工,對(duì)Echo音箱捕捉到的錄音進(jìn)行轉(zhuǎn)錄、注釋?zhuān)?/p>
7月,蘋(píng)果被爆用戶(hù)與Siri的對(duì)話(huà)可能會(huì)被錄音,并且上傳至蘋(píng)果,由蘋(píng)果分發(fā)給Siri的外包公司進(jìn)行分析,迫于輿論壓力,蘋(píng)果表示暫停語(yǔ)音分析業(yè)務(wù);
同月,谷歌承包商泄露了超過(guò)1000份用戶(hù)與谷歌助理交談的錄音,錄音來(lái)自于Google Home智能音箱以及語(yǔ)音助手。
對(duì)此,亞馬遜、蘋(píng)果、谷歌的回應(yīng)基本一致,“偷聽(tīng)”是為了提高各自旗下語(yǔ)音助手的智能性。
盡管在發(fā)布數(shù)據(jù)包前,大部分公司會(huì)對(duì)數(shù)據(jù)進(jìn)行脫敏處理,但在用戶(hù)未知情的情況下,這是否觸犯了法律?
對(duì)此,有多年司法工作經(jīng)驗(yàn)的中經(jīng)天平副主任王凱告訴燃財(cái)經(jīng),無(wú)論是否用于牟利,或者是為了提高服務(wù)和產(chǎn)品質(zhì)量,采集和抓取用戶(hù)數(shù)據(jù)的首要原則,就是要有用戶(hù)授權(quán)?!凹词故遣簧婕坝脩?hù)身份信息的指令性錄音,如‘播放音樂(lè)’,在沒(méi)有經(jīng)過(guò)授權(quán)去抓取這個(gè)數(shù)據(jù),也屬于違法?!?/p>
市面上大部分產(chǎn)品以是否同意隱私協(xié)議內(nèi)容作為用戶(hù)授權(quán)的方式,但對(duì)用戶(hù)來(lái)說(shuō),雖然選擇權(quán)掌握在手,大部分情況還是處于被動(dòng)狀態(tài),這是因?yàn)榇蟛糠之a(chǎn)品只有在同意授權(quán)后才能使用。
對(duì)此,王凱表示,從法律上來(lái)說(shuō),還有一個(gè)問(wèn)題,即便得到了用戶(hù)授權(quán)也要考慮到用戶(hù)是否完全了解授權(quán)的內(nèi)容,授權(quán)之后是否有清晰的提示與展現(xiàn),以及是否是本人進(jìn)行操作等等情況。
“但回歸到問(wèn)題本質(zhì),是否合法還得看最終如何去使用這個(gè)數(shù)據(jù)。如果是倒賣(mài)給第三方,或者使用在用戶(hù)不知情的地方,仍然是違法的;
如果協(xié)議中并未明確數(shù)據(jù)將會(huì)如何使用,則處于不完全告知狀態(tài),這也存在一些法律風(fēng)險(xiǎn),但目前并沒(méi)有一個(gè)明確的法律條款去規(guī)范,只能說(shuō)如果用戶(hù)能找到明確侵權(quán)證據(jù),那就屬于違法。”
燃財(cái)經(jīng)查閱了小度音箱的用戶(hù)協(xié)議和隱私協(xié)議,協(xié)議顯示:“當(dāng)您激活DuerOS程序或喚醒DuerOS設(shè)備后,我們會(huì)自動(dòng)接收并記錄您與設(shè)備終端進(jìn)行交互過(guò)程中產(chǎn)生的音頻、視頻等相關(guān)信息。”
值得注意的是,協(xié)議還表明:“若您拒絕我們收集上述信息……將導(dǎo)致您無(wú)法獲得相關(guān)服務(wù)。”
小度音箱用戶(hù)協(xié)議
燃財(cái)經(jīng)就用戶(hù)協(xié)議向百度和阿里相關(guān)人員咨詢(xún),截至發(fā)稿,未獲回應(yīng)。
一方面,AI變得更智能需要更多用戶(hù)數(shù)據(jù),另一方面,用戶(hù)數(shù)據(jù)屬于隱私應(yīng)該保護(hù),而法律的完善不是一朝一夕的事,這似乎形成了一個(gè)無(wú)解的困境。
是否能提出一個(gè)大膽的設(shè)想:在不久的將來(lái),AI訓(xùn)練不再依賴(lài)大數(shù)據(jù)?
對(duì)此,周洲表示,“現(xiàn)在已經(jīng)存在一種強(qiáng)化學(xué)習(xí)的方式,就是機(jī)器可以通過(guò)一部分簡(jiǎn)單學(xué)習(xí)后,自己產(chǎn)生數(shù)據(jù)進(jìn)行自主學(xué)習(xí),AlphaGo就是這樣?!?/p>
“但目前強(qiáng)化學(xué)習(xí)還只能用于規(guī)則既定、獎(jiǎng)懲明確的場(chǎng)景,比如下棋、玩游戲等,下錯(cuò)了就會(huì)失敗,機(jī)器人可通過(guò)獎(jiǎng)懲的方式去學(xué)習(xí),但現(xiàn)實(shí)更多情況是復(fù)雜的,很難制定一個(gè)明確的獎(jiǎng)懲規(guī)則?!?/p>
他補(bǔ)充,未來(lái)確實(shí)有實(shí)現(xiàn)的可能性,不過(guò)這個(gè)未來(lái)有多遠(yuǎn)就不知道了,至少在能看得見(jiàn)的未來(lái),我們還得為AI打工。
“What happens on your iPhone, stays on your iPhone(在iPhone上發(fā)生的事,就讓它留在iPhone上)”,這是今年年初的CES展上,蘋(píng)果公司在會(huì)場(chǎng)外投放的巨型廣告宣傳語(yǔ),目前看來(lái),這可能只是一個(gè)美好的幻想。
-
機(jī)器
+關(guān)注
關(guān)注
0文章
785瀏覽量
40852 -
智能設(shè)備
+關(guān)注
關(guān)注
5文章
1070瀏覽量
50818 -
語(yǔ)音交互
+關(guān)注
關(guān)注
3文章
287瀏覽量
28095
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論