0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

鑒黃AI是怎樣煉成的?“AI最好的應(yīng)用模式依然是人+機(jī)”

jmiy_worldofai ? 來(lái)源:未知 ? 作者:李倩 ? 2018-08-20 14:40 ? 次閱讀

又一薪水高、“福利”好的職業(yè)或要被人工智能(AI)替代了。

近日,阿里巴巴集團(tuán)(下稱(chēng)“阿里”)安全部在接受澎湃新聞(www.thepaper.cn)采訪時(shí)介紹了AI鑒黃的有關(guān)工作:當(dāng)用戶輸入一張圖片,AI將返回一個(gè)0-100之間的分值。這個(gè)分值非線性地標(biāo)示了圖片含色情內(nèi)容的概率。對(duì)于互聯(lián)網(wǎng)場(chǎng)景模型,得分99及以上的圖片幾乎可以肯定是色情圖,無(wú)需人工復(fù)審;得分50-99的需要人工審核;得分50以下的認(rèn)為是正常圖。

隨著AI鑒黃技術(shù)的發(fā)展,人工鑒黃師逐漸從鑒黃行業(yè)里被解放出來(lái)。阿里安全部高級(jí)算法專(zhuān)家威視向澎湃新聞介紹,假設(shè)一天要審核4億張圖片,單純由人工來(lái)審,如果一人一天審1萬(wàn)張,就需要4萬(wàn)人。而經(jīng)由AI鑒黃后需要交由人工審核的量大約只需20萬(wàn)張,這樣只需要20人,大大節(jié)省了人力。

不僅僅在識(shí)圖領(lǐng)域,威視告訴澎湃新聞,AI鑒黃還覆蓋到了語(yǔ)音、視頻等多媒體領(lǐng)域,目前已經(jīng)可以識(shí)別中文、英文、日文、俄文等語(yǔ)言,還可以識(shí)別中國(guó)多省份方言,無(wú)語(yǔ)義的呻吟聲也能識(shí)別。據(jù)悉,阿里將在8月21日舉辦的網(wǎng)絡(luò)安全生態(tài)峰會(huì)上,集中展示這些技術(shù)。

鑒黃AI是怎樣煉成的?

阿里的鑒黃AI做的色情圖片檢測(cè),從原理上來(lái)說(shuō),就是一個(gè)典型的圖像分類(lèi)問(wèn)題。當(dāng)前的解決方案是標(biāo)注樣本后,使用深度學(xué)習(xí)技術(shù)訓(xùn)練一個(gè)人工神經(jīng)網(wǎng)絡(luò)。具體步驟包括明確分類(lèi)標(biāo)準(zhǔn)→收集樣本→樣本打標(biāo)→模型訓(xùn)練,四個(gè)步驟。其中前三個(gè)步驟主要由人工完成。

這四個(gè)步驟聽(tīng)起來(lái)似乎是最后一步的技術(shù)難度最高,實(shí)際上阿里的相關(guān)人士向澎湃新聞透露,花時(shí)間最久的是第一步。

“雖然實(shí)打?qū)嵉谋热纭饵c(diǎn)不露點(diǎn)’之類(lèi)的色情,還有比較明確的判斷標(biāo)準(zhǔn),”威視表示,“對(duì)于低俗和性感類(lèi),爭(zhēng)議就比較多,不同的人有不同的認(rèn)識(shí)?!?/p>

現(xiàn)實(shí)世界是復(fù)雜的,威視舉了個(gè)例子,以兒童色情的問(wèn)題為例:兒童露點(diǎn)算不算色情?有人會(huì)說(shuō):男孩不算,女孩算。又有人質(zhì)疑:如果男孩年齡較大呢?如果是發(fā)育較早的孩子呢?于是又又有人說(shuō),十二三歲的男孩子露點(diǎn)算色情。那么,十一歲的呢?或者,如何從圖片中判斷孩子年齡到底有多大呢?

威視告訴澎湃新聞,雖然明確分類(lèi)標(biāo)準(zhǔn)是設(shè)計(jì)步驟時(shí)的第一步,但在后續(xù)打標(biāo)過(guò)程中,遇到實(shí)際的問(wèn)題還要再對(duì)標(biāo)準(zhǔn)進(jìn)行不斷的修正和增補(bǔ)。

被鑒黃AI誤認(rèn)為是色情的圖片

在收集樣本的過(guò)程中,團(tuán)隊(duì)“集思廣益”,瀏覽了近2000家網(wǎng)站,下載了超過(guò)6000萬(wàn)張疑似色情圖片,實(shí)際去重后約2300萬(wàn)張圖片,并實(shí)際標(biāo)注了超過(guò)1300萬(wàn)張圖片。這1300多萬(wàn)張圖片成為模擬訓(xùn)練的原始數(shù)據(jù)庫(kù),因此這一浩大的工程,被技術(shù)人員認(rèn)為是鑒黃引擎成功最重要的基石。

樣本打標(biāo)過(guò)程依然主要由人工完成對(duì)2000萬(wàn)張圖片的打標(biāo)。威視介紹,他們做了一個(gè)打標(biāo)工具,并建立了質(zhì)量控制體系。打標(biāo)前對(duì)所有參加標(biāo)注的人員先進(jìn)行培訓(xùn),學(xué)習(xí)打標(biāo)標(biāo)準(zhǔn),做練習(xí)題考試,考試通過(guò)之后才能上崗。標(biāo)中通過(guò)事先已有答案的校驗(yàn)題,或多人對(duì)同一對(duì)象打標(biāo)的方式,進(jìn)行標(biāo)中控制。標(biāo)后的控制,就是通過(guò)模型判斷,找出可疑部分再進(jìn)行人工標(biāo)注。

威視表示,之所以嚴(yán)格把握樣本打標(biāo)的過(guò)程,是因?yàn)樯疃葘W(xué)習(xí),對(duì)高質(zhì)量的標(biāo)注數(shù)據(jù)是有很高的要求。數(shù)據(jù)標(biāo)志質(zhì)量越高,最后模型的精度就會(huì)越高。

于是,由人類(lèi)經(jīng)過(guò)千挑萬(wàn)選、做題考試后建立起來(lái)的高質(zhì)量“色情圖片”數(shù)據(jù)庫(kù),最后交由模型訓(xùn)練。威視表示,GPU機(jī)器單機(jī)單卡的情況下訓(xùn)練時(shí)間要近一個(gè)月。后來(lái)阿里團(tuán)隊(duì)更換了網(wǎng)絡(luò)結(jié)構(gòu)并實(shí)現(xiàn)了多機(jī)多卡訓(xùn)練,將千萬(wàn)級(jí)別樣本的訓(xùn)練時(shí)間控制在一周左右。

“AI最好的應(yīng)用模式依然是人+機(jī)”

那么,高效和低成本的AI鑒黃,是否會(huì)完全替代人工鑒黃師?

對(duì)此,阿里安全部產(chǎn)品專(zhuān)家念夏向澎湃新聞表示,目前AI鑒黃最好的應(yīng)用模式仍然是人工+機(jī)器。不管是前期設(shè)計(jì)模型的標(biāo)準(zhǔn)和實(shí)際打標(biāo),還是后期人工復(fù)核,人的參與都是不可或缺的。

2015年7月的“北京三里屯優(yōu)衣庫(kù)事件”,一段時(shí)長(zhǎng)1分鐘的試衣間不雅視頻流出,并2個(gè)小時(shí)內(nèi)在各大網(wǎng)絡(luò)平臺(tái)上迅速完成了過(guò)億的轉(zhuǎn)發(fā)量。但目前只有人的頭腦擁有足夠的“意識(shí)”判斷這些單獨(dú)的突發(fā)性事件,是否屬于“違規(guī)”。

“已知的、有清晰標(biāo)準(zhǔn)定義的風(fēng)險(xiǎn),AI都已經(jīng)能解決了?!蹦钕谋硎?,真正的難點(diǎn)是惡意的突發(fā)事件,爆發(fā)了就是爆發(fā)了,這種情況下,由于之前對(duì)該事件或場(chǎng)景缺乏標(biāo)準(zhǔn)的定義,當(dāng)時(shí)要直接給AI及時(shí)去處理,是不可能的?!?/p>

另一種類(lèi)型就是非常模棱兩可的場(chǎng)景,即AI打分在50-99分之間的內(nèi)容。念夏表示,帶有主觀個(gè)人意識(shí)或者群體意識(shí)的部分,就是需要人工審核的核心部分。

此外,包括特定的體育運(yùn)動(dòng)以及國(guó)際標(biāo)準(zhǔn)差異等問(wèn)題,前期模型調(diào)整和后期復(fù)核標(biāo)準(zhǔn)變化,也需要人工審核的出馬。

威視表示,目前像包括相撲、摔跤、藝術(shù)體操甚至游泳等門(mén)類(lèi)的運(yùn)動(dòng),由于穿著較為特殊,一般把這類(lèi)多媒體作品定性為性感類(lèi),經(jīng)由人工復(fù)核,終極目標(biāo)還是希望能讓AI直接分辨出圖片上的人是在參加運(yùn)動(dòng)比賽。

被鑒黃AI誤認(rèn)為是色情的圖片

從國(guó)際上來(lái)看,雖有通用的鑒黃標(biāo)準(zhǔn),但也會(huì)有與國(guó)內(nèi)標(biāo)準(zhǔn)大相徑庭的地方。念夏向澎湃新聞舉了個(gè)例子:“國(guó)內(nèi)如果直播給小寶寶洗澡,其實(shí)沒(méi)什么事,大家覺(jué)得很可愛(ài)。但在國(guó)外是絕對(duì)不行的,而且屬于嚴(yán)重違規(guī)。”

阿里的AI除了用于鑒黃,念夏表示利用這個(gè)原理,還能訓(xùn)練AI做類(lèi)似編審的工作,比如選取視頻封面、鑒定重復(fù)視頻等。“不僅是做合規(guī)方面的事情,我們希望利用AI去做真正的生產(chǎn)提效,用技術(shù)解決更多社會(huì)問(wèn)題?!?/p>

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    31338

    瀏覽量

    269746
  • 人工智能
    +關(guān)注

    關(guān)注

    1793

    文章

    47539

    瀏覽量

    239392

原文標(biāo)題:阿里AI鑒黃師一日鑒圖數(shù)億張 人工鑒黃師要"涼涼"了

文章出處:【微信號(hào):worldofai,微信公眾號(hào):worldofai】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    人工智能語(yǔ)音,高科技助力凈化網(wǎng)絡(luò)環(huán)境

    、英文、俄文等多國(guó)語(yǔ)言,還可以識(shí)別湖南、湖北、河南、東北、四川、廣東等地方言。 真是有多大膽,技術(shù)就有多先進(jìn),網(wǎng)絡(luò)居然也開(kāi)始運(yùn)用人工智能語(yǔ)音技術(shù)了,實(shí)在讓人意外。隨著阿里的AI
    的頭像 發(fā)表于 09-04 09:44 ?1.4w次閱讀

    壞蛋是怎樣煉成的txt全集下載

    的故事,讓書(shū)友們?yōu)橹序v?!  秹牡啊芬殉蔀橐环N情結(jié),一種壞蛋情節(jié)……《壞蛋是怎樣煉成的II》——王者歸來(lái)!主要講述一個(gè)壞蛋的成長(zhǎng)  有人就有恩怨,有恩怨,就有江湖。就是江湖,叫我怎么退出?! ∧腥?/div>
    發(fā)表于 01-05 17:35

    阿里云智能視頻 AI 重裝來(lái)襲

    快速、服務(wù)方式靈活等核心優(yōu)勢(shì):多模態(tài)分析,標(biāo)簽體系完善。視覺(jué)、語(yǔ)音、文本、運(yùn)動(dòng)等多模態(tài)信息分析技術(shù),并且綜合優(yōu)酷、土豆、UC海外視頻標(biāo)簽體系打造最全面的視頻標(biāo)簽系統(tǒng);千千面,高精準(zhǔn)度。利用多項(xiàng)AI
    發(fā)表于 01-23 15:19

    年輕,以后讓AI給你升職加薪吧

    的人就等于浪費(fèi)了彼此的時(shí)間,所以使用機(jī)器可以同時(shí)對(duì)多個(gè)應(yīng)聘者進(jìn)行面試,是最好的選擇。4AI招聘的使用門(mén)檻高嗎?AI招聘是一個(gè)市場(chǎng)空間很大的新技術(shù),但按照當(dāng)前的情況來(lái)看,
    發(fā)表于 08-28 09:16

    AI語(yǔ)音智能機(jī)器開(kāi)發(fā)實(shí)戰(zhàn)

    第四期直播PPT下載:第三期直播PPT+程序下載:第二期直播PPT下載:第一期直播PPT下載:主題簡(jiǎn)介及亮點(diǎn):以AI智能語(yǔ)音陪護(hù)機(jī)器人為載體,徹底講解整個(gè)機(jī)器研發(fā)的全流程,從開(kāi)發(fā)環(huán)境搭建、到軟硬件
    發(fā)表于 01-04 11:48

    關(guān)在釘釘和企業(yè)微信上使用AI視頻面試——AI得賢招聘官操作說(shuō)明

    。其包含一鍵發(fā)布、簡(jiǎn)歷庫(kù)集合查重、AI簡(jiǎn)歷解析、遠(yuǎn)程實(shí)時(shí)視頻面試、AI視頻面試、AI面試聊天機(jī)器、AI面試電話機(jī)器
    發(fā)表于 03-07 19:30

    AI學(xué)習(xí)】AI概論:(Part-A)與AI智慧交流

    任務(wù)一:電腦+AI(讓電腦擁有學(xué)習(xí)能力)目標(biāo):安裝Python和TensorFlow。安裝Keras、Numpy、OpenCV。安裝ResNet50工智慧模組(模型)。 運(yùn)行測(cè)試程序,展現(xiàn)簡(jiǎn)單
    發(fā)表于 10-30 14:04

    AI概論:來(lái)來(lái)來(lái),成為AI的良師益友》高煥堂老師帶你學(xué)AI

    能夠表現(xiàn)出與類(lèi)相類(lèi)似的智慧行為,包括學(xué)習(xí)、記憶及預(yù)測(cè)(推論)的思考能力,以及模擬類(lèi)感官識(shí)別和動(dòng)作行為等。6.【AI學(xué)習(xí)】第3篇--人工神經(jīng)網(wǎng)絡(luò)簡(jiǎn)介:本篇主要介紹:人工神經(jīng)網(wǎng)絡(luò)的起源、簡(jiǎn)單神經(jīng)網(wǎng)絡(luò)
    發(fā)表于 11-05 17:55

    【HarmonyOS HiSpark AI Camera】基于HiSpark AI Camera HarmonyOS 智能巡檢機(jī)器開(kāi)發(fā)

    本帖最后由 馬猛 于 2020-11-26 10:17 編輯 項(xiàng)目名稱(chēng):基于HiSpark AI Camera HarmonyOS 智能巡檢機(jī)器開(kāi)發(fā)試用計(jì)劃:HiSpark AI
    發(fā)表于 11-18 18:15

    我的AI課堂 ---讓學(xué)生們都成為AI世界裡的主角

    `1、把AI擬人化:邀請(qǐng)您來(lái)成為AI世界裡的主角 在本文裡,我來(lái)分享我的AI課堂模式:把AI擬人化,並且讓同學(xué)成為
    發(fā)表于 12-11 10:15

    AI芯片最新格局分析 精選資料分享

    來(lái)源:中金公司,作者樂(lè)平、何玫與楊俊杰AI 芯片設(shè)計(jì)是人工智能產(chǎn)業(yè)鏈的重要一環(huán)。 自 2017 年 5 月以來(lái),各 AI 芯片廠商的新品競(jìng)相發(fā)布,經(jīng)過(guò)一年多的發(fā)展,各環(huán)...
    發(fā)表于 07-23 07:14

    怎樣去解決在stm32上做ai的問(wèn)題

    **(嵌入式AI)關(guān)于在stm32上做ai的一些問(wèn)題,工具用的是STM32CubeIDE也可以用STM32CubeMX,用IDE更好1.pytorch中很多語(yǔ)句是不可以用cubeAI analyze
    發(fā)表于 12-14 07:47

    AI是什么呢?AI應(yīng)用又會(huì)給人們帶來(lái)哪些改變

    Intelligence的縮寫(xiě),即人工智能。它是研究、開(kāi)發(fā)用于模擬、延伸和擴(kuò)展的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門(mén)新的技術(shù)科學(xué)。AI的研究工作已取得驚人進(jìn)展,經(jīng)過(guò)學(xué)習(xí)后,機(jī)器在操作某些環(huán)節(jié)時(shí)比人類(lèi)更快、更精
    發(fā)表于 12-20 06:42

    AI語(yǔ)音有多厲害?平臺(tái)用它來(lái),企業(yè)用它來(lái)電銷(xiāo)

    設(shè)計(jì)初衷和工作模式來(lái)看,“AI機(jī)器”和電銷(xiāo)機(jī)器也幾乎如出一轍,由于原有的人工勞動(dòng)重復(fù)度較
    的頭像 發(fā)表于 08-22 14:58 ?3745次閱讀

    開(kāi)源AI新鮮出爐:代碼+預(yù)訓(xùn)練模型,附手把手入門(mén)教學(xué)

    今天我們就來(lái)學(xué)習(xí)用Keras構(gòu)建模型,識(shí)別NSFW圖片,俗稱(chēng)造個(gè)AI。
    的頭像 發(fā)表于 04-16 16:40 ?4032次閱讀