精品无码AV人妻系列网站,国产欧美精品区一区二区三区,国产在线一区二区三在线

如今，網(wǎng)絡(luò)中每天會(huì)產(chǎn)生海量的圖像文件，而對于這些圖片進(jìn)行安全性鑒定是非常有必要的。很多公司都會(huì)使用圖像鑒定API對裸露或違法照片進(jìn)行自動(dòng)過濾和修改。本文便實(shí)現(xiàn)并比較了谷歌、微軟、亞馬遜等公司的鑒定API能力。

掃黃打非，刻不容緩！

在智能手機(jī)時(shí)代，手機(jī)上裝有一個(gè)、兩個(gè)甚至更多的攝像頭，圖像(和視頻)已經(jīng)成為用戶與社交媒體互動(dòng)的最常見方式。

幾乎所有用戶生成的內(nèi)容，比如Yelp或TripAdvisor上的評論、Instagram和Facebook上的帖子、WhatsApp上的轉(zhuǎn)發(fā)等等，所有內(nèi)容的圖片數(shù)量都在不斷增加。最近一項(xiàng)2017年的數(shù)據(jù)顯示，僅Facebook每天就會(huì)上傳大約3.5億張圖片。這個(gè)數(shù)量是非常龐大的。

如果你的網(wǎng)站或者APP允許用戶生成內(nèi)容（UGC），例如評論、上傳可能帶圖片的帖子等等。但目前很現(xiàn)實(shí)的一個(gè)問題是，一個(gè)troll可以將帶有色情或者可怕的照片在你的網(wǎng)站上公開顯示，必定會(huì)帶來許多用戶的譴責(zé)，甚至可能會(huì)承擔(dān)相應(yīng)的法律責(zé)任。

掃黃打非—手段是關(guān)鍵

公司處理這一類問題常見的方式是審核，在審核過程中，UGC的每個(gè)細(xì)節(jié)內(nèi)容都要通過人工操作，然后才能在網(wǎng)站或應(yīng)用中展示出來。許多公司雇用了數(shù)十名工作人員，他們?nèi)諒?fù)一日地過濾這些UGC。然后公司聘用這樣的團(tuán)隊(duì)，實(shí)際上不僅花費(fèi)大量的金錢，而且效率也是很低的。

在過去的幾年里，科技公司通過機(jī)器學(xué)習(xí)和使用ML算法來檢測“有害”的內(nèi)容，并自動(dòng)調(diào)節(jié)UGC來應(yīng)對這種威脅。最后機(jī)器無法自動(dòng)分類或判別的內(nèi)容，將交于員工進(jìn)行人工操作。這就大幅度提高了效率。

開發(fā)、構(gòu)建上述ML解決方案是一件非常困難的任務(wù)，所以像谷歌、微軟這樣的大型技術(shù)公司或Clarifai這樣的小公司都會(huì)提供api來幫助用戶完成這項(xiàng)工作。由于大多數(shù)這些API提供了類似的功能，我們希望相互測試這些API的有效性，特別是用于檢測圖像中的成人或色情內(nèi)容。我們比較了AWS rekognition、Microsoft moderation services、Google vision和Clarifai的鑒黃API的性能。

明確任務(wù)—邁向成功的關(guān)鍵

將用戶上傳的“有害”圖片標(biāo)記為含有成人或色情內(nèi)容，以便僅批準(zhǔn)安全圖像；

裸照等圖片會(huì)被自動(dòng)刪除；

沒有明確分類的圖片會(huì)被發(fā)送給人工評估。

數(shù)據(jù)集介紹

我們使用了YACVID數(shù)據(jù)集的180幅圖像，其中90張圖像人工標(biāo)記為非裸照，90張圖像為裸照。我們用這4個(gè)API分別去測試這180張圖像，并記錄它們的分類的情況。

數(shù)據(jù)集中的一個(gè)示例數(shù)據(jù)項(xiàng)

數(shù)據(jù)集中安全的示例圖像

實(shí)驗(yàn)結(jié)果一覽

在測試這些API時(shí)，主要關(guān)注以下這些值：

真陽性（True Positive，TP）：給定一個(gè)安全照片，API鑒定結(jié)果也是安全的；

假陽性（False Positive，F(xiàn)P）：給定一個(gè)色情照片，API鑒定結(jié)果是安全的；

假陰性（False Negative，F(xiàn)N）：給定一個(gè)安全照片，API鑒定結(jié)果是色情的；

真陰性（True Negative，TN）：給定一個(gè)色情照片，API鑒定結(jié)果也是色情的；

理想情況下，人們肯定希望100% TP率和0% FP率。無論FP的值是多少，都是有害的，因?yàn)檫@有可能會(huì)在你的應(yīng)用或網(wǎng)站上展現(xiàn)一些色情的圖像。而FN的值若是過高，則說明這個(gè)系統(tǒng)是無效的，便會(huì)導(dǎo)致一個(gè)企業(yè)投入更多的人力資源。

實(shí)驗(yàn)結(jié)果如下表所示：

星標(biāo)的表示集成使用API

最好的獨(dú)立API來自谷歌，精度為99%，召回率為94%。從表中可以看到，大部分API實(shí)驗(yàn)結(jié)果都非常良好，數(shù)值都達(dá)到了90以上。但是考慮到問題的實(shí)際背景情況，即使準(zhǔn)確率如此之高，但對于許多情況也并非是萬無一失的。

我們還試圖結(jié)合使用兩個(gè)或多個(gè)API來尋找解決問題的最佳方案。在我們的數(shù)據(jù)集中，似乎將Google和AWS API結(jié)合起來可以提供最佳性能。即便如此，仍有10%的安全圖片需要人工驗(yàn)證才能共同構(gòu)建出一個(gè)萬無一失的系統(tǒng)。

各個(gè)API介紹

Microsoft image moderation

這個(gè)API將色情圖像分類為“成人”或“猥瑣”，我們將這兩類都視為NSFW類。以下是一些錯(cuò)誤地將安全圖片分類為色情類的圖片:

Google cloud vision

這個(gè)API將一個(gè)色情圖像分類為“也許”、“可能”、“非?？赡堋保@三類都被視作NSFW類。以下是一些錯(cuò)誤地將安全圖片分類為色情類的圖片:

AWS Rekognition

這個(gè)API將一個(gè)色情圖像分類為“明顯裸露”、“裸露”、“暗示”，這三類都被視作NSFW類。以下是一些錯(cuò)誤地將安全圖片分類為色情類的圖片:

Clarifai nudity moderation

這個(gè)API返回一個(gè)NSFW/SFW類的置信度值。該API將NSFW值大于或等于0.85的圖像分類為NSFW, NSFW值小于或等于0.15的圖像分類為SFW。而處于0.15到0.85范圍之間的圖像被視為未知狀態(tài)（因?yàn)檎倩芈史浅５停?。以下是一些錯(cuò)誤地將安全圖片分類為色情類的圖片:

The Black Swan

下面這張圖片，無論哪個(gè)API，都將其分類為NSFW，但都被人工分類為SFW。那么問題來了，各位讀者，你們認(rèn)為它應(yīng)該屬于哪類呢？

其它因素

我們還測量了API響應(yīng)時(shí)間，這是決定用戶選擇使用哪個(gè)API的一個(gè)因素。由于響應(yīng)時(shí)間可能受很多因素的影響，因此下表的值只是一個(gè)大概數(shù)字，而不是實(shí)際值。下表的統(tǒng)計(jì)數(shù)據(jù)是在Ubuntu系統(tǒng)的筆記本運(yùn)行試驗(yàn)而得到的（每個(gè)API調(diào)用180次）。

需要注意的一點(diǎn)是，所有這些API都訪問了在Amazon S3上傳的圖像，AWS API在訪問S3映像時(shí)會(huì)有一定不公平的優(yōu)勢，因此響應(yīng)時(shí)間可能較短。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴