這是一個(gè)驚人的圖像,說(shuō)明了AI研究的根深蒂固的偏見(jiàn)。將美國(guó)第一任黑人總統(tǒng)巴拉克·奧巴馬(Barack Obama)的低分辨率圖片輸入到旨在生成去像素臉部的算法中,然后輸出的是白人。
也不僅僅是奧巴馬。獲取相同的算法,以從低分辨率輸入生成女演員露西·劉或女議員亞歷山大·奧卡西奧·科爾特斯的高分辨率圖像,并且所產(chǎn)生的面孔看起來(lái)明顯是白色的。正如一則流行的推文援引奧巴馬的例子所言:“這張圖片充分說(shuō)明了人工智能存在偏見(jiàn)的危險(xiǎn)?!?/p>
但是,是什么原因?qū)е逻@些輸出的呢?它們真正告訴我們關(guān)于AI偏差的什么信息?
首先,我們需要對(duì)這里使用的技術(shù)有所了解。生成這些圖像的程序是稱為PULSE的算法,該算法使用一種稱為“放大”的技術(shù)來(lái)處理視覺(jué)數(shù)據(jù)。升級(jí)就像在電視和電影中看到的“縮放和增強(qiáng)”這樣的比喻,但是與好萊塢不同,真實(shí)的軟件不能僅僅從無(wú)到有地生成新數(shù)據(jù)。為了將低分辨率圖像轉(zhuǎn)換成高分辨率圖像,該軟件必須使用機(jī)器學(xué)習(xí)來(lái)填補(bǔ)空白。
對(duì)于PULSE,執(zhí)行這項(xiàng)工作的算法是StyleGAN,它是由NVIDIA研究人員創(chuàng)建的。盡管您以前可能沒(méi)有聽(tīng)說(shuō)過(guò)StyleGAN,但您可能對(duì)它的工作很熟悉。這是負(fù)責(zé)制作那些怪異逼真的人臉的算法,您可以在ThisPersonDoesNotExist.com等網(wǎng)站上看到這些人臉;如此真實(shí)的面孔經(jīng)常被用來(lái)制作虛假的社交媒體資料。
PULSE所做的是使用StyleGAN“想象”高分辨率版本的像素化輸入。它不是通過(guò)“增強(qiáng)”原始的低分辨率圖像來(lái)實(shí)現(xiàn)此目的,而是通過(guò)生成一個(gè)全新的高分辨率面(當(dāng)像素化時(shí)看起來(lái)與用戶輸入的像相同)。
這意味著可以以多種方式放大每個(gè)去像素的圖像,就像使用一組配料制作不同的菜肴一樣。這也是為什么您可以使用PULSE來(lái)查看《毀滅戰(zhàn)士》,《德軍總部3D》的英雄,甚至是哭泣的表情符號(hào)在高分辨率下的樣子的原因。并不是說(shuō)算法會(huì)像“縮放并增強(qiáng)”底片那樣“尋找”圖像中的新細(xì)節(jié)。而是發(fā)明新的面孔以還原為輸入數(shù)據(jù)。
從理論上講,這種工作已經(jīng)進(jìn)行了幾年,但是,就像AI界經(jīng)常發(fā)生的那樣,當(dāng)這個(gè)周末在網(wǎng)上共享了易于運(yùn)行的代碼版本時(shí),它就吸引了更多的聽(tīng)眾。那是種族差距開(kāi)始擴(kuò)大的時(shí)候。
PULSE的創(chuàng)建者說(shuō)趨勢(shì)很明顯:當(dāng)使用該算法按比例放大像素化圖像時(shí),該算法通常會(huì)生成具有白種人特征的人臉。
該算法的創(chuàng)建者在Github上寫道:“看起來(lái)PULSE產(chǎn)生白色面孔的頻率要比有色人種的面孔高得多?!薄斑@種偏見(jiàn)很可能是從StyleGAN接受過(guò)數(shù)據(jù)集訓(xùn)練而來(lái)的,盡管可能還有其他我們不知道的因素。
換句話說(shuō),由于對(duì)StyleGAN進(jìn)行了數(shù)據(jù)訓(xùn)練,因此當(dāng)試圖繪制看起來(lái)像像素化輸入圖像的人臉時(shí),它默認(rèn)為白色特征。
這個(gè)問(wèn)題在機(jī)器學(xué)習(xí)中極為普遍,這也是面部識(shí)別算法在非白人和女性臉上表現(xiàn)較差的原因之一。用于訓(xùn)練AI的數(shù)據(jù)通常偏向一個(gè)人口統(tǒng)計(jì)學(xué)的白人,并且當(dāng)程序看到不在該人口統(tǒng)計(jì)學(xué)中的數(shù)據(jù)時(shí),其性能就會(huì)很差。并非巧合的是,白人主導(dǎo)著AI研究。
但是,奧巴馬的例子所揭示的關(guān)于偏見(jiàn)的確切內(nèi)容以及它所代表的問(wèn)題可能如何得到解決都是復(fù)雜的問(wèn)題。實(shí)際上,它們是如此復(fù)雜,以至于單一圖像引發(fā)了AI學(xué)者,工程師和研究人員之間的激烈爭(zhēng)論。
從技術(shù)上講,一些專家不確定這是否是數(shù)據(jù)集偏差的一個(gè)示例。AI藝術(shù)家Mario Klingemann認(rèn)為,應(yīng)該歸咎于PULSE選擇算法本身,而不是數(shù)據(jù)??肆指衤赋觯軌蚴褂肧tyleGAN從相同的像素化奧巴馬圖像生成更多非白色輸出,如下所示:
克林格曼說(shuō),這些人臉是使用“相同的概念和相同的StyleGAN模型”生成的,但使用的搜索方法與Pulse不同,他說(shuō),我們不能僅僅從幾個(gè)樣本中真正判斷出一種算法。他告訴The Verge:“可能有數(shù)以百萬(wàn)計(jì)的可能的面孔都將縮小為相同的像素模式,而且所有這些面孔都是‘正確的’?!?/p>
(順便說(shuō)一下,這也是為什么這樣的工具不太可能用于監(jiān)視目的的原因。這些過(guò)程創(chuàng)建的面孔是虛構(gòu)的,并且如上面的示例所示,與輸入的基本事實(shí)無(wú)關(guān)。但是, ,這并不是說(shuō)過(guò)去巨大的技術(shù)漏洞已阻止警察采用技術(shù)。)
但是,無(wú)論原因如何,算法的輸出似乎都是有偏差的-在該工具廣泛可用之前,研究人員并未注意到這一點(diǎn)。這說(shuō)明了一種不同且普遍存在的偏見(jiàn):一種在社會(huì)層面上起作用的偏見(jiàn)
-
分辨率
+關(guān)注
關(guān)注
2文章
1071瀏覽量
41993 -
人工智能
+關(guān)注
關(guān)注
1793文章
47604瀏覽量
239542
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論