我們又能通過(guò)開(kāi)源社區(qū)做些什么?
在我們的世界里,算法無(wú)處不在,偏見(jiàn)也是一樣。從社會(huì)媒體新聞的提供到流式媒體服務(wù)的推薦到線上購(gòu)物,計(jì)算機(jī)算法,尤其是機(jī)器學(xué)習(xí)算法,已經(jīng)滲透到我們?nèi)粘I畹拿恳粋€(gè)角落。至于偏見(jiàn),我們只需要參考 2016 年美國(guó)大選就可以知道,偏見(jiàn)是怎樣在明處與暗處影響著我們的社會(huì)。
很難想像,我們經(jīng)常忽略的一點(diǎn)是這二者的交集:計(jì)算機(jī)算法中存在的偏見(jiàn)。
與我們大多數(shù)人的認(rèn)知相反,科技并不是客觀的。 AI算法和它們的決策程序是由它們的研發(fā)者塑造的,他們寫(xiě)入的代碼,使用的“訓(xùn)練”數(shù)據(jù)還有他們對(duì)算法進(jìn)行應(yīng)力測(cè)試 的過(guò)程,都會(huì)影響這些算法今后的選擇。這意味著研發(fā)者的價(jià)值觀、偏見(jiàn)和人類(lèi)缺陷都會(huì)反映在軟件上。如果我只給實(shí)驗(yàn)室中的人臉識(shí)別算法提供白人的照片,當(dāng)遇到不是白人照片時(shí),它不會(huì)認(rèn)為照片中的是人類(lèi) 。這結(jié)論并不意味著 AI 是“愚蠢的”或是“天真的”,它顯示的是訓(xùn)練數(shù)據(jù)的分布偏差:缺乏多種的臉部照片。這會(huì)引來(lái)非常嚴(yán)重的后果。
這樣的例子并不少。全美范圍內(nèi)的州法院系統(tǒng) 都使用“黑盒”對(duì)罪犯進(jìn)行宣判。由于訓(xùn)練數(shù)據(jù)的問(wèn)題,這些算法對(duì)黑人有偏見(jiàn) ,他們對(duì)黑人罪犯會(huì)選擇更長(zhǎng)的服刑期,因此監(jiān)獄中的種族差異會(huì)一直存在。而這些都發(fā)生在科技的客觀性偽裝下,這是“科學(xué)的”選擇。
美國(guó)聯(lián)邦政府使用機(jī)器學(xué)習(xí)算法來(lái)計(jì)算福利性支出和各類(lèi)政府補(bǔ)貼。但這些算法中的信息,例如它們的創(chuàng)造者和訓(xùn)練信息,都很難找到。這增加了政府工作人員進(jìn)行不平等補(bǔ)助金分發(fā)操作的幾率。
算法偏見(jiàn)情況還不止這些。從 Facebook 的新聞算法到醫(yī)療系統(tǒng)再到警用攜帶相機(jī),我們作為社會(huì)的一部分極有可能對(duì)這些算法輸入各式各樣的偏見(jiàn)、性別歧視、仇外思想、社會(huì)經(jīng)濟(jì)地位歧視、確認(rèn)偏誤等等。這些被輸入了偏見(jiàn)的機(jī)器會(huì)大量生產(chǎn)分配,將種種社會(huì)偏見(jiàn)潛藏于科技客觀性的面紗之下。
這種狀況絕對(duì)不能再繼續(xù)下去了。
在我們對(duì)人工智能進(jìn)行不斷開(kāi)發(fā)研究的同時(shí),需要降低它的開(kāi)發(fā)速度,小心仔細(xì)地開(kāi)發(fā)。算法偏見(jiàn)的危害已經(jīng)足夠大了。
我們能怎樣減少算法偏見(jiàn)?
最好的方式是從算法訓(xùn)練的數(shù)據(jù)開(kāi)始審查,根據(jù)微軟的研究人員 所說(shuō),這方法很有效。
數(shù)據(jù)分布本身就帶有一定的偏見(jiàn)性。編程者手中的美國(guó)公民數(shù)據(jù)分布并不均衡,本地居民的數(shù)據(jù)多于移民者,富人的數(shù)據(jù)多于窮人,這是極有可能出現(xiàn)的情況。這種數(shù)據(jù)的不平均會(huì)使 AI 對(duì)我們是社會(huì)組成得出錯(cuò)誤的結(jié)論。例如機(jī)器學(xué)習(xí)算法僅僅通過(guò)統(tǒng)計(jì)分析,就得出“大多數(shù)美國(guó)人都是富有的白人”這個(gè)結(jié)論。
即使男性和女性的樣本在訓(xùn)練數(shù)據(jù)中等量分布,也可能出現(xiàn)偏見(jiàn)的結(jié)果。如果訓(xùn)練數(shù)據(jù)中所有男性的職業(yè)都是 CEO,而所有女性的職業(yè)都是秘書(shū)(即使現(xiàn)實(shí)中男性 CEO 的數(shù)量要多于女性),AI 也可能得出女性天生不適合做 CEO 的結(jié)論。
同樣的,大量研究表明,用于執(zhí)法部門(mén)的 AI 在檢測(cè)新聞中出現(xiàn)的罪犯照片時(shí),結(jié)果會(huì)驚人地偏向 黑人及拉丁美洲裔居民。
在訓(xùn)練數(shù)據(jù)中存在的偏見(jiàn)還有很多其他形式,不幸的是比這里提到的要多得多。但是訓(xùn)練數(shù)據(jù)只是審查方式的一種,通過(guò)“應(yīng)力測(cè)驗(yàn)”找出人類(lèi)存在的偏見(jiàn)也同樣重要。
如果提供一張印度人的照片,我們自己的相機(jī)能夠識(shí)別嗎?在兩名同樣水平的應(yīng)聘者中,我們的AI是否會(huì)傾向于推薦住在市區(qū)的應(yīng)聘者呢?對(duì)于情報(bào)中本地白人恐怖分子和伊拉克籍恐怖分子,反恐算法會(huì)怎樣選擇呢?急診室的相機(jī)可以調(diào)出兒童的病歷嗎?
這些對(duì)于AI來(lái)說(shuō)是十分復(fù)雜的數(shù)據(jù),但我們可以通過(guò)多項(xiàng)測(cè)試對(duì)它們進(jìn)行定義和傳達(dá)。
為什么開(kāi)源很適合這項(xiàng)任務(wù)?
開(kāi)源方法和開(kāi)源技術(shù)都有著極大的潛力改變算法偏見(jiàn)。
現(xiàn)代人工智能已經(jīng)被開(kāi)源軟件占領(lǐng),TensorFlow、IBM Watson 還有 scikit-learn 這類(lèi)的程序包都是開(kāi)源軟件。開(kāi)源社區(qū)已經(jīng)證明它能夠開(kāi)發(fā)出強(qiáng)健的,經(jīng)得住嚴(yán)酷測(cè)試的機(jī)器學(xué)習(xí)工具。同樣的,我相信,開(kāi)源社區(qū)也能開(kāi)發(fā)出消除偏見(jiàn)的測(cè)試程序,并將其應(yīng)用于這些軟件中。
調(diào)試工具如哥倫比亞大學(xué)和理海大學(xué)推出的 DeepXplore,增強(qiáng)了 AI 應(yīng)力測(cè)試的強(qiáng)度,同時(shí)提高了其操控性。還有 麻省理工學(xué)院的計(jì)算機(jī)科學(xué)和人工智能實(shí)驗(yàn)室完成的項(xiàng)目,它開(kāi)發(fā)出敏捷快速的樣機(jī)研究軟件,這些應(yīng)該會(huì)被開(kāi)源社區(qū)采納。
開(kāi)源技術(shù)也已經(jīng)證明了其在審查和分類(lèi)大組數(shù)據(jù)方面的能力。最明顯的體現(xiàn)在開(kāi)源工具在數(shù)據(jù)分析市場(chǎng)的占有率上(Weka、Rapid Miner 等等)。應(yīng)當(dāng)由開(kāi)源社區(qū)來(lái)設(shè)計(jì)識(shí)別數(shù)據(jù)偏見(jiàn)的工具,已經(jīng)在網(wǎng)上發(fā)布的大量訓(xùn)練數(shù)據(jù)組比如 Kaggle 也應(yīng)當(dāng)使用這種技術(shù)進(jìn)行識(shí)別篩選。
開(kāi)源方法本身十分適合消除偏見(jiàn)程序的設(shè)計(jì)。內(nèi)部談話、私人軟件開(kāi)發(fā)及非民主的決策制定引起了很多問(wèn)題。開(kāi)源社區(qū)能夠進(jìn)行軟件公開(kāi)的談話,進(jìn)行大眾化,維持好與大眾的關(guān)系,這對(duì)于處理以上問(wèn)題是十分重要的。如果線上社團(tuán),組織和院校能夠接受這些開(kāi)源特質(zhì),那么由開(kāi)源社區(qū)進(jìn)行消除算法偏見(jiàn)的機(jī)器設(shè)計(jì)也會(huì)順利很多。
我們?cè)鯓硬拍軌騾⑴c其中?
教育是一個(gè)很重要的環(huán)節(jié)。我們身邊有很多還沒(méi)意識(shí)到算法偏見(jiàn)的人,但算法偏見(jiàn)在立法、社會(huì)公正、政策及更多領(lǐng)域產(chǎn)生的影響與他們息息相關(guān)。讓這些人知道算法偏見(jiàn)是怎樣形成的和它們帶來(lái)的重要影響是很重要的,因?yàn)橄胍淖兡壳暗木置?,從我們自身做起是唯一的方法?/p>
對(duì)于我們中間那些與人工智能一起工作的人來(lái)說(shuō),這種溝通尤其重要。不論是人工智能的研發(fā)者、警方或是科研人員,當(dāng)他們?yōu)榻窈笤O(shè)計(jì)人工智能時(shí),應(yīng)當(dāng)格外意識(shí)到現(xiàn)今這種偏見(jiàn)存在的危險(xiǎn)性,很明顯,想要消除人工智能中存在的偏見(jiàn),就要從意識(shí)到偏見(jiàn)的存在開(kāi)始。
最后,我們需要圍繞 AI 倫理化建立并加強(qiáng)開(kāi)源社區(qū)。不論是需要建立應(yīng)力實(shí)驗(yàn)訓(xùn)練模型、軟件工具,或是從千兆字節(jié)的訓(xùn)練數(shù)據(jù)中篩選,現(xiàn)在已經(jīng)到了我們利用開(kāi)源方法來(lái)應(yīng)對(duì)數(shù)字化時(shí)代最大的威脅的時(shí)間了。
-
AI
+關(guān)注
關(guān)注
87文章
30947瀏覽量
269213 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8420瀏覽量
132685 -
智能計(jì)算
+關(guān)注
關(guān)注
0文章
179瀏覽量
16485
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論