不可預(yù)測性、不可解釋性和不可理解性
介紹
AI 研究人員開始確定工程 AI 安全的主要挑戰(zhàn),例如解決價值對齊問題作為過去 60 年 AI 失敗的主要原因。另一個暴露的現(xiàn)實是:機(jī)器越智能,人類就越無法預(yù)測、解釋和理解其影響。
不可預(yù)測性
人工智能的不可預(yù)測性是指我們無法準(zhǔn)確、一致地預(yù)測系統(tǒng)將用于實現(xiàn)其目標(biāo)的具體行動。如果我們想象一場智能國際象棋比賽,我們可以預(yù)測 AI 會贏——如果這是它的目標(biāo)——但我們無法預(yù)測它為實現(xiàn)目標(biāo)會采取的確切動作。這種情況下的后果并不顯著,但不可預(yù)測性隨著目標(biāo)的智能和復(fù)雜性的增加而增加。如第 2 部分所述,假設(shè) AI 的任務(wù)是治愈癌癥;從理論上講,它可以通過消滅人類來做到這一點(diǎn)。
這些臨時步驟取決于幾個因素,包括 AI 在整個過程中的交互。第 3 部分中介紹的 Microsoft 的 Tay(bot)開始根據(jù)與在線人的互動用不恰當(dāng)?shù)脑u論激怒他人。更重要的是,低智能系統(tǒng)無法學(xué)會預(yù)測高智能系統(tǒng)做出的決定。盡管高級人工智能可以將所有可能的選擇、決策或策略理論化,但人類沒有這種能力。對于在某個領(lǐng)域比人類具有更高智能的狹窄系統(tǒng),情況可能類似,即使該系統(tǒng)總體上能力較差。
無法解釋
無法解釋指的是不可能以既可理解又準(zhǔn)確的方式解釋智能系統(tǒng)做出的決定。例如,用于批準(zhǔn)或拒絕抵押貸款的人工智能可能會使用數(shù)百萬甚至數(shù)十億個加權(quán)因素來做出決定。但當(dāng)申請人被拒絕時,解釋會指出一兩個因素,例如“信用不良”或“薪水不足”。然而,這種解釋充其量只是對如何做出決定的簡化。這類似于糟糕的圖像壓縮,其中數(shù)據(jù)在縮小過程中丟失,即使生成的圖像在很大程度上代表了原始圖像。以類似的方式,解釋抵押貸款拒絕是基于“不良信用”而忽略了其他因素可能產(chǎn)生的影響。由此產(chǎn)生的解釋是不完整的,因此不是 100% 準(zhǔn)確。
其他因素是否一定需要解釋?他們可以。例如,在美國,涉及貸款、住房、醫(yī)療保健等的決策不能基于受保護(hù)的階層。用于批準(zhǔn)或拒絕抵押貸款的人工智能不能在決策過程中使用年齡或性別等因素,但這些數(shù)據(jù)可以成為因素。例如,如果抵押貸款公司歷來拒絕向居住在舊金山且沒有大學(xué)學(xué)位的 18-25 歲拉丁裔女性提供貸款,人工智能可能會了解到符合這些標(biāo)準(zhǔn)的申請人拖欠貸款的風(fēng)險更高,無論是否有其他有利條件標(biāo)準(zhǔn)。在這里,不可預(yù)測性也會出現(xiàn),但這是一個很好的例子,說明為什么能夠準(zhǔn)確、完整地解釋決策很重要。
不可理解
如果抵押貸款拒絕得到完整和準(zhǔn)確的解釋,解釋是否可以理解?可理解性在某種程度上是相對于個人的;擁有金融學(xué)位或在抵押貸款行業(yè)擁有多年經(jīng)驗的人會比沒有類似領(lǐng)域智慧的人更(或更容易)理解準(zhǔn)確和完整的解釋。也就是說,考慮到一百萬個不同加權(quán)因素的系統(tǒng)的詳細(xì)響應(yīng)對于人類來說是不可理解的,因為我們沒有存儲容量、內(nèi)存和理解那么多相互關(guān)聯(lián)的變量的能力。
對安全人工智能的影響
不可預(yù)測性、不可解釋性和不可理解性使得實現(xiàn) 100% 安全的 AI 變得不可能,因為即使是既定的標(biāo)準(zhǔn)、法律和工具也無法適當(dāng)?shù)毓膭罨蜃柚共槐匾挠绊憽<词刮覀兡軌蝾A(yù)測 AI 行為,我們也無法在不限制智能或系統(tǒng)價值的情況下有效地控制行為。當(dāng)然,評估和調(diào)試 AI 故障需要易于理解的解釋,隨著機(jī)器智能的增加,這種解釋變得越來越不可能。接下來,第 5 部分探討了 AI 安全將如何影響工程領(lǐng)域。
審核編輯hhy
-
AI
+關(guān)注
關(guān)注
87文章
30947瀏覽量
269217 -
人工智能
+關(guān)注
關(guān)注
1791文章
47314瀏覽量
238653
發(fā)布評論請先 登錄
相關(guān)推薦
評論