隨著人工智能(AI) 技術(shù)和應(yīng)用的普及,人們對于AI的認識不再只是一種智能機器。近日,麻省理工的研究團隊構(gòu)建了一個有精神病傾向的AI智能體,它表現(xiàn)得就像我們?nèi)祟愐粯?,有著自己情感和人格。通常,我們只能在一些科幻作品中看到這種人工智能體,也見識過人工智能失控的可怕場景,在現(xiàn)實中我們該如何應(yīng)對并解決可能出現(xiàn)的智能體失控問題呢。
近日,堪薩斯州立大學的研究人員從精神病理學的角度回答了這個問題。他們稱之為“人格障礙治療”:通過矯正訓練來試圖改變?nèi)祟惖男袨槟J?;通過藥物療法操縱外部的獎勵信號以從根本上改變AI智能體的行為方式。該研究主要分為三步驟進行,具體來看他們的論文:
▌?wù)?/p>
由于人工智能( AI )技術(shù)的動態(tài)復(fù)雜性已經(jīng)逐漸接近那些復(fù)雜的自適應(yīng)系統(tǒng),因此這一定程度上削弱了AI在安全性工程領(lǐng)域的可行性、可控性和可達性。由此可見,對于通用人工智能( AGI )的實例設(shè)想也將同樣面臨這種復(fù)雜性的挑戰(zhàn)。為了解決這些問題,我們將AI和AGI中的不良行為視為心理障礙,通過建模的方式,從精神病理學的角度分析并控制這些不良行為。相應(yīng)地,我們進一步討論了這種精神病理學方法在AI、AGI安全工程方面的可行性,并為AGI中心理疾病的研究建模,診斷和治療提供了一種通用的方法。
▌簡介
雖然人類認知的自適應(yīng)機制為其適應(yīng)動態(tài)環(huán)境提供了獨特的手段,但是這也容易產(chǎn)生心理紊亂問題,這是一種被廣泛定義為對自我或社會生態(tài)系統(tǒng)的核心和長期目標會產(chǎn)生危害的自我重構(gòu)行為。根據(jù)這一現(xiàn)象不難推斷,具有類似認知能力的通用人工智能( AGI )實例也可能容易引發(fā)這種疾病。例如,某些目標功能和環(huán)境條件在重復(fù)的高回報獎勵策略下,可能會導(dǎo)致強化學習( RL )的代理得以發(fā)展一些成癮的行為,這違反了代理長期的目標策略。此類突發(fā)性疾病的其他情況還包括創(chuàng)傷后行為,抑郁癥和精神病等。
目前對于人工智能(AI)安全研究主要集中在安全意識設(shè)計及其緩解技術(shù),但隨著AI、AGI復(fù)雜性的不斷擴大,將使得這種疾病分析會像生物智能分析一樣困難。要解決人類智能方面的難題,我們需要從神經(jīng)科學、認知科學再到心理學,精神病學,社會學和犯罪學等各種抽象層面,去研究不良行為的原因和動態(tài)。本文,我們建議使用精神病理學的方法來研究AI和AGI中的疾病問題,提供其中的技術(shù)討論和動機,并建立二者之間的并行性。
▌精神病理學
精神病理學是指對精神障礙的起因及其相關(guān)治療手段的科學研究。在這種背景下,引用美國精神病學協(xié)會( APA )對精神障礙的定義:精神障礙是一種在“心理學”與痛苦,殘疾相關(guān)的心理綜合癥,它可能會增加相關(guān)的綜合癥或模式死亡風險或重大自治權(quán)喪失(如追求目標)的幾率。在精神病理學中,精神障礙通常由四種異常指標所決定,被稱為四個Ds:行為和情感的偏離規(guī)范,由疾病引發(fā)的個體痛苦、損害個體正常功能的機體障礙或機能失調(diào),以及個人對自身或社會的危險。
導(dǎo)致人類精神出現(xiàn)障礙的原因,包括遺傳的混合物(如神經(jīng)質(zhì)),父母虐待行為對個體發(fā)育的影響,社會影響(如虐待,欺凌行為)和創(chuàng)傷事件,以及一些生物學影響(如創(chuàng)傷性腦損傷和感染)等。
目前,人們普遍認為,理解心理障礙需要全面考慮生物和社會因素的影響,因此生物心理社會學模型通常被用來研究這種現(xiàn)象。這些模型將精神障礙廣泛地分為認知障礙或行為障礙。認知障礙是由潛在認知機制所引發(fā)的的異常功能引,而行為障礙是通過發(fā)展,環(huán)境和社會互動所學到的。
精神障礙的診斷通?;趯ΠY狀及構(gòu)成各種疾病類型障礙的評估。一個用于全面評估精神障礙的框架是由美國精神病學家出版協(xié)會( APA )發(fā)布的診斷和統(tǒng)計精神疾病手冊( DSM )。本手冊提供了通用語言和標準的精神障礙分類標準。此外,最近隨著機器學習的進展,各種軟件和算法工具也被研發(fā)并用于幫助提高精神障礙的分類和診斷準確性。
此外,精神障礙的治療通常是一種或兩種方法的混合。一種是心理治療,這是通過一系列心理學技巧進行認為干預(yù)的一種形式。藥物治療是另一種針對性的方法,還可以二者的混合來治療精神障礙。
▌精神病理學與AI安全性
圖1 AI和AGI與精神病理學的關(guān)系
如上圖1所示,我們建立精神病理學與AI、AGI之間的關(guān)系,并從建模與驗證,診斷,及治療三個主要領(lǐng)域進行研究。
建模與驗證
考慮到人類精神病理學與AI之間存在可描述的相似性,為了打開AI安全性研究的大門,我們需要以一種工程的方式,建立數(shù)學模型,研究并驗證其中的相似性。在認知和醫(yī)學科學領(lǐng)域已存在一些精神障礙的動力學模型,在這里我們對這些疾病進行定量分析和探索,并基于神經(jīng)經(jīng)濟學,復(fù)雜適應(yīng)系統(tǒng),控制理論和動態(tài)數(shù)據(jù)驅(qū)動的范例,開發(fā)新的AI和AGI模型。
此外,為了驗證模型并確保隨后理論的正確性,我們還需要開發(fā)實驗框架和仿真平臺。在任意的、獨立的上下文情景中,這些平臺必須能夠提供廣泛實驗的手段,對出現(xiàn)的動態(tài)行為和認知疾病進行分析,并且還能夠兼容各種不同的代理和環(huán)境模型。
疾病的診斷與分類
這部分主要是用于研究并開發(fā)人工智能障礙得診斷技術(shù)。在人工智能安全工程的背景下,診斷指的是兩個相互關(guān)聯(lián)的任務(wù):第一個是異常行為的檢測,第二個是對檢測到的異常行為進行分類治療。因此,我們需要開發(fā)相應(yīng)的機器學習方法來診斷并對疾病進行分類處理。
此外,在仿真訓練相關(guān)疾病和注釋情景下,我們還可以從模型中學習到不良行為的通用指標。一旦模型檢測到錯誤行為,下一步就是進行特征化并對導(dǎo)致這種行為的疾病進行分類。然而,這個過程的先決條件是需要一系列不同的疾病和相應(yīng)的診斷標準。因此,我們還需要匯編一些有代表性和經(jīng)過實驗驗證的疾病。
疾病治療
當AI代理診斷出疾病時,簡單地停用或重置代理的做法并不總是可行的。在這種情況下,我們希望代理能夠傾向于通過最小破壞性的技術(shù)去治療糾正錯誤的行為,同時保留代理所學到的有用特征。這樣的治療需要滿足一些具有挑戰(zhàn)性的要求。
高級的AI代理通常都是很復(fù)雜的自適應(yīng)系統(tǒng),因此可能其中一個組件的微小擾動可能都會導(dǎo)致局部或整體產(chǎn)生意想不到的后果。因此,有效的治療手段必須是完全微創(chuàng)或非侵入性。受精神病理學相似性的啟發(fā),我們提出了兩種一般方法治療疾病。一種是矯正訓練,這是采用行為療法的一種方式。
這種方法是需要在特定的環(huán)境或情境下重新訓練我們的代理,以便通過新的學習經(jīng)驗去糾正或緩解有害的行為。第二種方法與藥物治療類似,AI代理的獎勵信號是通過外部手段人為地操縱并調(diào)整它們的行為策略。
▌結(jié)論
當前對于AI安全性的研究主要側(cè)重于設(shè)計和緩解問題,AI和AGI的復(fù)雜性將使得這種分析變得困難。考慮到診斷并治療AI、AGI中實際目標的不良行為,我們提出采用精神病理學的方法研究AI、AGI的安全性工程。
我們依次介紹了AI、AGI安全性工程,分析了人類疾病與精神病理學之間的相似之處,并建立精神病理學與AI、AGI安全性之間的關(guān)系,提出了包括建模與驗證、診斷與分類,及疾病治療的三步驟方案,打開了安全性工程的研究大門。我們希望本文的研究能夠為未來的研究和發(fā)展奠定堅實的基礎(chǔ)。
-
人工智能
+關(guān)注
關(guān)注
1793文章
47567瀏覽量
239441 -
智能體
+關(guān)注
關(guān)注
1文章
163瀏覽量
10600
原文標題:應(yīng)對AI失控,研究人員提出用“人格障礙治療”解決問題
文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論