0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

OpenAI的研究人員提出了一種全新的AI安全策略——迭代放大法

nlfO_thejiangme ? 來源:未知 ? 作者:李倩 ? 2018-10-26 10:52 ? 次閱讀

近日,OpenAI的研究人員提出了一種全新的AI安全策略——迭代放大法(iterated amplification),通過描述如何將一個復雜的任務分解成簡單的子任務而不是提供標簽數據或獎勵函數,實現了對于復雜行為和目標的描述。雖然這一方法還處于比較初級的階段,但研究人員認為這種方法將為AI安全提供一種大規(guī)模的實現手段。

如果我們想要訓練一個機器學習模型完成特定的任務,我們一定需要訓練信號來評價模型的表現并幫助模型不斷學習和改進。例如監(jiān)督學習中的標簽和強化學習中的獎勵函數就是訓練訊號。機器學習體系中的一個重要假設就是這些訊號已經存在,并且算法可以按照它來學習。但實際情況是訓練信號可能來自于不知道的某個地方。如果我們沒有訓練信號就意味著我們沒有辦法學習。如果我們得到的是錯誤信號,那么算法可能會得到無意識的甚至危險的結果。所以對于新的任務和AI安全來說,提高得到訓練訊號的能力是十分必要且極具價值的。

那么讓我們看看目前是怎么獲取訓練信號的呢?有時候我們可以利用算法得到,比如在圍棋游戲中可以通過計數評分得到信號。不過大多數真實世界的任務并沒有一個數學形式表達的信號,但通常我們可以人工的手段來獲取訓練信號。但實際情況是,很多復雜的任務已經遠遠超過了人類的認知能力,我們沒辦法判斷模型的輸出是否正確,例如設計一個復雜的運輸系統(tǒng)或者管理龐大計算機網絡安全細節(jié)的管理系統(tǒng)這樣的任務,或者是預測全球長期氣候趨勢這種復雜的任務。

需要不同訓練信號的問題,訓練序號可以來自表達式評價、人類反饋,但有的任務超出了人類的能力。

本文提出的迭代放大,是一種在確定性假設下為后續(xù)任務生成訓練假設的方法。實際上,雖然人類不能在全局上直接把握復雜的問題,但我們可以假設人類可以有效的評估復雜任務中的一小塊任務是否符合要求。例如在計算機網絡安全的例子中,人們可以將“防御一系列針對于服務器和路由器的攻擊”分解為“針對服務器的攻擊”和“針對路由的攻擊”以及“兩個攻擊間可能的相關性”。此外,我們還可以假設,人類可以承擔很少的一部分任務,例如“識別出日志中的一行可疑記錄”。如果人類的分解任務能力和分擔任務能力得以落實,這兩項假設得以成立,那我們就可以為一項龐大的任務建立訓練信號,這些訊號來自于人類針對分解任務訊號的組合。

迭代放大的機制

研究人員在實際訓練放大的過程中,首先訓練AI系統(tǒng)從一個很小的子任務開始學習,通過尋求人類的幫助(標簽/獎勵信號)來學會解決這一子問題。隨后讓系統(tǒng)學習一個稍大的問題,這時候需要人類將較大的任務進行分解,AI系統(tǒng)依靠上一步的學習來解決這些問題。研究人員將這種解決方案用于那些稍微困難的問題,在這些問題中系統(tǒng)從人類處得到訓練信號,來直接訓練二級任務(此時無需人類幫助)。

隨著訓練的進行,研究人員繼續(xù)為AI提供更為復雜的復合任務,不斷構建出訓練信號。如果這個過程得以完成,AI系統(tǒng)將學會解決高度復雜的問題,盡管這個系統(tǒng)一開始沒有從任務中獲得直接的訓練信號。

這一過程在一定程度上與AlphaGo Zero專家迭代過程很像,不過個專家迭代在強化現存的訓練信號,而迭代放大則從零開始構建訓練信號。它也和最近的一些問題分解的算法很像,但區(qū)別在于它可以用于沒有先前訓練信號的問題。

實 驗

先前的實驗表明,直接用AI系統(tǒng)解決超越人類能力的問題十分困難,同時利用人類作為訓練信號也會引入復雜性。所以研究人員的第一個實驗在于嘗試放大了算法的訓練信號,來驗證這種方法可以在簡單任務的有效性。同時也限制了對于監(jiān)督學習的注意力。研究人員在5個示例算法任務上進行了嘗試。這五個算法示例都有具體的數學表達,但研究人員先排除算法信號,了利用一步步從簡單到復雜的方法從零開始解決。利用迭代放大的方法,從一些不直接的子任務中間接學習出訓練信號。

在五個任務中(排列、序列賦值、通配符匹配、最短路徑、查找并集),新的方法可以與表達式方法獲得同等甚至更好的效果。

在沒有l(wèi)abel的情況下迭代放大法獲得了與監(jiān)督學習相同甚至更好的結果

放大法在尋求解決那些超越人類直接認知和能力的問題,通過迭代的過程使得人類可以提供間接的監(jiān)督信號。這項工作同時也建立在人類反饋的基礎上,通過實現獎勵預測系統(tǒng),接下來的版本將會包含來自于真實人類的反饋。目前研究人員僅僅在探索的初級階段,隨著研究的深入和規(guī)模的擴大將會為很多復雜的問題帶來新的可能。

人類反饋

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    87

    文章

    33377

    瀏覽量

    273858
  • 函數
    +關注

    關注

    3

    文章

    4363

    瀏覽量

    63724
  • 機器學習
    +關注

    關注

    66

    文章

    8477

    瀏覽量

    133782

原文標題:OpenAI提出全新AI安全策略—迭代放大法,助力機器實現復雜目標學習

文章出處:【微信號:thejiangmen,微信公眾號:將門創(chuàng)投】歡迎添加關注!文章轉載請注明出處。

收藏 0人收藏

    評論

    相關推薦

    ZigBee接入EPA網絡的安全策略

    ZigBee接入EPA網絡的安全策略針對ZigBee技術的特點,結合EPA控制網絡的安全規(guī)范與工業(yè)現場實際應用的需要,提出ZigBee接入EPA網絡的安全策略與基于
    發(fā)表于 03-19 16:47

    一種參數自調節(jié)優(yōu)化控制策略

    2019年第1期《電工技術學報》上撰文,針對虛擬同步發(fā)電機(VSG)雙機并聯系統(tǒng)在采用固定的轉動慣量及阻尼系數時無法兼顧有功功率振蕩和頻率波動的問題,該文提出一種參數自調節(jié)優(yōu)化控制策略。首先,...
    發(fā)表于 09-03 07:50

    一種參數自調節(jié)優(yōu)化控制策略

    和頻率波動的問題,該文提出一種參數自調節(jié)優(yōu)化控制策略。首先,建立VSG雙機并聯系統(tǒng)的小信號模型,分析轉動慣量及阻尼系數對輸出有功特性的影響;其次,在滿足系統(tǒng)動穩(wěn)態(tài)性能的轉動慣量及阻尼系數限定取值范圍內,根據...
    發(fā)表于 09-09 09:08

    基于多維整數空間的安全策略沖突檢測與消解

    針對當前大部分安全策略沖突檢測與消解算法缺少靈活性和擴展性等缺點,提出一種基于多維整數空間的安全策略形式化描述方法,在此基礎上設計了一種可擴
    發(fā)表于 03-24 08:49 ?13次下載

    基于有向圖模型的網絡安全策略沖突研究

    保證安全策略的協(xié)同工作和致性是實現分布式系統(tǒng)安全管理需要首先解決的問題。本文提出了一種可適應的安全策略
    發(fā)表于 01-27 15:12 ?11次下載

    一種基于群組的無線傳感器網絡安全策略_師鳴若

    一種基于群組的無線傳感器網絡安全策略_師鳴若
    發(fā)表于 03-19 11:46 ?0次下載

    基于可信計算的多級安全策略TCBMLSP分析

    個重要方面是安全訪問控制策略的建立,其中具有代表性的是BLP、BIBA策略模型。 針對現有安全策略模型BLP與BIBA結合應用存在可用性
    發(fā)表于 11-09 17:01 ?4次下載
    基于可信計算的多級<b class='flag-5'>安全策略</b>TCBMLSP分析

    云計算環(huán)境的多域安全策略驗證管理技術

    為了有效管理云系統(tǒng)間跨域互操作中安全策略的實施,提出一種適用于云計算環(huán)境的多域安全策略驗證管理技術。首先,研究
    發(fā)表于 12-15 13:46 ?0次下載
    云計算環(huán)境的多域<b class='flag-5'>安全策略</b>驗證管理技術

    研究人員提出了一種柔性可拉伸擴展的多功能集成傳感器陣列

    研究人員提出了一種柔性可拉伸擴展的多功能集成傳感器陣列,成功將電子皮膚的探測能力擴展到7,實現溫度、濕度、紫外光、磁、應變、壓力和接近等多種外界刺激的實時同步監(jiān)測。
    的頭像 發(fā)表于 01-24 15:15 ?7460次閱讀
    <b class='flag-5'>研究人員</b><b class='flag-5'>提出了</b><b class='flag-5'>一種</b>柔性可拉伸擴展的多功能集成傳感器陣列

    OpenAI提出了一種回報設置方法RND

    在開發(fā)RND之前,OpenAI研究人員和加州大學伯克利分校的學者進行了合作,他們測試了在沒有環(huán)境特定回報的情況下,智能體的學習情況。因為從理論上來說,好奇心提供了一種更簡單的方法來教授智能體如何與各種環(huán)境進行交互,它不需要人為
    的頭像 發(fā)表于 11-05 15:15 ?3346次閱讀

    以色列研究人員開發(fā)出了一種能夠識別不同刺激的新型傳感系統(tǒng)

    據麥姆斯咨詢報道,海法以色列理工學院的研究人員開發(fā)出了一種能夠識別并區(qū)分不同刺激的創(chuàng)新型傳感系統(tǒng)。該系統(tǒng)基于折紙藝術,結合了以色列理工學院開發(fā)的智能墨水材料。
    發(fā)表于 05-21 08:45 ?982次閱讀

    研究人員出了一種新的基于深度學習的策略

    蘇黎世聯邦理工學院的研究人員最近推出了一種新的基于深度學習的策略,該策略可以在不需要大量真實數據的情況下在機器人中實現觸覺傳感。在arXiv
    的頭像 發(fā)表于 03-26 15:47 ?2762次閱讀

    中美研究人員合作開發(fā)出了一種可以預測新冠肺炎病情的AI工具

    中美兩國研究人員合作,開發(fā)出一種實驗性AI工具,可以準確預測哪些新冠肺炎(COVID-19)患者的病情會發(fā)展成嚴重的呼吸系統(tǒng)疾病。
    發(fā)表于 04-01 14:30 ?681次閱讀

    研究人員發(fā)現一種可在水中產生納米氣泡的新方法

    都柏林大學(UCD)的研究人員發(fā)現了一種新的節(jié)能方法,該方法可以在水中產生和釋放大量亞穩(wěn)的納米級氣泡,超過自然溶解度水平。
    的頭像 發(fā)表于 04-09 17:13 ?7269次閱讀

    MIT研究人員提出了一種制造軟氣動執(zhí)行器的新方法

    麻省理工學院 (MIT) 的研究人員創(chuàng)造了一種新的制造技術,可以制造出更具成本效益的軟氣動執(zhí)行器。
    的頭像 發(fā)表于 05-06 16:38 ?1830次閱讀
    MIT<b class='flag-5'>研究人員</b><b class='flag-5'>提出了</b><b class='flag-5'>一種</b>制造軟氣動執(zhí)行器的新方法

    電子發(fā)燒友

    中國電子工程師最喜歡的網站

    • 2931785位工程師會員交流學習
    • 獲取您個性化的科技前沿技術信息
    • 參加活動獲取豐厚的禮品