0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

“公開代碼”再次成為焦點,這次你站在哪一邊?

DPVg_AI_era ? 來源:lq ? 2019-02-18 09:09 ? 次閱讀

OpenAI擔(dān)心其NLP模型“過于強(qiáng)大”或遭濫用而不公開代碼及模型的做法似乎引發(fā)眾怒。今天外網(wǎng)AI圈幾乎全是對OpenAI的批評及嘲諷,盡管微弱的支援聲夾雜其中。“公開代碼”再次成為焦點,這次你站在哪一邊?

OpenAI火了,雖然并非以他們希望的方式。

昨天,OpenAI在官博宣布,他們構(gòu)建了一個強(qiáng)大的NLP模型,但正因為這個模型過于強(qiáng)大,能夠生成以假亂真的句子,為了避免其遭到濫用,他們決定不公開模型的具體結(jié)構(gòu)和代碼 (而僅發(fā)布了一個小很多的樣例)。

“大型的通用語言模型可能會產(chǎn)生重大的社會影響,”O(jiān)penAI的官博這樣寫道,他們的這個模型現(xiàn)在公布出來,“可能被用于生成假新聞、在線假裝某人的身份、在社交媒體上發(fā)布虛假內(nèi)容或故意誤導(dǎo)言論,以及自動生成垃圾郵件/網(wǎng)絡(luò)釣魚內(nèi)容”。

OpenAI還援引了DeepFake,這是計算機(jī)視覺界一個臭名昭著的例子,DeepFake由于其強(qiáng)大的圖像生成能力,成了一個“假臉生成器/換臉器”,制造出大量惡意的虛假視頻、音頻和圖像而被禁用。

OpenAI還在博客中寫了對相關(guān)政策的討論,包括確保AI研究安全可靠,符合倫理道德標(biāo)準(zhǔn)。但沒想到的是,良苦的用心,卻遭到網(wǎng)友幾乎一邊倒的批評和譏諷。

OpenAI干脆改名“CloseAI”算了!

我也做了個超強(qiáng)大的MNIST模型,要不要擔(dān)心它被濫用而不公開呢?

更有甚者,比如下面這位Ben Recht,還發(fā)了一條Twitter長文進(jìn)行嘲諷:

今天我要介紹我們的論文“Do ImageNet Classifiers Generalize to ImageNet?”我們嘗試按照原論文描述復(fù)現(xiàn)其結(jié)果,但發(fā)現(xiàn)這樣做實在太難!

……我們完全可以基于一個不能公開的數(shù)據(jù)集構(gòu)建一個超大模型,在我們自己的標(biāo)準(zhǔn)ML范式中很難發(fā)生過擬合。

但是,測試集上的一個微小改動就會導(dǎo)致分布結(jié)果大幅變化,你可以想見把模型和代碼全都公布出來以后會發(fā)生什么!

PS 這篇論文還在arxiv等候?qū)徍税l(fā)布,要不是我們的最終版PDF過大,那就是因為arxiv也學(xué)著OpenAI的做法,覺得AI/ML研究太過危險而不能公開。

OpenAI:新NLP模型很強(qiáng)大,公布后可能遭濫用

從研究的角度來看,OpenAI昨天宣布的“強(qiáng)大”NLP模型GPT-2,技術(shù)突破性體現(xiàn)在兩個方面。首先,是模型的容量空前巨大。

根據(jù)OpenAI的研究主管Dario Amodei介紹,GPT-2的參數(shù)有15億,是上一個版本GPT大小的12倍,訓(xùn)練數(shù)據(jù)集則擴(kuò)大了15倍。

GPT-2在一個包含約1000萬篇文章的數(shù)據(jù)集上進(jìn)行訓(xùn)練,而這些文章來源是從Reddit上點贊超過三票的鏈接里爬出來的,大小是40GB,相當(dāng)于3.5萬本《白鯨記》(Moby Dick)。

實際上,GPT2就是一個自動文本生成器,但鑒于其訓(xùn)練數(shù)據(jù)量直接影響模型的性能,也使GPT2成為一個更加通用的語言生成模型,這也正是其第二個突破所在:相比以往的文本模型,GPT2能完成更多的任務(wù),包括機(jī)器翻譯、文本總結(jié),以及閱讀理解,而且有的時候,其性能還超過了專門為某種任務(wù)——比如閱讀理解——構(gòu)建的模型。

也正因如此,致使OpenAI違背其名稱中宣揚(yáng)的“Open”理念,不公開這個模型?!叭绻銦o法預(yù)測模型能夠做什么,你就不得不去做各種實驗,但這個世界上有太多太多比我們更聰明更厲害,更善于拿這個模型去做壞事的人存在。”

OpenAI宣傳主管Jack Clark在接受《衛(wèi)報》采訪時表示:“我們并不是說我們知道什么該做,我們也并不是在通過這種方法在表明這樣做就是對的,我們還在探討更嚴(yán)謹(jǐn)和謹(jǐn)慎的做法。我們算是摸著石頭過河?!?/p>

OpenAI給出了其模型強(qiáng)大的例子,可以參見昨天新智元的報道。

網(wǎng)友觀點:不公開代碼和訓(xùn)練集就干脆別發(fā)表!

至于持反對觀點的網(wǎng)友這邊,很多人恰恰是因為了解模型在訓(xùn)練集和測試集上表現(xiàn)的區(qū)別,才紛紛反對OpenAI不公開全部代碼和數(shù)據(jù)集的做法。

其次,OpenAI“擔(dān)心AI研究太危險而不公開”的理由,也成了眾矢之的。比如Denny Britz在Twitter上發(fā)文稱:

是不是又該舊話重提,“AI能自己生成語言,所以不能再研究AI了!”

去年,加拿大蒙特利爾大學(xué)的計算機(jī)科學(xué)家們希望展示一種新的語音識別算法,他們希望將其與一名著名科學(xué)家的算法進(jìn)行比較。唯一的問題:該benchmark的源代碼沒有發(fā)布。研究人員不得不從已公開發(fā)表的描述中重現(xiàn)這一算法。但是他們重現(xiàn)的版本無法與benchmark聲稱的性能相符。蒙特利爾大學(xué)實驗室博士生Nan Rosemary Ke說:“我們嘗試了2個月,但都無法接近基準(zhǔn)的性能?!?/p>

人工智能(AI)這個蓬勃發(fā)展的領(lǐng)域正面臨著實驗重現(xiàn)的危機(jī),就像實驗重現(xiàn)問題過去十年來一直困擾著心理學(xué)、醫(yī)學(xué)以及其他領(lǐng)域一樣。AI研究者發(fā)現(xiàn)他們很難重現(xiàn)許多關(guān)鍵的結(jié)果,這導(dǎo)致了對研究方法和出版協(xié)議的新認(rèn)識。法國國家信息與自動化研究所的計算神經(jīng)科學(xué)家Nicolas Rougier說:“這個領(lǐng)域以外的人可能會認(rèn)為,因為我們有代碼,所以重現(xiàn)性是有保證的。但完全不是這樣?!?/p>

AAAI 2018會議上,reproducibility問題被提上議程,一些團(tuán)隊對這個問題進(jìn)行了分析。挪威科技大學(xué)計算機(jī)科學(xué)家Odd Erik Gundersen報告了一項調(diào)查的結(jié)果,調(diào)查針對過去幾年在兩個AI頂會上發(fā)表的論文中提出的400種算法,結(jié)果只有6%的研究者分享了算法的代碼,只有三分之一的人分享了他們測試算法的數(shù)據(jù),而只有一半分享了“偽代碼”。

針對主要會議上發(fā)表的400篇AI論文的調(diào)查顯示,只有6%的論文包含算法的代碼,約30%包含測試數(shù)據(jù),54%包含偽代碼。

CREDITS: (GRAPHIC) E. HAND/SCIENCE; (DATA) GUNDERSEN AND KJENSMO, ASSOCIATION FOR THE ADVANCEMENT OF ARTIFICIAL INTELLIGENCE 2018

研究人員說,這些缺失的細(xì)節(jié)的原因有很多:代碼可能是一項正在進(jìn)行中的工作,所有權(quán)歸某一家公司,或被一名渴望在競爭中保持領(lǐng)先地位的研究人員緊緊掌握。代碼可能依賴于其他代碼,而其他代碼本身未發(fā)布?;蛘叽a可能只是丟失了,在丟失的磁盤上或被盜的筆記本電腦上——Rougier稱之為“我的狗吃了我的程序”問題。

假設(shè)你可以獲得并運(yùn)行原始代碼,它仍然可能無法達(dá)到你的預(yù)期。在機(jī)器學(xué)習(xí)領(lǐng)域,計算機(jī)從經(jīng)驗中獲取專業(yè)知識,算法的訓(xùn)練數(shù)據(jù)可以影響其性能。這也是這次OpenAI沒有公開其全部代碼和訓(xùn)練集遭到網(wǎng)友反對的主要原因。

在這場意外掀起的激烈爭論中,你站在哪一邊呢?

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    31262

    瀏覽量

    269628
  • 代碼
    +關(guān)注

    關(guān)注

    30

    文章

    4808

    瀏覽量

    68812
  • 計算機(jī)視覺
    +關(guān)注

    關(guān)注

    8

    文章

    1699

    瀏覽量

    46050

原文標(biāo)題:OpenAI擔(dān)心自家AI太強(qiáng)大不公開代碼,網(wǎng)友嘲諷:改名CloseAI算了

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    臨江而立:智慧坡監(jiān)測守護(hù)長江岸坡安全

    深秋的重慶,長江水位驟降20米,處高達(dá)68米的岸坡裸露在江風(fēng)中。這是星創(chuàng)易聯(lián)2024年承接的重慶某港口碼頭坡監(jiān)測項目,特殊的地理位置和水位劇烈變化帶來的挑戰(zhàn),讓這個項目成為了行業(yè)矚目的焦點
    的頭像 發(fā)表于 12-25 10:21 ?115次閱讀

    非球面透鏡背后的焦點研究

    散光的情況相比,散光對其焦點區(qū)域的場的影響被清楚地呈現(xiàn)出來。 **建模任務(wù) ** **非球面鏡和準(zhǔn)直物鏡 ** Lens System Component允許輕松定義個由光滑表面和均勻、各向同性
    發(fā)表于 12-17 08:54

    Air201公開但沒全公開要的資料在這里!

    些朋友問我Air201開發(fā)資料可以公開嗎?秉承開源開放的特色,Air201無論是軟件還是硬件,可公開的都已公開,并且資料還在持續(xù)更新中……
    的頭像 發(fā)表于 12-04 20:15 ?212次閱讀
    Air201<b class='flag-5'>公開</b>但沒全<b class='flag-5'>公開</b>?<b class='flag-5'>你</b>要的資料在這里!

    求助,個超級難找到的元器件,有禮金相送

    最近在做個I67的的AS-I從站模塊,有款國外產(chǎn)的元器件怎么也找不到,哪位大神能幫忙找到,愿意出500元禮金相謝。我的V:dingyou12345678 元器件圖片如下,是個將兩個電源座集合成
    發(fā)表于 11-30 10:36

    京東方HV320WHB-N00一邊白屏案例

    液 晶 屏 維 修 案 例京東方HV320WHB-N00一邊白屏案例: 32寸京東方屏,屏型號見下圖,圖1 故障現(xiàn)像為左邊四分之三的屏幕顯示白屏,右邊四分之屏幕顯示正常,見下圖,圖2 根據(jù)
    發(fā)表于 11-01 15:32

    tas5731m有一邊聲音斷斷續(xù)續(xù)的怎么解決?

    求教tas5731m,有一邊聲音斷斷續(xù)續(xù)的怎么解決
    發(fā)表于 10-25 06:14

    TPA3255加了PFFB后一邊輸出聲音很小是什么原因?

    加了PFFB后一邊輸出聲音很小,一邊大,不知是什么原因;斷開PFFB就沒事;另PFFB電阻電容功率耐壓要多大的?(現(xiàn)在用的是0805、電容耐壓是100V) BTL模式
    發(fā)表于 10-12 09:05

    TPA3255有直流輸出,一邊1V,一邊2.2V,是什么原因?

    TPA3255有直流輸出,一邊1V,一邊2.2V。不知是什么原因,電路是參考官方電路。BTL雙聲道輸出
    發(fā)表于 10-12 08:05

    PCB生產(chǎn),在鉆咀和成品孔徑之間,會優(yōu)先滿足哪一項呢

    PCB生產(chǎn)既要滿足鉆咀尺寸又要滿足成品孔徑,當(dāng)這兩個要求有沖突時,如果只能滿足其中項時,會優(yōu)先保證哪一項,請走進(jìn)今天的案例,看看你選對了嗎……
    的頭像 發(fā)表于 09-24 10:10 ?275次閱讀
    PCB生產(chǎn),在鉆咀和成品孔徑之間,<b class='flag-5'>你</b>會優(yōu)先滿足<b class='flag-5'>哪一</b>項呢

    一邊光模塊一邊光纖收發(fā)器可以嗎

    光模塊和光纖收發(fā)器是兩種不同的設(shè)備,它們在光纖通信系統(tǒng)中扮演著不同的角色。在某些情況下,它們可以起使用,但在其他情況下,它們可能不兼容。 光模塊的概念和原理 光模塊是種光電轉(zhuǎn)換設(shè)備,它將電信號
    的頭像 發(fā)表于 08-23 09:45 ?1101次閱讀

    MWC上海如期而至,AI和5G-A成為焦點

    在科技日新月異的今天,上海世界移動通信大會(MWC上海)再次匯聚了全球通信行業(yè)的精英與目光,成為探索未來技術(shù)趨勢與應(yīng)用的重要舞臺。本次大會中,AI與5G-A(5G Advanced)無疑是兩大最為
    的頭像 發(fā)表于 07-03 15:56 ?576次閱讀

    陶瓷基板技術(shù)PK:DBC vs DPC,哪一邊?

    陶瓷基板,作為現(xiàn)代電子封裝領(lǐng)域的關(guān)鍵部件,因其出色的熱穩(wěn)定性、機(jī)械強(qiáng)度和電氣性能而受到廣泛關(guān)注。其中,直接敷銅(Direct Bonding Copper,簡稱DBC)陶瓷基板和直接鍍銅(Direct Plated Copper,簡稱DPC)陶瓷基板是兩種常見的類型。本文將詳細(xì)探討這兩種陶瓷基板的制作工藝、性能特點以及應(yīng)用領(lǐng)域,以便讀者更好地了解它們之間的區(qū)
    的頭像 發(fā)表于 06-27 09:42 ?1983次閱讀
    陶瓷基板技術(shù)PK:DBC vs DPC,<b class='flag-5'>你</b>站<b class='flag-5'>哪一邊</b>?

    檢流計指針偏向一邊的原因是什么

    檢流計是種高靈敏度的電流測量儀表,其指針的偏轉(zhuǎn)是由于通過檢流計的電流產(chǎn)生的磁力作用。
    的頭像 發(fā)表于 05-07 16:13 ?5901次閱讀

    如何成為名嵌入式C語言高手?

    嵌入式C語言領(lǐng)域獲得突出的技能和能力。 、打下堅實的基礎(chǔ)要成為名嵌入式C語言高手,首先需要打下堅實的基礎(chǔ)。掌握C語言的基本語法、數(shù)據(jù)類型、運(yùn)算符、控制流程和函數(shù)等概念是必不可少的。
    發(fā)表于 04-07 16:03

    小芯片將會成為汽車和芯片行業(yè)的焦點?

    未來,小芯片將成為汽車和芯片行業(yè)的焦點
    的頭像 發(fā)表于 03-04 17:37 ?893次閱讀
    小芯片將會<b class='flag-5'>成為</b>汽車和芯片行業(yè)的<b class='flag-5'>焦點</b>?