0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

DALL-E 2的錯(cuò)誤揭示出人工智能的局限性

IEEE電氣電子工程師 ? 來源:IEEE電氣電子工程師 ? 作者:Eliza Strickland ? 2022-11-16 15:31 ? 次閱讀

OpenAI的文字圖像轉(zhuǎn)換器與文本、科學(xué)和偏見作斗爭(zhēng)。

在2022年4月,人工智能(AI)研究實(shí)驗(yàn)室OpenAI繼2021年推出的DALL-E后,又推出了DALL-E 2。這兩個(gè)人工智能系統(tǒng)都可以根據(jù)自然語言的文本描述來生成令人驚奇的圖像,包括照片、插圖、繪畫、動(dòng)畫和其他能用語言表達(dá)藝術(shù)風(fēng)格的幾乎任何圖片(見下圖)。DALL-E 2的分辨率更高,處理速度更快,增加的編輯功能能夠讓用戶僅使用文本命令修改已生成圖像,例如“把那個(gè)花瓶換成植物”或“讓狗的鼻子更大一點(diǎn)”。

對(duì)于DALL-E 2,全球最初的反應(yīng)是震驚和欣慰。它可以在幾秒鐘之內(nèi)把任何物體和生物組合在一起,可以模仿任何藝術(shù)風(fēng)格,還能描繪任何地點(diǎn),并且可以刻畫各種照明條件。比如說,看到宇航員騎著一匹馬的安迪?沃霍爾(Andy Warhol)風(fēng)格圖片,誰能不被感動(dòng)?不過,隨著人們列出可以被這種技術(shù)輕易擾亂的行業(yè),也難免出現(xiàn)了一絲擔(dān)憂。

OpenAI尚未向公眾、商業(yè)實(shí)體乃至整個(gè)人工智能社區(qū)發(fā)布相關(guān)技術(shù)。OpenAI的研究員馬克?陳(Mark Chen):“我們和大家一樣擔(dān)心濫用的問題,而且非常重視這件事?!痹?a target="_blank">公司確實(shí)邀請(qǐng)了一些人,針對(duì)DALL-E 2進(jìn)行實(shí)驗(yàn)。過去幾個(gè)月出現(xiàn)的研究結(jié)果充分說明了現(xiàn)今深度學(xué)習(xí)技術(shù)的局限性,也給我們打開了一個(gè)窗口,了解對(duì)于人類世界,人工智能有哪些能夠理解,又有哪些完全沒有理解。

工作原理

OpenAI在論文預(yù)印本網(wǎng)站ArXiv上發(fā)布的一篇論文表明,DALL-E 2接受了從互聯(lián)網(wǎng)上截取的約6.5億個(gè)圖像-文本對(duì)的訓(xùn)練。通過這個(gè)龐大的數(shù)據(jù)集,它學(xué)習(xí)圖像與描述這些圖像的文字之間的關(guān)系。OpenAI在訓(xùn)練之前對(duì)數(shù)據(jù)集進(jìn)行篩選,移除了包含明顯暴力、色情和其他惡劣內(nèi)容的圖片?!澳P蜎]有暴露這些概念之下?!标愓f,“所以它生成未見過內(nèi)容的可能性非常非常低?!钡芯咳藛T明確指出,這種過濾有局限性,DALL-E 2仍然有可能生成有害的內(nèi)容。

一旦這種“編碼器”模型經(jīng)過訓(xùn)練,可理解文本和圖片之間的關(guān)系,OpenAI就將它與一個(gè)可根據(jù)文本提示生成圖片的解碼器配對(duì),使用一種名為“擴(kuò)散”的方法,從隨機(jī)的點(diǎn)圖案開始,慢慢改變圖案,生成圖像。此外,該公司集成了一些過濾器,以便生成的圖像符合內(nèi)容政策,并承諾了不斷進(jìn)行更新??赡墚a(chǎn)生禁止內(nèi)容的改變會(huì)被阻止,而且為了防止深度偽造,它無法準(zhǔn)確地再現(xiàn)在訓(xùn)練過程中見過的面孔(這可部分解釋為什么它通常會(huì)產(chǎn)生超現(xiàn)實(shí)的面孔)。到目前為止,OpenAI還采用了人工審查員檢查被標(biāo)記為可能有問題的圖像。

由于DALL-E 2明顯有可能被濫用,OpenAI最初授權(quán)使用的只有幾百人,大多是人工智能研究人員和藝術(shù)家。與該實(shí)驗(yàn)室的語言生成模型GPT-3不同,即便是有限的商業(yè)應(yīng)用,DALL-E 2 也尚不具備,而且OpenAI也未公開討論相關(guān)計(jì)劃。不過,瀏覽DALL-E 2用戶創(chuàng)建并發(fā)布在Reddit等論壇上的圖像,可以發(fā)現(xiàn)有些專業(yè)應(yīng)用確實(shí)應(yīng)該引起擔(dān)憂,例如DALL-E 2擅長(zhǎng)的美食攝影、公司手冊(cè)和網(wǎng)站的圖片庫(kù),以及適用于宿舍海報(bào)或雜志封面上的插圖。

問題所在

熱心的實(shí)驗(yàn)者生成的圖像表明,盡管DALL-E 2有很多優(yōu)勢(shì),但關(guān)于這個(gè)世界,它還需要學(xué)習(xí)很多東西。以下是3個(gè)最明顯、最引人關(guān)注的錯(cuò)誤。

文本: DALL-E 2雖然擅長(zhǎng)理解生成圖像的文本提示,卻很難將可理解的文本放入圖像,這一點(diǎn)令人感到費(fèi)解。用戶發(fā)現(xiàn),要求放入任意類型的文本都會(huì)產(chǎn)出一堆混亂的字母。珍妮爾?肖恩(Janelle Shane)喜歡在自己的人工智能博客里利用該系統(tǒng)創(chuàng)建公司的徽標(biāo),并觀察由此產(chǎn)生的混亂。不過,未來的版本可能會(huì)糾正該問題,因?yàn)镺penAI的GPT-3團(tuán)隊(duì)有著豐富的文本生成專業(yè)知識(shí)。肖恩:“最終,DALL-E的后繼者將能夠拼寫‘松餅屋’(Waffle House),那一天我一定會(huì)很傷心的。我還得換一種不同方式來擾亂它、找樂子?!?/p>

科學(xué):你可以說DALL-E 2理解一些科學(xué)定律,因?yàn)樗梢暂p松地描繪掉落的物體或漂浮在太空中的宇航員。但要求它生成解剖圖、X光圖、數(shù)學(xué)證明或藍(lán)圖時(shí),它生成的圖像看似正確,而實(shí)際上卻是完全錯(cuò)誤的。例如,要求DALL-E 2“按比例繪制太陽(yáng)系圖解插圖”,在得到的結(jié)果圖像中,地球非常奇怪,而且有太多假設(shè)的太陽(yáng)系鄰居?!癉ALL-E不懂什么是科學(xué)。它只知道怎樣閱讀文字說明,然后繪圖?!監(jiān)penAI的研究院阿迪蒂亞?拉梅什(Aditya Ramesh)說,“因此它不理解其中的含義,而試著編造一些看起來相似的東西?!?/p>

3a5af20c-64d7-11ed-8abf-dac502259ad0.jpg

偏見:DALL-E 2被認(rèn)為是一種接受圖片和文本訓(xùn)練的多模態(tài)人工智能系統(tǒng),會(huì)表現(xiàn)出某種形式的多模態(tài)偏見。例如,如果用戶要求它生成一名首席執(zhí)行官、一名建筑工人或者一名技術(shù)記者的圖片,它通常會(huì)根據(jù)其在訓(xùn)練數(shù)據(jù)中看到的圖片-文本對(duì)來提供男性的圖片。在發(fā)布DALL-E 2之前,OpenAI要求從事該領(lǐng)域相關(guān)工作的外部研究員來充當(dāng)“紅隊(duì)”,他們的見解有助于OpenAI評(píng)估該系統(tǒng)的風(fēng)險(xiǎn)和局限性。他們發(fā)現(xiàn),除了表現(xiàn)有關(guān)性別的社會(huì)成見,該系統(tǒng)會(huì)過多地表現(xiàn)白人和西方傳統(tǒng)與環(huán)境。

陳認(rèn)為“我們可以采取某些機(jī)器學(xué)習(xí)緩解措施”來糾正這些偏見,該團(tuán)隊(duì)已經(jīng)采取了一些措施,例如,在訓(xùn)練期間他們發(fā)現(xiàn),由于在訓(xùn)練數(shù)據(jù)中消除了的色情內(nèi)容,在建立的數(shù)據(jù)集中男性要多于女性,這導(dǎo)致DALL-E 2生成更多男性的圖像?!八晕覀冋{(diào)整了訓(xùn)練方法,并提高了女性圖像的權(quán)重,使其更有可能生成女性圖像。”陳解釋道。為了幫助DALL-E 2產(chǎn)生更多樣化的結(jié)果,用戶還可以使用“女性宇航員”或“印度婚禮”等指定性別、種族或地理位置的提示。

總之,DALL-E 2團(tuán)隊(duì)表示,他們渴望看到早期用戶在測(cè)試系統(tǒng)時(shí)發(fā)現(xiàn)的問題和故障,他們也已經(jīng)在考慮接下來的工作。“我們非常有興趣提高系統(tǒng)的整體智能?!崩肥舱f,并補(bǔ)充說該團(tuán)隊(duì)希望能在“DALL-E中加深對(duì)語言及其與世界關(guān)系的理解”。他指出OpenAI的文本生成工具GPT-3對(duì)普通常識(shí)、科學(xué)和人類行為有著非常驚人的理解?!耙粋€(gè)充滿希望的目標(biāo)是嘗試通過DALL-E將GPT-3的知識(shí)與圖像領(lǐng)域聯(lián)系起來?!崩肥舱f。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1792

    文章

    47532

    瀏覽量

    239278
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5511

    瀏覽量

    121349
  • OpenAI
    +關(guān)注

    關(guān)注

    9

    文章

    1107

    瀏覽量

    6603

原文標(biāo)題:DALL-E 2的錯(cuò)誤揭示出人工智能的局限性

文章出處:【微信號(hào):IEEE_China,微信公眾號(hào):IEEE電氣電子工程師】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    嵌入式和人工智能究竟是什么關(guān)系?

    嵌入式和人工智能究竟是什么關(guān)系? 嵌入式系統(tǒng)是一種特殊的系統(tǒng),它通常被嵌入到其他設(shè)備或機(jī)器中,以實(shí)現(xiàn)特定功能。嵌入式系統(tǒng)具有非常強(qiáng)的適應(yīng)性和靈活性,能夠根據(jù)用戶需求進(jìn)行定制化設(shè)計(jì)。它廣泛應(yīng)用于各種
    發(fā)表于 11-14 16:39

    AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第4章-AI與生命科學(xué)讀后感

    很幸運(yùn)社區(qū)給我一個(gè)閱讀此書的機(jī)會(huì),感謝平臺(tái)。 《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第4章關(guān)于AI與生命科學(xué)的部分,為我們揭示人工智能技術(shù)在生命科學(xué)領(lǐng)域中的廣泛應(yīng)用和深遠(yuǎn)影響。在
    發(fā)表于 10-14 09:21

    《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第一章人工智能驅(qū)動(dòng)的科學(xué)創(chuàng)新學(xué)習(xí)心得

    的效率,還為科學(xué)研究提供了前所未有的洞察力和精確度。例如,在生物學(xué)領(lǐng)域,AI能夠幫助科學(xué)家快速識(shí)別基因序列中的關(guān)鍵變異,加速新藥研發(fā)進(jìn)程。 2. 跨學(xué)科融合的新范式 書中強(qiáng)調(diào),人工智能的應(yīng)用促進(jìn)了多個(gè)
    發(fā)表于 10-14 09:12

    risc-v在人工智能圖像處理應(yīng)用前景分析

    RISC-V在人工智能圖像處理領(lǐng)域的應(yīng)用前景十分廣闊,這主要得益于其開源性、靈活性和低功耗等特點(diǎn)。以下是對(duì)RISC-V在人工智能圖像處理應(yīng)用前景的詳細(xì)分析: 一、RISC-V的基本特點(diǎn) RISC-V
    發(fā)表于 09-28 11:00

    D類放大器上僅電容EMI濾波器的局限性

    電子發(fā)燒友網(wǎng)站提供《D類放大器上僅電容EMI濾波器的局限性.pdf》資料免費(fèi)下載
    發(fā)表于 09-14 10:44 ?0次下載
    D類放大器上僅電容EMI濾波器的<b class='flag-5'>局限性</b>

    名單公布!【書籍評(píng)測(cè)活動(dòng)NO.44】AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新

    大力發(fā)展AI for Science的原因。 第2章從科學(xué)研究底層的理論模式與主要困境,以及人工智能三要素(數(shù)據(jù)、算法、算力)出發(fā),對(duì)AI for Science的技術(shù)支撐進(jìn)行解讀。 第3章介紹了在
    發(fā)表于 09-09 13:54

    WDM技術(shù)的缺點(diǎn)和局限性

    和效率。然而,盡管WDM技術(shù)具有諸多優(yōu)勢(shì),但它也存在一些缺點(diǎn)和局限性。以下是對(duì)WDM技術(shù)缺點(diǎn)和局限性的詳細(xì)分析:
    的頭像 發(fā)表于 08-09 11:42 ?936次閱讀

    谷歌開發(fā)出高精度人工智能天氣模擬器

    谷歌最新研發(fā)的高精度人工智能天氣模擬器,正引領(lǐng)著氣象預(yù)測(cè)技術(shù)的新一輪革新。該項(xiàng)目的核心在于將標(biāo)準(zhǔn)的物理驅(qū)動(dòng)模型與先進(jìn)的機(jī)器學(xué)習(xí)工具巧妙結(jié)合,旨在克服單一依賴人工智能可能帶來的局限性與不確定性。
    的頭像 發(fā)表于 07-27 16:20 ?2223次閱讀

    5G智能物聯(lián)網(wǎng)課程之Aidlux下人工智能開發(fā)(SC171開發(fā)套件V2

    5G智能物聯(lián)網(wǎng)課程之Aidlux下人工智能開發(fā)(SC171開發(fā)套件V2) 課程類別 課程名稱 視頻課程時(shí)長(zhǎng) 視頻課程鏈接 課件鏈接 人工智能 參賽基礎(chǔ)知識(shí)指引 14分50秒 https
    發(fā)表于 05-10 16:46

    愛芯元智推出邊端側(cè)智能SoCAX650N,讓視覺更智能

    當(dāng)前大模型蓬勃發(fā)展,OpenAI的Sora、ChatGPT、CLIP、DALL-E,Google的Gemini、ViT-22B,Meta的LLaMA3、DINO v2,
    的頭像 發(fā)表于 05-09 14:39 ?1725次閱讀
    愛芯元智推出邊端側(cè)<b class='flag-5'>智能</b>SoCAX650N,讓視覺更<b class='flag-5'>智能</b>

    讓交通運(yùn)輸更安全、更高效,人工智能可以做些什么?

    一、前言 您或許已經(jīng)嘗試過在ChatGPT和Dall-E等生成式人工智能服務(wù)中創(chuàng)建一些酷炫的圖片或優(yōu)美的文章。在交通運(yùn)輸方面,工程師們也借助AI工具構(gòu)思了一些關(guān)于自行車安全氣囊或其他道路安全裝置
    的頭像 發(fā)表于 03-25 14:17 ?452次閱讀
    讓交通運(yùn)輸更安全、更高效,<b class='flag-5'>人工智能</b>可以做些什么?

    嵌入式人工智能的就業(yè)方向有哪些?

    嵌入式人工智能的就業(yè)方向有哪些? 在新一輪科技革命與產(chǎn)業(yè)變革的時(shí)代背景下,嵌入式人工智能成為國(guó)家新型基礎(chǔ)建設(shè)與傳統(tǒng)產(chǎn)業(yè)升級(jí)的核心驅(qū)動(dòng)力。同時(shí)在此背景驅(qū)動(dòng)下,眾多名企也紛紛在嵌入式人工智能領(lǐng)域布局
    發(fā)表于 02-26 10:17

    高光譜成像技術(shù)如何改善現(xiàn)有遙感技術(shù)的局限性?

    隨著科技的不斷進(jìn)步,遙感技術(shù)在地球觀測(cè)、資源管理、環(huán)境監(jiān)測(cè)等領(lǐng)域中發(fā)揮著日益重要的作用。然而,傳統(tǒng)的遙感技術(shù)在分辨率、準(zhǔn)確性和信息獲取能力等方面存在一定的局限性。為了克服這些局限性,高光譜成像技術(shù)
    的頭像 發(fā)表于 02-21 10:52 ?654次閱讀
    高光譜成像技術(shù)如何改善現(xiàn)有遙感技術(shù)的<b class='flag-5'>局限性</b>?

    OpenAI發(fā)布人工智能文生視頻大模型Sora

    近日,人工智能領(lǐng)域的領(lǐng)軍企業(yè)OpenAI宣布推出其最新的人工智能文生視頻大模型——Sora。這款模型在繼承DALL-E 3卓越畫質(zhì)和遵循指令能力的基礎(chǔ)上,實(shí)現(xiàn)了對(duì)真實(shí)物理世界的深度模擬,為視頻制作領(lǐng)域帶來了前所未有的變革。
    的頭像 發(fā)表于 02-20 13:54 ?896次閱讀

    微軟封禁員工討論OpenAI DALL-E 3模型漏洞

    瓊斯去年底在進(jìn)行自主研究時(shí),發(fā)現(xiàn)OpenAI的圖像生成模型DALL-E 3存在一個(gè)漏洞,漏洞利用者可以越過AI保護(hù)墻來制作色情內(nèi)容。他將此情況報(bào)告給微軟和OpenAI,并發(fā)文警示這種攻擊可能給公眾帶來危害,要求他們暫停使用DALL-E 3模型或在修復(fù)漏洞之前先下線。
    的頭像 發(fā)表于 02-02 14:38 ?602次閱讀