0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

大腦視覺信號(hào)被Stable Diffusion復(fù)現(xiàn)成圖像!

CVer ? 來源:量子位 ? 2023-03-06 10:56 ? 次閱讀

“現(xiàn)在Stable Diffusion已經(jīng)能重建大腦視覺信號(hào)了!”

就在昨晚,一個(gè)聽起來細(xì)思極恐的“AI讀腦術(shù)”研究,在網(wǎng)上掀起軒然大波:

5669e49c-bb5f-11ed-bfe3-dac502259ad0.png

這項(xiàng)研究聲稱,只需用fMRI(功能磁共振成像技術(shù),相比sMRI更關(guān)注功能性信息,如腦皮層激活情況等)掃描大腦特定部位獲取信號(hào),AI就能重建出我們看到的圖像!

58061578-bb5f-11ed-bfe3-dac502259ad0.png

例如這是一系列人眼看到的圖像,包括戴著蝴蝶結(jié)的小熊、飛機(jī)和白色鐘樓:

58365594-bb5f-11ed-bfe3-dac502259ad0.png

AI看了眼人腦信號(hào)后,立馬就給出這樣的結(jié)果,屬實(shí)把該抓的重點(diǎn)全都抓住了:

58ef8e38-bb5f-11ed-bfe3-dac502259ad0.gif

再發(fā)展一步,這不就約等于哈利波特里的讀心術(shù)了嗎??

5b13639c-bb5f-11ed-bfe3-dac502259ad0.png

更有網(wǎng)友感到驚嘆:如果說ChatGPT開放API是件大事,那這簡(jiǎn)直稱得上瘋狂。

5b5c7f82-bb5f-11ed-bfe3-dac502259ad0.png

所以,這究竟是怎么一回事?

用Stable Diffusion可視化人腦信號(hào)

這項(xiàng)研究來自日本大阪大學(xué),目前已經(jīng)被CVPR 2023收錄:

5b73ba26-bb5f-11ed-bfe3-dac502259ad0.png

High-resolution image reconstruction with latent diffusion models from human brain activity

研究希望能從人類大腦活動(dòng)中,重建高保真的真實(shí)感圖像,來理解大腦、并解讀計(jì)算機(jī)視覺模型和人類視覺系統(tǒng)之間的聯(lián)系。

要知道,此前雖然有不少腦機(jī)接口研究,致力于從人類大腦活動(dòng)中讀取并重建信號(hào),如意念打字等。

然而,從人類大腦活動(dòng)中重建視覺信號(hào)——具有真實(shí)感的圖像,仍然挑戰(zhàn)極大。

例如這是此前UC伯克利做過的一項(xiàng)類似研究,復(fù)現(xiàn)一張人眼看到的飛機(jī)片段,但計(jì)算機(jī)重建出來的圖像卻幾乎看不出飛機(jī)的特征:

5bde0c96-bb5f-11ed-bfe3-dac502259ad0.png

△圖源UC伯克利研究Reconstructing Visual Experiences from Brain Activity Evoked by Natural Movies

這次,研究人員重建信號(hào)選用的AI模型,是這一年多在圖像生成領(lǐng)域地位飛升的擴(kuò)散模型。

當(dāng)然,更準(zhǔn)確地說是基于潛在擴(kuò)散模型(LDM)——Stable Diffusion。

整體研究的思路,則是基于Stable Diffusion,打造一種以人腦活動(dòng)信號(hào)為條件的去噪過程的可視化技術(shù)。

它不需要在復(fù)雜的深度學(xué)習(xí)模型上進(jìn)行訓(xùn)練或做精細(xì)的微調(diào),只需要做好fMRI(功能磁共振成像技術(shù))成像到Stable Diffusion中潛在表征的簡(jiǎn)單線性映射關(guān)系就行。

它的概覽框架是這樣的,看起來也非常簡(jiǎn)單:

僅由1個(gè)圖像編碼器、1個(gè)圖像解碼器,外加1個(gè)語義解碼器組成。

5c6acb86-bb5f-11ed-bfe3-dac502259ad0.png

具體怎么work?

如下圖所示,第一部分為本研究用到的LDM示意圖。

其中ε代表圖像編碼器,D代表圖像解碼器,而τ是一個(gè)文本編碼器(CLIP)。

5d81b124-bb5f-11ed-bfe3-dac502259ad0.png

重點(diǎn)是解碼分析,如下圖所示,模型依次從大腦早期(藍(lán)色)和較高(黃色)視覺皮層內(nèi)的fMRI信號(hào)中,解碼出重建圖像(z)和相關(guān)文本c的潛在表征。

然后將這些潛在表征當(dāng)作輸入,就可以得到模型最終復(fù)現(xiàn)出來的圖像Xzc。

5da3fd88-bb5f-11ed-bfe3-dac502259ad0.png

最后還沒有完,如編碼分析示意圖,作者還構(gòu)建了一個(gè)編碼模型,用來預(yù)測(cè)LDM不同組件(包括圖像z、文本c和zc)所對(duì)應(yīng)的fMRI信號(hào),它可以用來理解Stable Diffusion的內(nèi)部過程。

5dff944a-bb5f-11ed-bfe3-dac502259ad0.png

可以看到,采用了zc的編碼模型在大腦后部視覺皮層產(chǎn)生的預(yù)測(cè)精確度是最高的。(zc是與c進(jìn)行交叉注意的反向擴(kuò)散后,z再添加噪聲的潛在表征)

5e8b3586-bb5f-11ed-bfe3-dac502259ad0.png

相比其它兩者,它生成的圖像既具有高語義保真度,分辨率也很高。

5f3857d4-bb5f-11ed-bfe3-dac502259ad0.png

還有用GAN重建人臉圖像的

看完這項(xiàng)研究,已經(jīng)有網(wǎng)友想到了細(xì)思極恐的東西:

這個(gè)AI雖然只是復(fù)制了“眼睛”所看到的東西。

但是否會(huì)有一天,AI能直接從人腦的思維、甚至是記憶中重建出圖像或文字?

5f824506-bb5f-11ed-bfe3-dac502259ad0.png

“語言的用處不再存在了”

5fe2c048-bb5f-11ed-bfe3-dac502259ad0.png

于是有網(wǎng)友進(jìn)一步想到,如果能讀取記憶的話,那么目擊證人的證詞似乎也會(huì)變得更可靠了:

6010ead6-bb5f-11ed-bfe3-dac502259ad0.png

還別說,就在去年真有一項(xiàng)研究基于GAN,通過fMRI收集到的大腦信號(hào)重建看到的人臉圖像:

60299bb2-bb5f-11ed-bfe3-dac502259ad0.png

不過,重建出來的效果似乎不怎么樣……

604c0dfa-bb5f-11ed-bfe3-dac502259ad0.png

顯然,在人臉這種比較精細(xì)的圖像生成上,AI“讀腦術(shù)”還有很長(zhǎng)一段路要走。

對(duì)于這種大腦信號(hào)重建的研究,也有網(wǎng)友提出了質(zhì)疑。

例如,是否只是AI從訓(xùn)練數(shù)據(jù)集中提取出了相似的數(shù)據(jù)?

6065a292-bb5f-11ed-bfe3-dac502259ad0.png

對(duì)此有網(wǎng)友回復(fù)表示,論文中的訓(xùn)練數(shù)據(jù)集和測(cè)試集是分開的:

61890740-bb5f-11ed-bfe3-dac502259ad0.png

作者們也在項(xiàng)目主頁中表示,代碼很快會(huì)開源??梢韵绕诖幌聗

6228f7b4-bb5f-11ed-bfe3-dac502259ad0.png

作者介紹

本研究?jī)H兩位作者。

一位是2021年才剛剛成為大阪大學(xué)助理教授的Yu Takagi,他主要從事計(jì)算神經(jīng)科學(xué)和人工智能的交叉研究。

最近,他同時(shí)在牛津大學(xué)人腦活動(dòng)中心和東京大學(xué)心理學(xué)系利用機(jī)器學(xué)習(xí)技術(shù),來研究復(fù)雜決策任務(wù)中的動(dòng)態(tài)計(jì)算。

另一位是大阪大學(xué)教授Shinji Nishimoto,他也是日本腦信息通信融合研究中心的首席研究員。

研究方向?yàn)槎坷斫獯竽X中的視覺和認(rèn)知處理,谷歌學(xué)術(shù)引用3000+次。

那么,你覺得這波AI重建圖像的效果如何?

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 成像技術(shù)
    +關(guān)注

    關(guān)注

    4

    文章

    291

    瀏覽量

    31463
  • 人工智能
    +關(guān)注

    關(guān)注

    1791

    文章

    47352

    瀏覽量

    238771

原文標(biāo)題:CVPR 2023 | 大腦視覺信號(hào)被Stable Diffusion復(fù)現(xiàn)成圖像!"AI讀腦術(shù)"來了!

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    如何開啟Stable Diffusion WebUI模型推理部署

    如何開啟Stable Diffusion WebUI模型推理部署
    的頭像 發(fā)表于 12-11 20:13 ?112次閱讀
    如何開啟<b class='flag-5'>Stable</b> <b class='flag-5'>Diffusion</b> WebUI模型推理部署

    圖像采集卡不斷發(fā)展和改進(jìn),為視覺系統(tǒng)提供更大的價(jià)值

    圖像采集卡最初是為了從模擬機(jī)器視覺相機(jī)中獲取原始圖像而開發(fā)的,人們?cè)欢阮A(yù)計(jì)該技術(shù)將被直接連接到電腦的技術(shù)所取代。然而,經(jīng)驗(yàn)卻并非如此。圖像采集卡不斷發(fā)展和改進(jìn),為
    的頭像 發(fā)表于 09-30 11:10 ?217次閱讀
    <b class='flag-5'>圖像</b>采集卡不斷發(fā)展和改進(jìn),為<b class='flag-5'>視覺</b>系統(tǒng)提供更大的價(jià)值

    圖像采集卡:增強(qiáng)視覺數(shù)據(jù)采集

    圖像采集卡介紹:在視覺數(shù)據(jù)采集領(lǐng)域,圖像采集卡在捕獲和處理來自各種來源的圖像或視頻方面發(fā)揮著關(guān)鍵作用。在本文中,我們將深入探討圖像采集卡的世
    的頭像 發(fā)表于 09-24 11:06 ?318次閱讀
    <b class='flag-5'>圖像</b>采集卡:增強(qiáng)<b class='flag-5'>視覺</b>數(shù)據(jù)采集

    示波器的波形存儲(chǔ)與復(fù)現(xiàn),再也不怕瞬時(shí)信號(hào)抓不住了

    示波器和虛擬USB示波器來進(jìn)行。Chrent臺(tái)式示波器的波形存儲(chǔ)與復(fù)現(xiàn)使用信號(hào)源模擬一個(gè)測(cè)信號(hào)。通過BNC線將這個(gè)信號(hào)連接到示波器上。在示
    的頭像 發(fā)表于 09-05 08:06 ?2208次閱讀
    示波器的波形存儲(chǔ)與<b class='flag-5'>復(fù)現(xiàn)</b>,再也不怕瞬時(shí)<b class='flag-5'>信號(hào)</b>抓不住了

    實(shí)操: 如何在AirBox上跑Stable Diffusion 3

    StableDiffusion3Medium是一種多模態(tài)擴(kuò)散變換器(MMDiT)文本到圖像模型,在圖像質(zhì)量、排版、復(fù)雜提示理解和資源效率方面具有顯著提升的性能。目前瑞莎團(tuán)隊(duì)
    的頭像 發(fā)表于 07-23 08:34 ?262次閱讀
    實(shí)操: 如何在AirBox上跑<b class='flag-5'>Stable</b> <b class='flag-5'>Diffusion</b> 3

    計(jì)算機(jī)視覺圖像處理的區(qū)別和聯(lián)系

    計(jì)算機(jī)視覺圖像處理是兩個(gè)密切相關(guān)但又有明顯區(qū)別的領(lǐng)域。 1. 基本概念 1.1 計(jì)算機(jī)視覺 計(jì)算機(jī)視覺是一門研究如何使計(jì)算機(jī)能夠理解和解釋視覺
    的頭像 發(fā)表于 07-09 09:16 ?1351次閱讀

    CCD視覺檢測(cè)相對(duì)于人工檢測(cè)有什么優(yōu)點(diǎn)?

    ,CCD視覺檢測(cè)是通過機(jī)器視覺產(chǎn)品攝取目標(biāo)轉(zhuǎn)換程圖像信號(hào),傳送給專用的圖像處理系統(tǒng),根據(jù)像素分
    的頭像 發(fā)表于 05-09 17:33 ?720次閱讀
    CCD<b class='flag-5'>視覺</b>檢測(cè)相對(duì)于人工檢測(cè)有什么優(yōu)點(diǎn)?

    機(jī)器視覺圖像采集卡的功能與應(yīng)用

    機(jī)器視覺技術(shù)廣泛應(yīng)用于工業(yè)生產(chǎn)檢測(cè)、醫(yī)療、交通等領(lǐng)域助力實(shí)現(xiàn)自動(dòng)化、智能化。整個(gè)機(jī)器視覺系統(tǒng)可分為圖像采集和圖像處理兩大模塊。而圖像采集卡是
    的頭像 發(fā)表于 04-04 08:33 ?970次閱讀
    機(jī)器<b class='flag-5'>視覺</b>中<b class='flag-5'>圖像</b>采集卡的功能與應(yīng)用

    UL Procyon AI 發(fā)布圖像生成基準(zhǔn)測(cè)試,基于Stable Diffusion

    UL去年發(fā)布的首個(gè)Windows版Procyon AI推理基準(zhǔn)測(cè)試,以計(jì)算機(jī)視覺工作負(fù)載評(píng)估AI推理性能。新推出的圖像生成測(cè)試將提供統(tǒng)一、精確且易于理解的工作負(fù)載,用以保證各支持硬件間公平、可比的性能表現(xiàn)。
    的頭像 發(fā)表于 03-25 16:16 ?897次閱讀

    韓國科研團(tuán)隊(duì)發(fā)布新型AI圖像生成模型KOALA,大幅優(yōu)化硬件需求

    由此模型的核心在于其運(yùn)用了“知識(shí)蒸餾”(knowledge distillation)技術(shù),這使得開源圖像生成工具Stable Diffusion XL可大幅縮小其規(guī)模。原Stable
    的頭像 發(fā)表于 03-01 14:10 ?644次閱讀

    機(jī)器視覺圖像采集卡:關(guān)鍵的圖像處理設(shè)備

    機(jī)器視覺圖像采集卡的工作原理。機(jī)器視覺圖像采集卡通常由模擬-數(shù)字轉(zhuǎn)換器(ADC)、數(shù)字信號(hào)處理器(DSP)和接口電路等組成。當(dāng)光線照射到傳感
    的頭像 發(fā)表于 02-22 16:23 ?514次閱讀
    機(jī)器<b class='flag-5'>視覺</b><b class='flag-5'>圖像</b>采集卡:關(guān)鍵的<b class='flag-5'>圖像</b>處理設(shè)備

    OpenAI視頻模型Sora的架構(gòu)及應(yīng)用場(chǎng)景

    LDM 就是 Stable Diffusion 使用的模型架構(gòu)。擴(kuò)散模型的一大問題是計(jì)算需求大,難以擬合高分辨率圖像。為了解決這一問題,實(shí)現(xiàn) LDM時(shí),會(huì)先訓(xùn)練一個(gè)幾乎能無損壓縮圖像
    發(fā)表于 02-20 15:13 ?654次閱讀
    OpenAI視頻模型Sora的架構(gòu)及應(yīng)用場(chǎng)景

    Stability AI試圖通過新的圖像生成人工智能模型保持領(lǐng)先地位

    Stability AI的最新圖像生成模型Stable Cascade承諾比其業(yè)界領(lǐng)先的前身Stable Diffusion更快、更強(qiáng)大,而Stab
    的頭像 發(fā)表于 02-19 16:03 ?953次閱讀
    Stability AI試圖通過新的<b class='flag-5'>圖像</b>生成人工智能模型保持領(lǐng)先地位

    人工視覺仍然需要圖像采集卡

    機(jī)器視覺系統(tǒng)中的三項(xiàng)重要任務(wù)。首先是圖像重建,利用原有的模擬視頻技術(shù),將攝像機(jī)的模擬信號(hào)數(shù)字化。圖像采集卡執(zhí)行的第二個(gè)功能是存儲(chǔ)圖像,直到主
    的頭像 發(fā)表于 01-30 14:42 ?363次閱讀
    人工<b class='flag-5'>視覺</b>仍然需要<b class='flag-5'>圖像</b>采集卡

    圖像采集卡的工作原理及其與圖像處理軟件的區(qū)別介紹

    圖像采集卡是一種用于將模擬圖像信號(hào)轉(zhuǎn)換號(hào)的設(shè)備。它在計(jì)算機(jī)視覺圖像處理領(lǐng)域中起著關(guān)鍵作用,
    的頭像 發(fā)表于 01-10 16:35 ?951次閱讀
    <b class='flag-5'>圖像</b>采集卡的工作原理及其與<b class='flag-5'>圖像</b>處理軟件的區(qū)別介紹