大腦視覺(jué)信號(hào)被Stable Diffusion復(fù)現(xiàn)圖像!“人類的謀略和謊言不存在了” | CVPR2023
“現(xiàn)在Stable Diffusion已經(jīng)能重建大腦視覺(jué)信號(hào)了!”
就在昨晚,一個(gè)聽(tīng)起來(lái)細(xì)思極恐的“AI讀腦術(shù)”研究,在網(wǎng)上掀起軒然大波:
這項(xiàng)研究聲稱,只需用fMRI(功能磁共振成像技術(shù),相比sMRI更關(guān)注功能性信息,如腦皮層激活情況等)掃描大腦特定部位獲取信號(hào),AI就能重建出我們看到的圖像!
例如這是一系列人眼看到的圖像,包括戴著蝴蝶結(jié)的小熊、飛機(jī)和白色鐘樓:
AI看了眼人腦信號(hào)后,立馬就給出這樣的結(jié)果,屬實(shí)把該抓的重點(diǎn)全都抓住了:
再發(fā)展一步,這不就約等于哈利波特里的讀心術(shù)了嗎??
更有網(wǎng)友感到驚嘆:如果說(shuō)ChatGPT開(kāi)放API是件大事,那這簡(jiǎn)直稱得上瘋狂。
所以,這究竟是怎么一回事?
用Stable Diffusion可視化人腦信號(hào)這項(xiàng)研究來(lái)自日本大阪大學(xué),目前已經(jīng)被CVPR 2023收錄:
研究希望能從人類大腦活動(dòng)中,重建高保真的真實(shí)感圖像,來(lái)理解大腦、并解讀計(jì)算機(jī)視覺(jué)模型和人類視覺(jué)系統(tǒng)之間的聯(lián)系。
要知道,此前雖然有不少腦機(jī)接口研究,致力于從人類大腦活動(dòng)中讀取并重建信號(hào),如意念打字等。
然而,從人類大腦活動(dòng)中重建視覺(jué)信號(hào)——具有真實(shí)感的圖像,仍然挑戰(zhàn)極大。
例如這是此前UC伯克利做過(guò)的一項(xiàng)類似研究,復(fù)現(xiàn)一張人眼看到的飛機(jī)片段,但計(jì)算機(jī)重建出來(lái)的圖像卻幾乎看不出飛機(jī)的特征:
△圖源UC伯克利研究Reconstructing Visual Experiences from Brain Activity Evoked by Natural Movies這次,研究人員重建信號(hào)選用的AI模型,是這一年多在圖像生成領(lǐng)域地位飛升的擴(kuò)散模型。
當(dāng)然,更準(zhǔn)確地說(shuō)是基于潛在擴(kuò)散模型(LDM)——Stable Diffusion。
整體研究的思路,則是基于Stable Diffusion,打造一種以人腦活動(dòng)信號(hào)為條件的去噪過(guò)程的可視化技術(shù)。
它不需要在復(fù)雜的深度學(xué)習(xí)模型上進(jìn)行訓(xùn)練或做精細(xì)的微調(diào),只需要做好fMRI(功能磁共振成像技術(shù))成像到Stable Diffusion中潛在表征的簡(jiǎn)單線性映射關(guān)系就行。
它的概覽框架是這樣的,看起來(lái)也非常簡(jiǎn)單:
僅由1個(gè)圖像編碼器、1個(gè)圖像****,外加1個(gè)語(yǔ)義****組成。
具體怎么work?
如下圖所示,第一部分為本研究用到的LDM示意圖。
其中ε代表圖像編碼器,D代表圖像****,而τ是一個(gè)文本編碼器(CLIP)。
重點(diǎn)是解碼分析,如下圖所示,模型依次從大腦早期(藍(lán)色)和較高(黃色)視覺(jué)皮層內(nèi)的fMRI信號(hào)中,解碼出重建圖像(z)和相關(guān)文本c的潛在表征。
然后將這些潛在表征當(dāng)作輸入,就可以得到模型最終復(fù)現(xiàn)出來(lái)的圖像Xzc。
最后還沒(méi)有完,如編碼分析示意圖,作者還構(gòu)建了一個(gè)編碼模型,用來(lái)預(yù)測(cè)LDM不同組件(包括圖像z、文本c和zc)所對(duì)應(yīng)的fMRI信號(hào),它可以用來(lái)理解Stable Diffusion的內(nèi)部過(guò)程。
可以看到,采用了zc的編碼模型在大腦后部視覺(jué)皮層產(chǎn)生的預(yù)測(cè)精確度是最高的。(zc是與c進(jìn)行交叉注意的反向擴(kuò)散后,z再添加噪聲的潛在表征)
相比其它兩者,它生成的圖像既具有高語(yǔ)義保真度,分辨率也很高。
看完這項(xiàng)研究,已經(jīng)有網(wǎng)友想到了細(xì)思極恐的東西:
這個(gè)AI雖然只是復(fù)制了“眼睛”所看到的東西。
但是否會(huì)有一天,AI能直接從人腦的思維、甚至是記憶中重建出圖像或文字?
“語(yǔ)言的用處不再存在了”
于是有網(wǎng)友進(jìn)一步想到,如果能讀取記憶的話,那么目擊證人的證詞似乎也會(huì)變得更可靠了:
還別說(shuō),就在去年真有一項(xiàng)研究基于GAN,通過(guò)fMRI收集到的大腦信號(hào)重建看到的人臉圖像:
不過(guò),重建出來(lái)的效果似乎不怎么樣……
顯然,在人臉這種比較精細(xì)的圖像生成上,AI“讀腦術(shù)”還有很長(zhǎng)一段路要走。
對(duì)于這種大腦信號(hào)重建的研究,也有網(wǎng)友提出了質(zhì)疑。
例如,是否只是AI從訓(xùn)練數(shù)據(jù)集中提取出了相似的數(shù)據(jù)?
對(duì)此有網(wǎng)友回復(fù)表示,論文中的訓(xùn)練數(shù)據(jù)集和測(cè)試集是分開(kāi)的:
作者們也在項(xiàng)目主頁(yè)中表示,代碼很快會(huì)開(kāi)源??梢韵绕诖幌聗
本研究?jī)H兩位作者。
一位是2021年才剛剛成為大阪大學(xué)助理教授的Yu Takagi,他主要從事計(jì)算神經(jīng)科學(xué)和人工智能的交叉研究。
最近,他同時(shí)在牛津大學(xué)人腦活動(dòng)中心和東京大學(xué)心理學(xué)系利用機(jī)器學(xué)習(xí)技術(shù),來(lái)研究復(fù)雜決策任務(wù)中的動(dòng)態(tài)計(jì)算。
另一位是大阪大學(xué)教授Shinji Nishimoto,他也是日本腦信息通信融合研究中心的首席研究員。
研究方向?yàn)槎坷斫獯竽X中的視覺(jué)和認(rèn)知處理,谷歌學(xué)術(shù)引用3000+次。
那么,你覺(jué)得這波AI重建圖像的效果如何?
來(lái)源:量子位
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。