我裂開(kāi)了...人類腦海中的畫面，被AI解碼了？？

發(fā)布人：大數(shù)據(jù)文摘時(shí)間：2022-11-21 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

大數(shù)據(jù)文摘授權(quán)轉(zhuǎn)載自夕小瑤的賣萌屋作者：白鹡鸰

有沒(méi)有那么幾個(gè)瞬間，你要么想把自己腦子里的東西掏出來(lái)給別人看，要么想撬開(kāi)別人的腦子看看里面都裝了什么？雖然錯(cuò)過(guò)了霍格沃茨的入學(xué)時(shí)間，但如果從現(xiàn)在開(kāi)始學(xué)習(xí)擴(kuò)散模型和神經(jīng)學(xué)，可能很快你就能實(shí)現(xiàn)這個(gè)目標(biāo)了。新加坡國(guó)立大學(xué)，香港中文大學(xué)，和Stanford聯(lián)手，基于擴(kuò)散模型實(shí)現(xiàn)了從腦電波還原圖像的“人類視覺(jué)****”。效果奇佳，還開(kāi)源了代碼和數(shù)據(jù)，這還不來(lái)一起看看？

▲圖1 基于腦電波還原的圖像與真實(shí)圖像對(duì)比
論文題目：
Seeing Beyond the Brain: Conditional Diffusion Model with Sparse Masked Modeling for Vision Decoding

論文鏈接：
http://arxiv.org/abs/2211.06956

代碼鏈接：
https://github.com/zjc062/mind-vis

背景

故事要從神經(jīng)科學(xué)的基本理論說(shuō)起。作為一個(gè)唯物主義的麻瓜，我必須相信，我的思維活動(dòng)都依托于腦神經(jīng)細(xì)胞，其釋放的電信號(hào)就是大腦內(nèi)部通信計(jì)算的物理媒介。既然我能夠流暢地思考，那么腦電波必然傳遞了某種“有意義”的信號(hào)，而一段數(shù)據(jù)如果能攜帶某種信息，它必須要有一定規(guī)律可言。因此，從理論上來(lái)說(shuō)，我們可以通過(guò)分析進(jìn)行思維活動(dòng)時(shí)產(chǎn)生的生物電信號(hào)，去反推思考的具體內(nèi)容。這個(gè)觀點(diǎn)已然不新奇了，大量的研究已經(jīng)證實(shí)了反推大腦思維的可行性，腦機(jī)接口蒸蒸日上的熱度，則是一個(gè)風(fēng)向標(biāo)，指示了相關(guān)技術(shù)在實(shí)際生活應(yīng)用中的潛力。
當(dāng)然，高情商的說(shuō)法是有潛力，換個(gè)樸實(shí)一點(diǎn)的說(shuō)法，那就是目前還存在大量技術(shù)瓶頸，研究中障礙重重。就拿通過(guò)腦電波還原人腦海中的圖像這個(gè)任務(wù)來(lái)說(shuō)，雖然腦電波是有規(guī)律的，這種規(guī)律卻非常復(fù)雜。不僅如此，“每個(gè)人的腦回路不一樣”也是物理的，也就是說(shuō)，對(duì)同樣的刺激（stimuli) ，每個(gè)人大腦做出的反饋都會(huì)存在差異。這個(gè)問(wèn)題好解決嗎？對(duì)于ML人來(lái)說(shuō)，太簡(jiǎn)單了，大數(shù)據(jù)驅(qū)動(dòng)。然而，聯(lián)系到實(shí)際問(wèn)題，腦電數(shù)據(jù)的采集，特別是有標(biāo)簽（腦電產(chǎn)生者思考內(nèi)容）的腦電數(shù)據(jù)的采集，卻沒(méi)有特別豐富的數(shù)據(jù)。缺乏有標(biāo)簽的數(shù)據(jù)，缺乏處理數(shù)據(jù)的方法，是目前這個(gè)任務(wù)上一直難以取的進(jìn)展的主要原因。

方法

基于fMRI收集的腦電數(shù)據(jù)

人腦中有左右的腦細(xì)胞，而它們的激活模式是非線性的（一般會(huì)用一組復(fù)雜的微分方程建模）。為了能觀察如此復(fù)雜的神經(jīng)網(wǎng)絡(luò)的活動(dòng)，目前廣泛采用的是功能性磁共振成像（fMRI，functional magnetic resonance imaging）技術(shù)。這項(xiàng)技術(shù)不會(huì)對(duì)被試者造成物理上的傷害，包括外部創(chuàng)口（侵入式）和輻射問(wèn)題。它的原理是利用磁共振技術(shù)，追蹤大腦在思維活動(dòng)時(shí)的血氧變化，依據(jù)于此成像。基于fMRI技術(shù)，研究者采集了大量的，特別是當(dāng)人類在進(jìn)行各種復(fù)雜的任務(wù)時(shí)的大腦活動(dòng)數(shù)據(jù)。經(jīng)過(guò)分析，研究者們發(fā)現(xiàn)人們?cè)谔幚硗瑯拥娜蝿?wù)時(shí)，大腦中被激活的區(qū)域基本相近 [1]。

作為1991年的Nature封面，fMRI得到了廣泛研究，目前采集數(shù)據(jù)的技術(shù)已經(jīng)相當(dāng)成熟。但這一塊的原理非常復(fù)雜，感興趣的話可以搜索血氧依賴機(jī)理，blood-oxygen-level-dependent, BOLD。

▲圖2 語(yǔ)言（講故事）任務(wù)中大腦被激活區(qū)域
神經(jīng)科學(xué)方面雖然有相當(dāng)多fMRI的原始數(shù)據(jù)，但在實(shí)際使用時(shí)，會(huì)遇到這樣一些問(wèn)題：

fMRI掃描所得到的數(shù)據(jù)是以三維形式的體素 (voxel)記錄的，每個(gè)數(shù)據(jù)點(diǎn)包括了三維坐標(biāo)，電信號(hào)幅度等信息，維度很高。為了避免對(duì)體素直接進(jìn)行運(yùn)算，一般采用的方法是劃興趣區(qū)域 (Region of Interest, ROI)，對(duì)電信號(hào)求時(shí)序上的均值，最終獲得一列體素，這樣的數(shù)據(jù)在緯度方面和通常處理的圖像數(shù)據(jù)存在相當(dāng)?shù)牟罹啵?/span>
鄰近的體素往往電信號(hào)幅度相近，fMRI收集的信息中存在一定冗余；
因?yàn)槿四X的復(fù)雜性，每個(gè)個(gè)體的數(shù)據(jù)都會(huì)存在一定的域偏移。

▲圖3 fMRI數(shù)據(jù)的可視化，一列體素，可視化成了一維折線圖

模型結(jié)構(gòu)

論文將提出的模型命名為MinD-Vis (Sparse Masked Brain Modeling with Double-Conditioned Latent Diffusion Model for Human Vision Decoding), 也算是給對(duì)處理fMRI數(shù)據(jù)的提示了——掩碼。由于fMRI數(shù)據(jù)中存在大量的冗余，即使將相當(dāng)大一部分的數(shù)據(jù)進(jìn)行了遮掩，最后也能重建得大差不離（見(jiàn)圖3）。因此，計(jì)算時(shí)直接加上掩碼也不會(huì)對(duì)模型效果產(chǎn)生太大影響。因?yàn)閒MRI數(shù)據(jù)的格式和圖像一樣，論文采用了新出的Masked Image Modeling [2] 來(lái)生成embedding vector。
編碼-解碼部分不是很意外地用了ViT。需要注意的是，中間表達(dá)采用的稀疏編碼，這是為了保證fMRI表征的細(xì)節(jié)不被破壞。
以上是Masked Brain Modeling（圖4左）部分的工作，然后就是擴(kuò)散模型部分，如何從經(jīng)過(guò)如此復(fù)雜預(yù)處理的fMRI數(shù)據(jù)中，獲取文本信息，并基于此生成圖像了（圖4右）。
為了能從抽象的表征中獲得視覺(jué)信息，論文將解碼任務(wù)化歸成了conditional synthesis問(wèn)題，因此可以使用擴(kuò)散模型解決。擴(kuò)散模型的網(wǎng)絡(luò)包括一個(gè)預(yù)訓(xùn)練過(guò)的UNet模型。生成圖像時(shí)的限定條件信息基于fMRI數(shù)據(jù)生成，通過(guò)cross-attention head加入U(xiǎn)Net。

conditional synthesis是指限定某些特征后進(jìn)行數(shù)據(jù)生成。例如，生成微笑的不同人臉。

對(duì)于一個(gè)conditional generative模型而言，生成圖像要能在條件限定的特征上盡量穩(wěn)定，與條件無(wú)關(guān)的特征上保持多樣性。因?yàn)槿伺c人的fMRI腦波數(shù)據(jù)中已經(jīng)夠?yàn)槎鄻樱谏蓤D像的時(shí)候，需要對(duì)UNet進(jìn)一步約束，強(qiáng)化條件上的限制。

▲圖4 MinD-Vis結(jié)構(gòu)

由于模型的結(jié)構(gòu)較為復(fù)雜，當(dāng)前版本的論文中沒(méi)有進(jìn)行更為詳細(xì)的描述，推薦極度好奇的讀者直接看開(kāi)源代碼。由于涉及了像Masked Brain Modeling，Diffusion Model這類前沿方法，在沒(méi)有一定基礎(chǔ)的情況下，想徹底吃透方法會(huì)需要相當(dāng)?shù)臅r(shí)間和精力，大家可以量力而行。

效果

在大致了解了模型結(jié)構(gòu)之后，還是來(lái)到各位最關(guān)心的部分，講講模型效果。
由于fMRI的數(shù)據(jù)主要面向神經(jīng)科學(xué)方向的研究，滿足論文任務(wù)的數(shù)據(jù)量不大，模型的訓(xùn)練、驗(yàn)證、測(cè)試數(shù)據(jù)總共來(lái)自三個(gè)不同的數(shù)據(jù)集，不同集合的數(shù)據(jù)域都有所偏移。Human Connectome Project [1] 提供136,000個(gè)fMRI數(shù)據(jù)片段，沒(méi)有圖像，只有fMRI，主要是用來(lái)預(yù)訓(xùn)練模型的解碼部分。Generic Object Decoding Dataset (GOD) [3] 是主要面向fMRI-圖像任務(wù)的，包含1250張來(lái)自200個(gè)類別的圖像，其中50張被用于測(cè)試。Brain, Object, Landscape Dataset (BOLD5000) [4] 則選取了113組fMRI-圖像數(shù)據(jù)對(duì)，作為測(cè)試。
由于BOLD5000是第一次用于論文提出的任務(wù)，論文沒(méi)有在這個(gè)數(shù)據(jù)集上與過(guò)往工作進(jìn)行效果對(duì)比。在GOD上基于腦波生成的圖像，在效果上相比過(guò)往研究顯然有了顯著進(jìn)步。

▲圖5 GOD數(shù)據(jù)集上，MinD-vis與過(guò)往方法效果比較
論文中還有嚴(yán)謹(jǐn)?shù)南趯?shí)驗(yàn)，展示了不同的模型部分對(duì)圖像生成效果的影響。部分圖片較為驚悚，此處不進(jìn)行展示。感興趣的讀者可以參考圖6失敗集錦中右下角的圖片自行評(píng)估承受能力。
▲圖6 MinD-vis翻車集錦

尾聲

終于又到了白鹡鸰的快樂(lè)廢話環(huán)節(jié)。
關(guān)于生成圖像翻車現(xiàn)象的猜想
這未必完全是模型的鍋。根據(jù)多個(gè)生成模型的對(duì)比，可以假設(shè)被試者在看到圖像時(shí)，其實(shí)腦內(nèi)會(huì)有一些特定的特征被激活，但是因?yàn)楸辉囌邔?duì)圖像的理解方式、關(guān)注點(diǎn)有所區(qū)別，激活的特征組也存在差異。之所以會(huì)有這種想法，是因?yàn)檎撐母郊械男Ч故局校话慵?xì)節(jié)越復(fù)雜，角度越怪的圖像，越容易生成失敗，這很有可能就是因?yàn)閳D像難以用簡(jiǎn)單的特征組描述導(dǎo)致的。
這篇論文意義重大，影響深遠(yuǎn)，后續(xù)工作可能上Nature
這篇論文展示的圖像生成效果非常好，展示了通過(guò)fMRI精確還原人們腦內(nèi)圖像信息的可行性。在擁有了更大量的數(shù)據(jù)之后，人類是如何記憶圖像的更多細(xì)節(jié)的機(jī)理，可以通過(guò)生成圖像與被試者所見(jiàn)圖片之間的對(duì)比去推測(cè)，然后進(jìn)一步完善、驗(yàn)證。這是神經(jīng)科學(xué)和機(jī)器學(xué)習(xí)成功結(jié)合的典范，一個(gè)起步的信號(hào)。
除此之外，論文本身能快速擁抱前沿技術(shù)，對(duì)SOTA模型的熟練應(yīng)用，以及開(kāi)源代碼的底氣也令我相當(dāng)敬佩。對(duì)于論文后續(xù)的相關(guān)工作，我也會(huì)持續(xù)跟進(jìn)。
參考文獻(xiàn)：

[1] David C Van Essen, Stephen M Smith, Deanna M Barch, Timothy EJ Behrens, Essa Yacoub, Kamil Ugurbil, Wu-Minn HCP Consortium, et al. The wu-minn human connectome project: an overview. Neuroimage, 80:62–79, 2013.[2] He, Kaiming, et al. "Masked autoencoders are scalable vision learners." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.[3] Tomoyasu Horikawa and Yukiyasu Kamitani. Generic decoding of seen and imagined objects using hierarchical visual features. Nature communications, 8(1):1–15, 2017.[4] Nadine Chang, John A Pyles, Austin Marcus, Abhinav Gupta, Michael J Tarr, and Elissa M Aminoff. Bold5000, a public fmri dataset while viewing 5000 visual images. Scientific data, 6(1):1–18, 2019.

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。