Meta 可以通過腦電波猜測你聽到了什么

發(fā)布人：傳感器技術(shù) 時間：2022-10-14 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

新的人工智能可以僅僅通過大腦測量猜測出正確的、被測者正在想象的單詞。

Meta 的研究科學家讓-雷米·金 (Jean-Rémi King) 告訴《時代》雜志，有許多不好的因素會剝奪某人的說話能力——對這些受到影響的人來說，腦機接口可能是恢復溝通的關(guān)鍵。

“通過在患者大腦的運動區(qū)域放置一個電極，我們可以解碼活動并幫助患者與世界其他地方交流，”King 說。

大腦植入物使用這樣的方法恢復癱瘓患者的交流能力：神經(jīng)植入物不需要指向單個字母或單詞，而是將他的想法直接轉(zhuǎn)化為單詞。

患有 ALS 的澳大利亞人 Phiip O'Keefe 擁有一個腦機接口芯片，可以讓他將自己的想法轉(zhuǎn)化為文本，從而打開了包括Twitter在內(nèi)的整個電子通信世界。此外，一名 ALS 進展為完全閉鎖綜合征的患者也接受了一種允許交流的植入物。

Meta 的研究人員正在構(gòu)建用于在大腦中解碼語音的 AI 模型。

“但是將電極放入某人的大腦中顯然是極具侵入性的。” King 說。

（在 O'Keefe 的案例中，值得注意的是，植入物是通過他的頸靜脈進入的，因此他不需要進行開顱手術(shù)，盡管這是一項重大手術(shù)。）

“所以我們想嘗試使用非侵入性的大腦活動記錄。最終目標是建立一個人工智能系統(tǒng)，可以解碼大腦對口述內(nèi)容的反應。”

Facebook 人工智能研究 (FAIR) 實驗室的 King 和他的同事已經(jīng)開始這樣做，他們創(chuàng)造了一種深度學習 AI，能夠在一定程度上從腦電波中解碼語音。

King 在Meta AI 的博客中寫道，在他們目前作為預印本在線的研究中，該團隊使用了之前在 FAIR 創(chuàng)建的開源算法來分析已經(jīng)存在的數(shù)據(jù)集。

這些數(shù)據(jù)集包含 169 名健康志愿者在聽荷蘭語和英語有聲讀物時的大腦記錄，累積超過 150 小時。

由于目標是非侵入性地解碼語音，因此該團隊使用通過測量大腦的電活動（腦電圖或 EEG）和磁活動（稱為腦磁圖或 MEG）記錄的數(shù)據(jù)。

兩者都是通過頭骨外部的傳感器記錄的，這構(gòu)成了研究人員的主要挑戰(zhàn)之一，King 告訴時代周刊：數(shù)據(jù)的“嘈雜”程度受限于傳感器與大腦的距離，以及皮膚、頭骨、水等的影響，會導致信號質(zhì)量降低。所有這些噪音都變得更加難以消除，因此我們不能 100% 確定我們在尋找什么。

“另一個大問題更具概念性，因為我們實際上在很大程度上不知道大腦如何代表語言?！盞ing 說。

人工智能使用有聲讀物和大腦錄音，分析它們以研究聽到的單詞和腦電波之間的工作模式。

這就是團隊想要外包給人工智能的解碼語音的問題，因為它通過一個動作來預測大腦活動——這將決定，在這種情況下，一個對象會聽到什么。

如果沒有人工智能，“事情將很難說，‘好吧，這個大腦活動意味著這個詞，這個音素，或者一個行動的意圖，或者其他什么?！盞ing 說。

解碼語音：將這些時間分成三秒位后，他們將有聲讀物和大腦錄音提供給人工智能，人工智能對其進行分析，嘗試發(fā)現(xiàn)模式。

據(jù)《新科學家》報道，該團隊保留了 10% 的數(shù)據(jù)來測試他們的模型：使用從其他 90% 中學習到的模式來嘗試識別它從未見過的大腦記錄中聽到的單詞。

“經(jīng)過訓練，我們的系統(tǒng)執(zhí)行所謂的零樣本分類：給定一個大腦活動片段，它可以從大量新音頻片段中確定這個人實際聽到的是哪個片段?！盞ing 在 Meta 博客中寫道?！八惴ɑ谶@種設(shè)計推斷出這個人最有可能聽到的詞?！?/span>

具體來說，據(jù)《新科學家》報道，人工智能依靠其 793 個單詞的詞匯表來制作十個單詞列表，以粗略地解碼語音。

根據(jù)他們的預印本，當使用三秒的 MEG 數(shù)據(jù)時，人工智能能夠在 72.5% 的時間內(nèi)在前十名中得到正確的詞——在 44% 的測試中首先猜到它——而在 EEG 數(shù)據(jù)中則為 19.1%。

人工智能能夠在高達 72.5% 的測試中提供包含正確單詞的答案列表。

不過，倫敦帝國理工學院教授 Thomas Knopfel 告訴《新科學家》，該系統(tǒng)需要更多改進才能真正用于語音解碼，并且懷疑 EEG 和 MEG（非侵入性方案）能否提供更準確所需的精細細節(jié).

“這是關(guān)于信息流的?！盞nopfel 告訴《新科學家》?！斑@就像試圖通過老式模擬電話調(diào)制解調(diào)器播放高清電影。即使在理想的條件下，有人戴著耳機坐在黑暗的房間里，只是在聽音頻，大腦中也會同時發(fā)生其他事情。在現(xiàn)實世界中，腦海中只有一個想法獨立地發(fā)生完全不可能?！?/span>

然而，技術(shù)進步可能會改變這一點：一種稱為OPM的新型 MEG正在推動可以從外部學習的范圍。

就他而言，King 告訴《時代》雜志，他們目前只對語音進行解碼，以講述人們在掃描儀中聽到的內(nèi)容。它還不是用于設(shè)計產(chǎn)品，而只是作為基礎(chǔ)研究和原理證明。

來源：中國信息通信研究院知識產(chǎn)權(quán)中心

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權(quán)請聯(lián)系工作人員刪除。

博客專欄

Meta 可以通過腦電波猜測你聽到了什么

相關(guān)推薦

技術(shù)專區(qū)