小小的大腦,大大的智慧——仿昆蟲智能為通用AI帶來的新思路(1)
本文從視覺、追蹤和導(dǎo)航三個方面入手,以近年來的新應(yīng)用為例,帶領(lǐng)讀者一窺機器人與昆蟲之間奇妙的化學(xué)反應(yīng)。
很多工程師的夢想都是創(chuàng)造出能夠在復(fù)雜的環(huán)境下穩(wěn)定勝任一系列任務(wù)——比如行走和導(dǎo)航——的機器人。為了實現(xiàn)這一目標(biāo),早期的研究者們試圖將機器人身處的環(huán)境抽象化,然后根據(jù)其所可能應(yīng)對的情況和任務(wù)制定一系列規(guī)則,并賦予機器人一定的推理能力。在這段期間, 全世界范圍內(nèi)也許最成功的機器人是名叫赫伯特的機器人。
赫伯特的前身是由西屋電氣工程師 Roy J. Wensley 開發(fā)用來遠程調(diào)用變電系統(tǒng)的機器人 Televox,僅由一組控制單元組成。Televox 本質(zhì)上是一個聲控系統(tǒng),為了實現(xiàn)遠程遙控的目的,該控制單元的一部分放在變電站另一部分則放置于調(diào)度員處。調(diào)度員可以利用 Televox 將指令轉(zhuǎn)為不同的聲音頻率發(fā)送到另一端,經(jīng)過解碼后再執(zhí)行相應(yīng)操作。這一發(fā)明成功后,Wensley 進一步開發(fā),并將 Televox 包裝為了一個有“臉”、身體和身體的機器人,也就是赫伯特機器人。
圖:世界上最早的機器人之一:Herbert Televox 和其開發(fā)者 Roy J. Wensley
source: https://medium.com/robotics-today/first-humanoid-robot-ever-87df3ee079b0
用今天的眼光來看,赫伯特也許完全算不上智能,因為它主要是靠規(guī)則驅(qū)動的,它的行為與人也并不相似。以當(dāng)時最為人津津樂道的赫伯特作為家庭助手為例,操作人必須按照相對固定的腳本緩慢的向赫伯特傳達命令,有時還必須按下特定的按鈕來進行選擇或確認。因為赫伯特并不能真正理解操作人的語音,它只能識別一系列已經(jīng)寫入系統(tǒng)的指令——還是在固定的音節(jié)上。可以說,赫伯特只能在其系統(tǒng)內(nèi)規(guī)定的規(guī)則范圍內(nèi)工作,這與今天大行其道的聯(lián)結(jié)主義 (connectionism) 是不同的。
聯(lián)結(jié)主義, 又稱仿生主義,認為心理現(xiàn)象可以用簡單并一致的網(wǎng)絡(luò)——如神經(jīng)網(wǎng)絡(luò)——來描述,不同的行為可以通過這些基礎(chǔ)結(jié)構(gòu)之間復(fù)雜的互動實現(xiàn),這與人腦工作的方式相似。因此,聯(lián)結(jié)主義追求用簡潔的方式構(gòu)建有通用性的解法,而規(guī)則驅(qū)動的算法則是 case by case,有很大的可能會隨著環(huán)境的復(fù)雜度增加而變得過于龐大。
顯然,隨著擬人機器人的發(fā)展,不少學(xué)者也轉(zhuǎn)向了其他方向來試圖開發(fā)更類人、具有更高智能的機器人。一些研究者將目光投向自然界,試圖從動物——比如昆蟲等結(jié)構(gòu)比較簡單的動物——身上利用聯(lián)接主義進行研究、學(xué)習(xí)和模仿。這不難理解,從昆蟲的神經(jīng)科學(xué)研究上看,昆蟲的神經(jīng)系統(tǒng)比大部分動物都簡單很多,使對昆蟲的大腦建模相對來說簡單。但另一方面,許多昆蟲的大腦在大小、重量上都不值一提,有些甚至還“視力其差”,但這并不影響昆蟲高效、穩(wěn)定的完成覓食和協(xié)作等復(fù)雜的行為。此外,盡管昆蟲的身體類型、行為、棲息地和生活方式種類繁多,但各個物種的大腦組織之間仍存在許多令人驚訝的一致性,這表明它們可能是有效,高效和通用的解決方案。[3]
本文從視覺、追蹤和導(dǎo)航三個方面入手,以近年來的新應(yīng)用為例,帶領(lǐng)讀者一窺機器人與昆蟲之間奇妙的化學(xué)反應(yīng)。
一、視覺場景識別 - A Hybrid Compact Neural Architecture for Visual Place Recognition
在視覺場景識別領(lǐng)域,流行的算法大致可以分為兩類:以深度學(xué)習(xí)為代表的更多依賴于計算機科學(xué)的模型,和利用大腦的特性建模的更多依賴于神經(jīng)科學(xué)的模型。本文作者則旨在結(jié)合兩類研究的優(yōu)點,實現(xiàn)新的緊湊而高性能的模型。
視覺位置識別(VPR)是指僅基于圖像所提供的視覺線索,而不使用任何其他信息,來識別圖像中描繪的位置的任務(wù)[6]。對于在現(xiàn)實環(huán)境中長時間運行的任何機器人系統(tǒng)或自動駕駛車輛而言,可靠地執(zhí)行視覺位置識別(VPR)都是一項挑戰(zhàn)。因為同一個地方因為時間,如白天 / 夜晚或天氣 / 季節(jié)周期,的變化可能看起來完全不相似,而多個地方在某些特定的情況下反而可能看起來十分相似。另外一個問題是目前流行的預(yù)訓(xùn)練模型大多是在單個圖像上訓(xùn)練的,雖然這些模型也取得了很好的成績,但是期通常會忽略連續(xù)圖像內(nèi)所蘊含的時間信息。
而昆蟲等生物卻能夠非常有效地從低分辨率數(shù)據(jù)中提取有關(guān)其環(huán)境的信息,它們能夠在各種環(huán)境條件下(不同光照、對比度等)強大地執(zhí)行視覺處理任務(wù)。一般認為,昆蟲對位置的識別主要是通過蕈形體(mushroom bodies)實現(xiàn)的。蕈形體是昆蟲或其他節(jié)肢動物和一些環(huán)節(jié)動物如沙蠶腦中的一對結(jié)構(gòu)[7],其名字來自于其大致半球形的花萼,這個花突通過中樞神經(jīng)束或花序梗與大腦的其余部分相連。下圖標(biāo)亮了果蠅大腦中的蕈形體。蕈形體的結(jié)構(gòu)可以簡化為多層感知器(MLP),它涉及蜜蜂和螞蟻的嗅覺和視覺信息的分類、學(xué)習(xí)和識別。這些昆蟲的感官接受到經(jīng)過密集編碼和高度處理的輸入,并傳遞給蕈形體,后者則將該信息稀疏地連接到蕈形體內(nèi)的大量內(nèi)在神經(jīng)元。
圖:果蠅大腦中的蕈形體
圖源:維基百科 https://en.wikipedia.org/wiki/Mushroom_bodies
根據(jù)果蠅嗅覺神經(jīng)回路的工作機制,作者提出了僅包含兩層全連接層的 FlyNet 算法(FLA)。圖像在預(yù)處理后將以 10% 的采樣率被輸入到第一層網(wǎng)絡(luò)當(dāng)中。當(dāng)?shù)诙尤B接層的輸出其編碼的表示后,僅有 50% 的輸出值將被設(shè)置被 1,其他則被設(shè)置為 0,以獲得一個簡潔的二進制特征表示。該網(wǎng)絡(luò)的具體結(jié)構(gòu)如下圖所示:
圖:FNA 算法圖示
圖源:Chancan, M., Hernandez-Nunez, L., Narendra, A., Barron, A. B., & Milford, M. (2020). A hybrid compact neural architecture for visual place recognition. IEEE Robotics and Automation Letters, 5(2), 993-1000. https://doi.org/10.1109/LRA.2020.2967324
為了處理圖像序列中的時間維度,作者在 FlyNet 上疊加了一個一維連續(xù)吸引子神經(jīng)網(wǎng)絡(luò)(continuous attractor neural network, CANN)。CANN 也是一個典型的仿生智能例子——一般認為大腦在執(zhí)行一些計算任務(wù)時會采用特定結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò),CANN 就是基于此而開發(fā)的。CANN 由吸引子組成,它們之間有局部連接。此外,網(wǎng)絡(luò)內(nèi)有興奮性與抑制性的兩種活動,從而保證網(wǎng)絡(luò)即能夠形成有意義的空間活動,又不會在正反饋的疊加下爆炸。因此一個吸引子可以使用興奮性和抑制性連接來激發(fā)或抑制自身以及附近的吸引子。CANN 在數(shù)學(xué)表示和結(jié)構(gòu)上具有良好的特性,如空間平移不變性 [8]。
圖:(A)朝向編碼的一維 CANN 的圖示(B)一維 CANN 的穩(wěn)定狀態(tài),每個吸引子對應(yīng)一個高斯波包活動狀態(tài)。
圖源:Wu, S., Wong, K. Y., Fung, C. C., Mi, Y., & Zhang, W. (2016). Continuous Attractor Neural Networks: Candidate of a Canonical Model for Neural Information Representation. F1000Research, 5, F1000 Faculty Rev-156. https://doi.org/10.12688/f1000research.7387.1
在本文中,由 FlyNet 輸出的二進制圖像特征將被輸入到 CANN 中,如下圖所示,以達到對 FlyNet 的輸出進行時間濾波的目的。
圖:FlyNet+CANN 混合神經(jīng)網(wǎng)絡(luò)架構(gòu)
圖源:Chancan, M., Hernandez-Nunez, L., Narendra, A., Barron, A. B., & Milford, M. (2020). A hybrid compact neural architecture for visual place recognition. IEEE Robotics and Automation Letters, 5(2), 993-1000. https://doi.org/10.1109/LRA.2020.2967324
作者在 Nordland 和 Oxford RobotCar 數(shù)據(jù)集上 FlyNet + CANN 以及目前的 SOTA 算法進行了對比,指標(biāo)為 AUC (area under curve)。該數(shù)據(jù)集內(nèi)的圖像大多為 1000*1000 以上的較高分辨率圖像,但在測試 FlyNet + CANN 時作者將其一概下采樣為 32*64 的灰度圖像??紤]到分辨率的大幅下降,這個信息損失還是很驚人的。個別 SOTA 算法使用了 VGG16 等對圖像分別率有要求的結(jié)構(gòu),因而作者沒有將圖像也圖樣下采樣到 32*64, 但有將最終輸出的特征進行下采樣到 FlyNet 輸出特征一樣的維度。
下圖顯示了 FlyNet + CANN 和 SOTA 算法的對比結(jié)構(gòu)。在 Nordland 數(shù)據(jù)集上,MPF 表現(xiàn)更好,AUC 達到了驚人的 100%,能夠同時在秋冬轉(zhuǎn)換下準(zhǔn)確的識別所有位置。FlyNet + CANN 和 SeqSLAM 的表現(xiàn)相似,并且在冬季和夏季的數(shù)據(jù)上的表現(xiàn)也比較平衡?;谡Z義的 LoST-X 的精度則在冬季數(shù)據(jù)上大幅下降,導(dǎo)致了最低的 AUC。
與 Nordland 不同,Oxford RobotCar 數(shù)據(jù)集帶來了日夜轉(zhuǎn)換的挑戰(zhàn)。下圖中可以看到所有模型在夜景數(shù)據(jù)上的 AUC 都有或多或少的下降,SeqSLAM 的 AUC 更是降到幾乎為零。在這一數(shù)據(jù)集上,F(xiàn)lyNet + CANN 取得了最高的 AUC 并且在夜景上的表現(xiàn)也沒有過多下降。
圖:(上):Precision Recall 曲線 (左)Nordland (右)Oxford RobotCar
(下):AUC (左)Nordland (右)Oxford RobotCar
圖源:Chancan, M., Hernandez-Nunez, L., Narendra, A., Barron, A. B., & Milford, M. (2020). A hybrid compact neural architecture for visual place recognition. IEEE Robotics and Automation Letters, 5(2), 993-1000. https://doi.org/10.1109/LRA.2020.2967324
當(dāng)然,作者使用基于仿生研究的模型結(jié)構(gòu)的一大目的是獲得能耗較低但運行速度夠快的模型,根據(jù)作者對 1000 張圖片的平均位置識別時間的統(tǒng)計,F(xiàn)lyNet + CANN 可以達到每秒 16.66 幀的查詢速度,比排名第二快模型還要快 1.5 倍以上。這一點為仿生神經(jīng)網(wǎng)絡(luò)對比 CNN 提供了強大的競爭力——即便目前的相關(guān)研究也很活躍,但 CNN 的能耗和推理速度仍然為在移動端部署模型帶來了不小的挑戰(zhàn)。而基于昆蟲大腦的 FlyNet + CANN 等神經(jīng)網(wǎng)絡(luò),可以將模型參數(shù)控制在百萬以內(nèi),并且沒有在模型表現(xiàn)上落后太多。此外,F(xiàn)lyNet + CANN 也繼承了昆蟲的另一特性——在低分辨率下進行計算,從計算角度直接保證了模型的實時推理的可行性。
二、追蹤 - An autonomous robot inspired by insect neurophysiology pursues moving features in natural environments
計算機視覺和機器人應(yīng)用往往需要在移動平臺上實現(xiàn)強大而有效的目標(biāo)跟蹤算法,但就目前的人工視覺系統(tǒng)的表現(xiàn)而言,在雜亂的背景下檢測和跟蹤移動物體仍是最具挑戰(zhàn)性的任務(wù)之一,更遑論對實時系統(tǒng)的部署。而昆蟲的視覺系統(tǒng),則為研究者們提供了一個理想的視覺追蹤系統(tǒng)的完美例子。許多飛行昆蟲,例如蜻蜓,都能夠檢測、選擇和追捕微小的獵物或同種動物。更令人咋舌的是,昆蟲僅有限的視覺分辨率(?0.5°)、尺寸相對較小的大腦(小于 2 mm 寬)和重量輕和低功率的神經(jīng)元結(jié)構(gòu)用于處理數(shù)據(jù)。
本文作者們在之前數(shù)年的研究中已經(jīng)通過細胞內(nèi)電生理技術(shù)來記錄昆蟲視神經(jīng)葉內(nèi)的神經(jīng)元活動,并確定了一組與目標(biāo)的檢測和追蹤相關(guān)的神經(jīng)元,作者將其命名為“小目標(biāo)運動檢測器”(small target motion detectors, STMD)?;谶@些生理數(shù)據(jù),作者開發(fā)了用于局部目標(biāo)識別的非線性“基礎(chǔ) STMD”(Elementary- STMD, ESTMD)模型(Wiederman 等人,2008),并在 VR 模擬環(huán)境中對該追蹤系統(tǒng)進行了測試。在本篇論文中,作者主要實現(xiàn)了整套追蹤模型在機器人平臺上的部署,并在室內(nèi)和室外環(huán)境對該機器人進行了詳盡的測試。
下圖中,作者給出了整個系統(tǒng)的工作流程,所有功能在 Husky A200(Clearpath RoboticsTM)平臺上實現(xiàn)。機器人身上裝有一個 Blackfly 相機,用于獲取機器人所處環(huán)境的視覺輸入。相機輸出用作昆蟲啟發(fā)的目標(biāo)跟蹤模型的輸入,該模型包括:
1)圖像預(yù)處理(early visual processing):該模塊主要用于模擬飛行昆蟲中光學(xué),感光體和大型單極細胞(large monopolar cells , LMC)的響應(yīng)特性。由于飛行昆蟲的光學(xué)器件受到小平面透鏡內(nèi)的衍射和其他形式的光學(xué)干涉的限制,針對輸入的圖像,作者首先使用高斯低通濾波器對這種光學(xué)模糊進行建模,這與典型的日間活動昆蟲的光學(xué)采樣相似(Stavenga,2003 年)。為在算法的敏銳度和計算效率之間取得平衡,作者還以 1° 的間隔對捕獲的圖像進行二次采樣。另外,作者選擇僅處理 RGB 圖像的綠色通道來模擬飛行昆蟲運動路徑的綠色光譜敏感性。接下來,這一模塊中還有時間共同濾波和空間高通濾波,以進一步去除多余的信息。
2)目標(biāo)匹配濾波(Target Matched Filtering,ESTMD 階段):這一模塊主要模擬的是昆蟲第二視神經(jīng)網(wǎng)(2nd optic neuropil)內(nèi)的 Rectifying transient cells(RTC)。RTC 對光增量(ON 通道)或減量(OFF 通道)具有獨立的適應(yīng)性,在實際實現(xiàn)中,作者通過半波整流(half-wave rectification, HWR1)對 ON 和 OFF 通道的分離進行建模。接下來,生成的 ON 和 OFF 的通道數(shù)據(jù)需要通過快速適應(yīng)模塊,其中適應(yīng)狀態(tài)由切換其時間常數(shù)的非線性濾波器確定。當(dāng)輸入增加時,時間常數(shù)為“快”(3 毫秒),減少時則為“慢”(70 毫秒)。此外,作者使用了強烈的空間中心包圍對抗(spatial centre-surround antagonism),使得每個通道周圍都抑制了其最近的鄰居。時間適應(yīng)減少了對背景紋理的響應(yīng),而強烈的空間中心包圍對抗則傳達了對局部邊緣特征的選擇性。在此輸出上,作者添加了第二個半波整流,用于消除負值。到了這一步,在前進方向上,小目標(biāo)將會首先表現(xiàn)為亮度的升高(或下降),經(jīng)過短暫的延遲后才出現(xiàn)相應(yīng)的下降(或升高)。為了充分利用這一特征,作者每個通道的輸出與相對通道的延遲版本(下圖標(biāo)記為低通濾波器(LP_ESTMD))相乘,然后對輸出求和。這能夠賦予最終系統(tǒng)足夠的目標(biāo)靈敏度,而與目標(biāo)相對于背景的對比極性無關(guān)。
3)ESTMD 輸出融合(Integration and facilitation of ESTMD output):在這一模塊中,處理后的信息將被用于兩個方面。一方面,機器人需要根據(jù)輸入的信息推斷追蹤目標(biāo)的位置。輸入這一模塊的數(shù)據(jù)首先需要通過雙曲正切 “激活” 函數(shù) S(x),以保證所有數(shù)據(jù)值都在于 0 和 1 之間,其中的最大值將被認為是當(dāng)前位置估計 r(t)。另一方面,由于目標(biāo)追蹤是一個連續(xù)的過程,將此前的信息連續(xù)不斷的與最新的視覺信息整合起來是必須的。為了模擬昆蟲更新信息的融合機制(facilitation mechanism),研究者們可以將當(dāng)前的位置根據(jù)目標(biāo)速度矢量進行相應(yīng)的偏移——以作為對目標(biāo)未來位置的估算——然后加權(quán)更新系統(tǒng)地圖(Nordstr?m 等人,2011; Dunbier 等人,2011; 2012)。在本文中,通過將當(dāng)前位置估計(r(t))與由 Hassenstein-Reichardt 基本運動檢測器提供的目標(biāo)速度矢量(v(t))的估計值相乘,并乘以采樣時間,可以計算出預(yù)測目標(biāo)位置(r’(t+1))。接下來,作者使用 2D 高斯核 FG(r')來實現(xiàn)軌跡估計和實際觀察到的數(shù)據(jù)之間的融合。文中使用的 2D 高斯核 FG(r')相當(dāng)于昆蟲神經(jīng)元的感受野之間有 50%的重疊。該輸出上將被疊加一個低通濾波器(LP_Fac),處理后的信息將會被用于與下一次的輸入信息進行融合,以提供目標(biāo)在此前的運動軌跡。融合的強度由時間常數(shù) τf 控制,其可以決定 r(t) 周圍的位置將被增強多久。
4) 掃視追蹤算法(Saccadic Pursuit Algorithm):在飛行過程中,昆蟲會繞頭移動(saccadic head movements),這是一種 “急速” 轉(zhuǎn)彎——即短而快速的偏航轉(zhuǎn)彎以改變注視方向。為了模擬這一行為,在成功的從視覺線索中識別目標(biāo)并確定其位置后,追蹤算法需要決定相應(yīng)的前進速度,并保持目標(biāo)始終在自己的視野中心內(nèi)。當(dāng) ESTMD 輸出的位置估計從視場中心移出超過 5° 時,機器人會重新掃視自己的視野并計算需要調(diào)整的角度,來模擬昆蟲行為中看到的這種繞頭移動。使目標(biāo)保持在視野內(nèi)的特定角度位置。
圖:目標(biāo)追蹤的閉環(huán)流程
圖源:Bagheri, Zahra & Cazzolato, Ben & Grainger, Steven & O'Carroll, David & Wiederman, Steven. (2017). An autonomous robot inspired by insect neurophysiology pursues moving features in natural environments. Journal of Neural Engineering. 14. 046030. 10.1088/1741-2552/aa776c.
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。
lc振蕩電路相關(guān)文章:lc振蕩電路原理