新聞中心

EEPW首頁(yè) > 醫(yī)療電子 > 業(yè)界動(dòng)態(tài) > 科學(xué)家研發(fā)人工智能聲吶眼鏡:可識(shí)別唇語(yǔ),準(zhǔn)確率達(dá) 95%

科學(xué)家研發(fā)人工智能聲吶眼鏡:可識(shí)別唇語(yǔ),準(zhǔn)確率達(dá) 95%

作者: 時(shí)間:2023-04-10 來(lái)源:IT之家 收藏

IT之家 4 月 10 日消息,美國(guó)康奈爾大學(xué)的研究人員開(kāi)發(fā)了一種新技術(shù),可以通過(guò)聲納眼鏡進(jìn)行無(wú)聲溝通。這種眼鏡利用微型揚(yáng)聲器和麥克風(fēng)來(lái)讀取佩戴者默念的單詞,從而可以在不需要物理輸入的情況下執(zhí)行各種任務(wù)。

本文引用地址:http://www.butianyuan.cn/article/202304/445444.htm

The EchoSpeech glasses (modeled here by lead scientist Ruidong Zhang) could be utilized to control devices, or even to help the voiceless communicate

這項(xiàng)技術(shù)由康奈爾大學(xué)的博士生張瑞東(音譯)領(lǐng)導(dǎo)開(kāi)發(fā),是在一個(gè)類似的項(xiàng)目的基礎(chǔ)上進(jìn)行的改進(jìn),該項(xiàng)目使用了一個(gè)無(wú)線耳機(jī),而之前的模型則依賴于攝像頭。

據(jù)IT之家了解,該聲納眼鏡使用一種名為 EchoSpeech 的無(wú)聲語(yǔ)音識(shí)別接口,利用聲納來(lái)感知嘴部運(yùn)動(dòng),同時(shí)使用一個(gè)深度學(xué)習(xí)算法實(shí)時(shí)分析回波特征。這使得系統(tǒng)能夠以約 95% 的準(zhǔn)確率識(shí)別佩戴者默念的單詞。

這項(xiàng)技術(shù)最令人興奮的前景之一是,對(duì)于有語(yǔ)言障礙的人來(lái)說(shuō),可以使用它來(lái)無(wú)聲地將對(duì)話輸入到語(yǔ)音合成器中,然后將單詞大聲說(shuō)出來(lái)。眼鏡也可以用來(lái)在安靜的圖書館中控制音樂(lè)播放,或者在嘈雜的音樂(lè)會(huì)上口述信息。

該技術(shù)既小巧又低功耗,也不會(huì)侵犯隱私,因?yàn)闆](méi)有數(shù)據(jù)離開(kāi)用戶的手機(jī)。這樣,就不會(huì)有隱私方面的擔(dān)憂。眼鏡佩戴非常方便,比其他可用的無(wú)聲語(yǔ)音識(shí)別技術(shù)更實(shí)用、更可行。

研究人員表示,該系統(tǒng)只需要幾分鐘的訓(xùn)練數(shù)據(jù)來(lái)學(xué)習(xí)用戶的語(yǔ)音模式,學(xué)習(xí)完成后,就可以朝用戶的臉上發(fā)送和接收聲波,感知嘴部運(yùn)動(dòng),同時(shí)使用深度學(xué)習(xí)算法分析回波特征。該系統(tǒng)目前能夠識(shí)別 31 個(gè)孤立的命令和一串連續(xù)的數(shù)字,并且錯(cuò)誤率低于 10%。

該系統(tǒng)目前的版本提供了大約 10 小時(shí)的電池續(xù)航,并且可以通過(guò)藍(lán)牙無(wú)線地與用戶的智能手機(jī)通信。智能手機(jī)負(fù)責(zé)處理和預(yù)測(cè)所有數(shù)據(jù),并將結(jié)果傳輸?shù)揭恍皠?dòng)作鍵”,讓它可以播放音樂(lè)、與智能設(shè)備交互或激活語(yǔ)音助手。

康奈爾大學(xué)智能計(jì)算機(jī)接口未來(lái)交互(SciFi)實(shí)驗(yàn)室正在利用康奈爾大學(xué)的一個(gè)資助計(jì)劃來(lái)探索將這項(xiàng)技術(shù)商業(yè)化的可能性。




關(guān)鍵詞: 人工智能 智能穿戴

評(píng)論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉