博客專欄

EEPW首頁 > 博客 > AR眼鏡:可視化聲音

AR眼鏡:可視化聲音

發(fā)布人:ygtu 時間:2023-07-10 來源:工程師 發(fā)布文章
推薦:將NSDT場景編輯器加入你的3D工具鏈
3D工具集:NSDT簡石數(shù)字孿生

??音頻可以包括各種各樣的聲音,從人類語音到非語音聲音,如狗吠和警笛聲。在為有聽力障礙的人設(shè)計可訪問的應(yīng)用程序時,應(yīng)用程序應(yīng)該能夠識別聲音并理解語音。

??這種技術(shù)將幫助聾啞人或聽力障礙者可視化語音,如人類對話和非語音。將語音和聲音AI結(jié)合在一起,您可以將可視化效果疊加到AR眼鏡上,使用戶能夠看到和解釋他們無法聽到的聲音。

??根據(jù)世界衛(wèi)生組織的數(shù)據(jù),約有1.5B人(占全球人口的近20%)患有聽力損失。到2年,這個數(shù)字可能會上升到5.2050B。

??Cochl 是位于圣何塞的 NVIDIA 合作伙伴,是一家深度技術(shù)初創(chuàng)公司,使用聲音 AI 技術(shù)來理解任何類型的音頻。他們還是 NVIDIA Inception 計劃的成員,該計劃通過提供尖端技術(shù)和 NVIDIA 專家的訪問,幫助初創(chuàng)公司更快地構(gòu)建解決方案。

該平臺可以識別37種環(huán)境聲音,該公司通過添加尖端的語音轉(zhuǎn)文本技術(shù)更進一步。這讓我們對聲音世界有了真正完整的理解。

AR眼鏡可可視化任何聲音

??AR眼鏡有可能極大地改善聽力損失者的生活,作為一種可視化聲音的可訪問工具。這項技術(shù)可以幫助提高他們的溝通能力,使他們更容易導(dǎo)航和參與周圍的世界。

?在此方案中,自動語音識別 (ASR) 用于使眼鏡能夠識別和理解人類語音。這項技術(shù)可以通過多種方式集成到眼鏡中:

  • 使用麥克風(fēng)捕獲與聾啞人或聽力障礙者交談的人的語音,然后使用 ASR 算法將語音解釋并轉(zhuǎn)錄為文本。然后,該文本可以顯示在眼鏡上,使聾啞人或聽力障礙者能夠閱讀和理解語音。

  • ASR還可用于使眼鏡能夠響應(yīng)語音命令,以便用戶可以通過語音控制眼鏡。

  • 他們還能夠在屏幕上顯示所有對話,例如在您開車時從地圖轉(zhuǎn)錄語音方向,以及任何其他聲音,如緊急車輛的喇叭或警報聲和風(fēng)噪。

解決方案背后的技術(shù)

??Cochl 使用 NVIDIA Riva 在其軟件堆棧中為其 ASR 功能提供支持。Riva 是一個 GPU 加速、完全可定制的 SDK,用于開發(fā)語音 AI 應(yīng)用程序。通過使用麗娃,該平臺已經(jīng)能夠擴展其理解各種聲音的能力,包括非語音聲音。

??“我們已經(jīng)測試了許多語音識別服務(wù),但只有麗娃提供了異常高和穩(wěn)定的實時性能。所以現(xiàn)在我們可以讓我們的聲音人工智能系統(tǒng)更接近人類的聽覺感知,“Cochl的聯(lián)合創(chuàng)始人兼首席執(zhí)行官Yoonchang Han說。

??“正如我們所觀察到的,AR眼鏡最有可能用于環(huán)境嘈雜的開放空間。NVIDIA Riva 幫助我們即使在嘈雜的環(huán)境中也能準(zhǔn)確轉(zhuǎn)錄語音,并為我們提供了無縫體驗,可以集成到我們的 Cochl.Sense 平臺中。

輔助技術(shù)的未來

??創(chuàng)建一個像人類一樣感知聲音的通用人工智能系統(tǒng)是一個巨大的挑戰(zhàn)。為了使AR眼鏡更容易獲得,需要更輕的可穿戴技術(shù)。

??然而,在這一點上,它們?nèi)匀皇菍⒙曇艉驼Z音轉(zhuǎn)換為視覺信息的理想媒介。通過集成機器聆聽功能,AR眼鏡可以為世界各地的聾啞人或聽力障礙者帶來更安全、更方便、更愉快的日常生活。

??Cochl還在探索語音AI的更多用例,例如為AR眼鏡上的任何視頻提供隱藏式字幕,以及可視化多說話人轉(zhuǎn)錄。為了給有聽力障礙的人提供最佳體驗,他們正在探索分析和可視化音樂的方法,以幫助他們至少理解音樂的流派和情感。

他們很高興嘗試更多 NVIDIA 解決方案,包括 Riva、NVIDIA NeMo 和 NVIDIA TensorRT。

  • 原文鏈接:AR眼鏡:可視化聲音 (mvrlink.com)


*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞: AR AI 語音識別

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉