AR眼鏡：可視化聲音

發(fā)布人：ygtu 時間：2023-07-10 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

推薦：將NSDT場景編輯器加入你的3D工具鏈

3D工具集：NSDT簡石數(shù)字孿生

??音頻可以包括各種各樣的聲音，從人類語音到非語音聲音，如狗吠和警笛聲。在為有聽力障礙的人設(shè)計可訪問的應(yīng)用程序時，應(yīng)用程序應(yīng)該能夠識別聲音并理解語音。

??這種技術(shù)將幫助聾啞人或聽力障礙者可視化語音，如人類對話和非語音。將語音和聲音AI結(jié)合在一起，您可以將可視化效果疊加到AR眼鏡上，使用戶能夠看到和解釋他們無法聽到的聲音。

??根據(jù)世界衛(wèi)生組織的數(shù)據(jù)，約有1.5B人（占全球人口的近20%）患有聽力損失。到2年，這個數(shù)字可能會上升到5.2050B。

??Cochl 是位于圣何塞的 NVIDIA 合作伙伴，是一家深度技術(shù)初創(chuàng)公司，使用聲音 AI 技術(shù)來理解任何類型的音頻。他們還是 NVIDIA Inception 計劃的成員，該計劃通過提供尖端技術(shù)和 NVIDIA 專家的訪問，幫助初創(chuàng)公司更快地構(gòu)建解決方案。

該平臺可以識別37種環(huán)境聲音，該公司通過添加尖端的語音轉(zhuǎn)文本技術(shù)更進一步。這讓我們對聲音世界有了真正完整的理解。

AR眼鏡可可視化任何聲音

??AR眼鏡有可能極大地改善聽力損失者的生活，作為一種可視化聲音的可訪問工具。這項技術(shù)可以幫助提高他們的溝通能力，使他們更容易導(dǎo)航和參與周圍的世界。

?在此方案中，自動語音識別（ASR）用于使眼鏡能夠識別和理解人類語音。這項技術(shù)可以通過多種方式集成到眼鏡中：

使用麥克風(fēng)捕獲與聾啞人或聽力障礙者交談的人的語音，然后使用 ASR 算法將語音解釋并轉(zhuǎn)錄為文本。然后，該文本可以顯示在眼鏡上，使聾啞人或聽力障礙者能夠閱讀和理解語音。
ASR還可用于使眼鏡能夠響應(yīng)語音命令，以便用戶可以通過語音控制眼鏡。
他們還能夠在屏幕上顯示所有對話，例如在您開車時從地圖轉(zhuǎn)錄語音方向，以及任何其他聲音，如緊急車輛的喇叭或警報聲和風(fēng)噪。

解決方案背后的技術(shù)

??Cochl 使用 NVIDIA Riva 在其軟件堆棧中為其 ASR 功能提供支持。Riva 是一個 GPU 加速、完全可定制的 SDK，用于開發(fā)語音 AI 應(yīng)用程序。通過使用麗娃，該平臺已經(jīng)能夠擴展其理解各種聲音的能力，包括非語音聲音。

??“我們已經(jīng)測試了許多語音識別服務(wù)，但只有麗娃提供了異常高和穩(wěn)定的實時性能。所以現(xiàn)在我們可以讓我們的聲音人工智能系統(tǒng)更接近人類的聽覺感知，“Cochl的聯(lián)合創(chuàng)始人兼首席執(zhí)行官Yoonchang Han說。

??“正如我們所觀察到的，AR眼鏡最有可能用于環(huán)境嘈雜的開放空間。NVIDIA Riva 幫助我們即使在嘈雜的環(huán)境中也能準(zhǔn)確轉(zhuǎn)錄語音，并為我們提供了無縫體驗，可以集成到我們的 Cochl.Sense 平臺中。

輔助技術(shù)的未來

??創(chuàng)建一個像人類一樣感知聲音的通用人工智能系統(tǒng)是一個巨大的挑戰(zhàn)。為了使AR眼鏡更容易獲得，需要更輕的可穿戴技術(shù)。

??然而，在這一點上，它們?nèi)匀皇菍⒙曇艉驼Z音轉(zhuǎn)換為視覺信息的理想媒介。通過集成機器聆聽功能，AR眼鏡可以為世界各地的聾啞人或聽力障礙者帶來更安全、更方便、更愉快的日常生活。

??Cochl還在探索語音AI的更多用例，例如為AR眼鏡上的任何視頻提供隱藏式字幕，以及可視化多說話人轉(zhuǎn)錄。為了給有聽力障礙的人提供最佳體驗，他們正在探索分析和可視化音樂的方法，以幫助他們至少理解音樂的流派和情感。

他們很高興嘗試更多 NVIDIA 解決方案，包括 Riva、NVIDIA NeMo 和 NVIDIA TensorRT。

原文鏈接：AR眼鏡：可視化聲音 (mvrlink.com)

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權(quán)請聯(lián)系工作人員刪除。

博客專欄

AR眼鏡：可視化聲音

相關(guān)推薦

技術(shù)專區(qū)