科大訊飛重磅發(fā)布星火大模型4.0,整體性能全面領(lǐng)先,打造國產(chǎn)大模型最強平替
首個支持74個語種方言免切換語音大模型破解強干擾場景下語音識別難題
近期科大訊飛作為第一完成單位的《多語種智能語音關(guān)鍵技術(shù)及產(chǎn)業(yè)化》項目,獲得國家科學技術(shù)進步獎一等獎。這一次星火語音大模型迎來新突破。
劉慶峰認為,語音將成為萬物互聯(lián)時代人機交互的主要方式,人機交互最重要的場景是遠場、噪聲、多人說話、多語言,因此萬物互聯(lián)時代的AIUI(人工智能用戶界面)要滿足遠場高噪聲、多語言多方言、全雙工、多模態(tài)等標準??拼笥嶏w也主導制定了全雙工語音交互ISO/IEC國際標準,并于2023年5月發(fā)布。
面向萬物互聯(lián)時代,本次星火語音大模型發(fā)布的多語種多方言免切換語音識別能力,可支持37個語種、37種方言“自由對話”。其中,37個語種識別效果領(lǐng)先OpenAI whisper-V3,37個方言識別效果平均提升30%?,F(xiàn)場,科大訊飛演示了訊飛輸入法混合方言和外語的語音輸入效果,能讓輸入效率大大提高。
科大訊飛還發(fā)布了軟硬件一體化訊飛同傳系統(tǒng),可支持大會同傳、會議同傳、展廳同傳、旅游同傳等多場景使用。本次參會的嘉賓座位上同樣配備訊飛同傳的收聽設(shè)備,佩戴后即可實時收聽多語種AI同聲傳譯。
針對強干擾場景下的語音識別難題,科大訊飛突破了多人混疊場景下的極復雜場景語音轉(zhuǎn)寫技術(shù),即使在三人混疊說話場景也能實現(xiàn)86%的語音識別準確率。三位訊飛研究院的研究員現(xiàn)場實測,在噪音場景下同時混疊著說話,正常人耳已難以聽清,只見訊飛星火的多模態(tài)能力不但實現(xiàn)了三人重疊語音的角色分離,還能實時轉(zhuǎn)寫出每個人的語音,準確的效果引發(fā)現(xiàn)場掌聲不斷。未來多模態(tài)的語音識別技術(shù)將應用在訊飛聽見智慧辦公服務平臺、智慧屏等辦公產(chǎn)品中。
大模型正在推動人機交互變革,語音領(lǐng)域的所有應用都值得被重構(gòu)。在大模型加持下,星火汽車智能座艙全新升級,不但具備了多語種多方言的“自由交互”,還具備多情感多模態(tài)的超擬人交互,讓人車交互更有溫度。當前在汽車領(lǐng)域,訊飛語音交互產(chǎn)品國內(nèi)市占率穩(wěn)居第一,同時廣泛出口到世界各地。星火大模型為一汽、奇瑞、廣汽、江淮、長城等車企的眾多車型,賦予了高度智能的交互體驗。
為了讓大模型更好落地,科大訊飛還打造了端云一體和軟硬一體的解決方案,賦能家電、機器人等更多行業(yè)場景。面向具身智能和人形機器人企業(yè)需求,本次科大訊飛正式發(fā)布機器人超腦平臺2.0,業(yè)內(nèi)首個支持多模態(tài)交互,目前超400家機器人企業(yè)已經(jīng)采用訊飛機器人超腦平臺。
星火大模型助力“中式”智能座艙走向世界
科大訊飛面向萬物互聯(lián)時代,星火語音大模型再突破,發(fā)布72個語種/方言免切換對話,破解強干擾場景下語音識別難題,發(fā)布國際領(lǐng)先的極復雜場景語音轉(zhuǎn)寫,并通過云邊端及軟硬一體化解決方案,為汽車智能座艙,開辟出了更廣闊的天地。智能座艙再升級 多模態(tài)創(chuàng)造新場景
多模態(tài)能力也為車上的硬件開辟了全新的應用空間。傳統(tǒng)的DMS主要用于監(jiān)測駕駛員疲勞狀況,在大模型的賦能下,視覺判斷能夠高精度獲取包括心跳、呼吸、血壓在內(nèi)的多項身體健康指標,在用戶無感的狀態(tài)下長期記錄跟蹤。訊飛星火健康專家在此基礎(chǔ)上聯(lián)動訊飛醫(yī)療資源,為車主提供30種以上健康問題的監(jiān)測診斷,守護車主安全出行。
硬核科技助力 芯算融合讓域控更強勁
以訊飛最具代表性的語音算法為例,通過異構(gòu)將語音降噪、喚醒、識別、合成從CPU移植到NPU后,能夠降低60%的CPU算力需求。而通過在資源富裕的NPU上部署更大模型,能夠在本地實現(xiàn)媲美云端的語音識別效果。這就是紅旗EH7、蔚來ES8等一批新款車型上,語音識別又快又準背后的技術(shù)秘密。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。