科大訊飛重磅發(fā)布星火大模型4.0，整體性能全面領(lǐng)先，打造國產(chǎn)大模型最強平替

發(fā)布人：傳感器技術(shù) 時間：2024-06-30 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

導讀：6月27日，科大訊飛在北京國家會議中心升級發(fā)布訊飛星火V4.0。本次升級后，訊飛星火全面對標ChatGPT-4 Turbo，在8個國際主流測試集中排名第一，在國內(nèi)大模型中全面領(lǐng)先。

首個支持74個語種方言免切換語音大模型破解強干擾場景下語音識別難題

近期科大訊飛作為第一完成單位的《多語種智能語音關(guān)鍵技術(shù)及產(chǎn)業(yè)化》項目，獲得國家科學技術(shù)進步獎一等獎。這一次星火語音大模型迎來新突破。

劉慶峰認為，語音將成為萬物互聯(lián)時代人機交互的主要方式，人機交互最重要的場景是遠場、噪聲、多人說話、多語言，因此萬物互聯(lián)時代的AIUI（人工智能用戶界面）要滿足遠場高噪聲、多語言多方言、全雙工、多模態(tài)等標準?？拼笥嶏w也主導制定了全雙工語音交互ISO/IEC國際標準，并于2023年5月發(fā)布。

面向萬物互聯(lián)時代，本次星火語音大模型發(fā)布的多語種多方言免切換語音識別能力，可支持37個語種、37種方言“自由對話”。其中，37個語種識別效果領(lǐng)先OpenAI whisper-V3，37個方言識別效果平均提升30%?，F(xiàn)場，科大訊飛演示了訊飛輸入法混合方言和外語的語音輸入效果，能讓輸入效率大大提高。

科大訊飛還發(fā)布了軟硬件一體化訊飛同傳系統(tǒng)，可支持大會同傳、會議同傳、展廳同傳、旅游同傳等多場景使用。本次參會的嘉賓座位上同樣配備訊飛同傳的收聽設(shè)備，佩戴后即可實時收聽多語種AI同聲傳譯。

針對強干擾場景下的語音識別難題，科大訊飛突破了多人混疊場景下的極復雜場景語音轉(zhuǎn)寫技術(shù)，即使在三人混疊說話場景也能實現(xiàn)86%的語音識別準確率。三位訊飛研究院的研究員現(xiàn)場實測，在噪音場景下同時混疊著說話，正常人耳已難以聽清，只見訊飛星火的多模態(tài)能力不但實現(xiàn)了三人重疊語音的角色分離，還能實時轉(zhuǎn)寫出每個人的語音，準確的效果引發(fā)現(xiàn)場掌聲不斷。未來多模態(tài)的語音識別技術(shù)將應用在訊飛聽見智慧辦公服務平臺、智慧屏等辦公產(chǎn)品中。

大模型正在推動人機交互變革，語音領(lǐng)域的所有應用都值得被重構(gòu)。在大模型加持下，星火汽車智能座艙全新升級，不但具備了多語種多方言的“自由交互”，還具備多情感多模態(tài)的超擬人交互，讓人車交互更有溫度。當前在汽車領(lǐng)域，訊飛語音交互產(chǎn)品國內(nèi)市占率穩(wěn)居第一，同時廣泛出口到世界各地。星火大模型為一汽、奇瑞、廣汽、江淮、長城等車企的眾多車型，賦予了高度智能的交互體驗。

為了讓大模型更好落地，科大訊飛還打造了端云一體和軟硬一體的解決方案，賦能家電、機器人等更多行業(yè)場景。面向具身智能和人形機器人企業(yè)需求，本次科大訊飛正式發(fā)布機器人超腦平臺2.0，業(yè)內(nèi)首個支持多模態(tài)交互，目前超400家機器人企業(yè)已經(jīng)采用訊飛機器人超腦平臺。

星火大模型助力“中式”智能座艙走向世界

科大訊飛面向萬物互聯(lián)時代，星火語音大模型再突破，發(fā)布72個語種/方言免切換對話，破解強干擾場景下語音識別難題，發(fā)布國際領(lǐng)先的極復雜場景語音轉(zhuǎn)寫，并通過云邊端及軟硬一體化解決方案，為汽車智能座艙，開辟出了更廣闊的天地。

發(fā)布會現(xiàn)場，科大訊飛使用新款奇瑞星紀元ET，展示了包括東北話、天津話、英語、俄語在內(nèi)的語音助理免切換交互。以奇瑞為代表的中國汽車出海軍團，以領(lǐng)先的新能源與智能化技術(shù)，在多個國家市場取得了亮眼的成績。去年中國汽車出海銷量超過520萬臺，首次躍居世界第一。如今依托訊飛星火大模型，科大訊飛將有能力為全球更多國家的更多車主，送去中國本土級別的汽車智能體驗；助力包括奇瑞、上汽、廣汽、長城、長安、比亞迪等在內(nèi)的中國汽車出海品牌，進一步實現(xiàn)品牌向上。

智能座艙再升級多模態(tài)創(chuàng)造新場景

隨著ChatGPT-4o的發(fā)布，多模態(tài)能力成為大模型熱點概念。多模態(tài)模型結(jié)合了文本、圖像、聲音等多種數(shù)據(jù)類型的處理能力。相較于傳統(tǒng)的語音輸入、提問閑聊，多模態(tài)能力極大地擴展了大模型的應用邊界?！澳苈爼础钡拇竽Ｐ?，認知能力從“擬人”上升到“類人”，加入到智能座艙場景中，猶如為汽車加上了一個看不見的“隨行全能助理”。

比如隨著新能源智能汽車的加速普及，越來越多的車主感到過去在駕校里學到的知識“不夠用”了；一度還曾有新能源車企高管提出“要與駕校合作，讓大家了解新型汽車的使用方法”的爭議言論。針對這一問題，科大訊飛研發(fā)了基于星火大模型的用車助手：不同于傳統(tǒng)的操作手冊，用車助手能夠?qū)崟r監(jiān)測理解車輛狀況，根據(jù)當下的路況車況，精準解答用戶對用車的問題。例如在不同的路況下，幫助用戶開啟自動駕駛輔助；在不同的天氣下，引導用戶正確使用車燈；根據(jù)實時車況，精準給出維修保養(yǎng)建議等。

多模態(tài)能力也為車上的硬件開辟了全新的應用空間。傳統(tǒng)的DMS主要用于監(jiān)測駕駛員疲勞狀況，在大模型的賦能下，視覺判斷能夠高精度獲取包括心跳、呼吸、血壓在內(nèi)的多項身體健康指標，在用戶無感的狀態(tài)下長期記錄跟蹤。訊飛星火健康專家在此基礎(chǔ)上聯(lián)動訊飛醫(yī)療資源，為車主提供30種以上健康問題的監(jiān)測診斷，守護車主安全出行。

硬核科技助力芯算融合讓域控更強勁

在大模型、多場景不斷創(chuàng)造新體驗的背后，是汽車智能座艙對算力需求的不斷升級：為了支持越來越多的智能化功能應用、支撐多模態(tài)融合趨勢，AI算法日益豐富，傳統(tǒng)座艙SOC都將面臨CPU算力不足的窘境。相較于PC/手機行業(yè)硬件更迭的頻率，汽車產(chǎn)品陪伴用戶的生命周期要長久得多，也更需要我們通過算法的精研，在存量成熟平臺上為用戶最大限度榨取出SOC性能價值。科大訊飛作為國內(nèi)領(lǐng)先的智能座艙全域解決方案提供商，充分發(fā)揮自身技術(shù)優(yōu)勢，將智能汽車算法與智能汽車芯片深度融合部署，支撐多模態(tài)融合交互應用，實現(xiàn)高效推理、高效移植、高效調(diào)試。

以訊飛最具代表性的語音算法為例，通過異構(gòu)將語音降噪、喚醒、識別、合成從CPU移植到NPU后，能夠降低60%的CPU算力需求。而通過在資源富裕的NPU上部署更大模型，能夠在本地實現(xiàn)媲美云端的語音識別效果。這就是紅旗EH7、蔚來ES8等一批新款車型上，語音識別又快又準背后的技術(shù)秘密。

而在更火熱的大模型領(lǐng)域，通過端云協(xié)同部署方案，在云端利用大模型實現(xiàn)多輪貫穿、流式對話、全領(lǐng)域規(guī)劃、可控對話、多領(lǐng)域知識深度理解的同時，在本地部署十億級別參數(shù)的端側(cè)模型，用于增強本地語義理解能力，不僅能夠明顯優(yōu)化響應時間，還能夠有效保障極速、離線、多模、隱私安全類業(yè)務閉環(huán)體驗。端云協(xié)同部署方案下，星火大模型能夠在98%以上的云端意圖分類準確率下，將本地大模型語義增強提升40%，響應速度降低500ms。奇瑞星途星紀元、廣汽埃安、長城魏牌都已選擇星火端云部署方案，提升車載大模型性能。在科大訊飛看來，人工智能的發(fā)展應用，不僅僅是烈火烹油的技術(shù)競爭，還是長坡厚雪的應用堅守。科大訊飛始終秉持成就客戶的企業(yè)價值觀，運用最新研究成果，覆蓋真實場景需求，始終和中國汽車企業(yè)站在一起，以科技普惠的愿景，為中國乃至世界提供美好的出行體驗。 來源：聲光界

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權(quán)請聯(lián)系工作人員刪除。

博客專欄

科大訊飛重磅發(fā)布星火大模型4.0，整體性能全面領(lǐng)先，打造國產(chǎn)大模型最強平替

相關(guān)推薦

技術(shù)專區(qū)

博客專欄

科大訊飛重磅發(fā)布星火大模型4.0，整體性能全面領(lǐng)先，打造國產(chǎn)大模型最強平替

相關(guān)推薦

技術(shù)專區(qū)

科大訊飛重磅發(fā)布星火大模型4.0，整體性能全面領(lǐng)先，打造國產(chǎn)大模型最強平替