博客專欄

EEPW首頁(yè) > 博客 > 科大訊飛重磅發(fā)布星火大模型4.0,整體性能全面領(lǐng)先,打造國(guó)產(chǎn)大模型最強(qiáng)平替

科大訊飛重磅發(fā)布星火大模型4.0,整體性能全面領(lǐng)先,打造國(guó)產(chǎn)大模型最強(qiáng)平替

發(fā)布人:傳感器技術(shù) 時(shí)間:2024-06-30 來(lái)源:工程師 發(fā)布文章
導(dǎo)讀:6月27日,科大訊飛在北京國(guó)家會(huì)議中心升級(jí)發(fā)布訊飛星火V4.0。本次升級(jí)后,訊飛星火全面對(duì)標(biāo)ChatGPT-4 Turbo,在8個(gè)國(guó)際主流測(cè)試集中排名第一,在國(guó)內(nèi)大模型中全面領(lǐng)先。 



圖片



首個(gè)支持74個(gè)語(yǔ)種方言免切換語(yǔ)音大模型破解強(qiáng)干擾場(chǎng)景下語(yǔ)音識(shí)別難題


近期科大訊飛作為第一完成單位的《多語(yǔ)種智能語(yǔ)音關(guān)鍵技術(shù)及產(chǎn)業(yè)化》項(xiàng)目,獲得國(guó)家科學(xué)技術(shù)進(jìn)步獎(jiǎng)一等獎(jiǎng)。這一次星火語(yǔ)音大模型迎來(lái)新突破。

劉慶峰認(rèn)為,語(yǔ)音將成為萬(wàn)物互聯(lián)時(shí)代人機(jī)交互的主要方式,人機(jī)交互最重要的場(chǎng)景是遠(yuǎn)場(chǎng)、噪聲、多人說話、多語(yǔ)言,因此萬(wàn)物互聯(lián)時(shí)代的AIUI(人工智能用戶界面)要滿足遠(yuǎn)場(chǎng)高噪聲、多語(yǔ)言多方言、全雙工、多模態(tài)等標(biāo)準(zhǔn)。科大訊飛也主導(dǎo)制定了全雙工語(yǔ)音交互ISO/IEC國(guó)際標(biāo)準(zhǔn),并于2023年5月發(fā)布。

面向萬(wàn)物互聯(lián)時(shí)代,本次星火語(yǔ)音大模型發(fā)布的多語(yǔ)種多方言免切換語(yǔ)音識(shí)別能力,可支持37個(gè)語(yǔ)種、37種方言“自由對(duì)話”。其中,37個(gè)語(yǔ)種識(shí)別效果領(lǐng)先OpenAI whisper-V3,37個(gè)方言識(shí)別效果平均提升30%?,F(xiàn)場(chǎng),科大訊飛演示了訊飛輸入法混合方言和外語(yǔ)的語(yǔ)音輸入效果,能讓輸入效率大大提高。

科大訊飛還發(fā)布了軟硬件一體化訊飛同傳系統(tǒng),可支持大會(huì)同傳、會(huì)議同傳、展廳同傳、旅游同傳等多場(chǎng)景使用。本次參會(huì)的嘉賓座位上同樣配備訊飛同傳的收聽設(shè)備,佩戴后即可實(shí)時(shí)收聽多語(yǔ)種AI同聲傳譯。

針對(duì)強(qiáng)干擾場(chǎng)景下的語(yǔ)音識(shí)別難題,科大訊飛突破了多人混疊場(chǎng)景下的極復(fù)雜場(chǎng)景語(yǔ)音轉(zhuǎn)寫技術(shù),即使在三人混疊說話場(chǎng)景也能實(shí)現(xiàn)86%的語(yǔ)音識(shí)別準(zhǔn)確率。三位訊飛研究院的研究員現(xiàn)場(chǎng)實(shí)測(cè),在噪音場(chǎng)景下同時(shí)混疊著說話,正常人耳已難以聽清,只見訊飛星火的多模態(tài)能力不但實(shí)現(xiàn)了三人重疊語(yǔ)音的角色分離,還能實(shí)時(shí)轉(zhuǎn)寫出每個(gè)人的語(yǔ)音,準(zhǔn)確的效果引發(fā)現(xiàn)場(chǎng)掌聲不斷。未來(lái)多模態(tài)的語(yǔ)音識(shí)別技術(shù)將應(yīng)用在訊飛聽見智慧辦公服務(wù)平臺(tái)、智慧屏等辦公產(chǎn)品中。


圖片



大模型正在推動(dòng)人機(jī)交互變革,語(yǔ)音領(lǐng)域的所有應(yīng)用都值得被重構(gòu)。在大模型加持下,星火汽車智能座艙全新升級(jí),不但具備了多語(yǔ)種多方言的“自由交互”,還具備多情感多模態(tài)的超擬人交互,讓人車交互更有溫度。當(dāng)前在汽車領(lǐng)域,訊飛語(yǔ)音交互產(chǎn)品國(guó)內(nèi)市占率穩(wěn)居第一,同時(shí)廣泛出口到世界各地。星火大模型為一汽、奇瑞、廣汽、江淮、長(zhǎng)城等車企的眾多車型,賦予了高度智能的交互體驗(yàn)。

為了讓大模型更好落地,科大訊飛還打造了端云一體和軟硬一體的解決方案,賦能家電、機(jī)器人等更多行業(yè)場(chǎng)景。面向具身智能和人形機(jī)器人企業(yè)需求,本次科大訊飛正式發(fā)布機(jī)器人超腦平臺(tái)2.0,業(yè)內(nèi)首個(gè)支持多模態(tài)交互,目前超400家機(jī)器人企業(yè)已經(jīng)采用訊飛機(jī)器人超腦平臺(tái)。  


星火大模型助力“中式”智能座艙走向世界

科大訊飛面向萬(wàn)物互聯(lián)時(shí)代,星火語(yǔ)音大模型再突破,發(fā)布72個(gè)語(yǔ)種/方言免切換對(duì)話,破解強(qiáng)干擾場(chǎng)景下語(yǔ)音識(shí)別難題,發(fā)布國(guó)際領(lǐng)先的極復(fù)雜場(chǎng)景語(yǔ)音轉(zhuǎn)寫,并通過云邊端及軟硬一體化解決方案,為汽車智能座艙,開辟出了更廣闊的天地。圖片


發(fā)布會(huì)現(xiàn)場(chǎng),科大訊飛使用新款奇瑞星紀(jì)元ET,展示了包括東北話、天津話、英語(yǔ)、俄語(yǔ)在內(nèi)的語(yǔ)音助理免切換交互。以奇瑞為代表的中國(guó)汽車出海軍團(tuán),以領(lǐng)先的新能源與智能化技術(shù),在多個(gè)國(guó)家市場(chǎng)取得了亮眼的成績(jī)。去年中國(guó)汽車出海銷量超過520萬(wàn)臺(tái),首次躍居世界第一。如今依托訊飛星火大模型,科大訊飛將有能力為全球更多國(guó)家的更多車主,送去中國(guó)本土級(jí)別的汽車智能體驗(yàn);助力包括奇瑞、上汽、廣汽、長(zhǎng)城、長(zhǎng)安、比亞迪等在內(nèi)的中國(guó)汽車出海品牌,進(jìn)一步實(shí)現(xiàn)品牌向上。

智能座艙再升級(jí) 多模態(tài)創(chuàng)造新場(chǎng)景


隨著ChatGPT-4o的發(fā)布,多模態(tài)能力成為大模型熱點(diǎn)概念。多模態(tài)模型結(jié)合了文本、圖像、聲音等多種數(shù)據(jù)類型的處理能力。相較于傳統(tǒng)的語(yǔ)音輸入、提問閑聊,多模態(tài)能力極大地?cái)U(kuò)展了大模型的應(yīng)用邊界?!澳苈爼?huì)看”的大模型,認(rèn)知能力從“擬人”上升到“類人”,加入到智能座艙場(chǎng)景中,猶如為汽車加上了一個(gè)看不見的“隨行全能助理”。圖片


比如隨著新能源智能汽車的加速普及,越來(lái)越多的車主感到過去在駕校里學(xué)到的知識(shí)“不夠用”了;一度還曾有新能源車企高管提出“要與駕校合作,讓大家了解新型汽車的使用方法”的爭(zhēng)議言論。針對(duì)這一問題,科大訊飛研發(fā)了基于星火大模型的用車助手:不同于傳統(tǒng)的操作手冊(cè),用車助手能夠?qū)崟r(shí)監(jiān)測(cè)理解車輛狀況,根據(jù)當(dāng)下的路況車況,精準(zhǔn)解答用戶對(duì)用車的問題。例如在不同的路況下,幫助用戶開啟自動(dòng)駕駛輔助;在不同的天氣下,引導(dǎo)用戶正確使用車燈;根據(jù)實(shí)時(shí)車況,精準(zhǔn)給出維修保養(yǎng)建議等。圖片


多模態(tài)能力也為車上的硬件開辟了全新的應(yīng)用空間。傳統(tǒng)的DMS主要用于監(jiān)測(cè)駕駛員疲勞狀況,在大模型的賦能下,視覺判斷能夠高精度獲取包括心跳、呼吸、血壓在內(nèi)的多項(xiàng)身體健康指標(biāo),在用戶無(wú)感的狀態(tài)下長(zhǎng)期記錄跟蹤。訊飛星火健康專家在此基礎(chǔ)上聯(lián)動(dòng)訊飛醫(yī)療資源,為車主提供30種以上健康問題的監(jiān)測(cè)診斷,守護(hù)車主安全出行。 


硬核科技助力 芯算融合讓域控更強(qiáng)勁


在大模型、多場(chǎng)景不斷創(chuàng)造新體驗(yàn)的背后,是汽車智能座艙對(duì)算力需求的不斷升級(jí):為了支持越來(lái)越多的智能化功能應(yīng)用、支撐多模態(tài)融合趨勢(shì),AI算法日益豐富,傳統(tǒng)座艙SOC都將面臨CPU算力不足的窘境。相較于PC/手機(jī)行業(yè)硬件更迭的頻率,汽車產(chǎn)品陪伴用戶的生命周期要長(zhǎng)久得多,也更需要我們通過算法的精研,在存量成熟平臺(tái)上為用戶最大限度榨取出SOC性能價(jià)值。科大訊飛作為國(guó)內(nèi)領(lǐng)先的智能座艙全域解決方案提供商,充分發(fā)揮自身技術(shù)優(yōu)勢(shì),將智能汽車算法與智能汽車芯片深度融合部署,支撐多模態(tài)融合交互應(yīng)用,實(shí)現(xiàn)高效推理、高效移植、高效調(diào)試。圖片


以訊飛最具代表性的語(yǔ)音算法為例,通過異構(gòu)將語(yǔ)音降噪、喚醒、識(shí)別、合成從CPU移植到NPU后,能夠降低60%的CPU算力需求。而通過在資源富裕的NPU上部署更大模型,能夠在本地實(shí)現(xiàn)媲美云端的語(yǔ)音識(shí)別效果。這就是紅旗EH7、蔚來(lái)ES8等一批新款車型上,語(yǔ)音識(shí)別又快又準(zhǔn)背后的技術(shù)秘密。


圖片



而在更火熱的大模型領(lǐng)域,通過端云協(xié)同部署方案,在云端利用大模型實(shí)現(xiàn)多輪貫穿、流式對(duì)話、全領(lǐng)域規(guī)劃、可控對(duì)話、多領(lǐng)域知識(shí)深度理解的同時(shí),在本地部署十億級(jí)別參數(shù)的端側(cè)模型,用于增強(qiáng)本地語(yǔ)義理解能力,不僅能夠明顯優(yōu)化響應(yīng)時(shí)間,還能夠有效保障極速、離線、多模、隱私安全類業(yè)務(wù)閉環(huán)體驗(yàn)。端云協(xié)同部署方案下,星火大模型能夠在98%以上的云端意圖分類準(zhǔn)確率下,將本地大模型語(yǔ)義增強(qiáng)提升40%,響應(yīng)速度降低500ms。奇瑞星途星紀(jì)元、廣汽埃安、長(zhǎng)城魏牌都已選擇星火端云部署方案,提升車載大模型性能。在科大訊飛看來(lái),人工智能的發(fā)展應(yīng)用,不僅僅是烈火烹油的技術(shù)競(jìng)爭(zhēng),還是長(zhǎng)坡厚雪的應(yīng)用堅(jiān)守。科大訊飛始終秉持成就客戶的企業(yè)價(jià)值觀,運(yùn)用最新研究成果,覆蓋真實(shí)場(chǎng)景需求,始終和中國(guó)汽車企業(yè)站在一起,以科技普惠的愿景,為中國(guó)乃至世界提供美好的出行體驗(yàn)。 來(lái)源:聲光界


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: 科大訊飛

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉