座艙大模型為啥成了雞肋？

作者：電車曼曼談時間：2024-09-02 來源：EEPW

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

超導、核聚變、量子計算和人工智能被譽為可以主宰人類文明走向的四大技術前沿。前三大技術目前基本上處于實驗室預研階段，人工智能則在這一二十的時間里得到了長足進步的發(fā)展。芯片方面，從可以做并行計算、擅長做乘加運算的GPU，到可以針對各類AI算子進行定向優(yōu)化加速的NPU，到可以通過級聯(lián)的方式形成大規(guī)模訓練集群的高端訓練芯片，算法方面，從可以提取圖像特征的卷積神經網(wǎng)絡到可進行時空對齊、初步具備上下文理解能力的Transformer，從各式各樣的小模型到LLM大語言模型，各類創(chuàng)新層出不窮，不斷推進著人工智能發(fā)展的無盡前沿。

本文引用地址：http://www.butianyuan.cn/article/202409/462562.htm

當電動汽車走入智能化競爭的下半場，人工智能技術在汽車上的應用場景得到了大大拓展，最近這段時間最引人注目的進展有二。一個發(fā)生在智能駕駛領域，在特斯拉之后，蔚小理華們已經實質性地開啟了向端到端智駕技術路線的切換，一眾傳統(tǒng)車企也在口頭上實現(xiàn)了分段式端到端智駕方案。另外一個發(fā)生在智能座艙領域，大模型陸陸續(xù)續(xù)上車，問界、智界、享界車型接入華為的盤古大模型，極越、長安接入百度的文心一言大模型，騰勢、江淮接入科大訊飛的星火大模型，以智能化技術見長的頭部新勢力車企蔚小理也紛紛上線了自研的GPT。

和各個車企在自動駕駛領域鋪天蓋地地宣傳端到端形成鮮明對比的是，大家對座艙GPT的宣傳都不咸不淡，以至于這些GPT沒有引起太大的波瀾，很快就歸于沉寂了。何以然？原因很簡單，端到端智駕不僅可以提高性能的天花板，還可以節(jié)省和錢相掛鉤的算力資源，但現(xiàn)在的座艙大模型卻處于一種比較尷尬的局面。

要明白大模型加持的座艙GPT怎么就成了食之無肉、棄之有味的雞肋，只需要搞清楚三個問題：

● 現(xiàn)在的座艙GPT能干啥？

● 用戶在期待啥？

● GPT為什么實現(xiàn)不了用戶的期待？

1 座艙GPT能干啥？

目前，車企搬進智能座艙的GPT大模型主打功能有四：灌注了汽車知識的用車助手、壓縮了文旅知識的出行助手、可查詢影音知識的娛樂助手、可聯(lián)網(wǎng)找答案的百科知識問答。乍看起來，這些車載GPT上知天文、下知地理，可以給被迫活到老、學到老的現(xiàn)代人提供專家系統(tǒng)支持，聊天機器人之前中看不中用，現(xiàn)在可以做到以自然語言的形式與用戶進行溝通和交互，雖然很多時候也是牛頭不對馬嘴，讓人產生“究竟是錯付了”的荒誕感，但畢竟有了大幅度改觀。

圖片來源：江淮汽車

但是，在大多數(shù)可以在手機和PC端體驗通義千問、文心一言、豆包、星火這些重量級大模型的消費者的眼中，這些座艙大模型并沒有跨過“能用”到“好用”的邊界。本質上，這些功能都是對用戶需求的被動式回應。即便你能通過它的內容生成能力在車機大屏上畫一個胸有成竹的男人，博君一笑之后靜下心來想一想，又有什么意義呢？

圖片來源：文心一言

說到根上，按照中國汽車工程協(xié)會的座艙智能等級劃分標準，在沒有接入車載GPT大模型之前，智能座艙毫無疑問地處于“L1感知智能座艙”階段，但在接入形形色色的車載GPT之后，座艙的智能化等級依然沒有進化到可以主動感知駕乘人員需求并主動執(zhí)行任務的“L2部分認知智能座艙”階段。拋開浮云遮望眼，這是各家車企上線座艙GPT之后用戶體驗沒有出現(xiàn)斷代式跨越的根本原因。

2 用戶在期待什么？

人們把自動駕駛劃分成5個等級，并將可以全面感知車輛周圍環(huán)境、可在任何場景下執(zhí)行駕駛任務的L5作為自動駕駛的終極目標。同樣，如中國汽車工程協(xié)會制定的智能座艙智能化等級分類標準所示，人們對智能座艙的終極期待是它可以全場景主動感知用戶的需求，并通過調用應用、服務、工具和系統(tǒng)設備，主動滿足用戶的需求。

圖片來源：網(wǎng)絡

現(xiàn)代社會，人們經常經歷的委屈是“他不懂我”或者“他不給我”，簡簡單單兩句誅心之語，背后涉及到理解需求和響應需求的能力。也許他是個榆木腦袋，對需求理解不夠，或者信奉羅老師那種“彪悍的人生不需要解釋”的生存哲學，不具備同理心，做不到“懂你 ”；又或許是他響應需求的能力不足，他不是不知道你的委屈，但是，搬起磚就沒法空出手來抱你，擁你入懷就無法搬磚，確實無法“給你”。

再返回用戶期待智能座艙發(fā)揮的價值，主動感知用戶需求對應的是理解能力-“我懂你”，自主執(zhí)行任務對應的是生成能力-“我給你”，用戶對智能座艙的期待就是“我懂你”、“我給你”！

3 座艙GPT為何不能滿足用戶期待？

理論上來講，大模型帶來了理解和生成兩個關鍵能力的根本性提升，似乎可以滿足用戶對智能座艙的期待，但實際表現(xiàn)卻并非如此。是因為大語言模型的底層架構不合適？還是因為車企們沒有發(fā)揮出大模型的潛力？

圖片來源：華為

都不是。智能系統(tǒng)（包括手機、平板等智能終端和智能座艙、自動駕駛系統(tǒng)等）的理解能力和生成能力雖然是對人機交互至關重要的兩種能力，但是，大模型的理解能力帶來的人機交互方式的突破并不足以建立對用戶需求的真正理解能力。

因為，這種理解能力雖然可以將目前的單模態(tài)感知升級為觸控、語音、視覺信息相融合的多模態(tài)感知，但也僅此而已，它只能捕捉很短一段時間內用戶的手勢、眼神、聲音、按鍵和觸控動作，它所建立的連續(xù)時空認知對于一個活了半輩子的人來說太短了！我們一路走來，穿越人生的風雨，內心早已千瘡百孔，座艙大模型如果不能通過一次又一次記憶并分析用戶的數(shù)據(jù)，慢慢走近用戶的內心，它怎么和用戶真正地共情，給出的反應又怎么可能真正符合用戶的心思？

也就是說，智能座艙必須具備情感引擎，學習、分析用戶的數(shù)據(jù)，樹立跟該用戶一致的人生觀、價值觀和世界觀，建立起在這個不太溫暖的人類社會中有些缺乏的共情能力，才能嚴絲合縫地給出用戶想要的輸出或反饋，實現(xiàn)有溫度的情感陪伴。

圖片來源：蔚來汽車

要做到這一點，或許需要大模型底層技術繼續(xù)進化，真正產生意識并發(fā)展出類人的情感，這樣或許可以降低對學習用戶數(shù)據(jù)的需求。如果在當前的技術架構上做情感引擎，出于對個人隱私的保護，數(shù)據(jù)不能出車，大模型不能在云端訓練，如果在車端訓練，以車端推理芯片做模型訓練，這種方式不大常見，應該非常難。

4 寫在最后

倘若座艙大模型真能大幅度改善消費者與汽車之間的交互，影響用戶的生活和人生體驗，想必大家伙兒不至于把它晾在一邊。但是，對于一項新技術，既不要高估它的短期表現(xiàn)，也不要忽略它的長期進展。正如ChatGPT、GPT-4、GPT-4o，上下文從32K提高到了128K，從只接受文本發(fā)展到可以接受圖像和照片在內的多模態(tài)輸入，每一次版本的更新都會帶來能力的進步，座艙大模型的未來也是可以期待的！

(本文登于EEPW 2024年9月期)