AI大模型與汽車產(chǎn)業(yè)融合，人機(jī)交互將迎來質(zhì)變 | 尋找中國經(jīng)濟(jì)新動能

發(fā)布人：芯股嬸時間：2024-04-28 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

4月25日-5月4日，2024（第十八屆）北京國際汽車展覽會在中國國際展覽中心舉行。商湯絕影在展會上首次向公眾展出了面向量產(chǎn)的真·端到端自動駕駛解決方案UniAD（Unified Autonomous Driving)的道路測試表現(xiàn)，同時還帶來了以多模態(tài)場景大腦為核心的AI大模型座艙產(chǎn)品矩陣以及全新座艙3D交互演示。

2022年底，商湯及其聯(lián)合實驗室提出了行業(yè)首個感知決策一體化自動駕駛通用模型UniAD，并在次年榮獲2023年國際計算機(jī)視覺與模式識別會議(CVPR)最佳論文。

今年年初，特斯拉開始向部分用戶推送FSD V12版本的端到端自動駕駛方案，業(yè)內(nèi)隨之出現(xiàn)了越來越多的“端到端”智駕方案。與大部分端到端方案采用由感知和決策兩個模型組成的“兩段式”架構(gòu)不同，UniAD將感知、決策、規(guī)劃等模塊都整合到一個全棧Transformer端到端模型，實現(xiàn)了感知決策一體化。

搭載UniAD端到端自動駕駛解決方案的車輛不需要高精地圖，僅憑攝像頭的視覺感知就可以像人一樣觀察并理解外部環(huán)境，然后基于感知信息，UniAD能夠自己思考并自主解決各種高難度的城市復(fù)雜駕駛場景。

在北京車展的上車演示中，商湯絕影展示了在復(fù)雜場景下UniAD的處理能力：在上海臨港無標(biāo)線鄉(xiāng)村窄路上，對向有車駛來，前方有行人在跑步，UniAD判斷出前方有足夠的空間進(jìn)行操作，所以在確保安全的情況下，選擇快速向左繞過行人然后回到正常行駛路線完成會車。

商湯絕影是商湯集團(tuán)旗下聚焦智能汽車業(yè)務(wù)的子公司，落戶在上海臨港。公司通過構(gòu)建駕-艙-云三位一體的通用人工智能（AGI）技術(shù)架構(gòu)，將人工智能技術(shù)與汽車產(chǎn)業(yè)進(jìn)行融合。

目前，上海臨港新片區(qū)作為絕影自動駕駛研發(fā)的基地之一，向其提供了包括車路協(xié)同等方面的開放場景，幫助絕影推進(jìn)產(chǎn)品的迭代和技術(shù)的演進(jìn)。

今年的《政府工作報告》將“大力推進(jìn)現(xiàn)代化產(chǎn)業(yè)體系建設(shè)，加快發(fā)展新質(zhì)生產(chǎn)力”放在2024年政府工作任務(wù)的首位，提出要充分發(fā)揮創(chuàng)新的主導(dǎo)作用，同時強(qiáng)調(diào)“鞏固擴(kuò)大智能網(wǎng)聯(lián)新能源汽車等產(chǎn)業(yè)領(lǐng)先優(yōu)勢”與“深化大數(shù)據(jù)、人工智能等研發(fā)應(yīng)用，開展‘人工智能+’行動”。

商湯科技聯(lián)合創(chuàng)始人、首席科學(xué)家、絕影智能汽車事業(yè)群總裁王曉剛認(rèn)為，AI大模型將助推新質(zhì)生產(chǎn)力的發(fā)展，推進(jìn)AI的規(guī)?；a(chǎn)業(yè)應(yīng)用，特別是AI大模型與汽車產(chǎn)業(yè)的碰撞與融合。

“大模型給人類社會也包括汽車行業(yè)帶來的變化主要體現(xiàn)在兩個方面：一個是生產(chǎn)效率的提升，另外一個是人機(jī)交互體驗的質(zhì)變。”王曉剛在接受界面新聞專訪時提到。

例如在智能座艙里，在開發(fā)例如駕駛員感知、乘員感知等各類AI功能的時候，包含識別打電話、疲勞分心等多個任務(wù)，以前每增加一個功能都需要投入大量的研發(fā)人員去開發(fā)。但隨著多模態(tài)大模型的出現(xiàn)，對于新任務(wù)的泛化能力大大提升，無論是提取基于座艙里捕捉到的圖像視頻，或是問詢各種開放式的問題，一個模型就可以解決座艙里出現(xiàn)的多個智能化任務(wù)。

在人機(jī)交互體驗上，隨著多模態(tài)大模型的出現(xiàn)，系統(tǒng)可以通過人的指令改變自動駕駛的行為。比如在高速路上開車的時候，如果覺得旁邊臨車道的大卡車有壓迫感，駕駛員就可以通過語音指令讓汽車和大卡車保持距離。

在輸出上也不僅限于能輸出駕駛的軌跡、規(guī)控，大模型還能夠以文字和語言的形式，解釋模型駕駛過程中做出的各種行為判斷。由此一來，自動駕駛系統(tǒng)就不再是一個黑盒子，將擁有更好的解釋性和人機(jī)交互的體驗。

“汽車某種意義上就像一個機(jī)器人，大模型能夠讓汽車變成一個更加通用的智能體，理解司機(jī)與乘客，提供更個性化的服務(wù)。”王曉剛說。

通用人工智能和大模型的進(jìn)化離不開基礎(chǔ)設(shè)施的建設(shè)。隨著包括算力、數(shù)據(jù)規(guī)模的擴(kuò)大，模型的能力才能夠持續(xù)突破技術(shù)邊界。

2018年，在上海市政府的支持下，商湯在臨港建立AIDC智算中心，目前還在進(jìn)一步擴(kuò)大規(guī)模。截至目前，商湯已經(jīng)有45000塊GPU，包括12000P的算力，為大模型的研發(fā)提供強(qiáng)大的支持。

除了推動集團(tuán)內(nèi)部的研發(fā)，王曉剛表示商湯將來也會將這些大裝置基礎(chǔ)設(shè)施開放給主機(jī)廠及其他生態(tài)的合作伙伴，以共同推動通用人工智能、大模型的發(fā)展。

僅僅是硬件計算設(shè)備的堆砌，并不能將幾千塊甚至上萬塊的GPU進(jìn)行有效連接。王曉剛向記者解釋，如果單純將這些硬件設(shè)備連接起來，會發(fā)現(xiàn)它只能提升訓(xùn)練效率30%，因為不同的卡和機(jī)器之間要進(jìn)行大量通信、數(shù)據(jù)的傳輸還有同步，這些都會大大降低使用效率。并且一萬塊卡里如果其中有一塊卡出現(xiàn)故障，那么整個系統(tǒng)也會頻繁死機(jī)。

因此，商湯開發(fā)了一整套軟硬件系統(tǒng)，將整體效率從30%提升到90%，并讓整個機(jī)器系統(tǒng)可以長時間穩(wěn)定地運行，以順利開展大模型研發(fā)工作。

在數(shù)據(jù)方面，除了自身的數(shù)據(jù)積累，絕影也和主機(jī)廠展開了合作。針對車廠自身的海量數(shù)據(jù)，絕影可以提供大模型訓(xùn)練的工具、基礎(chǔ)設(shè)施，讓車廠對模型進(jìn)行迭代。

截至2023年12月，商湯絕影已與超過30家國內(nèi)外車企達(dá)成合作，覆蓋超90款車型，累計交付近200萬輛智能汽車。

除了智能駕駛，商湯日日新的大模型系列已被應(yīng)用在智能座艙中。小米SU7就使用了商湯的大語言模型和多模態(tài)模型，以提升車輛的智能化體驗。目前還有十幾家車廠也在這方面和商湯有所合作，一系列的POC（概念驗證）和量產(chǎn)項目正在落地。

關(guān)于絕影的下一步計劃，王曉剛向界面新聞表示，在汽車智能化領(lǐng)域，一方面，絕影會繼續(xù)推動端到端自動駕駛技術(shù)的發(fā)展；另一方面也在積極地把多模態(tài)大模型應(yīng)用到自動駕駛領(lǐng)域，希望能做到在不用手動操作的情況下，通過語言交互就能改變自動駕駛的行為。

在車艙里，絕影也會進(jìn)一步開發(fā)基于大模型智能座艙的整體方案，完善座艙大腦。各種視覺、語音、自然語言等等也會被融入到一個多模態(tài)大模型中去完成各種功能。

另外，現(xiàn)在自動駕駛和智能座艙還是需要運行在不同的芯片和域控制器上，但隨著技術(shù)的不斷成熟，將來會完成艙駕的融合。這樣車內(nèi)和車外各種傳感器的數(shù)據(jù)也能夠更好的打通，帶來更快的數(shù)據(jù)傳輸和更好的用戶體驗。由于絕影同時擁有智能駕駛和智能座艙兩個業(yè)務(wù)方向和產(chǎn)品線，所以在推動艙駕融合方面會更有優(yōu)勢。

在更遠(yuǎn)的未來，王曉剛認(rèn)為，很多在智能汽車?yán)飸?yīng)用到的技術(shù)，也會被應(yīng)用到機(jī)器人的領(lǐng)域里。所以今天汽車的智能化也為將來機(jī)器人的發(fā)展提供了基礎(chǔ)。

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權(quán)請聯(lián)系工作人員刪除。

博客專欄

AI大模型與汽車產(chǎn)業(yè)融合，人機(jī)交互將迎來質(zhì)變 | 尋找中國經(jīng)濟(jì)新動能

相關(guān)推薦

技術(shù)專區(qū)

博客專欄

AI大模型與汽車產(chǎn)業(yè)融合，人機(jī)交互將迎來質(zhì)變 | 尋找中國經(jīng)濟(jì)新動能

相關(guān)推薦

技術(shù)專區(qū)

AI大模型與汽車產(chǎn)業(yè)融合，人機(jī)交互將迎來質(zhì)變 | 尋找中國經(jīng)濟(jì)新動能