新聞中心

EEPW首頁 > 智能計(jì)算 > 市場分析 > 清華大學(xué)電子工程系主任汪玉:中國的AI生態(tài),需要各環(huán)節(jié)全流程優(yōu)化

清華大學(xué)電子工程系主任汪玉:中國的AI生態(tài),需要各環(huán)節(jié)全流程優(yōu)化

作者: 時(shí)間:2024-01-31 來源:AI 先行者沙龍實(shí)錄 收藏

非常榮幸,能夠在這里分享我自己對于大模型這個(gè)行業(yè)目前的一些認(rèn)識。首先說一下我,我是清華大學(xué)電子工程系的教授,今天在座各位可能做算法和應(yīng)用比較多。但我是一位做硬件、芯片和基礎(chǔ)軟件更多的學(xué)者,以及有過一定的創(chuàng)業(yè)經(jīng)歷,所以從我的角度來給大家去講一講我怎么去看人工智能,特別是這一波大模型的發(fā)展。

本文引用地址:http://www.butianyuan.cn/article/202401/455247.htm

大模型這一次出來以后對于 AIGC、自動(dòng)駕駛、科學(xué)計(jì)算,特別是我最感興趣的機(jī)器人方向有著非常大的促進(jìn)作用,作為電子系的系主任,每年 9 月份我都會在新生的迎新活動(dòng)上講話。在跟這 200 多名新生去分析未來從事行業(yè)的時(shí)候,其中有一個(gè)方向就會去講機(jī)器人這個(gè)方面。這幾年的高考人數(shù)還比較多,競爭是比較激烈的,因?yàn)楫?dāng)年是 1800 萬的出生人口,到了去年和前年大概是 800 萬左右的出生人口。我每次問他們說,同學(xué)們你們看一看我今年 40 多歲了,為祖國可以健康工作到 50 歲,甚至更多,等我到了七八十歲,也就是 30 年以后誰來照顧我是一個(gè)問題。那個(gè)時(shí)候人不夠了,2050 年贍養(yǎng)老人的壓力是很大的,因?yàn)槲覀兊?GDP 要發(fā)展,GDP 等于什么?GDP=人數(shù)×人均 GDP。現(xiàn)在中國經(jīng)濟(jì)發(fā)展的基本特征由高速增長轉(zhuǎn)向高質(zhì)量發(fā)展,那就提高人均 GDP,但是如果人口降了,光提高人均 GDP 可能也趕不上,所以我們還是要大力推動(dòng)機(jī)器人這個(gè)行業(yè)。

我們可以看見中國服務(wù)機(jī)器人的產(chǎn)量已經(jīng)在進(jìn)一步提升,當(dāng)然目前還是完成一些相對簡單的任務(wù),但已經(jīng)開始深入千家萬戶。我以這個(gè)舉例子,我們可以看到在通用機(jī)器人,包括人形機(jī)器人領(lǐng)域,一方面需要很多決策算法,我們可以看到狀態(tài)空間不斷地增大,用更大的算力和更好的算法能夠解決更復(fù)雜的問題。另外一個(gè)層面,感知的能力在不斷升級。可以看到我們這幾年包括像 Google、特斯拉這樣的企業(yè),實(shí)踐過程中都是把感知、決策和控制集合在一起了,這是一個(gè)很大的系統(tǒng)。

在這么大的系統(tǒng)里面,要用端到端的大模型,在其中實(shí)時(shí)進(jìn)行操作,這對于計(jì)算量、響應(yīng)速度、吞吐量都有很高的要求,所以這一類應(yīng)用場景就給我們提出了「硬件怎么樣能夠跟上軟件的發(fā)展」,甚至是「支撐軟件的發(fā)展」的更高要求。

從我的角度來看,我覺得主要有三個(gè)方面的挑戰(zhàn):

第一,當(dāng)然這也是面向中國大陸非常重要的挑戰(zhàn),從 2022 年到 2023 年兩次的法案對算力的限制、對芯片的限制。

第二,現(xiàn)在推理和包括訓(xùn)練的成本是非常高的,在座的各位做創(chuàng)業(yè)也好、大公司也好,都會面臨這樣的一個(gè)挑戰(zhàn)。

第三,我們中國其實(shí)是比較獨(dú)特的一類算法和芯片的生態(tài),怎么樣能夠去更好地推動(dòng)這樣一個(gè)生態(tài)的發(fā)展,其實(shí)也是現(xiàn)在面臨的一個(gè)很重要的挑戰(zhàn)。

首先,芯片和算力。

芯片是我最了解的東西,從設(shè)計(jì)、制造,到測試封裝,最后造出來,這里面中國的產(chǎn)業(yè)鏈并不是完全自主可控的,有很多環(huán)節(jié)需要進(jìn)口,比如說 EDA 的軟件最大的幾家都是美國的,制造生產(chǎn)過程中的一些關(guān)鍵的材料、設(shè)備,其實(shí)中國都還在努力追趕的過程中。

芯片的制造,包括剛才說了 1017 法案限制了我們芯片算力的密度,中國正在討論 1Tops/Watt 的設(shè)計(jì)(就是每瓦能夠提供 1T 次運(yùn)算)。人腦的功耗大概是 20 瓦,在有一些任務(wù)上我們類比了一下則需要 1000Tops/Watt 這樣的指標(biāo),那怎么樣通過芯片做到 Tops,甚至幾百 T 幾千 Tops/Watt?在過去幾年里,計(jì)算芯片從大概 1G 次 Tops/Watt 做到了 10Tops、甚至 100Tops,通過尺寸微縮的紅利,實(shí)現(xiàn)了各種各樣的專用處理器?,F(xiàn)在我們開始關(guān)注做近存儲計(jì)算和存內(nèi)計(jì)算,因?yàn)閿?shù)據(jù)搬運(yùn)比數(shù)據(jù)計(jì)算更費(fèi)電了,搬數(shù)(帶寬)更加復(fù)雜;再進(jìn)一步,我們也在看有沒有不用硅基芯片,不用微電子,而用光電子去做的芯片,這是我們所關(guān)注的一系列研究方向。PPT 右側(cè)是講機(jī)器人領(lǐng)域,機(jī)器人是異構(gòu)的,這里我們不展開??偟膩碚f,我們有各種各樣的路徑,比如說通過設(shè)計(jì)新的芯片架構(gòu),能夠提高每瓦特的算力。

另外一個(gè)方面,其實(shí)大模型的發(fā)展需要很高的互聯(lián)的帶寬。從推導(dǎo)出的數(shù)據(jù)中,我希望大家能夠看到很多信息,比如說通信量,根據(jù)實(shí)驗(yàn)室理論計(jì)算,GPT-3 所需要的互聯(lián)帶寬是 1380TB/s,一個(gè)英偉達(dá)的卡它自帶的 600GB/s 互聯(lián)帶寬與這一需求之間的差距是很大的,這也是為什么需要把很多很多塊卡聯(lián)在一起,才能把這個(gè)模型訓(xùn)練出來?,F(xiàn)在計(jì)算性能的提升比帶寬的增速要大,目前在中國的互聯(lián)應(yīng)用場景里,怎么樣把機(jī)器連起來是非常費(fèi)勁的。

算力受限之后,比如訓(xùn)練 GPT-4 是用到 2.4 萬張 A100 GPU(當(dāng)我們進(jìn)口的單卡能力受限了,而且我們自己的芯片能力本身不如 A100 的話),那么我可能需要 10 萬塊算力卡才能完成這些計(jì)算工作。但這 10 萬塊卡怎么互聯(lián)在一起做訓(xùn)練,這件事本身是對中國的 AI 系統(tǒng)能力提出的一個(gè)更高的、更難的需求,需要在系統(tǒng)層面進(jìn)行突破。

大家簡單算一下,哪怕每一個(gè)卡或者每一臺機(jī)器出錯(cuò)的概率是萬分之一,但連成十萬次的出錯(cuò)概率,一定遠(yuǎn)大于連成一萬次。出錯(cuò)的概率如此大,這是一個(gè)非常難的課題。

其次,就是成本。

現(xiàn)在我們也看到了很多廠商都在做自己的模型,不管是做基礎(chǔ)模型,還是訓(xùn)一個(gè)自己的垂類模型,成本都是非常不友好的。所以我也很期待看一看張拳石老師(下一位演講者),看看他們是怎么在學(xué)校里面做大模型的研究的。同時(shí)我們更需要跟工業(yè)界合作,因?yàn)橛?xùn)練的成本確實(shí)是一個(gè)非常嚴(yán)肅的問題。

那么推理會好一些嗎?我們發(fā)現(xiàn)也不會。我們看到一些數(shù)據(jù):按不同模型的類型、用戶數(shù)來算,算力費(fèi)用=日活用戶×平均 token 使用數(shù)×單位 token 算力費(fèi)用,自建算力集群的情況下,每天的費(fèi)用是 690 萬。如果你要調(diào)用現(xiàn)有 API 來運(yùn)營,費(fèi)用會更高。所以如果 GPT-4 Turbo 每天服務(wù) 10 億的活躍用戶,每年算力成本是兩千多個(gè)億,雖然這個(gè)數(shù)今天不一定準(zhǔn)確,但是數(shù)量級在這。我相信絕大多數(shù)中國的公司,收入是在億這個(gè)量級,肯定不是在千億這個(gè)量級,所以怎么樣去打平這個(gè)成本是非常難的一件事情。同樣,對于一個(gè)個(gè)體來說,如果一個(gè)用戶平均每天瀏覽 10 篇文章,一年的成本可能就是 5000 塊錢,試想誰愿意花 5000 塊錢來使用這樣一個(gè)單一功能?一定是不愿意的。

所以我們在思考大模型的成本,舉一些例子,比如《三體 3》全書 40 萬字,如果我用 GPT-4 Turbo 來去做估算,一次就需要大概幾十塊人民幣。這個(gè)量級讓我覺得這件事情不是剛需,可能一塊錢、一毛錢甚至一分錢以下才是我可以接受的。還有電商購物,我為了讓大家買一個(gè) 100 塊錢以內(nèi)的東西,要花幾十塊錢勸他買或者幫他買嗎?這是不可能的。成本是大模型推理未來必須要考慮的,降低成本才有希望實(shí)現(xiàn)大規(guī)模商業(yè)應(yīng)用。

我是一個(gè)做硬件的,我的角度去看,垂類模型一定是可以做到更小的。不需要千億級別參數(shù),通過優(yōu)化模型這一側(cè)的大小,我們可以通過降低每一次調(diào)用的計(jì)算次數(shù)或存儲的次數(shù),進(jìn)而降低處理器的功耗;此外,我們會發(fā)現(xiàn)還有一些可能的方法,比如算法方面的優(yōu)化、對于模型本身的算子的優(yōu)化;來到云端,我們還可以做錯(cuò)峰把閑置的算力用起來;以及我自己最擅長的芯片硬件層面,在端側(cè)做一類能夠跑大模型的硬件,專用于大模型的高效計(jì)算等。

通過這一整套從算法到芯片的協(xié)同優(yōu)化工作,大家想一想如果成本能夠降低 4 個(gè)數(shù)量級的話,從 100 塊到 1 分錢級別,我相信很多習(xí)以為常的事情就都可以用大模型了。

最后,是生態(tài)。

首先芯片層,絕大多數(shù)的人會直接在英偉達(dá)上搭建環(huán)境,很多西方國家也很郁悶,也被英偉達(dá)生態(tài)卡著。所以有些人試圖擺脫這種生態(tài)束縛,比如 Google 要做 TPU,以更低的價(jià)格來服務(wù)更多的用戶,但它的用戶目前還相對少。AMD 最近發(fā)布了一款 MI300,使股價(jià)一下子提高了很多,因?yàn)樗锌赡苣軌蚋ミ_(dá) PK 了。其次是模型層,有很多模型,這一點(diǎn)大家都是一樣的。然后中間層,在美國至少大家會分層去做軟件服務(wù)以及一些軟件類的收費(fèi),所以在軟件中間層,可以看到已經(jīng)有一批企業(yè)在為這件事情努力,幫助這些模型公司把算力發(fā)揮到極致。

而在中國,模型層我們有「百模大戰(zhàn)」,芯片層是我比較熟悉的,有看到一些芯片廠商,有十家到二十家還不錯(cuò)的企業(yè),正在努力突破巨頭的束縛,也有一些初創(chuàng)企業(yè)正在融資。在模型層和芯片層之間,怎么做高效的部署,也是一個(gè)非常重要的話題。

我們也在思考,是不是應(yīng)該有一類相對統(tǒng)一的中間層,能夠支持長文本、能夠做到更高的性價(jià)比、能夠做到一鍵部署,并且里面有一些工具可以輔助算法和應(yīng)用的開發(fā)商們。把算法壓縮、算子優(yōu)化包括自動(dòng)編譯全都囊括在內(nèi),這樣做成的一類中間層,是有望把 M 個(gè)大模型和 N 個(gè)硬件更好地匹配起來的,這是一個(gè)理想,我們做理想的同時(shí)就得去找資金,一塊來干這個(gè)事情。所以最近我們也在努力地做這樣一個(gè)中間層,作為在云端優(yōu)化不同的中國的(當(dāng)然也有英偉達(dá)和 AMD)算力的第一步,以此來支撐更多不同的模型。

中國的大模型生態(tài),最后是需要應(yīng)用、模型、算法框架開發(fā)平臺和基礎(chǔ)設(shè)施聯(lián)合起來做的,今天我看了看日程,絕大部分不是討論硬件的,所以把我硬件放在第一個(gè),謝謝知乎舉辦了這么好一個(gè)活動(dòng),將大家匯聚到一起,去思考大模型應(yīng)該怎么走。



關(guān)鍵詞:

評論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉