倫敦大學(xué)學(xué)院計(jì)算機(jī)系教授汪軍:決策大模型
不久之前,在機(jī)器之心舉辦的「決策智能產(chǎn)業(yè)應(yīng)用」在線圓桌論壇上,倫敦大學(xué)學(xué)院計(jì)算機(jī)系教授汪軍發(fā)表了主題演講《決策大模型》。
機(jī)器之心對(duì)汪軍教授的演講內(nèi)容進(jìn)行了不改變?cè)獾恼怼8信d趣的小伙伴可以點(diǎn)擊閱讀原文查看回顧視頻。
謝謝機(jī)器之心的邀請(qǐng),我今天分享的題目是《決策大模型》。首先我將要介紹我們?cè)跊Q策智能領(lǐng)域做的一些研究,同時(shí)我認(rèn)為大模型很重要,它代表了其在現(xiàn)在技術(shù)上的一個(gè)思路,不管從技術(shù)突破層面,還是實(shí)際應(yīng)用層面,大模型可能給大家?guī)?lái)不一樣的東西,同時(shí)大模型也有不足之處,學(xué)術(shù)界、工業(yè)界也在不斷地推進(jìn)大模型發(fā)展,所以這是一個(gè)不斷發(fā)展的研究領(lǐng)域,最后我會(huì)點(diǎn)題大模型。
決策智能和預(yù)測(cè)智能是有差別的。需要強(qiáng)調(diào)的是在人工智能應(yīng)用領(lǐng)域,一開始我們是在做感知智能、預(yù)測(cè)智能,這相當(dāng)于在數(shù)據(jù)里面找規(guī)律,有了規(guī)律以后,我們希望能夠反饋到數(shù)據(jù)來(lái)改變數(shù)據(jù),甚至能夠優(yōu)化決策,對(duì)數(shù)據(jù)產(chǎn)生改變,然后形成閉環(huán)。
我目前在上?;I備一個(gè)名為「數(shù)字大腦研究院」的機(jī)構(gòu),這是一家以科技創(chuàng)新與資本聯(lián)動(dòng)方式加速科技成果快速商業(yè)化的新型科研機(jī)構(gòu),已經(jīng)研發(fā)出全球第一個(gè)多智能體決策大模型。其目的也是想把決策智能應(yīng)用,進(jìn)行更清楚地梳理,特別是用大模型大數(shù)據(jù)來(lái)解決決策智能問(wèn)題,驅(qū)動(dòng)各產(chǎn)業(yè)全面智能化升級(jí)。
今天我講的內(nèi)容主要分成幾個(gè)部分。
首先我會(huì)介紹決策在數(shù)學(xué)上是怎么表達(dá)的,以及為何如此重要。
第二部分我會(huì)介紹決策智能最重要、最關(guān)鍵的問(wèn)題:安全性和魯棒性問(wèn)題。決策智能可應(yīng)用于互聯(lián)網(wǎng),比如搜索推薦廣告,這些對(duì)安全要求其實(shí)并不高,其本質(zhì)就是推薦內(nèi)容,推薦錯(cuò)了也不會(huì)造成大的財(cái)產(chǎn)損失,只要平均能提高百分之幾的點(diǎn)擊率就可以了。所以在互聯(lián)網(wǎng)上的這些搜索廣告推薦,很容易就會(huì)用到?jīng)Q策的一些方法。但是我們將決策智能用到工業(yè)互聯(lián)網(wǎng),或是其他地方,情況可能就不一樣了,我們必須有一個(gè)從理論上、實(shí)際上都要保證它是安全、魯棒的。因此我會(huì)介紹一下這方面的思路是什么、研究方法,以及可能的實(shí)現(xiàn)方法,此外我還會(huì)介紹各個(gè)技術(shù)點(diǎn)。
第三部分我會(huì)介紹因果分析。
第四部分我會(huì)介紹貝葉斯優(yōu)化,貝葉斯優(yōu)化數(shù)據(jù)樣本效率特別高,使得我們?cè)谛?shù)據(jù)的情況下也可以做決策。
最后我會(huì)介紹大模型,我們?yōu)槭裁匆鰶Q策的大模型?我們應(yīng)該怎么做?潛在的影響是什么?
決策
首先是決策,歷史上笛卡爾在 17 世紀(jì)作為哲學(xué)家和數(shù)學(xué)家,就開始思考人是怎樣做決策的。當(dāng)然那時(shí)的科學(xué)還是比較落后的,給出的解釋是比較機(jī)械的。大家都知道所謂的二元論觀點(diǎn),即在大腦里面,二元論觀點(diǎn)認(rèn)為有一個(gè)特定的器官:松果體。心靈和肉體之間有一個(gè)交互的地方,這個(gè)地方就是在大腦的松果體里。心靈是沒(méi)法解釋的,但是心靈可以控制人體行為動(dòng)作,通過(guò)心靈的引導(dǎo)人類能夠進(jìn)行一些日常決策、行動(dòng)等。以上是對(duì)人的決策解釋。
其實(shí)再往前、往大的地方考慮的話,有一個(gè)思路可以去解釋人、生命,即熵增熵減。整個(gè)宇宙是一個(gè)熵增的過(guò)程,即從有序變無(wú)須的狀態(tài)。假設(shè)某個(gè)封閉的空間被抽成了真空,在一邊劃一個(gè)裂縫,將氣體放進(jìn)去,慢慢擴(kuò)散到整個(gè)空間,這種氣體的擴(kuò)散就是從有序變成無(wú)序的狀態(tài)。生命體則相反,吸收能量,是從無(wú)序走向有序的狀態(tài);于是從人生下來(lái)到死亡是一個(gè)熵減的過(guò)程。人的生活日常其實(shí)是在找規(guī)律,即使生活環(huán)境在變,人內(nèi)環(huán)境的很多東西是不會(huì)變的,比如說(shuō)身體的體溫,身體體液的成分等。所以作為一個(gè)生命體,無(wú)論外界的情況如何變化,其內(nèi)部總是希望保持一個(gè)恒定的狀態(tài)。
人類開發(fā)了人工智能以及各種技術(shù),必然是幫助我們解決不變性的,或者說(shuō)是解決熵減。所以按照這個(gè)思路進(jìn)行思考,就會(huì)比較容易理解一個(gè)生命體如何去做決策,或者說(shuō)生命體做決策原理是什么。我們用一個(gè)最簡(jiǎn)化的數(shù)學(xué)模型來(lái)描述這個(gè)過(guò)程。
如下圖,比如說(shuō)整個(gè)世界假設(shè)它是不可知的,我們可以用一個(gè)隱變量 s* 來(lái)描述這個(gè)世界(或者說(shuō)代表世界運(yùn)行的規(guī)律或真理)。然后作為個(gè)體,比如生命體或是細(xì)胞,存在于這個(gè)世界當(dāng)中,受這個(gè)世界運(yùn)行影響。這個(gè)生命體不知道 S * 但會(huì)觀察這個(gè)外部世界,假設(shè)這個(gè)觀察量是 o (因?yàn)?s * 是不可觀察的,但是 o 是 s * 生成的,可以推理出 s*) 。透過(guò) o,生命體對(duì) s * 有了理解,但生命體不是 100% 完全可以推理出自然界隱藏的規(guī)律。比如說(shuō)重力,牛頓根據(jù)蘋果落地這樣一個(gè)事實(shí),他觀察到了這種現(xiàn)象 o,對(duì)真實(shí)世界產(chǎn)生一定認(rèn)知和理解,這個(gè)認(rèn)知和理解就是 s。但是 s 和 s * 可能不一樣,也可能一樣,因?yàn)槠浯砹藗€(gè)體對(duì)外界的理解。當(dāng)個(gè)體理解以后,個(gè)體就會(huì)采取行動(dòng)(下圖的 u)改變世界,比如說(shuō)人,人可以改變世界,細(xì)胞可以釋放某些東西,與病毒做斗爭(zhēng),所有這些都是個(gè)體對(duì)外界的影響。在外界影響的情況下,改變自然界,自然界然后又會(huì)出現(xiàn)新的狀態(tài)規(guī)律,個(gè)體在根據(jù)觀察做出理解和改變,依次反復(fù)。
所以對(duì)于感知智能來(lái)說(shuō),感知是從觀察到發(fā)現(xiàn)規(guī)律 o -> s;決策智能,就是從規(guī)律再返回事件 s -> u,來(lái)改變數(shù)據(jù)環(huán)境。
感知是主觀的,它是個(gè)體的感知,每個(gè)人可能不一樣,難以用語(yǔ)言來(lái)描述,但可以通過(guò)其他方式來(lái)描述。人與人之間會(huì)產(chǎn)生共鳴,這是為什么?因?yàn)槟愕母兄土硗庖粋€(gè)人的感知,對(duì)于觀察到的同一個(gè)東西或者觀察到的同一現(xiàn)象可能不一樣,但是會(huì)產(chǎn)生共鳴。所以當(dāng)你看到這些繪畫的時(shí)候,就會(huì)和這些繪畫的作者產(chǎn)生共鳴。所以這就是感知方面的一個(gè)規(guī)律,這個(gè)也就是藝術(shù)存在的本源。
決策是如何進(jìn)行的?效用理論 (Utility theory)。John Von Neuman 是一位非常著名的數(shù)學(xué)家,同時(shí)也是計(jì)算機(jī)學(xué)科的奠基人,他同時(shí)也創(chuàng)立了 Games Theory。在經(jīng)典的《Games Theory》里,他講到了 Utility theory,提供了一套數(shù)學(xué)工具來(lái)告訴大家怎樣去做決策。其數(shù)學(xué)表達(dá)可以認(rèn)為是優(yōu)化某一個(gè)特定的函數(shù),選擇能夠最大化函數(shù)的值。
如果一個(gè)智能體是理性的話,那么怎樣做決策呢?我們還是用上面的這個(gè)例子來(lái)講,假設(shè)人或者機(jī)器都可以,他們存在于一個(gè)世界中,我從外界觀察到一個(gè)信號(hào) o,那么我要選擇的最優(yōu)決策是什么 u?貝葉斯決策理論就是說(shuō),當(dāng)我觀察 o 的時(shí)候,其實(shí)對(duì) s 到底長(zhǎng)什么樣已經(jīng)有了一定的估計(jì),比如說(shuō)一個(gè)分布和描述。通過(guò)觀察 o 之后的后驗(yàn)知識(shí),那么我對(duì)自然界的一些規(guī)律和法則有了一定的了解。這個(gè)了解反映在它的分布和后驗(yàn)概率上 p(s|o)。也就是說(shuō),我對(duì)它的了解有一定的不確定性。
再來(lái)看所謂的獎(jiǎng)勵(lì)函數(shù)。如果自然界長(zhǎng)成這個(gè)樣子 s,我采取了行動(dòng) u,那么我的獲利應(yīng)該是多少,我們用 R(s,u) 這個(gè)函數(shù)來(lái)描述?只要你可以定義這個(gè)獲利,就可以最大化平均的獲利值。我選擇自己的決策,最大化預(yù)期利益或者說(shuō)平均利益。貝葉斯決策理論可以告訴你,這個(gè)就是最優(yōu)的決策。剛才其他演講者講到強(qiáng)化學(xué)習(xí)和優(yōu)化,無(wú)外乎就是上述公式,優(yōu)化一個(gè)特定的(獎(jiǎng)勵(lì))函數(shù)。我選擇的這個(gè)決策變量使得這個(gè)函數(shù)值是最大化的。
另外一個(gè)更基礎(chǔ)的問(wèn)題來(lái)了,什么是智能呢?其實(shí),智能可以用函數(shù)來(lái)解決。我使得自己的長(zhǎng)期收益是最好的,比如說(shuō)經(jīng)典的巴普洛夫條件反射,為什么狗可以跟它的鈴聲和食物產(chǎn)生聯(lián)系呢?為什么一聽到鈴聲就會(huì)產(chǎn)生唾液呢?這是因?yàn)樗鼘W(xué)習(xí)到了你經(jīng)常一敲鈴便會(huì)給它食物,這樣狗當(dāng)然就迅速行動(dòng)了。
從長(zhǎng)期角度來(lái)講,對(duì)狗這個(gè)生命體來(lái)說(shuō),它優(yōu)化了自己「迅速跑到這邊獲取食物」。狗的行為最優(yōu)的的表現(xiàn)是它可以適應(yīng)環(huán)境獲取食物,從長(zhǎng)時(shí)間來(lái)達(dá)到它的受益。
但實(shí)際上,我們說(shuō)做(機(jī)器)決策智能的時(shí)候,包括將來(lái)講的應(yīng)用如互聯(lián)網(wǎng)廣告,已經(jīng)廣泛地應(yīng)用到了。我之前做聯(lián)合創(chuàng)始人的公司就是專門做強(qiáng)化學(xué)習(xí)用于互聯(lián)網(wǎng)廣告。除了強(qiáng)化學(xué)習(xí),決策智能有其他的表現(xiàn)形式或數(shù)學(xué)表達(dá),能夠解決不一樣的東西。
剛才有演講者講到了運(yùn)籌優(yōu)化的內(nèi)容。運(yùn)籌優(yōu)化本質(zhì)是個(gè)優(yōu)化問(wèn)題,就是我給定一個(gè)目標(biāo)函數(shù) f(x),它可以是知道的,也可以是不知道的。在不知道的情況下,我們叫它黑盒優(yōu)化;在知道的情況下,我們叫它白盒優(yōu)化。然后,我的目的是要找到?jīng)Q策 x,我選擇自己的決策并最大化函數(shù) f。這個(gè)函數(shù)可以是剛才說(shuō)到的 utility 獎(jiǎng)勵(lì)函數(shù),也可以是其他各種各樣的函數(shù)。那么如果從這個(gè)角度來(lái)講的話,它就有很廣泛的用途。
比如其他演講者所講的電廠和 EDA 優(yōu)化的問(wèn)題。生物化學(xué)上,我們甚至可以用它來(lái)尋找抗體,就是用機(jī)器學(xué)習(xí)或黑盒優(yōu)化的方法,幫助找到更合適的抗體。還有演講者提到的 AutoML,它們本質(zhì)上也是黑盒優(yōu)化問(wèn)題。
黑盒優(yōu)化里面比較好的方法就是貝葉斯優(yōu)化,比如我們做優(yōu)化時(shí)允許去試錯(cuò)。我們找一些 x「喂」到 f 里面,然后去測(cè)試(給出 f 的值)。如果說(shuō)我們的任務(wù)是找抗體的話,則允許做一些黑盒實(shí)驗(yàn),看看化學(xué)反應(yīng)如何。然后我們?cè)偃ソㄒ粋€(gè)對(duì) f 了解的模型,叫做代理模型(surrogate model)。接著再創(chuàng)建一個(gè)采集函數(shù) (acquisition function),告訴我們下一個(gè)實(shí)驗(yàn)應(yīng)該怎么做 (下一個(gè)測(cè)試的輸入值 x 應(yīng)該是什么),然后無(wú)限循環(huán)往復(fù),直到實(shí)現(xiàn)最優(yōu) 。
貝葉斯優(yōu)化好處是什么?它從理論上保證能夠找到全局最優(yōu)。同時(shí)它也能減少做實(shí)驗(yàn)的次數(shù),所以貝葉斯優(yōu)化可以幫助我們?cè)跀?shù)據(jù)稀疏的情況下,去優(yōu)化決策。
大約一年前,我?guī)еA為團(tuán)隊(duì)一起做了一個(gè)貝葉斯優(yōu)化算法,獲得 NeurIPS 黑盒優(yōu)化冠軍,名字為河伯,該系統(tǒng)已經(jīng)開源,被研究者廣泛使用,該研究應(yīng)用領(lǐng)域包括在 Auto ML、蛋白質(zhì)設(shè)計(jì)、 MindSpore 超參數(shù)優(yōu)化、機(jī)器學(xué)習(xí)系統(tǒng)里的 rate 超參數(shù)優(yōu)化,此外還包括各種各樣的實(shí)際場(chǎng)景應(yīng)用。接下來(lái)我會(huì)介紹幾個(gè)例子,我認(rèn)為這是比強(qiáng)化學(xué)習(xí)更容易落地、更接地氣的方法,因?yàn)檫@種方法對(duì)數(shù)據(jù)要求不高。
以上是我介紹的決策智能一些重點(diǎn)內(nèi)容。那么決策智能難點(diǎn)在哪?剛才有演講者講了安全的知識(shí),安全在決策智能中非常重要,我會(huì)稍微介紹一下最近的一些算法,然后我再講一些因果分析的內(nèi)容(對(duì)決策的可解釋性提供了理論基礎(chǔ))。
大約十多年前,我剛?cè)?UCL 的時(shí)候,對(duì)互聯(lián)網(wǎng)搜索的問(wèn)題很感興趣。其中很關(guān)心搜索引擎的不確定性問(wèn)題,比如用戶使用百度搜索 iPhone 4 代,能搜索出結(jié)果。但是當(dāng)用戶搜索了一個(gè)困難的主題關(guān)鍵字,可能沒(méi)有一個(gè)跟用戶的需求相關(guān)的,那么用戶就會(huì)不在用這個(gè)搜索引擎,改用其他的搜索方法。所以搜索引擎需要有個(gè)有效的方法避免以上問(wèn)題出現(xiàn)。
我們?cè)撊绾慰创@個(gè)問(wèn)題?其實(shí)就是最大化用戶滿意度。我們?cè)?2009 年做過(guò)一套理論,參考了投資的一些原則,就是不要把所有的錢都投到同一個(gè)地方。為什么這樣做?因?yàn)楣?***價(jià)值有高有低,之間此起彼伏,你需要多樣化投資組合。同樣的道理,你在做搜索推薦或者互聯(lián)網(wǎng)廣告時(shí),不要把你認(rèn)為用戶相關(guān)的都展示出來(lái),萬(wàn)一判斷有錯(cuò)怎么辦,所以你要多樣化你的文件列表。當(dāng)時(shí)在學(xué)術(shù)圈,大家都已經(jīng)開始做 多元化排序了,但其實(shí)沒(méi)有給出一套理論,我們給出了一套理論,該理論告訴搜索引擎在什么時(shí)候多樣化,多樣化多少的的。SIGIR 對(duì)這個(gè)工作非常認(rèn)可,去年授予了 test of time honorable mention: 十年、甚至十幾年之后再去看這篇文章,還是非常有影響力的。我本身對(duì)這個(gè)工作還是非常自豪的。
安全和魯棒
在工業(yè)互聯(lián)網(wǎng)時(shí)代,需要做更加精細(xì)的決策,安全與風(fēng)險(xiǎn)是其中重要的部分。我之前帶領(lǐng)了華為諾亞實(shí)驗(yàn)室倫敦團(tuán)隊(duì),在 2022 年發(fā)表在機(jī)器學(xué)習(xí)會(huì)議 ICML 上的一篇文章(SAUTE RL)。幾乎肯定(或以概率為一)的滿足安全約束對(duì)于在現(xiàn)實(shí)應(yīng)用中部署強(qiáng)化學(xué)習(xí) (RL) 至關(guān)重要。例如,飛機(jī)著陸和起飛在理想情況下應(yīng)該以概率 1 發(fā)生。我們團(tuán)隊(duì)通過(guò)引入安全增強(qiáng)的馬爾可夫決策過(guò)程(MDP)來(lái)解決這個(gè)問(wèn)題,其中通過(guò)將安全約束增強(qiáng)到狀態(tài)空間并重塑目標(biāo)來(lái)消除安全約束。團(tuán)隊(duì)證明了 “炒” (Saute)過(guò)的馬科夫決策過(guò)程( MDP) 滿足貝爾曼 (Bellman) 方程,并更接近于解決幾乎肯定滿足約束的安全強(qiáng)化學(xué)習(xí)。團(tuán)隊(duì)認(rèn)為 Saute MDP 采用了一個(gè)不同角度對(duì)待安全決策問(wèn)題。例如,新提出的方法具有即插即用的特性,即任何 RL 算法都可以 “炒”。此外,狀態(tài)增強(qiáng)允許跨安全約束的策略泛化。最終表明,當(dāng)約束滿足非常重要時(shí),Saute RL 算法可以超越其最先進(jìn)的算法。在下圖所示的實(shí)驗(yàn)中,可以 Saute RL 算法在一些極端的測(cè)試下,安全性仍然是綠色的,圖中虛線表示 100% 安全。Saute RL 算法在一些安全性要求較高的場(chǎng)景廣泛應(yīng)用,比如電力、自動(dòng)駕駛等。
這是我們做的一個(gè)實(shí)驗(yàn),可以看到在一些 setting 極端策略下, 我們的方法保證 100% 安全。不管從實(shí)驗(yàn)上、還是理論上我們都可以 100% 得到安全保障。如果用這些方法,我們?cè)谝恍﹪?yán)格的安全性場(chǎng)景里,比如電力、自動(dòng)駕駛等,我們就可以廣泛地使用這些強(qiáng)化學(xué)習(xí)和優(yōu)化決策的方法了。
另外一個(gè)更難的問(wèn)題是如何保證模型訓(xùn)練安全。我們將類似的方法運(yùn)用到訓(xùn)練中。訓(xùn)練過(guò)程中加入一個(gè)安全狀態(tài),它會(huì)記錄歷史上的操作是否安全,在學(xué)習(xí)的過(guò)程中可以根據(jù)安全狀態(tài)選擇安全的路徑。
因果分析
下面介紹因果分析 ,剛才有人講到數(shù)字孿生,這其中涉及模型和數(shù)據(jù)的關(guān)系。所謂數(shù)字孿生,本質(zhì)就是對(duì)真實(shí)世界建模,如果僅憑自己想象建模,那結(jié)果和真是世界差別很大。同樣的道理,假如你有數(shù)據(jù),但數(shù)據(jù)不代表真實(shí)情況,數(shù)據(jù)在采樣的情況下就存在偏差,用存在偏差的數(shù)據(jù)建立模型,顯然不能真實(shí)地反映情況,導(dǎo)致模型和數(shù)據(jù)之間有差別。如果你用這些數(shù)據(jù)建立數(shù)字孿生去仿真、去學(xué)習(xí),顯然不準(zhǔn)確。所以數(shù)字孿生的核心問(wèn)題就是建立必須要讓它與環(huán)境一致、與數(shù)據(jù)一致 。舉例來(lái)說(shuō),在推薦系統(tǒng)里面,我們可以去做推薦的仿真 ,可以去仿真數(shù)據(jù),但是要強(qiáng)調(diào)的是仿真必須跟真實(shí)情況保持一致。
我認(rèn)為 Judea Pearl 因果分析的研究很有意義,給我們提供了很好的理論基礎(chǔ)。他提出的 結(jié)構(gòu)化的因果模型(structure causal model)對(duì) 因果關(guān)系提供了一個(gè)系統(tǒng)的描述。從我個(gè)人理解來(lái)講,如果將其與 圖模型或者主流的統(tǒng)計(jì)方法相比的話,主要區(qū)別在于增加了外生變量,這些外生變量對(duì)系統(tǒng)會(huì)造成改變。我們必須有一套理論去理解它,而不是假設(shè)它不存在,假如這些外生變量不存在,你就沒(méi)有規(guī)則去完全消除這些偏差( bias)的問(wèn)題。只有對(duì)這些外生變量建模,模型才會(huì)有效。Judea Pearl 的一個(gè)思路很有意思,就是系統(tǒng)的介紹了干預(yù)和想象的操作。比如 A 和 B 經(jīng)常在一起,當(dāng)有 A 的時(shí)候,預(yù)測(cè) B 的存在。但實(shí)際上 A 和 B 的存在可能是另外一個(gè) confounding 干擾變量的影響, A 和 B 實(shí)際上沒(méi)有任何內(nèi)在的因果關(guān)系,他們只是關(guān)聯(lián)(association)的關(guān)系。
第二個(gè)就是 DO 操作,就是去干預(yù) ,假如改變某一個(gè)量,另外一個(gè)量會(huì)不會(huì)隨之改變。如果我看到 A ,就說(shuō)明看到 B, 哪一天 A 消失了, B 是不是也消失了,還是 B 因?yàn)榱硗庖粋€(gè) confounding 的存在導(dǎo)致 B 一直存在,所以你可以通過(guò)此方法進(jìn)行分析 。
第三個(gè)是想象 (imagine),你可以問(wèn) what if 問(wèn)題,剛才我們?cè)谥v運(yùn)籌優(yōu)化的時(shí)候,會(huì)進(jìn)行 what if 分析,問(wèn)如果當(dāng)初我們執(zhí)行另外一個(gè)策略,會(huì)給我們帶來(lái)什么。沒(méi)有進(jìn)行 what if 推論,就把一個(gè)策略執(zhí)行到實(shí)際中是不科學(xué)的。所以,我們需要在仿真器里問(wèn)「what if question」問(wèn)題,即如果這樣做結(jié)果會(huì)怎么樣,是不是有更好的決策,這就是所謂的反事實(shí)(counterfactual),它實(shí)際沒(méi)有出現(xiàn),需要在腦子里進(jìn)行想象,用數(shù)字孿生去想象,但必須保證 counterfactual 是無(wú)偏見的。所以,如果我們要做數(shù)字孿生,就必須解決 counterfactual 的問(wèn)題。
舉例來(lái)說(shuō),在智能推薦系統(tǒng)里,首要的問(wèn)題是數(shù)據(jù)偏差問(wèn)題,如下圖標(biāo)記的有用戶 user (U)、 推薦列表 recommendation list (R)、 正例 positive items (S) 。一個(gè)物品 items 要被用戶喜歡并且被觀察到,必須滿足兩個(gè)條件,首先要被推薦,如果沒(méi)有推薦,用戶就看不到,所以必須和 R 有關(guān)系;同時(shí)要跟用戶 U 有關(guān)系,就是用戶可能喜歡、也可能不喜歡。同時(shí)喜歡并且被推薦了,那么這個(gè) item 是被觀察了 S, 在數(shù)據(jù)里面它是有 bias 的,如果它不在推薦系統(tǒng)里面,但用戶是喜歡的,這種情況下是觀察不到的。如果你使用觀察到的這些數(shù)據(jù)來(lái)構(gòu)建仿真器,必然存在一個(gè)偏差項(xiàng),是被推薦過(guò)去,只有被推薦過(guò)的東西你才會(huì)看見被仿真。但實(shí)際上還有那些沒(méi)有被推薦,實(shí)際上用戶可能喜歡的,所以你需要問(wèn) what if question,用戶是不是喜歡,如果用戶喜歡,你就推薦,如果用戶不喜歡,你就不推薦。
我們需要構(gòu)建一個(gè)所謂的 數(shù)據(jù)產(chǎn)生模型 data impression model 和用戶反饋模型 user feedback model 。外生變量是需要模型的,在一般的推薦系統(tǒng)里面,它是不存在建模問(wèn)題的。圖中的 beta 也是個(gè)外層變量 ,需要對(duì)它進(jìn)行建模并估計(jì)。當(dāng)出現(xiàn)新數(shù)據(jù)時(shí),我們需要估計(jì) alpha 、beta ,然后再去糾正當(dāng)前狀態(tài), 進(jìn)行真正的仿真。
我們也做了一些理論分析,如果我們有這樣的仿真系統(tǒng),數(shù)據(jù)多事效果會(huì)更好。這就面臨一個(gè)問(wèn)題,有了數(shù)據(jù)以后,我是用數(shù)據(jù)來(lái)構(gòu)建仿真器再去做決策,還是直接用數(shù)據(jù)做優(yōu)化決策。方案是如果你有 inductive bias 歸納偏置,構(gòu)建到這個(gè)模型里面,這樣用仿真器才有意義。
小數(shù)據(jù)決策
然后我再講一下貝葉斯優(yōu)化。
我?guī)ьI(lǐng)華為團(tuán)隊(duì)解決電子設(shè)計(jì)自動(dòng)化 EDA 問(wèn)題 時(shí),我們用貝葉斯優(yōu)化解決各種各樣的 EDA 的問(wèn)題。EDA 問(wèn)題其實(shí)是一個(gè)離散優(yōu)化 combination optimization 的問(wèn)題,比如我們研究的一系列序列決策問(wèn)題。我們?cè)谶壿嬀C合里面,想把整個(gè)的邏輯 數(shù)據(jù)轉(zhuǎn)換成另一個(gè) 更實(shí)際的簡(jiǎn)化的邏輯實(shí)際,使它的邏輯功能完全不變,對(duì)于是否完全不變,我可以用 QoR 來(lái)橫量它,QoR 值是多少,我是不知道的,我沒(méi)有任何的數(shù)學(xué)表達(dá),但是經(jīng)過(guò)不斷的試錯(cuò),可以達(dá)到最優(yōu),但怎么提高試錯(cuò)效率?顯然我就可以用剛才講的貝葉斯黑盒優(yōu)化,對(duì) QoR 進(jìn)行建模,然后去解決這個(gè)問(wèn)題。
今年我們也發(fā)表了論文來(lái)闡述怎樣用貝葉斯優(yōu)化來(lái)做邏輯綜合。順便提一下,我們?yōu)槿A為團(tuán)隊(duì)做的研究達(dá)到 SOTA 水平,該研究在公開測(cè)試數(shù)據(jù)里名列前茅,所以貝葉斯優(yōu)化為解決邏輯綜合問(wèn)題提供了一個(gè)比較好的思路。
我再舉另外一個(gè)例子,我想設(shè)計(jì)一個(gè)抗體能夠抗擊抗原,這兩種蛋白質(zhì)會(huì)發(fā)生一些反應(yīng)。這里我們就要找出氨基酸的排列次序及其形成的蛋白質(zhì),使得 Binding-Energy 結(jié)合能最小化。使用窮舉的方法幾乎是不可能的,因?yàn)榭赡苄钥臻g太大了。小數(shù)據(jù)決策就需要貝葉斯優(yōu)化了。
另外,我們?nèi)绾涡纬蓱?yīng)用大模型和大數(shù)據(jù)的思路?我們組做了很多多智能體強(qiáng)化學(xué)習(xí)方向的研究。那么,智能交互相關(guān)的研究只能用在游戲上嗎,是不是可以用到其他應(yīng)用上?回答是肯定的。我們最近做了一個(gè)游戲場(chǎng)景的「AI 奧林匹克」系列競(jìng)賽,因?yàn)橛螒驁?chǎng)景可以放大決策中的關(guān)鍵問(wèn)題,使我們能夠找到其中的規(guī)律。我們的目的是通過(guò)游戲的方式弄清楚決策中的技術(shù)方法,以用到其他各種場(chǎng)景中。
這個(gè)「AI 奧林匹克」競(jìng)賽和其他仿真游戲的區(qū)別是什么呢?首先在目的上,我們做這個(gè)比賽是為了探究智能體泛化性,以用于實(shí)際場(chǎng)景。第二,在「AI 奧林匹克」競(jìng)賽中,智能體并不能獲取全部信息,而是只提供部分信息,我們想知道系統(tǒng)如何解決問(wèn)題。
我們只有把一個(gè)跨任務(wù)的,信息不完備的場(chǎng)景弄清楚,才能夠解決一些實(shí)際問(wèn)題,模型的泛化能力也就增強(qiáng)了。
我們?cè)凇窤I 奧林匹克」系列競(jìng)賽中運(yùn)用了多智能體人工智能的思路。關(guān)于「多智能體人工智能是不是只能用在游戲里,還是也能用于其他場(chǎng)景」這個(gè)問(wèn)題,我們認(rèn)為在多智能體場(chǎng)景下可以「重新制定(reformulate)」實(shí)際問(wèn)題。比如在運(yùn)籌優(yōu)化里,包括經(jīng)典的旅行推銷員問(wèn)題(TSP,travel salesman problem) 多智能體學(xué)習(xí)能發(fā)揮 跨任務(wù)的優(yōu)勢(shì),也在 meta level 層面解決這個(gè)問(wèn)題。
TSP 是一系列問(wèn)題,這一系列問(wèn)題是有共性的。我們要在 meta level 上找到這個(gè)共性,建模一個(gè)新的 TSP 問(wèn)題,只需少量數(shù)據(jù)就能很快找到答案,進(jìn)而對(duì)提出解決方案提供指導(dǎo)作用。
傳統(tǒng)的優(yōu)化算法只能解決一個(gè) TSP 問(wèn)題,對(duì)于第二個(gè)第三個(gè)等等 TSP 問(wèn)題沒(méi)有泛化性。第二,傳統(tǒng)方法中能夠提升模型能力的只有數(shù)據(jù)。解決第一個(gè)問(wèn)題的數(shù)據(jù)可以和之后新添加的數(shù)據(jù)結(jié)合起來(lái),讓模型的能力進(jìn)一步提高。因此這種方法是數(shù)據(jù)驅(qū)動(dòng)的(data driven)。
我們用多智能體的方式,把數(shù)據(jù)驅(qū)動(dòng)和 meta level 結(jié)合到 TSP server 里。簡(jiǎn)單來(lái)說(shuō),我會(huì)做一個(gè) meta level 的 求解方法,然后有一個(gè) Oracle 評(píng)價(jià)系統(tǒng)與之對(duì)抗。我讓 求解方法 和評(píng)價(jià)系統(tǒng) Oracle 之間就產(chǎn)生一個(gè)對(duì)于 TSP 問(wèn)題的競(jìng)賽。顯然我們可以用互相競(jìng)爭(zhēng)的多智能體方法來(lái)解決這個(gè)問(wèn)題,例如提供一個(gè)跨任務(wù)的求解方法。多智能體人工智能在 meta level 可以幫助解決一些運(yùn)籌優(yōu)化的重要問(wèn)題。
我們發(fā)現(xiàn)這里存在一個(gè)趨勢(shì):從單一問(wèn)題遷移到 多個(gè)任務(wù)(meta level) 后,我們可以很快地 pre-solve 預(yù)先解決新問(wèn)題,這類似于 NLP 自然語(yǔ)言問(wèn)題中預(yù)訓(xùn)練模型的概念。
去年,UC 伯克利考慮在決策智能中使用 transformer 大模型和一些稱為離線學(xué)習(xí)「offline training」的方法,拉近了 NLP 自然語(yǔ)言和 CV 機(jī)器視覺的距離。offline 的意思是運(yùn)用一些策略(policy)得到一些數(shù)據(jù),然后完全拋開仿真器,直接拿數(shù)據(jù)進(jìn)行有監(jiān)督訓(xùn)練。
我們?cè)诖嘶A(chǔ)上又測(cè)試了多智能體。offline 訓(xùn)練能夠達(dá)到的水平是有限的,因?yàn)閿?shù)據(jù)有局限性。而 online 方法通過(guò)微調(diào)和添加數(shù)據(jù)能夠不斷改進(jìn)訓(xùn)練效果。
使用 transformer 做決策的好處是什么?首先它的泛化性非常強(qiáng),這一個(gè)模型幾乎在所有任務(wù)上的效果都很好。以前每個(gè)任務(wù)都單獨(dú)用一個(gè)模型,而現(xiàn)在一個(gè)模型就能解決所有任務(wù)。前段時(shí)間 DeepMind 發(fā)布了一個(gè)大模型,可以解決 CV、NLP 等任務(wù)。當(dāng)然,DeepMind 的大模型不包括 Multi-Agent ,但這足以證明一個(gè)模型解決多個(gè)領(lǐng)域任務(wù)是大勢(shì)所趨。我們應(yīng)該創(chuàng)建一個(gè)在跨任務(wù)、聯(lián)合 CV、NLP 的通用模型。
在預(yù)訓(xùn)練方面,我們認(rèn)為多智能體訓(xùn)練可以用語(yǔ)言模型來(lái)做,把所有的智能體和決策都生成出來(lái)。因此,語(yǔ)言模型的方法可以直接遷移到多智能體上,以達(dá)到一個(gè)非常好的效果。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。