博客專欄

EEPW首頁 > 博客 > 清華大學(xué)周伯文教授:從原則到實(shí)踐解讀多模態(tài)人工智能進(jìn)展與可信賴AI

清華大學(xué)周伯文教授:從原則到實(shí)踐解讀多模態(tài)人工智能進(jìn)展與可信賴AI

發(fā)布人:機(jī)器之心 時間:2022-09-15 來源:工程師 發(fā)布文章
以人為中心的 AI 才是真正有活力的 AI。

在 WAIC 2022 AI 開發(fā)者論壇上,清華大學(xué)惠妍講席教授、IEEE/CAAI Fellow、銜遠(yuǎn)科技創(chuàng)始人周伯文發(fā)表主題演講《多模態(tài)人工智能進(jìn)展與可信賴 AI:從原則到實(shí)踐》。
圖片
在演講中,他主要介紹了多模態(tài) AI 近期的突破以及可信 AI 的挑戰(zhàn)。目前人工智能正在從 “AI” 走向“可信賴 AI”。在全球范圍內(nèi),可信賴 AI 也正逐漸成為學(xué)術(shù)界和工業(yè)界研究和關(guān)注的熱點(diǎn)問題。但是,可信賴 AI 依然面臨很多問題。
以下為周伯文在 WAIC 2022 AI 開發(fā)者論壇上的演講內(nèi)容,機(jī)器之心進(jìn)行了不改變原意的編輯、整理:
非常感謝主辦方的邀請,今天有機(jī)會跟大家分享我在多模態(tài)人工智能進(jìn)展的思考。
我們在用技術(shù)解決問題的時候,不僅要考慮到未來技術(shù)演進(jìn)的路線,還要有技術(shù)信仰,因為解決當(dāng)下問題的很可能是未來的技術(shù)。
圖片
1894 年的倫敦是一個人口密集的繁華大都市,同時也是世界貿(mào)易中心,這座城市的交通運(yùn)輸卻完全依靠馬車。結(jié)果就是,直到 1894 年,數(shù)以萬計的馬生活在倫敦。據(jù)計算,每一匹馬每天都要制造 15 磅到 35 磅不等的糞便,這些糞便堆積在道路上,遠(yuǎn)遠(yuǎn)超過了清理速度。
英國的《泰晤士報》在 1894 年做出 “50 年內(nèi)馬糞將淹沒倫敦” 這一警示預(yù)言,然而這一預(yù)言并未發(fā)生,因為到了 20 世紀(jì)初,問題突然就解決了——汽車出現(xiàn)了!很快馬車就被淘汰了,“馬糞危機(jī)”被完美地用另外一種方式解決了。
我從京東來到清華之后,建立了協(xié)同交互智能研究中心,研究的方向主要是智能體跟以人為中心的世界和環(huán)境交互的過程中,如何不斷迭代和自我學(xué)習(xí),包括多模態(tài)表征、交互、推理,人機(jī)協(xié)同演繹,大小模型共同演化等各個方面。研究的核心基石是圍繞可信賴 AI 做設(shè)計。
今天的演講包括三部分,第一是多模態(tài)的進(jìn)展。
1、多模態(tài) AI 近期的突破
多模態(tài)在 AI 領(lǐng)域研究很久了,但是在過去幾十年都是相互分離的,每個方向有自己的模型,也不太溝通。但是最近幾年,我們越來越多看到大家在構(gòu)建統(tǒng)一的、跨場景、多任務(wù)的多模態(tài)基礎(chǔ)模型。 
圖片
比如 Omvivore 和 Data2vec 是 Facebook 近期的工作。前者采用統(tǒng)一的預(yù)訓(xùn)練模型處理視覺 (圖片、視頻、3D 圖像) 三種模態(tài)的輸入, 并將其映射到統(tǒng)一的特征空間;后者采用統(tǒng)一的模型和訓(xùn)練框架,分別訓(xùn)練文本、圖像、語音的預(yù)訓(xùn)練模型(不同模態(tài)分別訓(xùn)練預(yù)訓(xùn)練模型)。
Bridge-Tower(MSRA)提出了多模態(tài)預(yù)訓(xùn)練模型新的特征融合方式,即在單模態(tài)表示學(xué)習(xí)的中間層也能進(jìn)行跨模態(tài)的交互。其結(jié)構(gòu)既能有效應(yīng)對模態(tài)缺失的挑戰(zhàn)(相比單流預(yù)訓(xùn)練模型),又能更好的學(xué)習(xí)模態(tài)的交互(相比雙流預(yù)訓(xùn)練模型)。該多模態(tài)預(yù)訓(xùn)練模型在多個單模態(tài)任務(wù)上取得了不錯的結(jié)果。

這三個模型反映了多模態(tài)預(yù)訓(xùn)練的趨勢:設(shè)計統(tǒng)一的、跨任務(wù)、跨模態(tài)的多模態(tài)預(yù)訓(xùn)練模型,包括統(tǒng)一的結(jié)構(gòu)、統(tǒng)一的參數(shù)、統(tǒng)一的訓(xùn)練方式,應(yīng)對多個多模態(tài)任務(wù)或單模態(tài)任務(wù)。
圖片
多模態(tài)進(jìn)展的第二個方向就是在下游任務(wù)中的自監(jiān)督學(xué)習(xí)。通過構(gòu)建自監(jiān)督的任務(wù),提高多模態(tài)模型的表征能力,緩解缺少大規(guī)模監(jiān)督數(shù)據(jù)的挑戰(zhàn)。
多模態(tài)進(jìn)展的第三個方向就是表征跟知識的融合開始再進(jìn)一步拓展。大模型中有非常多隱性的知識,如何優(yōu)化、迭代它們,都是非常重要的研究熱點(diǎn),也是我們關(guān)注的方向。這里有幾個工作特別值得跟大家分享。 
圖片
第一個是基于視覺的知識回答,融合 GPT3 導(dǎo)出的隱式知識和顯式外部知識,通過 Transformer 融合文本、圖像和知識的表示,執(zhí)行基于知識推理的 VQA 任務(wù)。第二個是對于隱性知識的描述,根據(jù)圖片內(nèi)容生成圖片描述,并推測圖片中發(fā)生的事件的原因,以文本的方式輸出可能的解釋。第三個是在電商領(lǐng)域做的工作,將商品屬性相關(guān)的結(jié)構(gòu)化知識融入到電商多模態(tài)預(yù)訓(xùn)練任務(wù)中。通過構(gòu)建鏈接預(yù)測損失,建模結(jié)構(gòu)化知識與多模態(tài)實(shí)體概念間的關(guān)聯(lián)。顯式 / 隱式地融入知識,強(qiáng)化模型的知識和推表征理能力,提高模型的可解釋性。
多模態(tài)人工智能另外一個方面的進(jìn)展就是交互式 AI 將可能成為一種趨勢,傳統(tǒng)研究大多是 AI 模型與數(shù)據(jù)之間的交互,包括各種預(yù)訓(xùn)練模型,本質(zhì)上是學(xué)習(xí)互聯(lián)網(wǎng)上海量文本、圖片等不同模態(tài)數(shù)據(jù)的內(nèi)在規(guī)律。
圖片
因算力、數(shù)據(jù)資源的限制,僅依賴互聯(lián)網(wǎng)上數(shù)據(jù)學(xué)習(xí)很大可能會達(dá)到瓶頸,而反觀人類往往能在交流中習(xí)得新的知識和技能,因此通過交互將有可能進(jìn)一步提升 AI 的能力,包括模型之間的交互(通過梯度、模型參數(shù)甚至自然語言交流)、模型與人類的協(xié)同交互、模型與世界環(huán)境的交互等等。不管是孔子與七十二門徒還是西方的雅典學(xué)派,知識的傳播、形成、迭代都是通過老師和學(xué)生的互動來完成的,如何讓人工智能能夠自主學(xué)習(xí)并不斷迭代新的知識是我們在清華的重要研究方向。
此外,交互式 AI 也會面臨一些問題,包括數(shù)據(jù)和模型等方面的問題,比如 Meta Blenderbot 數(shù)據(jù)導(dǎo)致的倫理問題,以及 Google PaLM-SayCan 在真實(shí)世界中交互使用可能面臨模型可控性問題等。
Blenderbot3.0 對扎克伯格和 Yann LeCun 截然不同的評價,與 Facebook 中用戶的真實(shí)發(fā)帖對話有關(guān)。為了解決這種問題,Meta 采取用戶反饋進(jìn)行在線的持續(xù)學(xué)習(xí)來調(diào)整模型。
基于大規(guī)模語言模型“大腦”(Pathways LM,PaLM),可以實(shí)現(xiàn)機(jī)器人在真實(shí)環(huán)境的指令執(zhí)行操作,能夠達(dá)到非常好的效果。但也會衍生新的可控性問題,就如同“bull in china shop”(闖進(jìn)瓷器店的公牛)。解決的辦法就是不斷給機(jī)器人反饋,讓其不斷學(xué)習(xí)、迭代,就跟小孩子一樣,小時候可能會打碎瓷器,但是慢慢地就能避免這個行為。
多模態(tài)的理解 + 交互式的學(xué)習(xí)和以人為中心的設(shè)計模式,未來的應(yīng)用空間會越來越大。但在這個過程中也有很大的挑戰(zhàn),就是如何讓 AI 的理解和執(zhí)行更加可控,如何讓 AI 變得更可信賴。
2、可信賴 AI 落地面臨的挑戰(zhàn) 
圖片
人工智能面臨諸多挑戰(zhàn)。在魯棒性層面,AI 面臨著多樣化的風(fēng)險;在公平無偏層面,我們發(fā)現(xiàn)廣泛存在 AI 偏差的風(fēng)險,比如谷歌的人臉識別和機(jī)器翻譯對性別的默認(rèn)。還有消費(fèi)互聯(lián)網(wǎng)推薦系統(tǒng)中的無偏挑戰(zhàn),在用戶 - 數(shù)據(jù) - 推薦系統(tǒng)的閉環(huán)里,用戶的行為會影響數(shù)據(jù),數(shù)據(jù)會影響算法,如果數(shù)據(jù)不具有廣泛的代表性,這個算法會出現(xiàn)偏差,然后偏差會不斷放大,導(dǎo)致“馬太效應(yīng)”。這就是人工智能落地發(fā)生的真實(shí)挑戰(zhàn)。
圖片
近年來,我們持續(xù)推動 “可信賴 AI” 的系統(tǒng)性建設(shè)。我在 IBM 的時候就推動可信賴人工智能的研究,雖然這幾年大家開始更多地提到可信賴 AI,但我早在 2016 年就在這方面做了一些探索,2019 年我在烏鎮(zhèn)互聯(lián)網(wǎng)大會就提出了可信賴 AI 的六個原則和要素:魯棒性、可解釋、可復(fù)制、公平、隱私保護(hù)、負(fù)責(zé)任和價值對齊。
2021 年 1 月,在瑞士達(dá)沃斯論壇上,我們和 MIT 專門做了人工智能的交流論壇,凝聚了全球的共識。最近的工作是剛剛一篇論文被 ACM Computing Surveys 錄用,這個論文把過去幾年可信賴 AI 在原則、實(shí)踐的技術(shù)進(jìn)展做了梳理。接下來我把論文的主要思想和觀點(diǎn)跟大家做分享。
圖片
目前人工智能正在從 “可用 AI” 走向“可信賴 AI”;可信賴 AI 是未來人機(jī)協(xié)作的指導(dǎo)性原則,引導(dǎo) AI 在協(xié)作中承擔(dān)更多的保障性任務(wù)。
人工智能一定具有社會屬性,所以技術(shù)挑戰(zhàn)帶來的社會屬性也會倒逼我們思考技術(shù)進(jìn)步。由于時間關(guān)系,今天著重講一下可解釋性。
圖片
可解釋性的價值很容易理解。傳統(tǒng)的黑盒 AI 會給人們的使用造成困擾,比如對于模型的工作機(jī)理未知,不明白模型為什么預(yù)測這樣的結(jié)果;更不知道模型何時成功或者失?。灰虼撕茈y根據(jù)模型結(jié)果來糾正錯誤。而可解釋性 AI 模型,在做出決策的同時還能給出解釋,因此能夠讓使用者理解 AI 模型是如何做決策的,并在此基礎(chǔ)上針對錯誤的預(yù)測進(jìn)行糾正。以人為中心的 AI 才是真正有活力的 AI。
梳理可解釋性 AI 方法的分類,可以把它分成設(shè)計可解釋模型 Ante-hoc 和解釋模型的行為 post-hoc,Ante-hoc 里面包括傳統(tǒng)模型和非傳統(tǒng)模型,傳統(tǒng)模型包括 KNN、決策樹,非傳統(tǒng)模型有因果推理、知識圖譜;post-hoc 里面包括模型相關(guān)型的解釋和模型無關(guān)型的解釋,模型相關(guān)型包括基于特征的重要性分析,和基于特征的語義分析,模型無關(guān)型包括解釋器模擬和樣例驅(qū)動。 
圖片
Ante-hoc 可解釋模型方法,大家最信任的就是決策樹。挑戰(zhàn)在于,決策樹帶來的可解釋性雖然很好,但是模型的復(fù)雜度有上限。決策樹大到一定程度,雖然有局部的可解釋性,但是宏觀的可解釋性就丟失了。
正是因為這樣,post-hoc 是我個人比較喜歡的方向,它把模型的復(fù)雜度和可解釋性分成兩部分,舉一個例子就是 LIME。圖片
LIME 是一種模型無關(guān)的局部解釋性方法。LIME 算法中,通過可解釋性模型 g(例如線性模型)在樣本 x 局部區(qū)域線性近似原始模型 f,學(xué)習(xí)一個線性分類模型進(jìn)行解釋(對于線性模型的可解釋性約束仍然是個很難定量的決策)。
能夠使用線性分類模型進(jìn)行局部模擬的原因在于:對于樣本 X,在其附近進(jìn)行采樣,可以很容易使用一個線性決策面進(jìn)行分類。進(jìn)而來逼近原始模型,從而在 X 樣本處進(jìn)行解釋(局部)。 
圖片
這里展示一個郵件文本分類的例子,可以通過 LIME 算法對模型分類錯誤的原因進(jìn)行可解釋性分析;使用 LIME 算法進(jìn)行線性模擬之后,我們可以得到每個單詞在各類別中的權(quán)重,可以發(fā)現(xiàn) Posting、Host 等類別無關(guān)的單詞影響了分類結(jié)果,而這些單詞應(yīng)該是類別無偏的。
LIME 也存在一些缺陷,比如 X 的鄰域定義比較困難;后續(xù)提出的 SHAP 給出更合理的計算,采用博弈聯(lián)盟中 shapley 值進(jìn)行建模,同時能夠給出正負(fù)權(quán)重。
基于注意力機(jī)制進(jìn)行特征重要性分析,我們提出了 multi-hop attention 機(jī)制。
圖片
自注意力的可視化,以 Yelp 評論文本分類為例,一星和五星的評論在單詞重要性上存在明顯區(qū)別。
可解釋性的特征語義解釋方法,不僅僅尋求答案,而是把尋求為什么作為目標(biāo)去訓(xùn)練神經(jīng)網(wǎng)絡(luò)。模型內(nèi)部,在 MRC 任務(wù)給出答案支撐事實(shí);模型外部,在 QA 任務(wù)中給出答案的推理過程,通過推理過程自洽性提高準(zhǔn)確率。
3、可信賴 AI:A Wholistic View Is Needed
解讀可信賴 AI 我們提出了很多維度,包括魯棒性問題、領(lǐng)域遷移泛化性表示、基礎(chǔ)模型強(qiáng)泛化性,計算復(fù)雜性的泛化機(jī)理,可解釋性問題等等,這些雖然都是不同的維度,但是它們內(nèi)在有非常強(qiáng)的關(guān)聯(lián),關(guān)聯(lián)的核心來自于錯配。錯配包括兩個方面:一個是數(shù)據(jù)分布的錯配,另外一個是維度的錯配。這兩個錯配導(dǎo)致可信賴 AI 面臨很多問題。
機(jī)器學(xué)習(xí),特別是深度學(xué)習(xí)分類模型的過程是將高緯度 (n) 數(shù)據(jù)通過 n-1 維決策面進(jìn)行判別區(qū)分。實(shí)際研究對象其實(shí)只有 k 維,其中 k<<n。為了提高準(zhǔn)確性,如 Adi Shamir 等的工作指出,我們的學(xué)習(xí)算法會強(qiáng)迫模型利用余下的 n-k 維,而這 n-k 維則帶來了一系列問題。
對抗樣本本身可以看做是數(shù)據(jù)分布外情形的特例,因此魯棒性某種意義上也是受制于有限數(shù)據(jù)分布自生限制;也就是說,大量冗余相關(guān)的特征關(guān)聯(lián),會限制表示魯棒性;學(xué)習(xí)到存在眾多的虛假關(guān)聯(lián),導(dǎo)致泛化性差;此外,由于虛假關(guān)聯(lián)特性,從而難以可解釋。
圖片
在全球范圍內(nèi),可信賴 AI 也正逐漸成為學(xué)術(shù)界和工業(yè)界研究和關(guān)注的熱點(diǎn)問題。可信賴 AI 所涵蓋涉及的問題復(fù)雜且多樣化,目前全球的 AI 從業(yè)者正從不同的角度對其開展了廣泛的研究。
原來我們的研究都是把每個維度單獨(dú)去研究,比如說做可信賴 AI,專門研究可解釋性,但是通過我們的深入,我們認(rèn)為要從整體去看人工智能,單純一個維度一個維度地解決不是很好的辦法??尚刨?AI 的落地需要考慮各個維度的相互作用。這是第一個學(xué)術(shù)觀點(diǎn)。
圖片
第二個學(xué)術(shù)觀點(diǎn),可信賴 AI 的落地需要跨領(lǐng)域的系統(tǒng)協(xié)作??尚刨?AI 是端到端的流程,僅僅關(guān)注算法是不夠的。比如在工業(yè)界,要做一個可信賴 AI 的系統(tǒng),我們從用戶需求的調(diào)研和用戶問題的提出開始,就要思考這是不是可信賴 AI 的問題,再到數(shù)據(jù)的收集標(biāo)注,算法設(shè)計,開發(fā)上線,最后到產(chǎn)品交付,保持用戶體驗,從工業(yè)角度來講,關(guān)注的是全部的流程,但是學(xué)術(shù)界更關(guān)注的是中間算法這部分,所以可信賴 AI 的落地需要學(xué)界、產(chǎn)業(yè)界和監(jiān)管部門一起努力。 
圖片
我們的研究方向在哪里,通過這張圖我們試圖去回答這個問題。這張圖有兩個維度,橫向列出了可信賴 AI 的八個原則,縱向講的是端到端有哪些環(huán)節(jié),這個圖里面有不同的顏色,它們是不同領(lǐng)域的論文。學(xué)術(shù)界和工業(yè)界對可信賴 AI 的關(guān)注度和領(lǐng)域有很大的互補(bǔ)性,很多地方是空白的,這就是我們努力的方向。
以上就是我今天分享的內(nèi)容,謝謝大家。我們銜遠(yuǎn)科技(Frontis.cn)致力于通過以上介紹的各種新的技術(shù)去解決產(chǎn)業(yè)數(shù)智化轉(zhuǎn)型中的各種有趣且重要的問題,非常歡迎感興趣的朋友加入我們!


*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉