讓 AI “讀懂”人類價值觀!朱松純團隊工作登上 Science 頭條
國際頂級學術期刊發(fā)表了朱松純團隊(UCLA袁路遙、高曉豐、北京通用人工智能研究院鄭子隆、北京大學人工智能研究院朱毅鑫等作者)的最新研究成果——實時雙向人機價值對齊 In-situ bidirectional human-robotvalue alignment。論文同時被Science官網(wǎng)和Science Robotics官網(wǎng)頭條刊登。
論文地址:https://www.science.org/doi/10.1126/scirobotics.abm4183
本論文提出了一個可解釋的人工智能(XAI)系統(tǒng),闡述了一種機器實時理解人類價值觀的計算框架,并展示了機器人如何與人類用戶通過實時溝通完成一系列復雜人機協(xié)作任務。朱松純團隊長期從事可解釋人工智能相關工作。此文是團隊第二篇發(fā)表在 Science Robotics 的關于可解釋人工智能的論文。這項研究涵蓋了認知推理、自然語言處理、機器學習、機器人學等多學科領域,是朱松純教授團隊交叉研究成果的集中體現(xiàn)。
在這個人機共存的時代,為了讓機器更好地服務于人類,理想的人機協(xié)作應該是什么樣的?我們不妨借鑒一下人類社會的協(xié)作,在人類團隊合作過程中,共同的價值觀和目標是保證團隊之間齊心協(xié)力、高效合作的基礎。當前機器智能大多數(shù)基于數(shù)據(jù)驅動(且很多情況下獲取不了數(shù)據(jù))、且是單方面接受人類指令(一種是人類觀測受限的情況下是沒法給到指令的)
為了解決上述問題,以及為了讓機器能夠進行更好地“自主”探索,我們要讓機器學會“讀懂”人類價值觀,因此我們提出“實時雙向價值對齊”。這就要求人類要想辦法一次次地給到AI反饋,逐漸地教會AI“讀懂”人類的價值觀,也就是讓機器和人類的“價值觀”保持一致。
這個問題也被稱為價值對齊(value alignment),即如何保證人工智能在執(zhí)行任務過程中所實現(xiàn)的價值和用戶所在意的價值是一致的?
可以說,價值對齊是人機協(xié)作過程中達成共識(common ground)的基礎,具有非常重要的研究價值。價值對齊也是未來的一個重要發(fā)展方向,是讓機器實現(xiàn)“自主智能”的關鍵所在,也是實現(xiàn)通用人工智能的必經(jīng)之路。鑒于此,北京通用人工智能研究院院長朱松純團隊一直在致力于此方向的研究。
理想的人機協(xié)作應該是什么樣的?在人工智能發(fā)展方興未艾之時,控制論之父諾伯特-維納(Norbert Wiener)就提出了人機協(xié)作的基礎:
“如果我們使用一個機器來實現(xiàn)我們的目標,但又不能有效地干預其運作方式...那么我們最好能篤定,輸入給機器的目標是我們真正所預期的?!?/span>
近幾年來,一系列研究進展都表明:高效的人機協(xié)作依賴于團隊之間擁有一致的價值觀、目標,以及對任務現(xiàn)狀的理解。這就要求人類通過與機器的溝通來高效地建立整個團隊對任務的共識,每個團隊成員都采取其他伙伴更容易理解的行為決策來完成協(xié)作。在大多數(shù)情況下,隊友之間的溝通過程都是雙向的,即每個成員都要扮演著傾聽者和表達者兩種角色。這樣的雙向價值對齊決定了人機協(xié)作中的溝通是否能夠成功,即機器人是否能準確地推斷出用戶的價值目標,并有效地解釋自己的行為。如果這兩個條件沒有得到滿足,隊友間彼此的不理解和誤判很可能會導致協(xié)作失敗。因此,想要使人工智能更好地服務于人類社會,必須讓它們在與人類互動時扮演好這兩種角色。
從傾聽者的角度來看,傳統(tǒng)人工智能算法(如逆強化學習(IRL)等)能夠將交互數(shù)據(jù)與機器學習算法相結合,以學習特定任務中用戶的價值目標,即通過輸入用戶在特定任務中的行為方式,來恢復行為背后的獎勵函數(shù)。然而,在眾多實際且重要(如軍事和醫(yī)療領域)的應用中,數(shù)據(jù)的獲取經(jīng)常十分昂貴。這些機器學習方法對大型數(shù)據(jù)集的依賴是無法應對即時互動的人機協(xié)作場景的。
從表達者的角度來看,可解釋人工智能(XAI)的引入是為了促進人機之間達成共識。當前的XAI系統(tǒng)通常強調(diào)的是對“模型如何產(chǎn)生決策過程”的解釋。然而,不管用戶有多少主動的輸入或互動,都只能影響機器“生成解釋”的過程,而不影響機器“做出決策”的過程。這是一種單向的價值目標對齊,我們稱之為靜態(tài)機器-動態(tài)用戶的交流,即在這種協(xié)作過程中只有用戶對機器或任務的理解發(fā)生了變化。
為了完成人與機器之間價值目標的雙向對齊,需要一種人類價值主導的、動態(tài)機器-動態(tài)用戶的交流模式。在這樣一種新的模式中,機器人除了揭示其決策過程外,還將根據(jù)用戶的價值目標即時調(diào)整行為,從而使機器和人類用戶能夠合作實現(xiàn)一系列的共同目標。為了即時掌握用戶信息,我們采用通訊學習取代了傳統(tǒng)數(shù)據(jù)驅動的機器學習方法,機器將根據(jù)所推斷出的用戶的價值目標進行合理解釋。這種合作導向的人機協(xié)作要求機器具有心智理論(ToM),即理解他人的心理狀態(tài)(包括情緒、信仰、意圖、欲望、假裝與知識等)的能力。心智理論最早在心理學和認知科學中被研究,現(xiàn)已泛化到人工智能領域。心智理論在多智能體和人機交互環(huán)境中尤為重要,因為每個智能體都要理解其他智能體(包括人)的狀態(tài)和意圖才能更好地執(zhí)行任務,其決策行為又會影響其他智能體做出判斷。設計擁有心智理論的系統(tǒng)不僅在于解釋其決策過程,還旨在理解人類的合作需求,以此形成一個以人類為中心、人機兼容的協(xié)作過程。
為了建立一個具有上述能力的AI系統(tǒng),本文設計了一個"人機協(xié)作探索"游戲。在這個游戲中,用戶需要與三個偵察機器人合作完成探索任務并最大化團隊收益。本游戲設定:1、只有偵察機器人能直接與游戲世界互動,用戶不能直接控制機器人的行為;2、用戶將在游戲初始階段選擇自己的價值目標(例如:最小化探索時間,收集更多的資源,探索更大的區(qū)域等),機器人團隊必須通過人機互動來推斷這個價值目標。這樣的設置真實地模仿了現(xiàn)實世界中的人機合作任務,因為許多AI系統(tǒng)都需要在人類用戶的監(jiān)督下,自主地在危險的環(huán)境中運行(如在核電站有核泄漏的情況下)。
要成功地完成游戲,機器人需要同時掌握“聽”和“說”的能力來實現(xiàn)價值雙向對齊。首先,機器人需要從人類的反饋中提取有用的信息,推斷出用戶的價值函數(shù)(描述目標的函數(shù))并相應地調(diào)整它們的策略。其次,機器人需要根據(jù)它們當前的價值推斷,有效地解釋它們"已經(jīng)做了什么"和"計劃做什么",讓用戶知道機器人是否和人類有相同的的價值函數(shù)。同時,用戶的任務是指揮偵查機器人到達目的地,并且使團隊的收益最大化。因此,用戶對機器人的評價也是一個雙向的過程,即用戶必須即時推斷偵察機器人的價值函數(shù),檢查其是否與人類的價值函數(shù)相一致。如果不一致,則選擇適當?shù)闹噶顏碚{(diào)整他們的目標。最終,如果系統(tǒng)運行良好,偵察機器人的價值函數(shù)應該與人類用戶的價值函數(shù)保持一致,并且用戶應該高度信任機器人系統(tǒng)自主運行。
圖1. 人機價值對齊過程總覽。
圖1介紹了游戲中的雙向價值調(diào)整過程。在游戲互動過程中,存在著三個價值目標,分別是 :用戶的真實價值;:機器人對用戶價值的估計(在游戲中,偵察機器人沒有自己的價值,所以他們以人類用戶價值的估計為依據(jù)采取行動);:用戶對機器人價值的估計?;谶@三個價值目標產(chǎn)生了兩種價值對齊—— :機器人從用戶給出的反饋中學習用戶的價值;: 用戶從機器人給出的解釋和互動中了解機器人的價值。最終,三種價值目標將匯聚于,人-機團隊將形成相互信任和高效的協(xié)作。
本文提出的XAI系統(tǒng)旨在共同解決以下兩個問題:
在即時互動和反饋過程中,機器如何準確估計人類用戶的意圖?
機器如何解釋自己,以便人類用戶能夠理解機器的行為,并提供有用的反饋來幫助機器做出價值調(diào)整?
在本文提出的系統(tǒng)中,機器人提出任務計劃的建議,并要求人類用戶給出反饋(接受或拒絕建議),從人類反饋中推斷出任務目標背后人類真實的價值意圖。在協(xié)作游戲中,如果用戶知道機器人正在積極學習他的價值目標,那么用戶就會傾向于提供更加有用的反饋,以促進價值保持對齊。特別地,每條信息都傳達了兩方面的意義,包括(1)基于價值目標的語義信息和(2)基于不同解釋方式之間區(qū)別的語用信息。利用這兩方面的含義,XAI系統(tǒng)以一種多輪的、即時的方式展示了價值的一致性,在一個問題搜索空間大的團隊合作任務中實現(xiàn)了高效的人機互動交流。為了使機器人的價值目標與用戶保持一致,XAI系統(tǒng)生成解釋、揭示機器人對人類價值的當前估計、并證明提出規(guī)劃的合理性。在每一步的互動中,為了避免解釋內(nèi)容過于冗長,機器人會提供定制化的解釋,比如省略重復的已知信息并強調(diào)重要的更新。在收到機器人的解釋并向它們發(fā)送反饋后,用戶向機器人提供提示,說明他們對最新建議和解釋的滿意程度。利用這些反饋,機器人會不斷地更新解釋的形式和內(nèi)容。
為了評估本文XAI系統(tǒng)的性能,我們邀請了人類用戶進行了一系列實驗,以此考察人類-機器雙向價值協(xié)調(diào)是否成功。我們采用了三種類型的解釋,并將用戶隨機分配到三組中的一組。實驗結果表明,我們所提出的XAI系統(tǒng)能夠以有效地實現(xiàn)即時雙向的價值對齊,并用于協(xié)作任務;機器人能夠推斷出人類用戶的價值,并調(diào)整其價值估計被用戶所理解。此外,有必要進行多樣化的解釋,以提高機器的決策性能和它們的社會智能。合作式的人工智能的目標是減少人類的認知負擔,并協(xié)助完成任務,我們相信,主動即時推斷人類的價值目標,并促進人類對系統(tǒng)的理解,將會為通用智能體的人機合作鋪平道路。
如圖2所示,在我們設計的合作游戲中,包含一個人類指揮官和三個偵察機器人。游戲的目標是需要在一張未知的地圖上找到一條從基地(位于地圖的右下角)到目的地(位于地圖的左上角)的安全路徑。該地圖被表示為一個部分可見的20×20網(wǎng)格圖,每個格子都可能有一個不同的裝置,只有在偵察機器人靠近它之后才可見。
在游戲中,人類指揮官和偵察機器人具有結構性的相互依賴關系,一方面人類指揮官需要依靠偵察機器人探索危險區(qū)域并排除爆炸物,另一方面,偵察機器人需要依賴人類指揮官提供的反饋更好地理解當前任務的目標。
圖 2:偵察探索游戲的用戶界面。從左到右,圖例面板顯示游戲地圖中的圖例。價值函數(shù)面板顯示這局游戲的價值函數(shù),偵察機器人不知道這個函數(shù),用戶也不能修改。中心地圖顯示當前地圖上的信息。分數(shù)面板顯示了用戶的當前分數(shù)。總分的計算方法是將各個目標的分數(shù)用價值函數(shù)加權后的總和。狀態(tài)面板顯示系統(tǒng)的當前狀態(tài)。提議面板顯示偵察機器人當前的任務計劃提議,用戶可以接受/拒絕每個建議。解釋面板顯示偵察機器人提供的解釋。
我們?yōu)閭刹鞕C器人制定了在尋找到路徑時額外的一系列目標,包括1)盡快到達目的地,2)調(diào)查地圖上的可疑裝置,3)探索更大的區(qū)域,以及4)收集資源。游戲的表現(xiàn)是由偵察機器人完成這些目標的情況和它們的相對重要性(權重)來衡量的,其中的權重就是人類用戶的價值函數(shù)。例如,如果人類指揮官更注重時效而不是獲取更多的資源,那么偵察機器人則應該忽略沿途上的部分資源以保證盡快到達目的地。(注,這個價值函數(shù)只在游戲開始時向人類用戶透露,而不對偵察機器人透露。圖 3總結了人機互動的流程。)
在不清楚人類指揮官價值取向的情況下,機器人偵察兵小隊必須快速推斷出人類的價值判斷,在每一步行動中,機器人偵察小隊每一個成員都要給出下一步行動方案,由人類指揮官選擇。為了幫助指揮官進行決策,偵察機器人小隊將解釋行動方案的依據(jù)。結合指揮官的反饋,以往的互動歷史和當前的地圖情況,偵察機器人小隊將調(diào)整其對指揮官當前價值觀的判斷,并采取相應的行動。
圖3:偵查探索游戲的設計。時間線(A)表示在一輪游戲中發(fā)生的事件,從機器人收到環(huán)境信號開始,到它們的下一步動作結束。時間線(B)和(C)分別描述了機器人和用戶的心智變化過程。
為了估計人類指揮官在通信過程中的價值函數(shù),我們將兩個層次的心智理論整合到我們的計算模型中。第1層心智理論考慮合作性假設。也就是說,給定一個合作的人類指揮官,被他接受的來自機器人的提議,更有可能與正確的價值函數(shù)相一致。第2層心智理論進一步將用戶的教育方法納入模型,使機器人更接近人類指揮官真實價值的反饋比其他反饋更容易被人類指揮官選擇。建模人類指揮官的教育傾向(pedagogical inclination)需要更高一層的心智理論。結合這兩個層次的心智理論,我們將人類指揮官的決策函數(shù)寫成一個由價值函數(shù)參數(shù)化的分布,并開發(fā)出一種新的學習算法。
值得注意的是,與我們的人機合作框架有可比性但不同的方法是逆強化學習。逆強化學習的目的是在一個被動的學習環(huán)境中,根據(jù)預先錄制的、來自專家的演示(demonstration)來恢復底層的獎勵函數(shù)(reward function)。與之不同的是,在我們的環(huán)境中,偵察機器人被設計為從人類指揮官給出的稀缺監(jiān)督中進行交互學習。更重要的是,我們的設計要求機器人在任務進行的過程中即時地、主動地推斷人類指揮官的價值。此外,為了完成合作,偵察機器人不僅必須迅速理解人類指揮官的意圖,還要闡明自己的決策依據(jù),以確保在整個游戲過程中與人類指揮官順利溝通??傮w來看,機器人的任務是通過推斷人類用戶的心智模型,積極提出建議,并評估人類用戶的反饋來進行價值調(diào)整。這些都需要機器對人類用戶進行復雜的心智建模,并具有即時更新模型的能力。
本文提出的XAI系統(tǒng)成功地證明了雙向人機價值對齊框架的可行性。從傾聽者的角度來看,所有三個解釋組中的機器人都可以在游戲進度達到25%時,通過對至少60%的目標重要性進行正確排序,快速與用戶的價值進行對齊。從表達者的角度來看,通過提供適當?shù)慕忉?,機器人可以向用戶說明其意圖,并幫助人類更好的感知機器人的價值,當給機器提供”完整解釋“時,只需在游戲進度達到50%時即可實現(xiàn)人類用戶價值與機器人價值的統(tǒng)一,而當只提供”簡要解釋“時,游戲進度需要達到75%時才能完成價值的統(tǒng)一。
我們從上述兩個角度得到了令人信服的證據(jù),實現(xiàn)了雙向價值對齊的過程,具體來說:
通過接收人類的反饋,機器人逐漸更新其價值函數(shù)來與人類的價值保持一致;
通過不斷地與機器人交互,人類用戶逐漸形成對系統(tǒng)能力和意圖的感知。
雖然機器人系統(tǒng)的價值在游戲的上半場沒有與人類用戶實現(xiàn)統(tǒng)一,但用戶對機器人價值評估能力的感知仍然可以提高。
最終,當機器人的價值變得穩(wěn)定時,用戶對機器人的評估也變得穩(wěn)定。從機器人對用戶價值的評估到用戶價值的真實值,以及從用戶對機器人價值的評估到機器人當前價值的收斂配對,形成了由用戶真實價值錨定的雙向價值對齊。
總的來說,我們提出了一個雙向人機價值對齊框架,并使用XAI系統(tǒng)驗證其可行性。我們提出的XAI系統(tǒng)表明,當把心智理論集成到機器的學習模塊中,并向用戶提供適當?shù)慕忉寱r,人類和機器人能夠通過即時交互的方式實現(xiàn)心智模型的對齊。我們提出的計算框架通過促進人和機器之間共享心智模型的形成,為解決本文的核心問題"理想的人機協(xié)作應該是什么樣的?"提供了全新的解答。
在這個游戲任務中,我們的工作側重于以價值和意圖為核心對心智進行建模,對齊這些價值可以極大地幫助人類和機器為面向任務的協(xié)作建立共同基礎,使其可以勝任更加復雜的場景何任務。因此,我們的工作是在人機協(xié)作中朝著更通用的心智模型對齊邁出的第一步。在未來的工作中,我們計劃探索哪些因素能夠進一步增強人類用戶信任(例如,允許對機器人進行反事實查詢),驗證"對齊"對任務性能的影響,并將我們的系統(tǒng)應用于涉及更復雜環(huán)境和價值函數(shù)的任務。
在科幻電影《超能陸戰(zhàn)隊》中,有一個“大白”智能陪伴機器人,“大白”可以陪電影男主角一起學習、玩耍、做游戲,具有很高的實時互動性。而當電影男主角情緒失落時,“大白”還能“讀懂”他的情感價值需求,主動安慰,給一個大大的擁抱。
“大白”其實是一個很智能的通用智能體。朱松純團隊所在的北京通用人工智能研究院,聯(lián)合北京大學人工智能研究院等單位,致力追尋人工智能的統(tǒng)一理論與認知架構,實現(xiàn)具有自主的感知、認知、決策、學習、執(zhí)行和社會協(xié)作能力,符合人類情感、倫理與道德觀念的通用智能體。本研究從傳統(tǒng)AI的“數(shù)據(jù)驅動”轉變?yōu)椤皟r值驅動”,讓XAI系統(tǒng)理解了人類價值觀,朝著通用人工智能邁出了一大步。
來源:圖靈人工智能 作者:東周
參考:AI智勝未來
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。