ResponsibleTA提升LLM可靠性,任務(wù)完成更安全、更高效
AI 智能助手照進(jìn)現(xiàn)實(shí)。
近幾個(gè)月,ChatGPT、GPT-4 等大語(yǔ)言模型(LLM)展現(xiàn)出突破性的理解、推理、生成、泛化和對(duì)齊能力,對(duì)各行各業(yè)的研究方式和生產(chǎn)效率均帶來(lái)廣泛而深遠(yuǎn)的變革及影響。此外,LLM 還展現(xiàn)出在真實(shí)世界的開放場(chǎng)景中解決復(fù)雜問題的能力,使科幻電影中無(wú)所不能的 AI 智能助手照進(jìn)了現(xiàn)實(shí)。
在實(shí)現(xiàn)自然場(chǎng)景中的任務(wù)自動(dòng)化時(shí),一個(gè)復(fù)雜的任務(wù)往往由多個(gè)子任務(wù)構(gòu)成,這需要多個(gè)模型或 APIs 的協(xié)作。如何確保 LLM 和執(zhí)行器之間高效、安全、穩(wěn)定地協(xié)同工作,是構(gòu)建 Responsible AI ,以及讓 LLM 可靠地為人類提供服務(wù)的關(guān)鍵問題。
為了解決這個(gè)問題,來(lái)自微軟亞洲研究院的研究團(tuán)隊(duì)提出 Responsible Task Automation (ResponsibleTA) 框架,提升 LLM 和執(zhí)行器之間協(xié)同工作的安全性和有效性。
論文鏈接:https://arxiv.org/pdf/2306.01242.pdf項(xiàng)目主頁(yè):https://task-automation-research.github.io/responsible_task_automation/
方法
本文通過提出一個(gè)新的任務(wù)自動(dòng)化框架,通過可行性檢測(cè),完成度檢驗(yàn),用戶隱私保護(hù)等三個(gè)模塊,提高了大語(yǔ)言模型作為任務(wù)助手的可靠性,為未來(lái)的人機(jī)交互提供了一種可行的方式。
該系統(tǒng)框架包含基于 LLM 的中央處理單元、指令執(zhí)行器、指令可行性預(yù)測(cè)器、指令完成度檢驗(yàn)器和安全性保護(hù)器。
Responsible Task Automation (ResponsibleTA) 框架示意圖
當(dāng) ResponsibleTA 接收到復(fù)雜任務(wù)對(duì)應(yīng)的高層級(jí)指令時(shí),安全性檢測(cè)自動(dòng)將包含用戶隱私的命令實(shí)體替換成對(duì)應(yīng)的占位符,然后將去隱私化的指令發(fā)送給部署在云端的 LLM,LLM 據(jù)此規(guī)劃實(shí)現(xiàn)該負(fù)責(zé)任務(wù)目標(biāo)的單步指令,然后發(fā)送給的部署在本地的執(zhí)行器實(shí)際執(zhí)行相關(guān)操作。從 Responsible AI 的角度出發(fā),該框架賦予 LLM 三個(gè)新的能力:
1)可行性預(yù)測(cè):ResponsibleTA 框架針對(duì) LLM 和執(zhí)行器的協(xié)同,開發(fā)設(shè)計(jì)了可行性預(yù)測(cè)模塊。該模塊用于對(duì) LLM 的輸出進(jìn)行可行性判斷,及時(shí)****不可行的執(zhí)行指令,從而規(guī)避在執(zhí)行這些指令的過程中產(chǎn)生的不可控風(fēng)險(xiǎn)。當(dāng) LLM 輸出的指令判斷為「不可行」時(shí),可行性預(yù)測(cè)期會(huì)將其分析結(jié)果返回給 LLM,并要求其重新進(jìn)行任務(wù)規(guī)劃,力求將合理可行性的指令交付給執(zhí)行器,提升任務(wù)自動(dòng)化的成功率。
2)完成度檢驗(yàn):ResponsibleTA 框架設(shè)計(jì)了一個(gè)完成度檢驗(yàn)器,用于在執(zhí)行器每次執(zhí)行結(jié)束后自動(dòng)檢查其執(zhí)行結(jié)果是否符合預(yù)期。該模塊根據(jù)執(zhí)行器執(zhí)行后的即時(shí)狀態(tài),判斷 LLM 當(dāng)前規(guī)劃是否完成,并提供及時(shí)補(bǔ)救的可能。當(dāng)執(zhí)行狀態(tài)判定為「未完成」時(shí),完成度檢驗(yàn)器會(huì)要求 LLM 啟動(dòng) replanning,使其能夠及時(shí)調(diào)整任務(wù)規(guī)劃。
完成度檢驗(yàn)器和上述可行性預(yù)測(cè)器,分別在 LLM 輸出指令的執(zhí)行前后,對(duì)指令的合理性和執(zhí)行的完成性進(jìn)行校驗(yàn),為任務(wù)自動(dòng)化的可靠性提供了雙重保險(xiǎn)。
3)用戶隱私保護(hù):ResponsibleTA 框架還設(shè)置了用戶隱私保護(hù)機(jī)制,該機(jī)制通過一個(gè)本地記憶單元實(shí)現(xiàn)。當(dāng)用戶將高層級(jí)命令發(fā)送給部署在云端的大語(yǔ)言模型時(shí),ResponsibleTA 中的隱私保護(hù)模塊自動(dòng)將命令中的隱私信息(如:用戶名、密碼、地址等)替換成對(duì)應(yīng)的占位符,而當(dāng)大語(yǔ)言模型將規(guī)劃的低層級(jí)指令發(fā)送給部署在本地的執(zhí)行器是,占位符會(huì)被自動(dòng)替換成對(duì)應(yīng)的真實(shí)信息。于此方式,用戶的隱私信息僅在本地被存儲(chǔ)和被使用,無(wú)需發(fā)送至云端,從而避免在傳輸和使用中的不可控風(fēng)險(xiǎn)。
針對(duì) ResponsibleTA 中的可行性預(yù)測(cè)和完成度檢查功能,其研究團(tuán)隊(duì)在 UI 任務(wù)自動(dòng)化場(chǎng)景下提出并對(duì)比了兩種不同的技術(shù)路線,并在實(shí)驗(yàn)部分詳細(xì)分析了這兩種技術(shù)路線的特點(diǎn)。以可行性預(yù)測(cè)為例,第一種技術(shù)方案通過 Prompting 的方式利用大語(yǔ)言模型內(nèi)部知識(shí)進(jìn)行判斷。具體地,研究者訓(xùn)練了一個(gè)屏幕解析模型將 UI 頁(yè)面解析成所含 UI 元素的語(yǔ)言描述,并將和指令一起輸入給 GPT-4 模型,讓 GPT-4 判斷當(dāng)前指令的可行性。具體方案如下圖所示。
基于 prompt engineering 的(指令)可行性預(yù)測(cè)器實(shí)現(xiàn)方案
另一種技術(shù)方案在于訓(xùn)練一個(gè)專用的多模態(tài)模型,該模型接收 UI 頁(yè)面的視覺信號(hào)和對(duì)應(yīng)的語(yǔ)言指令為輸入,輸出該指令的可行性判定結(jié)果,具體結(jié)構(gòu)如下圖。
基于專用模型的(指令)可行性預(yù)測(cè)器實(shí)現(xiàn)方案
完成度檢驗(yàn)器的實(shí)現(xiàn)方案于可行性預(yù)測(cè)器類似,在此不詳細(xì)贅述。
實(shí)驗(yàn)
該工作的作者首先對(duì) ResponsibleTA 中的關(guān)鍵模塊進(jìn)行定性實(shí)驗(yàn),驗(yàn)證其有效性,并對(duì)比不同實(shí)現(xiàn)方式的特點(diǎn)。據(jù)下表所示實(shí)驗(yàn)結(jié)果,作者認(rèn)為專用模型能夠提供更優(yōu)的實(shí)驗(yàn)結(jié)果但需要收集特定任務(wù)對(duì)應(yīng)的數(shù)據(jù)和標(biāo)注用于模型訓(xùn)練,而基于 LLM 的技術(shù)方案也能達(dá)到不錯(cuò)的效果,并在實(shí)際部署的成本和靈活性方面具有優(yōu)勢(shì)。
可行性預(yù)測(cè)器和完成度檢驗(yàn)器的定性實(shí)驗(yàn)結(jié)果
作者還在真實(shí)世界的實(shí)際使用場(chǎng)景中進(jìn)行 online testing, 并匯報(bào)了基線模型,具有可行性預(yù)測(cè)器的 ResponsibleTA 框架和完整版的 ResponsibleTA 框架在 12 個(gè)實(shí)際 UI 任務(wù)執(zhí)行過程中的具體表現(xiàn)。作者觀察到所提出的可行性預(yù)測(cè)器和完成度檢驗(yàn)器能夠避免執(zhí)行不可理 / 不可行的指令,并能通過讓 LLM 進(jìn)行 replanning 的方式進(jìn)行及時(shí)補(bǔ)救,從而提升任務(wù)自動(dòng)化的成功率。
真實(shí)世界中實(shí)例研究定量結(jié)果。表格中的數(shù)字表示 「有效執(zhí)行步數(shù) / 總共執(zhí)行步數(shù) (人類專家執(zhí)行步數(shù))」。
此外,作者還通過具體的案例分析直觀地展現(xiàn)了 ResponsibleTA 框架中的關(guān)鍵模型如何對(duì)一個(gè)失敗案例進(jìn)行補(bǔ)救,使其成為一個(gè)成功案例。
案例分析:進(jìn)入亞馬遜網(wǎng)站并將最便宜的充電器添加至購(gòu)物車。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。