ResponsibleTA提升LLM可靠性，任務(wù)完成更安全、更高效

發(fā)布人：機(jī)器之心時(shí)間：2023-06-23 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

AI 智能助手照進(jìn)現(xiàn)實(shí)。

近幾個(gè)月，ChatGPT、GPT-4 等大語(yǔ)言模型（LLM）展現(xiàn)出突破性的理解、推理、生成、泛化和對(duì)齊能力，對(duì)各行各業(yè)的研究方式和生產(chǎn)效率均帶來(lái)廣泛而深遠(yuǎn)的變革及影響。此外，LLM 還展現(xiàn)出在真實(shí)世界的開放場(chǎng)景中解決復(fù)雜問題的能力，使科幻電影中無(wú)所不能的 AI 智能助手照進(jìn)了現(xiàn)實(shí)。
在實(shí)現(xiàn)自然場(chǎng)景中的任務(wù)自動(dòng)化時(shí)，一個(gè)復(fù)雜的任務(wù)往往由多個(gè)子任務(wù)構(gòu)成，這需要多個(gè)模型或 APIs 的協(xié)作。如何確保 LLM 和執(zhí)行器之間高效、安全、穩(wěn)定地協(xié)同工作，是構(gòu)建 Responsible AI ，以及讓 LLM 可靠地為人類提供服務(wù)的關(guān)鍵問題。
為了解決這個(gè)問題，來(lái)自微軟亞洲研究院的研究團(tuán)隊(duì)提出 Responsible Task Automation (ResponsibleTA) 框架，提升 LLM 和執(zhí)行器之間協(xié)同工作的安全性和有效性。

論文鏈接：https://arxiv.org/pdf/2306.01242.pdf項(xiàng)目主頁(yè)：https://task-automation-research.github.io/responsible_task_automation/
方法
本文通過提出一個(gè)新的任務(wù)自動(dòng)化框架，通過可行性檢測(cè)，完成度檢驗(yàn)，用戶隱私保護(hù)等三個(gè)模塊，提高了大語(yǔ)言模型作為任務(wù)助手的可靠性，為未來(lái)的人機(jī)交互提供了一種可行的方式。
該系統(tǒng)框架包含基于 LLM 的中央處理單元、指令執(zhí)行器、指令可行性預(yù)測(cè)器、指令完成度檢驗(yàn)器和安全性保護(hù)器。

Responsible Task Automation (ResponsibleTA) 框架示意圖
當(dāng) ResponsibleTA 接收到復(fù)雜任務(wù)對(duì)應(yīng)的高層級(jí)指令時(shí)，安全性檢測(cè)自動(dòng)將包含用戶隱私的命令實(shí)體替換成對(duì)應(yīng)的占位符，然后將去隱私化的指令發(fā)送給部署在云端的 LLM，LLM 據(jù)此規(guī)劃實(shí)現(xiàn)該負(fù)責(zé)任務(wù)目標(biāo)的單步指令，然后發(fā)送給的部署在本地的執(zhí)行器實(shí)際執(zhí)行相關(guān)操作。從 Responsible AI 的角度出發(fā)，該框架賦予 LLM 三個(gè)新的能力：
1）可行性預(yù)測(cè)：ResponsibleTA 框架針對(duì) LLM 和執(zhí)行器的協(xié)同，開發(fā)設(shè)計(jì)了可行性預(yù)測(cè)模塊。該模塊用于對(duì) LLM 的輸出進(jìn)行可行性判斷，及時(shí)****不可行的執(zhí)行指令，從而規(guī)避在執(zhí)行這些指令的過程中產(chǎn)生的不可控風(fēng)險(xiǎn)。當(dāng) LLM 輸出的指令判斷為「不可行」時(shí)，可行性預(yù)測(cè)期會(huì)將其分析結(jié)果返回給 LLM，并要求其重新進(jìn)行任務(wù)規(guī)劃，力求將合理可行性的指令交付給執(zhí)行器，提升任務(wù)自動(dòng)化的成功率。
2）完成度檢驗(yàn)：ResponsibleTA 框架設(shè)計(jì)了一個(gè)完成度檢驗(yàn)器，用于在執(zhí)行器每次執(zhí)行結(jié)束后自動(dòng)檢查其執(zhí)行結(jié)果是否符合預(yù)期。該模塊根據(jù)執(zhí)行器執(zhí)行后的即時(shí)狀態(tài)，判斷 LLM 當(dāng)前規(guī)劃是否完成，并提供及時(shí)補(bǔ)救的可能。當(dāng)執(zhí)行狀態(tài)判定為「未完成」時(shí)，完成度檢驗(yàn)器會(huì)要求 LLM 啟動(dòng) replanning，使其能夠及時(shí)調(diào)整任務(wù)規(guī)劃。
完成度檢驗(yàn)器和上述可行性預(yù)測(cè)器，分別在 LLM 輸出指令的執(zhí)行前后，對(duì)指令的合理性和執(zhí)行的完成性進(jìn)行校驗(yàn)，為任務(wù)自動(dòng)化的可靠性提供了雙重保險(xiǎn)。
3）用戶隱私保護(hù)：ResponsibleTA 框架還設(shè)置了用戶隱私保護(hù)機(jī)制，該機(jī)制通過一個(gè)本地記憶單元實(shí)現(xiàn)。當(dāng)用戶將高層級(jí)命令發(fā)送給部署在云端的大語(yǔ)言模型時(shí)，ResponsibleTA 中的隱私保護(hù)模塊自動(dòng)將命令中的隱私信息（如：用戶名、密碼、地址等）替換成對(duì)應(yīng)的占位符，而當(dāng)大語(yǔ)言模型將規(guī)劃的低層級(jí)指令發(fā)送給部署在本地的執(zhí)行器是，占位符會(huì)被自動(dòng)替換成對(duì)應(yīng)的真實(shí)信息。于此方式，用戶的隱私信息僅在本地被存儲(chǔ)和被使用，無(wú)需發(fā)送至云端，從而避免在傳輸和使用中的不可控風(fēng)險(xiǎn)。
針對(duì) ResponsibleTA 中的可行性預(yù)測(cè)和完成度檢查功能，其研究團(tuán)隊(duì)在 UI 任務(wù)自動(dòng)化場(chǎng)景下提出并對(duì)比了兩種不同的技術(shù)路線，并在實(shí)驗(yàn)部分詳細(xì)分析了這兩種技術(shù)路線的特點(diǎn)。以可行性預(yù)測(cè)為例，第一種技術(shù)方案通過 Prompting 的方式利用大語(yǔ)言模型內(nèi)部知識(shí)進(jìn)行判斷。具體地，研究者訓(xùn)練了一個(gè)屏幕解析模型將 UI 頁(yè)面解析成所含 UI 元素的語(yǔ)言描述，并將和指令一起輸入給 GPT-4 模型，讓 GPT-4 判斷當(dāng)前指令的可行性。具體方案如下圖所示。

基于 prompt engineering 的（指令）可行性預(yù)測(cè)器實(shí)現(xiàn)方案

另一種技術(shù)方案在于訓(xùn)練一個(gè)專用的多模態(tài)模型，該模型接收 UI 頁(yè)面的視覺信號(hào)和對(duì)應(yīng)的語(yǔ)言指令為輸入，輸出該指令的可行性判定結(jié)果，具體結(jié)構(gòu)如下圖。

基于專用模型的（指令）可行性預(yù)測(cè)器實(shí)現(xiàn)方案
完成度檢驗(yàn)器的實(shí)現(xiàn)方案于可行性預(yù)測(cè)器類似，在此不詳細(xì)贅述。
實(shí)驗(yàn)
該工作的作者首先對(duì) ResponsibleTA 中的關(guān)鍵模塊進(jìn)行定性實(shí)驗(yàn)，驗(yàn)證其有效性，并對(duì)比不同實(shí)現(xiàn)方式的特點(diǎn)。據(jù)下表所示實(shí)驗(yàn)結(jié)果，作者認(rèn)為專用模型能夠提供更優(yōu)的實(shí)驗(yàn)結(jié)果但需要收集特定任務(wù)對(duì)應(yīng)的數(shù)據(jù)和標(biāo)注用于模型訓(xùn)練，而基于 LLM 的技術(shù)方案也能達(dá)到不錯(cuò)的效果，并在實(shí)際部署的成本和靈活性方面具有優(yōu)勢(shì)。

可行性預(yù)測(cè)器和完成度檢驗(yàn)器的定性實(shí)驗(yàn)結(jié)果
作者還在真實(shí)世界的實(shí)際使用場(chǎng)景中進(jìn)行 online testing, 并匯報(bào)了基線模型，具有可行性預(yù)測(cè)器的 ResponsibleTA 框架和完整版的 ResponsibleTA 框架在 12 個(gè)實(shí)際 UI 任務(wù)執(zhí)行過程中的具體表現(xiàn)。作者觀察到所提出的可行性預(yù)測(cè)器和完成度檢驗(yàn)器能夠避免執(zhí)行不可理 / 不可行的指令，并能通過讓 LLM 進(jìn)行 replanning 的方式進(jìn)行及時(shí)補(bǔ)救，從而提升任務(wù)自動(dòng)化的成功率。

真實(shí)世界中實(shí)例研究定量結(jié)果。表格中的數(shù)字表示「有效執(zhí)行步數(shù) / 總共執(zhí)行步數(shù) （人類專家執(zhí)行步數(shù)）」。
此外，作者還通過具體的案例分析直觀地展現(xiàn)了 ResponsibleTA 框架中的關(guān)鍵模型如何對(duì)一個(gè)失敗案例進(jìn)行補(bǔ)救，使其成為一個(gè)成功案例。

案例分析：進(jìn)入亞馬遜網(wǎng)站并將最便宜的充電器添加至購(gòu)物車。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

ResponsibleTA提升LLM可靠性，任務(wù)完成更安全、更高效

相關(guān)推薦

技術(shù)專區(qū)

博客專欄

ResponsibleTA提升LLM可靠性，任務(wù)完成更安全、更高效

相關(guān)推薦

技術(shù)專區(qū)

ResponsibleTA提升LLM可靠性，任務(wù)完成更安全、更高效