博客專欄

EEPW首頁 > 博客 > AI自動生成prompt媲美人類,網(wǎng)友:工程師剛被聘用,又要淘汰了

AI自動生成prompt媲美人類,網(wǎng)友:工程師剛被聘用,又要淘汰了

發(fā)布人:機(jī)器之心 時間:2022-11-19 來源:工程師 發(fā)布文章

來自多倫多大學(xué)、滑鐵盧大學(xué)等機(jī)構(gòu)的研究者受 prompt engineering 的啟發(fā),提出一種使用大型語言模型自動生成和選擇指令的新算法,在 24 項任務(wù)中有 19 項達(dá)到了人類水平的表現(xiàn)。


現(xiàn)階段,得益于模型規(guī)模的擴(kuò)大和基于注意力架構(gòu)的出現(xiàn),語言模型表現(xiàn)出了前所未有的通用性。這些大型語言模型(LLM,large language models)在各種不同任務(wù)中表現(xiàn)出非凡的能力,其中包括零樣本和小樣本設(shè)置。


然而,在模型通用性的基礎(chǔ)上,繼而引出一個控制問題:我們?nèi)绾尾拍茏?LLM 按照我們的要求去做?


為了回答這個問題并引導(dǎo) LLM 朝著我們期望的行為方向發(fā)展,研究者們采取了一系列措施來達(dá)到這個目的,例如對模型進(jìn)行微調(diào)、通過上下文進(jìn)行學(xué)習(xí)、不同形式的 prompt 生成等。而基于 prompt 的方法又包括可微調(diào)的 soft prompt 以及自然語言 prompt engineering(提示工程)。眾多研究者對后者表現(xiàn)出了極大的興趣,因為它為人類與機(jī)器交互提供了一個自然交互的界面。


然而簡單的 prompt 并不總能產(chǎn)生所需的結(jié)果,例如,在生成熊貓圖像時,添加諸如「cute」之類的形容詞或諸如「eat bamboo」之類的短語對輸出有何影響,我們不了解。


因此,人類用戶必須嘗試各種 prompt 來引導(dǎo)模型完成我們期望的行為。LLM 這一執(zhí)行過程可視為黑盒過程:雖然它們可以執(zhí)行大范圍的自然語言程序,但這些程序的處理方式對人類來說可能并不直觀,非常難以理解,而且只有在執(zhí)行下游任務(wù)時才能衡量指令的質(zhì)量。


我們不禁會問:大型語言模型可以為自己編寫 prompt 嗎?答案是,不但可以,還能達(dá)到人類水平。


為了減少創(chuàng)建和驗證有效指令的人工工作量,來自多倫多大學(xué)、滑鐵盧大學(xué)等機(jī)構(gòu)的研究者提出了一種使用 LLM 自動生成和選擇指令的新算法:APE(Automatic Prompt Engineer)。他們將此問題描述為自然語言程序合成,并建議將其作為黑盒優(yōu)化問題來處理,LLM 可以用來生成以及搜索可行的候選解決方案。


圖片


  • 論文地址:https://arxiv.org/pdf/2211.01910.pdf

  • 論文主頁:https://sites.google.com/view/automatic-prompt-engineer

研究者從 LLM 的三個特性入手。首先,使用 LLM 作為推理模型,根據(jù)輸入 - 輸出對形式的一小組演示生成指令候選。接下來,通過 LLM 下的每條指令計算一個分?jǐn)?shù)來指導(dǎo)搜索過程。最后,他們提出一種迭代蒙特卡洛搜索方法,LLM 通過提出語義相似指令變體來改進(jìn)最佳候選指令。


直觀地說,本文提出的算法要求 LLM 根據(jù)演示生成一組指令候選,然后要求算法評估哪些指令更有希望,并將該算法命名為 APE。 


本文貢獻(xiàn)如下:

  • 研究者將指令生成作為自然語言程序合成,將其表述為一個由 LLM 引導(dǎo)的黑盒優(yōu)化問題,并提出迭代蒙特卡羅搜索方法來近似求解;

  • APE 方法在 19/24 任務(wù)中實現(xiàn)了比人工注釋器生成的指令更好或相當(dāng)?shù)男阅堋?/span>


看到這項研究,網(wǎng)友不禁感嘆:那些剛被聘用的 prompt 工程師,幾個月后可能要被 AI 淘汰。言外之意就是,這項研究要搶了人類 prompt 工程師的活。


圖片


「該研究盡最大的努力使 prompt engineering 自動化,這樣從事 ML 的研究人員就可以回到真正的算法問題上了(附加兩個大哭的表情)?!?/span>


圖片


還有人感嘆:LLM 不愧是原始 AGI 的中流砥柱。


圖片


使用 LLM 進(jìn)行自然語言程序合成


APE 在建議(proposal)和評分這兩個關(guān)鍵組件中都使用 LLM。


如下圖 2 和算法 1 所示,APE 首先提出幾個候選 prompt,然后根據(jù)選定的評分函數(shù)對候選集合進(jìn)行篩選 / 精煉,最終選擇得分最高的指令。


圖片


圖片

下圖為 APE 的執(zhí)行過程。它可以通過直接推理或基于語義相似度的遞歸過程生成幾個候選 prompt,評估其性能,并迭代地提出新的 prompt。


圖片

初始提議分布


由于搜索空間無限大,找到正確指令是極其困難的,這使得自然語言程序合成歷來難以處理?;诖耍芯空呖紤]利用一個預(yù)先訓(xùn)練過的 LLM 來提出一個候選解決方案,以指導(dǎo)搜索過程。

他們考慮兩種方法生成高質(zhì)量候選。首先采用一種基于前向模式生成的方法。此外,他們還考慮了反向模式生成,使用具有填充功能的 LLM(如 T5、GLM、InsertGPT)來推斷缺失的指令。


圖片


得分函數(shù)


為了將問題轉(zhuǎn)換為黑盒優(yōu)化問題,研究者選擇了一個得分函數(shù)來準(zhǔn)確測量數(shù)據(jù)集和模型生成的數(shù)據(jù)之間的對齊情況。


在歸納實驗中,研究者考慮了兩個潛在的得分函數(shù)。在 TruthfulQA 實驗中,研究者主要關(guān)注 Lin 等人提出的自動化指標(biāo),類似于執(zhí)行精度。


在每一種情況下,研究者使用如下公式 (1) 來評估生成指令的質(zhì)量,并對持有測試數(shù)據(jù)集 Dtest 進(jìn)行期望。


圖片


實驗

研究者對 APE 如何引導(dǎo) LLM 實現(xiàn)預(yù)期的行為進(jìn)行了研究。他們從三個角度進(jìn)行:零樣本性能、少樣本上下文學(xué)習(xí)性能和真實性(truthfulness)。


研究者評估了 Honovich 等人提出的 24 個指令歸納任務(wù)的零樣本和少樣本上下文學(xué)習(xí)。這些任務(wù)涵蓋語言理解的許多方面,從簡單的短語結(jié)構(gòu)到相似性和因果關(guān)系識別。為了了解 APE 生成的指令如何引導(dǎo) LLM 生成不同風(fēng)格的答案,本文將 APE 應(yīng)用于 TruthfulQA(一個數(shù)據(jù)集)。


對于零樣本測試準(zhǔn)確率,APE 在 24 項任務(wù)中有 19 項達(dá)到了人類水平的表現(xiàn)。


圖片


對于少樣本上下文測試準(zhǔn)確率,在 24 個任務(wù)中,APE 提高了 21 個任務(wù)的少樣本上下文學(xué)習(xí)性能。


圖片


研究者還將 APE prompt 與 Lin 等人提出的人工 prompt 進(jìn)行了對比。圖 (a) 顯示 APE 指令在所有三個指標(biāo)上的表現(xiàn)都優(yōu)于人工 prompt。圖(b)顯示了 truthfulness 和 informativeness 之間的權(quán)衡。


圖片


更多細(xì)節(jié)請參閱原論文。

*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉