AI自動生成prompt媲美人類，網(wǎng)友：工程師剛被聘用，又要淘汰了

發(fā)布人：機(jī)器之心時間：2022-11-19 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

來自多倫多大學(xué)、滑鐵盧大學(xué)等機(jī)構(gòu)的研究者受 prompt engineering 的啟發(fā)，提出一種使用大型語言模型自動生成和選擇指令的新算法，在 24 項任務(wù)中有 19 項達(dá)到了人類水平的表現(xiàn)。

現(xiàn)階段，得益于模型規(guī)模的擴(kuò)大和基于注意力架構(gòu)的出現(xiàn)，語言模型表現(xiàn)出了前所未有的通用性。這些大型語言模型（LLM，large language models）在各種不同任務(wù)中表現(xiàn)出非凡的能力，其中包括零樣本和小樣本設(shè)置。

然而，在模型通用性的基礎(chǔ)上，繼而引出一個控制問題：我們?nèi)绾尾拍茏?LLM 按照我們的要求去做？

為了回答這個問題并引導(dǎo) LLM 朝著我們期望的行為方向發(fā)展，研究者們采取了一系列措施來達(dá)到這個目的，例如對模型進(jìn)行微調(diào)、通過上下文進(jìn)行學(xué)習(xí)、不同形式的 prompt 生成等。而基于 prompt 的方法又包括可微調(diào)的 soft prompt 以及自然語言 prompt engineering（提示工程）。眾多研究者對后者表現(xiàn)出了極大的興趣，因為它為人類與機(jī)器交互提供了一個自然交互的界面。

然而簡單的 prompt 并不總能產(chǎn)生所需的結(jié)果，例如，在生成熊貓圖像時，添加諸如「cute」之類的形容詞或諸如「eat bamboo」之類的短語對輸出有何影響，我們不了解。

因此，人類用戶必須嘗試各種 prompt 來引導(dǎo)模型完成我們期望的行為。LLM 這一執(zhí)行過程可視為黑盒過程：雖然它們可以執(zhí)行大范圍的自然語言程序，但這些程序的處理方式對人類來說可能并不直觀，非常難以理解，而且只有在執(zhí)行下游任務(wù)時才能衡量指令的質(zhì)量。

我們不禁會問：大型語言模型可以為自己編寫 prompt 嗎？答案是，不但可以，還能達(dá)到人類水平。

為了減少創(chuàng)建和驗證有效指令的人工工作量，來自多倫多大學(xué)、滑鐵盧大學(xué)等機(jī)構(gòu)的研究者提出了一種使用 LLM 自動生成和選擇指令的新算法：APE（Automatic Prompt Engineer）。他們將此問題描述為自然語言程序合成，并建議將其作為黑盒優(yōu)化問題來處理，LLM 可以用來生成以及搜索可行的候選解決方案。

論文地址：https://arxiv.org/pdf/2211.01910.pdf
論文主頁：https://sites.google.com/view/automatic-prompt-engineer

研究者從 LLM 的三個特性入手。首先，使用 LLM 作為推理模型，根據(jù)輸入 - 輸出對形式的一小組演示生成指令候選。接下來，通過 LLM 下的每條指令計算一個分?jǐn)?shù)來指導(dǎo)搜索過程。最后，他們提出一種迭代蒙特卡洛搜索方法，LLM 通過提出語義相似指令變體來改進(jìn)最佳候選指令。

直觀地說，本文提出的算法要求 LLM 根據(jù)演示生成一組指令候選，然后要求算法評估哪些指令更有希望，并將該算法命名為 APE。

本文貢獻(xiàn)如下：

研究者將指令生成作為自然語言程序合成，將其表述為一個由 LLM 引導(dǎo)的黑盒優(yōu)化問題，并提出迭代蒙特卡羅搜索方法來近似求解；
APE 方法在 19/24 任務(wù)中實現(xiàn)了比人工注釋器生成的指令更好或相當(dāng)?shù)男阅堋?/span>

看到這項研究，網(wǎng)友不禁感嘆：那些剛被聘用的 prompt 工程師，幾個月后可能要被 AI 淘汰。言外之意就是，這項研究要搶了人類 prompt 工程師的活。

「該研究盡最大的努力使 prompt engineering 自動化，這樣從事 ML 的研究人員就可以回到真正的算法問題上了（附加兩個大哭的表情）?！?/span>

還有人感嘆：LLM 不愧是原始 AGI 的中流砥柱。

使用 LLM 進(jìn)行自然語言程序合成

APE 在建議（proposal）和評分這兩個關(guān)鍵組件中都使用 LLM。

如下圖 2 和算法 1 所示，APE 首先提出幾個候選 prompt，然后根據(jù)選定的評分函數(shù)對候選集合進(jìn)行篩選 / 精煉，最終選擇得分最高的指令。

下圖為 APE 的執(zhí)行過程。它可以通過直接推理或基于語義相似度的遞歸過程生成幾個候選 prompt，評估其性能，并迭代地提出新的 prompt。

初始提議分布

由于搜索空間無限大，找到正確指令是極其困難的，這使得自然語言程序合成歷來難以處理?；诖耍芯空呖紤]利用一個預(yù)先訓(xùn)練過的 LLM 來提出一個候選解決方案，以指導(dǎo)搜索過程。

他們考慮兩種方法生成高質(zhì)量候選。首先采用一種基于前向模式生成的方法。此外，他們還考慮了反向模式生成，使用具有填充功能的 LLM（如 T5、GLM、InsertGPT）來推斷缺失的指令。

得分函數(shù)

為了將問題轉(zhuǎn)換為黑盒優(yōu)化問題，研究者選擇了一個得分函數(shù)來準(zhǔn)確測量數(shù)據(jù)集和模型生成的數(shù)據(jù)之間的對齊情況。

在歸納實驗中，研究者考慮了兩個潛在的得分函數(shù)。在 TruthfulQA 實驗中，研究者主要關(guān)注 Lin 等人提出的自動化指標(biāo)，類似于執(zhí)行精度。

在每一種情況下，研究者使用如下公式 (1) 來評估生成指令的質(zhì)量，并對持有測試數(shù)據(jù)集 Dtest 進(jìn)行期望。

實驗

研究者對 APE 如何引導(dǎo) LLM 實現(xiàn)預(yù)期的行為進(jìn)行了研究。他們從三個角度進(jìn)行：零樣本性能、少樣本上下文學(xué)習(xí)性能和真實性（truthfulness）。

研究者評估了 Honovich 等人提出的 24 個指令歸納任務(wù)的零樣本和少樣本上下文學(xué)習(xí)。這些任務(wù)涵蓋語言理解的許多方面，從簡單的短語結(jié)構(gòu)到相似性和因果關(guān)系識別。為了了解 APE 生成的指令如何引導(dǎo) LLM 生成不同風(fēng)格的答案，本文將 APE 應(yīng)用于 TruthfulQA（一個數(shù)據(jù)集）。

對于零樣本測試準(zhǔn)確率，APE 在 24 項任務(wù)中有 19 項達(dá)到了人類水平的表現(xiàn)。

對于少樣本上下文測試準(zhǔn)確率，在 24 個任務(wù)中，APE 提高了 21 個任務(wù)的少樣本上下文學(xué)習(xí)性能。

研究者還將 APE prompt 與 Lin 等人提出的人工 prompt 進(jìn)行了對比。圖 (a) 顯示 APE 指令在所有三個指標(biāo)上的表現(xiàn)都優(yōu)于人工 prompt。圖（b）顯示了 truthfulness 和 informativeness 之間的權(quán)衡。

更多細(xì)節(jié)請參閱原論文。

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點(diǎn)，如有侵權(quán)請聯(lián)系工作人員刪除。

博客專欄

AI自動生成prompt媲美人類，網(wǎng)友：工程師剛被聘用，又要淘汰了

相關(guān)推薦

技術(shù)專區(qū)

博客專欄

AI自動生成prompt媲美人類，網(wǎng)友：工程師剛被聘用，又要淘汰了

相關(guān)推薦

技術(shù)專區(qū)

AI自動生成prompt媲美人類，網(wǎng)友：工程師剛被聘用，又要淘汰了