港中文團隊提出大模型元推理范式,助力判斷大模型的真實能力,革新大模型的評價體系
曾忠燊,是一名潮汕人。其本科和碩士分別畢業(yè)于美國伊利諾伊大學和美國佐治亞理工學院。在本科畢業(yè)和碩士畢業(yè)之后,他曾先后在 IBM-Research 和深圳 IDEA 研究院工作過一段時間。
在 ChatGPT 面世以后,他意識到針對大模型的研究范式存在一定的不足,于是決定來到香港中文大學讀博。
圖 | 曾忠燊(來源:曾忠燊)
前不久,曾忠燊和所在團隊提出一個全新評測范式。基于這一評測范式,他們又針對現(xiàn)有數(shù)據(jù)集,提出了一種改造方法。
實驗證明,這種方法能有效區(qū)分不同模型的能力差異。同時,他們還揭示了這種全新評測范式對于當前數(shù)據(jù)污染的魯棒性。
此前,由于訓(xùn)練數(shù)據(jù)的不透明,人們無法得知大模型在一些榜單上的成績提升,是否是數(shù)據(jù)污染和題目泄露所帶來的。
而本次提出的全新評測范式,對于“背題”式的成績提高有著極強的抵御能力。憑借這種抵御能力,就能對絕大部分的數(shù)據(jù)集進行“舊改”。
同時,這種全新的評測方式不僅可以揭示大模型的能力差異,也能給下游應(yīng)用帶來一定啟示。
日前,相關(guān)論文以《大型語言模型評價中的元推理革命》(MR-GSM8K: A Meta-Reasoning Revolution in Large Language Model Evaluation)為題發(fā)在 arXiv,曾忠燊是第一作者,香港中文大學教授賈佳亞擔任通訊作者 [1]。
圖 | 相關(guān)論文(來源:arXiv)
大模型也在依靠“題海戰(zhàn)術(shù)”?
“背題”“題海戰(zhàn)術(shù)”,是許多人在讀書時代都曾使用過的學習方式。然而,你可知道大模型其實也在使用這兩種學習方式?此外,當前大模型的能力邊界到底在哪里?
從推理和認知這兩個能力維度出發(fā),當一篇論文稱大模型在一個評測指標上取得超出人類水平的結(jié)果時,我們是否應(yīng)該感到恐慌?
還是仔細審視在制定指標時是否忽略了什么因素,以至于大模型的認知能力被夸大了?
事實上,對于指標的設(shè)計意義思考不足,起碼會帶來以下幾個潛在危害:
其一,評測結(jié)果能否真實反映大模型的能力?如果對此認識不足,往往會過分夸大模型的效果。
其二,會讓人以為指標的提升,等價于大模型能力的提升、以及等價于真實場景的效果和實用性提升,導(dǎo)致盲目追逐和攀比榜單效果,陷入惡性循環(huán)。
其三,過分關(guān)注和比較在細分場景上的表現(xiàn),忽視了大模型整體認知能力的提升。
當前,面向大模型推理能力和認知能力的評測集,主要依賴一些標準化考試的試題、或一些精心設(shè)計的規(guī)則類游戲。
這些評測集的設(shè)計初衷,很大程度上是設(shè)計者認為求解這類推理類任務(wù)所需要的模式識別、記憶召回、分析假設(shè)、歸納演繹等能力,是一種處理所有任務(wù)都需要的“元”能力,并認為這類能力對于大模型在現(xiàn)實場景中的泛化和魯棒是至關(guān)重要的。
但是,具體到設(shè)計這些任務(wù)的評測方式時,這些評測集往往僅僅依賴于對最終計算結(jié)果的簡單匹配,而忽略了對于計算過程的認知檢測。
由此可見,這種目標和實現(xiàn)方式的背離,在很大程度上加劇了大模型評測領(lǐng)域的種種亂象。
舉個例子,在圖像識別里有一個著名的“走捷徑”案例,它指的是在對狼和雪狼進行分類時,大模型學習到的規(guī)律是識別背景是否存在積雪,而不是識別兩種動物的生理特征區(qū)別。
而在認知推理類的數(shù)據(jù)集上也存在著類似現(xiàn)象。面對一道數(shù)學題,假如要求大模型給出分步推理的“思維鏈”時,大模型往往會混淆不同單位的量,比如將時速和公里數(shù)相乘相加,這說明對于不同概念背后的物理意義,大模型存在認識不足的問題。
那么,如何更好地檢測大模型對于概念的認知水平、以及檢測它的應(yīng)用泛化能力?
以下圖為例,對于一個復(fù)雜的推理問題來說,假如從起點到終點有多種解答方式,而其中每一步的推理都能被看成是一個節(jié)點,節(jié)點和節(jié)點之間組成了路徑。
而在當前的大模型訓(xùn)練范式中,往往只讓大模型看到少數(shù)幾條正確的解題路徑(青色或藍色),而忽視了錯誤的路徑(橙色)。
同樣地,在評測大模型的表現(xiàn)時,人們只關(guān)注最終的推理路徑終點是否和標準答案一致,而忽視了推理過程中可能存在的錯誤推理節(jié)點或錯誤路徑。
(來源:arXiv)
舉例來說:
在教育領(lǐng)域,如果 GPT4 在小學級別的數(shù)學題目上的評測準確率只有四成,那么我們難免會對 GPT4 的實用性產(chǎn)生懷疑。
在咨詢領(lǐng)域,大模型的應(yīng)用場景高度依賴于對不同方案的推演、整體步驟的拆分、解析等能力。
而當今大模型在這些方面的能力缺失,難免讓人對其下游應(yīng)用的可靠性打上了問號。
讓大模型“從學生變?yōu)槔蠋煛?/span>
基于此,曾忠燊和所在團隊開展了本次研究。事實上,本次研究的靈感來源于一次比賽,此前曾忠燊參加了“粵港澳大灣區(qū)(黃埔)國際算法算例大賽”的分賽道“大語言模型綜合能力強化”。
當時,他調(diào)研了一些關(guān)于大模型推理方向能力增強的論文,這些論文主要分為以下方向:第一個方向是同源數(shù)據(jù)增廣,第二個方向是使用反饋模型針對數(shù)據(jù)篩選、或針對大模型進行強化學習訓(xùn)練。
在他嘗試使用時,卻發(fā)現(xiàn)這兩個方法均存在很大問題:
第一,當使用 ChatGPT 進行數(shù)據(jù)增廣時,ChatGPT 并不能真正地理解人們希望其生成的一些概念,在應(yīng)用這些概念造題和解題時常常會出現(xiàn)各種錯誤,因此往往需要非常精細的程序設(shè)計和引導(dǎo)來提升準確率。
第二,仔細研究反饋模型的作用后,曾忠燊認為要求一個反饋模型對推理數(shù)據(jù)進行篩選時,實質(zhì)上等價于要求其進行“元推理”。
這一難度甚至高于直接解題,原因在于為了提升解題效果引入更難的評判解題任務(wù),似乎會把一個問題轉(zhuǎn)為另一個更難的問題。
意識到這一問題之后,他和所在團隊研發(fā)了元推理范式,并將其用于一些常見數(shù)據(jù)集之上。
結(jié)果發(fā)現(xiàn)無論是開源大模型還是閉源大模型,它們的表現(xiàn)都開始出現(xiàn)急劇下降,尤其是開源的垂類推理大模型甚至降到了不足百分之一的準確率。
因此,他和同事呼吁將大模型認知推理的檢測重點,從最終的計算結(jié)果匹配,轉(zhuǎn)移到對于計算過程的檢測。
具體做法是:先從解題空間里采樣一些給定的推理路徑,然后讓大模型進行評判。評判的內(nèi)容包括:推理路徑是否正確?錯誤節(jié)點和錯誤步驟在哪里?錯誤原因是什么?
這種評測范式的轉(zhuǎn)變,意味著對于整個解題空間,大模型都必須具備全局和宏觀的理解,做到知其然也要知其所以然。
詳細來說,大模型需要做到如下幾方面:
其一,需要知道推理的最終結(jié)果和節(jié)點是什么;
其二,需要對每一步推理節(jié)點的條件和前提進行審視性評判,并對節(jié)點和節(jié)點間的邏輯連接進行思考,以便判斷當前步驟是否出錯;
其三,需要能夠代入不同假設(shè),或反事實地(counterfactually)針對未來的推理路徑進行預(yù)演和分析,從而判斷這一答案是否在正確的推理路徑上。
這些需求將迫使大模型從一個答題者的角度,上升到一個教師的高度進行全局審視和全局推理。對于這種“對推理過程的推理”,該團隊將其稱之為“元推理”評測范式。
(來源:arXiv)
如上圖所示,當他們把元推理范式應(yīng)用到一個流行的數(shù)學評測集 GSM8k 上時,GPT4 的表現(xiàn)驟降一半以上,而 GPT3.5 的準確率則由 80% 以上驟降到個位數(shù)。
這說明在同一個數(shù)據(jù)集上經(jīng)過簡單的元推理范式轉(zhuǎn)換后,模型能力會出現(xiàn)巨大差別。值得注意的是在范式轉(zhuǎn)換之后,大模型的能力差異出現(xiàn)了更大的分化。
同樣在 GSM8K 上取得領(lǐng)先效果的開源模型比如 Mammoth、WizardMath、MetaMath 等模型,它們的訓(xùn)練方法是這樣的:針對該數(shù)據(jù)集的數(shù)據(jù)進行大量的同源增廣,以讓效果接近 GPT3.5。
遺憾的是,當課題組對其進行范式轉(zhuǎn)換之后,開源的數(shù)學大模型效果,由原本的接近 GPT3.5、變成遠遜于 GPT3.5。
這可能也表明當前流行的簡單數(shù)據(jù)增強的方法,更接近于“背題”或“題海戰(zhàn)術(shù)”,并不能真正地提升大模型的實際能力。
而作為一種通用評測范式,曾忠燊等人提出的元推理范式,能被推廣到更多評測場景。
此外,本次研究中的標注難度遠遠超出預(yù)期。研究期間,他們針對小初級別的數(shù)學數(shù)據(jù)集 GSM8K,進行了元推理范式的改造。
這一改造方式要求標注人員針對數(shù)據(jù)集進行類似的元推理,并將元推理結(jié)果記錄成評測集。
雖然僅僅是小初級別的題目,但他們發(fā)現(xiàn)從讀題、讀標準答案、再到讀采樣出的待評測答案,必須針對每一步進行細致的分析和推理。
而由于耗時較久,單位標注價格也就更高;同時因為難度高,對于標注人員的資質(zhì)要求也高。
曾忠燊說:“我在看到報價的時候,突然想起 OpenAI 有一個論文是對數(shù)學奧林匹克競賽的題目和解題過程進行標注,以進行強化學習的訓(xùn)練。OpenAI 標注的性質(zhì)和內(nèi)容,和我們存在部分相似的地方?!?/span>
在 OpenAI 那份名為 PRM800K 的數(shù)據(jù)集里,包含了 80 萬道標注題目。保守估計一道題的標注成本是 10 美元,那么 OpenAI 數(shù)據(jù)集的價格是 800 萬美元。而 OpenAI 那篇論文并沒有催生特別直接的落地成果,也沒有帶來實用效果上的巨大提升。
“在真正了解標注的昂貴和難處后,不禁感慨 OpenAI 的財大氣粗和對失敗的容忍?!痹覠稣f。
另據(jù)悉,OpenAI 的創(chuàng)始人之一伊利亞·蘇茨凱弗(Ilya Sutskever)在一次采訪時被問到:“如果通用人工智能實現(xiàn)后他會選擇做什么?”伊利亞回答說:“或許我會主動融入 AI(be part of AI)?!?/span>
閱讀到上述采訪報道時,當時曾忠燊并未明白什么叫融入 AI。可隨著本次工作的不斷推進,他隱約覺得 AI 要在認知上和人類貼合,可能很大程度上要依賴于人類不斷提供豐富的反饋信號。
“這或許也是一種融入 AI 的方式吧?一種類似于干將莫邪以身殉劍的神話浪漫感。”曾忠燊說。
而在未來,他和所在團隊致力于打造一個更全面、更多元的評測體系。目前,他們已經(jīng)聯(lián)系多家國內(nèi)頭部的標注公司,目標場景包括學科類、邏輯類、具身類和應(yīng)用類等四個方向的元推理場景構(gòu)筑。
參考資料:1.https://arxiv.org/abs/2312.17080排版:羅以
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。