WAIC 2023 | 微軟Office產(chǎn)品團(tuán)隊(duì)技術(shù)負(fù)責(zé)人蔡瑋鑫：Copilot中大語(yǔ)言模型應(yīng)用實(shí)踐經(jīng)驗(yàn)

發(fā)布人：機(jī)器之心時(shí)間：2023-07-19 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

以下為演講的詳細(xì)內(nèi)容，機(jī)器之心進(jìn)行了不改變?cè)獾木庉?、整理?/span>

大家好，我是蔡瑋鑫，微軟 Office Product Group 的技術(shù)負(fù)責(zé)人。今天我要談的話題是將大語(yǔ)言模型投入大規(guī)模應(yīng)用生產(chǎn)要面臨的挑戰(zhàn)和機(jī)遇，并將分享我們團(tuán)隊(duì)搭建微軟 Office 中第一波大語(yǔ)言模型應(yīng)用的關(guān)鍵經(jīng)驗(yàn)。
我今天的演講分為兩部分：第一部分是對(duì)新興大語(yǔ)言模型應(yīng)用的評(píng)估，第二部分為構(gòu)建交互式文本生成的一些成功案例。

評(píng)估新型大語(yǔ)言模型的應(yīng)用
我從事自然語(yǔ)言處理模型的生產(chǎn)工作已經(jīng) 9 年了，還是首位啟動(dòng) M365 Copilot 功能背后核心技術(shù)的應(yīng)用科學(xué)家。
對(duì)于不熟悉 M365 Copilot 的人來(lái)說(shuō)，Copilot 只需要簡(jiǎn)短的提示，就可以和用戶一起進(jìn)行寫作、編輯、總結(jié)和創(chuàng)作。
Word 文檔中的 Copilot 將為你創(chuàng)建一個(gè)初稿，根據(jù)需要從整個(gè)結(jié)構(gòu)中引入信息。Copilot 可以將內(nèi)容添加到現(xiàn)有文件中，總結(jié)文本、重寫部分或整個(gè)文件，使其更加簡(jiǎn)潔。你甚至可以得到 Copilot 建議的語(yǔ)氣，如專業(yè)、熱情、隨意、感謝等，從而幫助你寫出合適的內(nèi)容。我們旨在通過(guò) M365 Copilot 將大語(yǔ)言模型的力量賦能給全球數(shù)以百萬(wàn)計(jì)的用戶，使他們成為最優(yōu)秀的作家。

傳統(tǒng)指標(biāo)帶來(lái)的評(píng)估局限
在我們開發(fā)這兩種新應(yīng)用時(shí)，指標(biāo)成為模型評(píng)估的瓶頸。傳統(tǒng)指標(biāo)（如 BLEU、ROUGE、BERTScore）的問(wèn)題在于它們與客戶滿意度及模型效用只有較弱的相關(guān)性，這是因?yàn)橐淮涡?(one-shot) 文本生成很難，長(zhǎng)文本生成就更難了。對(duì)于傳統(tǒng)自然語(yǔ)言生成指標(biāo)來(lái)說(shuō)，識(shí)別和分辨幻覺問(wèn)題、自洽性、符合主題或離題以及邏輯的正確性（如否定）尤其具有挑戰(zhàn)性。
這里以一個(gè)關(guān)于 Geoffrey Hinton 的段落為例：紅色是幻覺問(wèn)題，紫色是離題內(nèi)容。

新方案增強(qiáng)客戶滿意度相關(guān)性
為了使模型與客戶滿意度有更強(qiáng)的相關(guān)性，我們提出了以下在創(chuàng)意寫作方面的質(zhì)量衡量指標(biāo)：連貫性、顯著性、新穎性、幻覺、風(fēng)格 / 語(yǔ)氣適配性、流暢度、令人不安或具有攻擊性或有害的內(nèi)容、有偏見的內(nèi)容以及總體評(píng)價(jià)（接受或拒絕）。

具體來(lái)說(shuō)：

連貫性指標(biāo)衡量的是輸出句子在多大程度上是有邏輯的，并且有清晰的過(guò)渡詞來(lái)連接?？陬^語(yǔ)、隱喻和暗喻元素的使用應(yīng)該是一致和正確的。
顯著性指標(biāo)需要衡量輸出內(nèi)容是否遵循用戶的 prompt 指令。
新穎性指標(biāo)很重要，因?yàn)橐子趩l(fā)用戶的創(chuàng)造性內(nèi)容可以幫助他們克服「寫作障礙」。
幻覺問(wèn)題是可以被減輕且應(yīng)該被衡量。這是因?yàn)椴还苁欠忾]世界還是開放世界，幻覺問(wèn)題都不應(yīng)該存在，應(yīng)當(dāng)展示給用戶最直接的一面。
風(fēng)格 / 語(yǔ)氣應(yīng)該匹配用戶個(gè)性和現(xiàn)有語(yǔ)境。
流暢度指標(biāo)衡量的是輸出內(nèi)容在語(yǔ)法上是否足夠準(zhǔn)確，要求文本不包含重復(fù)的信息，包括詞匯和上下文。
衡量負(fù)責(zé)任 AI 的指標(biāo)應(yīng)確保 AI 不含攻擊性、褻瀆性的語(yǔ)言，沒(méi)有種族、性別、宗教、職業(yè)或政治方面的刻板印象。AI 不應(yīng)該有對(duì)某一群體或意識(shí)形態(tài)的歧視，不應(yīng)該涉及仇恨的言論、暴力、性裸露、自殺念頭或敏感話題。有偏見內(nèi)容指標(biāo)確保我們不應(yīng)該在輸出中包含性別、種族、政治、宗教或其他方面的偏見，即使有些內(nèi)容已經(jīng)被大模型的預(yù)訓(xùn)練記住了。
此外，指標(biāo)中還有輸出質(zhì)量的整體喜歡程度。

在確定了所有這些指標(biāo)后，我們采取了人工和機(jī)器評(píng)估相結(jié)合的方式，因?yàn)楹芏喾矫娌荒軆H僅通過(guò)模型來(lái)衡量。在這里，我們也取得了一些使用大語(yǔ)言模型作為評(píng)估指標(biāo)的初步成功。特別是在模型迭代的早期，我們開發(fā)了基于思維鏈和自洽性的大語(yǔ)言模型指標(biāo)，實(shí)現(xiàn)了對(duì)有參考和無(wú)參考的任務(wù)進(jìn)行自動(dòng)評(píng)估。這里是對(duì)該領(lǐng)域相關(guān)研究的一些引用源。 構(gòu)建交互式文本生成
演講的第二部分是微軟最近將互動(dòng)性帶入文檔生成應(yīng)用程序的成果，是與微軟雷德蒙研究院的 Michelle Galley、麻省理工學(xué)院的 Felix 和華盛頓大學(xué)的 Zeqiu 合作研究的成果。
在 M365 Copilot V1 的開發(fā)初期，我們就有一個(gè)想法，即讓用戶參與到文檔寫作的不同階段。我們也通過(guò)客戶的反饋了解到，大多數(shù)受用戶喜愛的功能都提供了可定制的輸出給用戶。然而其中一些功能顯然是非常困難的，例如沒(méi)有提供任何細(xì)節(jié)的情況下卻要求 AI 寫一份年度報(bào)告。因此，我們希望從用戶那里得到一些提示去獲得正確的方向。舉例而言，通過(guò)「user-in-the-loop」的解決方案，我們可以將一個(gè)文本生成任務(wù)進(jìn)行有效拆解，比如把寫一份年度報(bào)告的任務(wù)拆解成自然寫作過(guò)程中的固有步驟。一氣呵成地運(yùn)用所給的提示完成任務(wù)會(huì)生成無(wú)數(shù)看似合理的答案，而使用大綱一步一步地做就簡(jiǎn)單多了。這減少了用戶由于不斷點(diǎn)擊「重試」而產(chǎn)生的挫折感，就像目前 OpenAI 的用戶界面那樣。另外一大好處是減少了用戶的認(rèn)知負(fù)荷，因?yàn)樽層脩艨粗匦律傻娜唛L(zhǎng)文本會(huì)讓人很頭疼。

「user-in-the-loop」的解決方案
GPT-X 并不是解決方案
現(xiàn)在，通過(guò)對(duì)話來(lái)創(chuàng)作一個(gè)文本可能看起來(lái)很難，但增加交互性將會(huì)使得任務(wù)更容易實(shí)施。正如之前在演講中所看到的，一次性文本生成具有幻覺問(wèn)題、自洽性問(wèn)題和離題傾向，這是非常大的一個(gè)挑戰(zhàn)。
如果不選擇等待 GPT-5、6、7 來(lái)解決這個(gè)問(wèn)題，我們應(yīng)該如何創(chuàng)造一個(gè)穩(wěn)健性好的應(yīng)用程序呢？
我們相信：從信息論的角度來(lái)看，輸入是稀疏的，輸出是詳細(xì)的。這說(shuō)明了 GPT-X 本身并不是解決方案。因?yàn)樵S多困難的內(nèi)容生成任務(wù)，實(shí)際上是輸出是有無(wú)數(shù)種組合的可能性的，例如依靠一個(gè)簡(jiǎn)短的 prompt 來(lái)創(chuàng)作整段文本。

因此，我們的解決方案是利用一個(gè)用于內(nèi)容創(chuàng)作的任務(wù)導(dǎo)向型對(duì)話系統(tǒng)。
逐步解決交互體驗(yàn)難題
我們發(fā)表了三篇論文，分別解決了交互體驗(yàn)的三個(gè)關(guān)鍵問(wèn)題：基于命令的編輯模型、模擬用戶編輯命令和文本草稿的自動(dòng)生成。

我們的第一篇論文《Text Editing by Command》，展示了草稿和完善模型。
我們使用一個(gè)歷史上的 Wiki 詞條作為最終版本的草稿，提取所有的中間修改歷史和命令。從這些日志中，我們扣除了編輯命令，這就形成了一個(gè)修訂和其匹配命令的軌跡。在實(shí)際運(yùn)用中，我們進(jìn)一步將其擴(kuò)展到更大的數(shù)據(jù)集，并納入了長(zhǎng)文本生成和全局編輯命令。

該任務(wù)定義如下：從 Bing 那里獲得草稿、命令和檢索事實(shí)，以生成一個(gè)更新版草稿的輸出。

我們的數(shù)據(jù)結(jié)果顯示：該方法非常有效。在我們發(fā)布成果之前，從來(lái)沒(méi)有這樣的系統(tǒng)，所以這是一項(xiàng)新的任務(wù)。我們的評(píng)估研究表明，為了獲得最佳的文本質(zhì)量，需要結(jié)合所有的輸入，包括事實(shí)、命令和草稿文本。

在第二篇名為《Interactive Document Generation》的論文中，我們使用模仿學(xué)習(xí)來(lái)訓(xùn)練一個(gè)用戶模擬器，該模擬器提供編輯命令來(lái)引導(dǎo)模型輸出一個(gè)給定的目標(biāo)文本。這使我們能夠訓(xùn)練生成模型，而不需要產(chǎn)生牽及真實(shí)用戶的成本。在生產(chǎn)環(huán)境中，收集真實(shí)用戶的反饋可能成本過(guò)高。用戶在生產(chǎn)環(huán)境中是發(fā)出修改命令的 Oracle。

在這項(xiàng)工作中，我們?cè)O(shè)計(jì)了一個(gè)可以訪問(wèn)目標(biāo)文本且可以為離線迭代文檔生成系統(tǒng)合成命令的機(jī)器 Oracle。我們把這個(gè)任務(wù)制定為模仿學(xué)習(xí)，從構(gòu)思一個(gè)目標(biāo)文件開始，目標(biāo)是構(gòu)建一個(gè)對(duì)話軌跡，其中的動(dòng)作空間是所有的文件編輯點(diǎn)，狀態(tài)空間編碼了當(dāng)前的草稿和用戶編輯的特殊類型詞。我們使用標(biāo)準(zhǔn)的模仿學(xué)習(xí)方法策略來(lái)訓(xùn)練智能體的策略。

實(shí)驗(yàn)發(fā)現(xiàn)，在給定相同的用戶輸入或編輯預(yù)算的情況下，交互式訓(xùn)練模型優(yōu)于非交互式訓(xùn)練模型。我們將其量化為給定相同的 M 個(gè)用戶輸入詞，這樣就直接評(píng)估了模型的生產(chǎn)效用。用戶根據(jù)他們投入的努力程度和得到的輸出質(zhì)量的差異來(lái)判斷這一模型的效用。
我們所做的是非交互式的一氣呵成和其交互式版本之間的比較。一氣呵成的版本在前期接受了 M 個(gè)信息量最大的輸入詞，而交互式版本在延遲結(jié)束的幾輪中收到了這 M 個(gè)詞。數(shù)據(jù)結(jié)果表示，我們的交互式方法比非交互式方法有明顯的改進(jìn)。

在第三篇論文中，我們提出了一項(xiàng)新的任務(wù)，將重復(fù)性的文本草擬工作自動(dòng)化，例如寫年報(bào)、寫周報(bào)、應(yīng)用模板等事情。這項(xiàng)工作的動(dòng)機(jī)很簡(jiǎn)單，在現(xiàn)實(shí)生活中，內(nèi)容創(chuàng)作任務(wù)有時(shí)不斷重復(fù)，會(huì)讓人很傷腦筋，這包括很多模板化的解決方案。而我們的目標(biāo)是設(shè)計(jì)能夠融合相關(guān)來(lái)源的內(nèi)容的模型。

總結(jié)后半部分的演講，交互式文本生成獲取了人類和機(jī)器智能各自的優(yōu)勢(shì)：人類擅長(zhǎng)檢測(cè)語(yǔ)言中的微妙細(xì)節(jié)，并對(duì)重要信息進(jìn)行事實(shí)核查；機(jī)器擅長(zhǎng)自動(dòng)化，在激發(fā)用戶方面具有創(chuàng)造性。

Human-in-the-loop 是未來(lái)高風(fēng)險(xiǎn)應(yīng)用的關(guān)鍵，例如醫(yī)療和法律領(lǐng)域的相關(guān)應(yīng)用。一個(gè)例子是：醫(yī)生在為病人進(jìn)行了一天漫長(zhǎng)的面診之后，在晚上還需要寫大量的病歷，這可能會(huì)導(dǎo)致醫(yī)務(wù)人員的職業(yè)倦怠。交互式文本生成將有助于減少因創(chuàng)建和更新醫(yī)療記錄而產(chǎn)生的負(fù)擔(dān)，并且仍能保證文本輸出的高精確度。 總結(jié)
大語(yǔ)言模型應(yīng)用的快速迭代需要大量的自動(dòng)化和定性指標(biāo)的投入。交互式文本生成通過(guò)將寫作過(guò)程模式化為對(duì)話的方式，讓用戶控制文本生成結(jié)果。通過(guò)讓用戶參與到模型的文本生成過(guò)程中，模型的準(zhǔn)確性、實(shí)用性和安全性都會(huì)有所提高，這是將 LLM 應(yīng)用引入到未來(lái)高風(fēng)險(xiǎn)領(lǐng)域的關(guān)鍵。
非常感謝您的傾聽，如果您有任何后續(xù)問(wèn)題，請(qǐng)不要猶豫，給我發(fā)電子郵件，謝謝。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

WAIC 2023 | 微軟Office產(chǎn)品團(tuán)隊(duì)技術(shù)負(fù)責(zé)人蔡瑋鑫：Copilot中大語(yǔ)言模型應(yīng)用實(shí)踐經(jīng)驗(yàn)

相關(guān)推薦

技術(shù)專區(qū)