斯坦福團(tuán)隊(duì)是如何構(gòu)建更好用的聊天 AI 呢?
作者:Standford AI
譯者:Yang
來源:數(shù)據(jù)實(shí)戰(zhàn)派
2019 年,憑借著 Chirpy Cardinal 機(jī)器人,斯坦福首次在 Alexa Prize Socialbot Grand Challenge 3 中贏得了第二名。本文將進(jìn)一步揭示 Chirpy Cardinal 開發(fā)細(xì)節(jié),來還原斯坦福團(tuán)隊(duì)如何與人機(jī)交互過程中常見的疑難雜癥過招,并探索相應(yīng)的解決方案。Alexa Prize 是一個獨(dú)特的研究環(huán)境,它允許研究人員按照自己的意愿來研究人機(jī)交互。在比賽期間,美國的 Alexa 用戶可以通過“讓我們來聊天吧”這句指令,來用英語與一個匿名且隨機(jī)的參賽機(jī)器人對話。在這個過程中,他們可以隨時結(jié)束對話。由于 Alexa Prize 社交機(jī)器人致力于創(chuàng)造盡可能自然的體驗(yàn),他們需要能應(yīng)對長時間的、開放領(lǐng)域的社交,盡可能地囊括更多的話題。我們發(fā)現(xiàn) Chirpy 用戶對許多不同的主題感興趣,從時事(比如新冠病毒)到熱點(diǎn)(比如《冰雪奇緣 2》)再到個人興趣(比如用戶個人的寵物)。Chirpy 通過使用結(jié)合了神經(jīng)生成和腳本對話的模塊化設(shè)計來實(shí)現(xiàn)對這些話題的覆蓋,正如我們此前的文章所述。我們使用此設(shè)置研究了有關(guān)社交機(jī)器人對話的三個問題:1、用戶們在吐槽些啥,我們?nèi)绾螐耐虏壑袑W(xué)習(xí)來改進(jìn)神經(jīng)生成的對話?2、哪些策略在處理和阻止冒犯性的用戶行為方面有效或者無效?3、我們該如何調(diào)整優(yōu)先權(quán),來讓用戶和機(jī)器人都能有意義地掌控對話?這篇文章將分享一些關(guān)鍵發(fā)現(xiàn),為聊天機(jī)器人的研發(fā)人員提供一些實(shí)用的見解。一、了解和預(yù)測用戶的不滿
神經(jīng)生成對話模型(如 DialoGPT、Meena 和 BlenderBot)通過使用大型預(yù)訓(xùn)練神經(jīng)語言模型,在給定歷史對話的情況下生成響應(yīng)。這些模型在工作人員精心設(shè)置的情況下(一般是具備某些特定主題或者長度有限制的書面對話)表現(xiàn)良好。然而,像 Alexa Prize 這樣的現(xiàn)實(shí)生活中的場景,往往無章可循。用戶們的期待值和個性差異都非常大,并且對話過程中往往充滿了噪音,在這樣的環(huán)境中,用戶們?nèi)匀粫髮υ挋C(jī)器人快速做出回應(yīng)。通過 Chirpy Cardinal,我們有了個獨(dú)特的機(jī)會來研究現(xiàn)代神經(jīng)生成對話模型如何在這種環(huán)境中保持穩(wěn)定。Chirpy Cardinal 使用在 EmpatheticDialogues 上微調(diào)的 GPT2-medium 模型,與用戶就他們的日常生活和情緒進(jìn)行簡短的討論。尤其是在疫情期間,我們發(fā)現(xiàn) Chirpy 向用戶們詢問這些話題十分重要。盡管有更大、更強(qiáng)的預(yù)訓(xùn)練模型可以用,但是由于預(yù)算和響應(yīng)速度的限制,我們還是使用了 GPT2-medium。雖然 GPT2-medium 模型能用幾句話來圍繞這些簡單的話題聊天,但是一旦對話時間變長,聊天就會出現(xiàn)偏差,機(jī)器人遲早會作出不合理的響應(yīng)。無論是用戶還是模型都很難再讓對話恢復(fù)正常。為了理解這些對話是如何脫軌的,我們定義了 7 種神經(jīng)生成模型所犯的錯誤的類型——重復(fù)、多余問題、不清晰的話語、錯覺、忽略、邏輯錯誤、侮辱性話語。在對用戶對話樣本進(jìn)行標(biāo)注后,我們發(fā)現(xiàn)機(jī)器人的錯誤很常見,超過了一半(53%)的神經(jīng)生成語句包含某種錯誤。我們還發(fā)現(xiàn),由于極具挑戰(zhàn)的嘈雜環(huán)境(可能涉及背景噪聲、串?dāng)_和 ASR 錯誤),幾乎四分之一 (22%) 的用戶話語無法被理解,即使是人工注釋者也是如此。這解釋了一些更基本的機(jī)器人錯誤,例如忽略、錯覺、不清楚和重復(fù)的話語。在其他機(jī)器人犯的錯誤中,多余問題和邏輯錯誤尤為常見,這表明更好地推理和使用歷史對話是神經(jīng)生成模型開發(fā)的優(yōu)先事項(xiàng)。我們還定位了用戶表達(dá)不滿的 9 種方式,例如要求澄清、批評機(jī)器人和結(jié)束對話。盡管機(jī)器人的錯誤和用戶不滿之間存在關(guān)系,但這種相關(guān)性千絲萬縷,紛繁復(fù)雜。即使出現(xiàn)機(jī)器人錯誤,許多用戶也不會表達(dá)不滿,而是試圖繼續(xù)對話。在邏輯錯誤之后尤其如此,其中機(jī)器人表現(xiàn)出缺乏現(xiàn)實(shí)世界的知識或常識——一些好心的用戶甚至將此作為教育機(jī)器人的機(jī)會。相反,一些用戶表達(dá)了與任何明顯的機(jī)器人錯誤無關(guān)的不滿——例如,用戶對機(jī)器人所問的哪些問題是合時宜的有很大不同的期望。在更好地理解了用戶表達(dá)不滿的方式和原因后,我們不禁疑問:我們能否學(xué)會預(yù)測不滿,從而在用戶不滿之前加以預(yù)防?利用在比賽期間收集到的用戶對話,我們訓(xùn)練了一個模型來預(yù)測某句機(jī)器人說的話會導(dǎo)致用戶不滿的概率??紤]到機(jī)器人錯誤和用戶不滿之間的復(fù)雜相關(guān)性,這非常具有挑戰(zhàn)性。盡管有這種復(fù)雜性,我們的預(yù)測模型還是能夠找到用戶不滿的信號。一旦經(jīng)過訓(xùn)練,我們的不滿意預(yù)測器就可以在對話中用于在多個備選話語之間進(jìn)行選擇。通過人工評估,我們發(fā)現(xiàn)預(yù)測器選擇的機(jī)器人響應(yīng)——即那些被判斷為最不可能引起用戶不滿的響應(yīng)——總體上比隨機(jī)選擇的響應(yīng)質(zhì)量更好。盡管我們尚未將此反饋循環(huán)整合到 Chirpy Cardinal 中,但我們的方法展示了一種可行的方法來實(shí)現(xiàn)半監(jiān)督在線學(xué)習(xí)方法,以不斷改進(jìn)神經(jīng)生成對話系統(tǒng)。二、應(yīng)對攻擊性用戶
語音助手正變得越來越流行,并且在此過程中,它們被越來越多的用戶群的濫用。我們估計,超過 10% 的用戶與我們的機(jī)器人 Chirpy Cardinal 的對話包含褻瀆和公然冒犯的語言。雖然有大量此前的工作試圖解決這個問題,但大多數(shù)先前的方法都使用基于在實(shí)驗(yàn)室環(huán)境中進(jìn)行的調(diào)查的定性指標(biāo)。在這項(xiàng)工作中,我們對開放世界中攻擊性用戶的響應(yīng)策略進(jìn)行了大規(guī)模的定量評估。在實(shí)驗(yàn)中,我們發(fā)現(xiàn)禮貌地拒絕用戶的冒犯,同時將用戶重定向到另一個主題是遏制冒犯的最佳策略。根據(jù)先前的工作,我們測試了以下 4 種假設(shè):1、重定向——受到 Brahnam 的啟發(fā),我們假設(shè)在響應(yīng)冒犯性用戶話語時,使用明了的重定向是一種有效的策略。例如,“我寧愿不談?wù)撨@個。那么,你最喜歡的音樂家是誰?”2、姓名——受到 Suler、Chen 和 Williams 的啟發(fā),我們假設(shè)在機(jī)器人的響應(yīng)中包含用戶的姓名是一種有效的策略。例如,“我不想談這個,Peter?!?/span>3、疑問——受 Shapior 等人的啟發(fā),我們假設(shè)禮貌地詢問用戶他們發(fā)表冒犯性言論的原因,引導(dǎo)他們反思自己的行為,從而減少之后可能的冒犯。例如,“你為什么這么說?”4、關(guān)懷與問詢——受 Chin 等人的啟發(fā),我們假設(shè)帶有感情的回應(yīng)比一般的回避反應(yīng)更有效,而反擊反應(yīng)沒有作用。例如,一個善解人意的回應(yīng)是“如果我可以談?wù)撍?,我會談?wù)撍艺娴牟荒?。很抱歉讓您失望了”,而反擊式回?yīng)則是“這是一個非常具有暗示性的說法。我認(rèn)為我們不應(yīng)該談?wù)撨@個?!?/span>我們構(gòu)建了囊括上述多個因素的響應(yīng)。例如,回避 + 姓名 + 重定向會產(chǎn)生這樣的表達(dá)“我寧愿不談?wù)撃莻€(回避的內(nèi)容),Peter(姓名)。那么,你最喜歡的音樂家是誰?(重定向)”為了衡量響應(yīng)策略的有效性,我們提出了 3 個指標(biāo):1、再具攻擊性——測量在初始機(jī)器人響應(yīng)后包含另一個攻擊性語句的對話數(shù)量。2、結(jié)束——假設(shè)未來沒有違規(guī)行為,以機(jī)器人響應(yīng)后的對話長度來衡量。3、下一個——測量為在用戶再次冒犯之前經(jīng)過的對話數(shù)。我們認(rèn)為,這些指標(biāo)比 Cohn 等人所做的用戶評級更直接地衡量了響應(yīng)策略的有效性,它衡量了對話的整體質(zhì)量。上圖顯示了對再具攻擊性采取不同策略所帶來的不同。正如我們所見,帶有(重定向)的策略比不帶重定向的策略表現(xiàn)得更好,將再具攻擊性的概率降低了 53%。我們的成對假設(shè)檢驗(yàn)進(jìn)一步表明,在重定向的基礎(chǔ)上帶上用戶的名字,進(jìn)一步降低了大約 6% 的再具攻擊性的概率,而詢問用戶為什么他們發(fā)表冒犯性言論卻讓再具攻擊性率增加了 3%,這表明詢問的效果不盡如人意。感性的回應(yīng)同樣能使再具攻擊性率降低 3%,而反擊式回應(yīng)則沒有顯著的影響。左圖顯示了直到下一次攻擊性語句出現(xiàn)(Next)的平均對話數(shù)差異,右圖顯示了直到對話結(jié)束(End)的平均對話數(shù)差異。我們再次看到使用重定向的策略能夠顯著延長非冒犯性對話。這進(jìn)一步表明重定向是抑制用戶冒犯的非常有效的方法。這樣做的結(jié)果顯示,機(jī)器人應(yīng)該始終通過重定向,并以善解人意的方式回應(yīng)用戶的冒犯,并盡可能地使用用戶的名字。盡管被動回避和重定向策略具備有效性,我們想提醒研究人員采用類似策略的潛在社會風(fēng)險。由于大多數(shù)基于語音的代理都有默認(rèn)的女性聲音,因此這些策略可能會進(jìn)一步加深性別刻板印象,并對女性在現(xiàn)實(shí)世界中對言語的冒犯行為設(shè)定不合理的期望。因此,在部署這些策略時必須謹(jǐn)慎。三、提高用戶的主動性
對話要么由用戶控制(例如,像 Apple 的 Siri 這樣的機(jī)器人,它被動地等待用戶命令),要么由機(jī)器人(例如,CVS 的客戶服務(wù)機(jī)器人,它反復(fù)提示用戶輸入特定信息)。這種屬性——用戶在給定時刻擁有控制權(quán)——被稱為主動性。讓一個人參加雞尾酒會并參與每一個主題,而不是給你機(jī)會分享自己的興趣,這會很無趣。同樣的,和拒絕談?wù)撟约?,而只是?qiáng)迫你來維持對話的人交流也很乏味。最理想的情況是,每個人輪流回應(yīng)提示,分享關(guān)于自己的事,并且介紹新的話題加入聊天。我們將這種對話模式稱為混合主動性,并假設(shè)它是一種令人愉快的人與人之間的社交對話,這也是一種更具吸引力和更理想的人機(jī)對話形式。我們設(shè)計了 Chirpy Cardinal 機(jī)器人,通過在每一個轉(zhuǎn)折點(diǎn)提出問題來保持對話向前發(fā)展。盡管這有助于防止對話停滯,但也很難使用戶采取主動。在我們的數(shù)據(jù)中,我們觀察到用戶對此進(jìn)行了抱怨,例如機(jī)器人提出了太多問題,或者這不是用戶想要談?wù)摰膬?nèi)容。由于研究主動性的目的是讓人類與機(jī)器人的對話,更像人類之間的對話,因此我們希望研究人類對話來獲得靈感。基于這項(xiàng)研究,我們形成了三個關(guān)于如何提高用戶主動性的假設(shè)。下圖展示了測試的話語類型以及具有代表性的用戶語句。根據(jù) Alexa Prize 競賽規(guī)則,這些不是機(jī)器人收到的實(shí)際用戶語句。1、用陳述代替疑問在人類對話研究中,往往提問者更具有主動性,因?yàn)樗麄兘o出了回答者的方向。相比之下,開放式的陳述句讓對方更有機(jī)會采取主動。這是我們的第一個策略的基礎(chǔ):使用陳述而不是疑問。2、分享個人信息人與人之間的對話和人類與機(jī)器人對話的研究發(fā)現(xiàn),自我信息的披露具有互惠效應(yīng)。如果一個參與者分享了他們自己,那么另一個人更有可能做同樣的事情。我們假設(shè),如果 Chirpy 提供個人陳述而不是其他的陳述,那么用戶會采取主動和回報。左圖是一個利用回饋信息的對話示例,右圖沒有。在這種情況下,回饋允許用戶將對話導(dǎo)向他們想要的(獲得建議),而不是強(qiáng)迫他們談?wù)撍麄儾桓信d趣的事情(愛好)。3、引入反饋反饋信息,例如“hmm”、“I see”和“mm-hmm”,都是簡短的話語,用作從聽眾到演講者的信號,表明演講者應(yīng)該繼續(xù)主動。我們的最終假設(shè)是它們可以用于人機(jī)對話以達(dá)到相同的效果,即如果我們的機(jī)器人反向引導(dǎo),那么用戶將引導(dǎo)對話。為了測試這些策略的效果,我們更改了機(jī)器人的不同組件。我們進(jìn)行了小型實(shí)驗(yàn),只改變了一次談話,以測試問題與陳述以及個人陳述與一般陳述的效果差異。為了測試在更多對話上用問題替換陳述的效果,我們更改了使用神經(jīng)生成對話的機(jī)器人組件,因?yàn)檫@些組件更靈活地更改用戶輸入。最后我們在機(jī)器人的全神經(jīng)模塊中嘗試了用上反饋信息。使用我們手動注釋驗(yàn)證的一組自適應(yīng)指標(biāo),發(fā)現(xiàn)了以下結(jié)果,這些結(jié)果為未來的對話設(shè)計提供了方向:1、單獨(dú)使用陳述優(yōu)于提問或陳述和提問的結(jié)合;2、給出個人意見陳述(例如“我喜歡馬男波杰克”)比個人經(jīng)驗(yàn)陳述(例如“我昨天看了馬男波杰克”)和一般性陳述(例如“馬男波杰克由 Raphael Bob-Waksberg 和 Lisa Hanawalt 創(chuàng)始”)更有效;3、隨著提問數(shù)量的減少,用戶主動性增加;4、當(dāng)我們在 33% 的時間中(相對于 0%、66% 或 100%)利用反饋信息時,用戶主動性最高。由于這些實(shí)驗(yàn)是在有限的環(huán)境中進(jìn)行的,我們并不期望它們會完美地轉(zhuǎn)移到所有社交機(jī)器人上;然而,我們相信,這些簡單而有效的策略,是構(gòu)建更自然的對話式人工智能的一個有希望的方向。四、總結(jié):帶著同理心傾聽
我們的每個項(xiàng)目都是從用戶的不滿意開始的,他們用自己的方式告訴我們,機(jī)器人可以做得更好。通過對這些投訴進(jìn)行系統(tǒng)分析,我們更準(zhǔn)確地了解了用戶對我們神經(jīng)生成的反應(yīng)的具體困擾。通過這些反饋,我們訓(xùn)練了一個模型,該模型能夠成功預(yù)測生成的響應(yīng)何時可能導(dǎo)致對話誤入歧途。有時,是用戶會說出冒犯性的話。我們研究了這些案例,并確保包含用戶姓名的,帶著同理心的重定向,能最有效地保持對話正常進(jìn)行。最后,我們嘗試了單純的少說話,并為用戶創(chuàng)造更多引導(dǎo)對話的機(jī)會。結(jié)果發(fā)現(xiàn),當(dāng)有這個機(jī)會時,許多人都會抓住它,從而能進(jìn)行更長、更豐富的對話。在我們所有的工作中,人類對話的直觀原則也適用于社交機(jī)器人:做一個好的傾聽者,以同理心回應(yīng),當(dāng)你得到反饋和學(xué)習(xí)的機(jī)會時,接受它。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。