博客專欄

EEPW首頁 > 博客 > 獨(dú)家 | 聊天機(jī)器人開發(fā)中的機(jī)器學(xué)習(xí)(附鏈接)

獨(dú)家 | 聊天機(jī)器人開發(fā)中的機(jī)器學(xué)習(xí)(附鏈接)

發(fā)布人:數(shù)據(jù)派THU 時(shí)間:2021-10-20 來源:工程師 發(fā)布文章

作者:Omkar Prabhune

翻譯:方星軒

校對(duì):王雨桐

本文將詳細(xì)介紹聊天機(jī)器人的類型、它們的開發(fā)以及背后原理。

首先讓我們先了解一些基礎(chǔ)知識(shí)。聊天機(jī)器人(對(duì)話式 AI)是一種自動(dòng)化程序,可通過文本消息、語音聊天來模擬人類對(duì)話。它根據(jù)大量輸入和自然語言處理 (NLP) 學(xué)習(xí)如何做到這一點(diǎn)。

今天的聊天機(jī)器人在社交媒體、電子商務(wù)、客戶服務(wù)甚至醫(yī)療保健的許多行業(yè)和公司中都是不可或缺的。一些典型的例子是微軟的 Zo、IBM Watson 或 Rasa(一種用于構(gòu)建商業(yè)用途的聊天機(jī)器人的工具)。

那就讓我們來看看到底是怎么樣的吧!

目錄

聊天機(jī)器人的類型(基于規(guī)則、基于意圖、開放域)

聊天機(jī)器人架構(gòu)

自然語言處理

行業(yè)實(shí)例

進(jìn)一步研究和參考


聊天機(jī)器人的類型

基于規(guī)則的聊天機(jī)器人

基于規(guī)則的聊天機(jī)器人也稱為決策樹機(jī)器人。顧名思義,它們使用一系列已定義的規(guī)則。這些規(guī)則是聊天機(jī)器人熟悉并可以提供解決方案的問題類型的基礎(chǔ)。

就像流程圖一樣,需要給聊天機(jī)器人設(shè)置對(duì)話框架。他們這樣做是為了預(yù)測(cè)客戶可能會(huì)問什么,以及聊天機(jī)器人應(yīng)該如何回應(yīng)。

基于規(guī)則的聊天機(jī)器人可以使用非常簡單或復(fù)雜的規(guī)則,但是他們無法回答定義規(guī)則之外的任何問題。這些聊天機(jī)器人不會(huì)通過交互來學(xué)習(xí)。此外,他們只執(zhí)行和處理被訓(xùn)練的場景?;谝?guī)則的聊天機(jī)器人有幾個(gè)好處,例如:

聊天機(jī)器人不需要大量訓(xùn)練,這使得實(shí)施過程更快、更簡單。

通過預(yù)先定義結(jié)構(gòu)和答案,您可以更好地控制聊天機(jī)器人的行為和響應(yīng)。

然而它也有有其局限性,它們的一些缺點(diǎn)是:

基于規(guī)則的聊天機(jī)器人無法捕獲拼寫錯(cuò)誤,這意味著在某些情況下它無法理解客人的意思,這可能會(huì)使交流變得無效。

與簡單聊天機(jī)器人交互的直觀感覺就是機(jī)器人而不是真人對(duì)話。

他們不能自己學(xué)習(xí),這意味著任何改進(jìn)都需要手動(dòng)進(jìn)行。

基于意圖的聊天機(jī)器人

相比之下,使用機(jī)器學(xué)習(xí)的 AI 聊天機(jī)器人會(huì)在回應(yīng)之前了解問題的上下文和意圖。

AI 聊天機(jī)器人是由自然語言處理提供支持的聊天機(jī)器人。因此與基于規(guī)則的聊天機(jī)器人不同,它不會(huì)使用關(guān)鍵字來回答,而會(huì)嘗試了解客人的意圖,即客人想要什么。它與客人互動(dòng)得越多,就越能更好地理解意圖,也就越能回答客人的要求。

他們的工作方式是捕捉問題或回應(yīng)背后的意圖。例如,用戶會(huì)問類似“你好!你好嗎?'甚至像'Heyooo'這樣的東西。盡管這些差異很大,但機(jī)器人將意圖捕獲為“問候”,因此它會(huì)以與該內(nèi)容相對(duì)應(yīng)的對(duì)話進(jìn)行響應(yīng)。

開放域聊天機(jī)器人

可以說,基于意圖聊天的聊天機(jī)器人也是基于人工智能的機(jī)器人。這些聊天機(jī)器人在半智能或完全人工智能支持的算法上運(yùn)行。基于 GPT-3 構(gòu)建的機(jī)器人就是一個(gè)完美的例子,它可以理解上下文并完全自行響應(yīng)。

這種類型的機(jī)器人更適合復(fù)雜種類和大規(guī)模查詢。選擇 AI 聊天機(jī)器人有幾個(gè)優(yōu)勢(shì),例如:

它可以理解拼寫錯(cuò)誤和語法錯(cuò)誤,因此這種情況下,它仍然能夠回答問題。

它將在沒有幫助的情況下不斷改進(jìn)。

與人工智能聊天機(jī)器人交談感覺更自然、更像人類。

盡管人工智能是一項(xiàng)先進(jìn)技術(shù),但該機(jī)器人也有其局限性:

AI 聊天機(jī)器人經(jīng)歷了一個(gè)學(xué)習(xí)過程,這使得它們的實(shí)施過程更加復(fù)雜和耗時(shí)。

由于不使用預(yù)定義的結(jié)構(gòu),AI 聊天機(jī)器人引導(dǎo)的對(duì)話不太可預(yù)測(cè)。

當(dāng)聊天機(jī)器人被錯(cuò)誤地教授某些東西時(shí),它需要一段時(shí)間才能“忘記”并學(xué)習(xí)正確的行為。

聊天機(jī)器人架構(gòu)

自然語言處理引擎(NLP Engine)

引擎是核心組件,可以在任何給定時(shí)間解釋用戶所說的話,并將語言轉(zhuǎn)換為系統(tǒng)可以進(jìn)一步處理的結(jié)構(gòu)化輸入。即使聊天機(jī)器人是特定于域的,它也需要包含和利用大量信息。而NLP 引擎對(duì)此有所幫助。

它包含先進(jìn)的機(jī)器學(xué)習(xí)算法來識(shí)別用戶的意圖,并進(jìn)一步將它們與機(jī)器人支持的可用意圖列表進(jìn)行匹配??梢岳斫鉃橛袃蓚€(gè)組成部分:

意圖分類器(Intent Classifier):意圖分類器根據(jù)用戶的輸入識(shí)別其含義,并將其與聊天機(jī)器人支持的意圖之一聯(lián)系起來。

實(shí)體提取器(Entity Extractor):實(shí)體提取器從用戶的查詢中提取關(guān)鍵信息。

知識(shí)庫

這是回答用戶問題的關(guān)鍵部分。問答系統(tǒng)解釋問題并從知識(shí)庫中給出相關(guān)答案。它可以手動(dòng)訓(xùn)練或自我訓(xùn)練。

手動(dòng)訓(xùn)練涉及領(lǐng)域?qū)<覄?chuàng)建常見用戶查詢列表并映射其答案。這有助于機(jī)器人快速確定重要問題的答案。

自動(dòng)化訓(xùn)練涉及將公司的文件(如政策文件和其他問答類型的文件)提交給機(jī)器人,并要求其進(jìn)行自我訓(xùn)練。引擎從這些文檔中提供了一系列問題和答案,然后機(jī)器人可以自信地回答。

數(shù)據(jù)存儲(chǔ)

數(shù)據(jù)存儲(chǔ)只是針對(duì)以前交互的數(shù)據(jù),以提供給 NLP 引擎,以便機(jī)器人在聊天期間保留一些上下文。這對(duì)于記住有關(guān)用戶的知識(shí)以進(jìn)行進(jìn)一步交互尤其重要。

自然語言處理

聊天機(jī)器人中的自然語言處理找到了一種將用戶的語音或文本轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)的方法。然后用于選擇相關(guān)答案。自然語言處理包括以下步驟;

標(biāo)記化(Tokenization):NLP 將一系列單詞分成具有語言代表性的標(biāo)記或片段,在應(yīng)用程序中具有不同的值。

情感分析(Sentiment Analysis):它會(huì)研究和學(xué)習(xí)用戶的體驗(yàn),并在必要時(shí)將對(duì)話轉(zhuǎn)給人類。

規(guī)范化(Normalization):該程序模型處理文本以找出符合用戶請(qǐng)求和預(yù)期含義中的印刷錯(cuò)誤和常見拼寫錯(cuò)誤。

命名實(shí)體識(shí)別(Named Entity Recognition):聊天機(jī)器人的程序模型尋找不同類別的詞,類似于特定產(chǎn)品的名稱、用戶的地址或姓名,以需要的信息為準(zhǔn)。

依賴解析(Dependency Parsing):聊天機(jī)器人搜索用戶文本中的主語、動(dòng)詞、賓語、常用短語和名詞,以發(fā)現(xiàn)用戶想要傳達(dá)的相關(guān)短語。

行業(yè)實(shí)例

谷歌的Meena(“米娜”音譯)

Meena 是一種端到端的神經(jīng)會(huì)話模型,它可以學(xué)習(xí)對(duì)給定的會(huì)話上下文做出明智的響應(yīng)。訓(xùn)練目標(biāo)是最小化困惑度,即預(yù)測(cè)不確定的下一個(gè)標(biāo)記(在本例中為對(duì)話中的下一個(gè)單詞)。

其核心是 Evolved Transformer seq2seq 架構(gòu),這是一種通過進(jìn)化神經(jīng)架構(gòu)搜索發(fā)現(xiàn)的 Transformer 架構(gòu),以改善困惑度。在 Google 的 AI 博客中了解更多信息。

更多信息

https://ai.googleblog.com/2020/01/towards-conversational-agent-that-can.html

Replika

Replika 由 Eugenia Kuyda 創(chuàng)立,其想法是創(chuàng)建一個(gè)私人人工智能,通過提供有用的對(duì)話來幫助您表達(dá)和記錄自己。這是一個(gè)您可以安全地分享您的想法、感受、信念、經(jīng)歷、記憶、夢(mèng)想的空間——您的“私人感知世界”。

從本質(zhì)上講,Replika 是一個(gè)聊天機(jī)器人,在與您交談時(shí),它會(huì)逐漸學(xué)會(huì)模仿您,直到成為您為止。

微軟的 Tay

Tay 是一款人工智能聊天機(jī)器人,最初由微軟公司于 2016 年 3 月 23 日通過 Twitter 發(fā)布;當(dāng)機(jī)器人開始通過其 Twitter 帳戶發(fā)布煽動(dòng)性和攻擊性的推文時(shí),它引起了爭議,導(dǎo)致微軟在推出后僅 16 小時(shí)就關(guān)閉了該服務(wù)。從那以后,它被視為關(guān)于用戶交互如何破壞聊天機(jī)器人的研究案例。

參考

在完成本文的過程中,我們參考了以下幾個(gè)來源。除此之外,如果您對(duì)學(xué)習(xí)或開發(fā)聊天機(jī)器人感興趣,我們歡迎您查看 Rasa,這是一個(gè)用于開發(fā)聊天機(jī)器人的流行開源庫。在 Medium 上還有 Chatbotslife 雜志!

參考來源:

“Towards a Conversational Agent that Can Chat About…Anything”, Google Research: Brain Team, 2020

“Understanding the Architecture of Conversational Chatbots”, VSoftConsulting Blog, 2019

“The Rise of Social Bots”, Ferrara Emilio, Varol Onur, Davis Clayton, Communications of the ACM, July 2016

“Why Microsoft's ‘Tay' AI bot went wrong”, Hope Reese, Tech Republic, March 2016

原文鏈接:

https://medium.com/@OverPoweredDev/machine-learning-in-chatbot-development-99a6c011483f

原標(biāo)題:

Machine Learning in Chatbot Development

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

電流變送器相關(guān)文章:電流變送器原理
電化學(xué)工作站相關(guān)文章:電化學(xué)工作站原理
燃?xì)鈭?bào)警器相關(guān)文章:燃?xì)鈭?bào)警器原理


關(guān)鍵詞: 機(jī)器學(xué)習(xí)

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉