博客專欄

EEPW首頁 > 博客 > OpenAI上線ChatGPT高級語音模式,并發(fā)布包含14種語言的數(shù)據(jù)集

OpenAI上線ChatGPT高級語音模式,并發(fā)布包含14種語言的數(shù)據(jù)集

發(fā)布人:深科技 時(shí)間:2024-09-25 來源:工程師 發(fā)布文章

圖片


圖片


近日,OpenAI 在 AI 全球化進(jìn)程中邁出了重要一步。


該公司不僅上線了 ChatGPT 的高級語音模式(AVM,Advanced Voice Mode),還發(fā)布了一個(gè)包含 14 種語言的多語言數(shù)據(jù)集,用于評估語言模型的性能。


這兩項(xiàng)舉措都旨在提升 AI 技術(shù)的全球可及性和實(shí)用性。


OpenAI 宣布,將其 AVM 擴(kuò)展到更多付費(fèi)用戶。這一音頻功能使得用戶與 ChatGPT 的交流更加自然,初期將向 ChatGPT Plus 和 Teams 客戶推出。企業(yè)和教育客戶將于下周開始獲得訪問權(quán)限。


作為推廣的一部分,AVM 進(jìn)行了設(shè)計(jì)改版。目前,藍(lán)色的躍動球體作為這項(xiàng)功能的顯示,取代了 OpenAI 在 5 月份展示該技術(shù)時(shí)所用的黑點(diǎn)。


如果對用戶開放 AVM 功能,用戶會在 ChatGPT 應(yīng)用程序中的語音圖標(biāo)旁邊收到一個(gè)彈出窗口。


此外,ChatGPT 還新增了 5 個(gè)用戶可以嘗試的聲音,分別是:阿伯(Arbor)、梅普爾(Maple)、索爾(Sol)、斯普魯斯(Spruce)和維爾(Vale)。


在此基礎(chǔ)上,ChatGPT 的聲音種類的總數(shù)已達(dá)到 9 個(gè),幾乎與谷歌的 Gemini Live 一樣多。


有意思的是,其命名的來源受到大自然的啟發(fā),這也許是因?yàn)橄胱?ChatGPT 用起來感覺更親切。


值得注意的是,OpenAI 在春季更新時(shí)展示的“天空(Sky)”聲音并未出現(xiàn)在此次更新中。原因在于,著名演員斯嘉麗·約翰遜(Scarlett Johansson)提出了反對。


約翰遜在電影《她》(Her)中扮演了一個(gè) AI 系統(tǒng),她聲稱 Sky 的聲音與她自己的聲音太過相似。


作為回應(yīng),OpenAI 迅速下架了 Sky 的聲音,稱其從未打算模仿約翰遜的聲音,盡管當(dāng)時(shí)有幾名員工在推文中提到了這部電影。


圖片

(來源:OpenAI)


OpenAI 對媒體表示,從公布 AVM 的 alpha 測試起,他們已經(jīng)進(jìn)行了一系列改進(jìn)。


與此前相比,目前,ChatGPT 的語音功能對口音的理解力更佳,對話也更流暢、更快速。


此外,OpenAI 把 ChatGPT 的部分定制功能擴(kuò)展到 AVM,例如允許用戶定制 ChatGPT 的回應(yīng)方式。


然而,ChatGPT 的視頻和屏幕共享功能尚未在此次推廣中出現(xiàn)。該功能本應(yīng)允許 GPT-4 同時(shí)處理視覺和聽覺信息。目前,OpenAI 還沒有提供何時(shí)推出這些多模態(tài)功能的時(shí)間表。


除了高級語音模式,OpenAI 還在開放數(shù)據(jù)平臺 Hugging Face 上發(fā)布了多語言大規(guī)模多任務(wù)語言理解(MMMLU,Multilingual Massive Multitask Language Understanding)數(shù)據(jù)集。


這個(gè)新的評估工具是在 MMLU 基準(zhǔn)測試的基礎(chǔ)上發(fā)展而來。


MMLU 原本只針對英語,測試 AI 系統(tǒng)在數(shù)學(xué)、法律和計(jì)算機(jī)科學(xué)等 57 個(gè)學(xué)科領(lǐng)域的知識。而新的 MMMLU 數(shù)據(jù)集則囊括了中文、阿拉伯語、德語和孟加拉語等 14 種語言。


通過將這些多樣化的語言納入新的多語言評估中,尤其是在其中一些語言的訓(xùn)練數(shù)據(jù)資源有限的情況下,OpenAI 為多語言 AI 能力設(shè)立了新的基準(zhǔn)。


這一基準(zhǔn)測試可能會為該技術(shù)帶來更公平的全球訪問機(jī)會。一直以來,AI 行業(yè)因無法開發(fā)出能理解全球數(shù)百萬人使用的語言的語言模型而受到批評。


直到最近,AI 研究主要集中在英語和少數(shù)幾種廣泛使用的語言上,導(dǎo)致許多低資源語言被忽視。


OpenAI 決定將包括斯瓦希里語和約魯巴語在內(nèi)的語言收錄其中,這些語言雖然使用者眾多,但在 AI 研究中經(jīng)常被忽視。這也標(biāo)志著,AI 技術(shù)正朝著更具包容性的方向發(fā)展。


為了確保 MMMLU 數(shù)據(jù)集的準(zhǔn)確性,OpenAI 聘請了專業(yè)人工翻譯,這比依賴機(jī)器翻譯的同類數(shù)據(jù)集更為精確,特別是在訓(xùn)練資源較少的語言中。


通過依靠人類的專業(yè)知識,OpenAI 確保該數(shù)據(jù)集為評估多語言 AI 模型提供了更可靠的基礎(chǔ)。


對于企業(yè)而言,MMMLU 數(shù)據(jù)集提供了在全球背景下對其自身 AI 系統(tǒng)進(jìn)行基準(zhǔn)測試的機(jī)會。


隨著公司向國際市場擴(kuò)張,部署能夠理解多種語言的 AI 解決方案的能力變得至關(guān)重要。


無論是客戶服務(wù)、內(nèi)容審核還是數(shù)據(jù)分析,在多種語言中表現(xiàn)良好的 AI 系統(tǒng)都可以通過減少溝通摩擦和改善用戶體驗(yàn),來提供競爭優(yōu)勢。


除了發(fā)布 MMMLU 數(shù)據(jù)集,OpenAI 還啟動了 OpenAI 學(xué)院(OpenAI Academy)項(xiàng)目,以進(jìn)一步履行其對全球 AI 可及性的承諾。


圖片

(來源:OpenAI)


據(jù)介紹,該學(xué)院旨在投資開發(fā)人員和以使命為導(dǎo)向的組織,這些組織正在利用 AI 來解決其社區(qū)中的關(guān)鍵問題,特別是在低收入和中等收入國家。


學(xué)院將提供培訓(xùn)、技術(shù)指導(dǎo)以及 100 萬美元的應(yīng)用程序編程接口(API,Application Programming Interface)信用點(diǎn),以確保當(dāng)?shù)?AI 人才能夠訪問前沿資源。


通過支持了解其地區(qū)獨(dú)特社會和經(jīng)濟(jì)挑戰(zhàn)的開發(fā)人員,OpenAI 希望賦予社區(qū)能力,以構(gòu)建為當(dāng)?shù)匦枨罅可矶ㄖ频?AI 應(yīng)用程序。


參考資料:https://techcrunch.com/2024/09/24/openai-rolls-out-advanced-voice-mode-with-more-voices-and-a-new-look/https://venturebeat.com/ai/openai-tackles-global-language-divide-with-massive-multilingual-ai-dataset-release/
運(yùn)營/排版:何晨龍


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞: OpenAI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉