OpenAI上線ChatGPT高級語音模式，并發(fā)布包含14種語言的數(shù)據(jù)集

發(fā)布人：深科技時間：2024-09-25 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

近日，OpenAI 在 AI 全球化進(jìn)程中邁出了重要一步。

該公司不僅上線了 ChatGPT 的高級語音模式（AVM，Advanced Voice Mode），還發(fā)布了一個包含 14 種語言的多語言數(shù)據(jù)集，用于評估語言模型的性能。

這兩項舉措都旨在提升 AI 技術(shù)的全球可及性和實用性。

OpenAI 宣布，將其 AVM 擴(kuò)展到更多付費(fèi)用戶。這一音頻功能使得用戶與 ChatGPT 的交流更加自然，初期將向 ChatGPT Plus 和 Teams 客戶推出。企業(yè)和教育客戶將于下周開始獲得訪問權(quán)限。

作為推廣的一部分，AVM 進(jìn)行了設(shè)計改版。目前，藍(lán)色的躍動球體作為這項功能的顯示，取代了 OpenAI 在 5 月份展示該技術(shù)時所用的黑點。

如果對用戶開放 AVM 功能，用戶會在 ChatGPT 應(yīng)用程序中的語音圖標(biāo)旁邊收到一個彈出窗口。

此外，ChatGPT 還新增了 5 個用戶可以嘗試的聲音，分別是：阿伯（Arbor）、梅普爾（Maple）、索爾（Sol）、斯普魯斯（Spruce）和維爾（Vale）。

在此基礎(chǔ)上，ChatGPT 的聲音種類的總數(shù)已達(dá)到 9 個，幾乎與谷歌的 Gemini Live 一樣多。

有意思的是，其命名的來源受到大自然的啟發(fā)，這也許是因為想讓 ChatGPT 用起來感覺更親切。

值得注意的是，OpenAI 在春季更新時展示的“天空（Sky）”聲音并未出現(xiàn)在此次更新中。原因在于，著名演員斯嘉麗·約翰遜（Scarlett Johansson）提出了反對。

約翰遜在電影《她》（Her）中扮演了一個 AI 系統(tǒng)，她聲稱 Sky 的聲音與她自己的聲音太過相似。

作為回應(yīng)，OpenAI 迅速下架了 Sky 的聲音，稱其從未打算模仿約翰遜的聲音，盡管當(dāng)時有幾名員工在推文中提到了這部電影。

（來源：OpenAI）

OpenAI 對媒體表示，從公布 AVM 的 alpha 測試起，他們已經(jīng)進(jìn)行了一系列改進(jìn)。

與此前相比，目前，ChatGPT 的語音功能對口音的理解力更佳，對話也更流暢、更快速。

此外，OpenAI 把 ChatGPT 的部分定制功能擴(kuò)展到 AVM，例如允許用戶定制 ChatGPT 的回應(yīng)方式。

然而，ChatGPT 的視頻和屏幕共享功能尚未在此次推廣中出現(xiàn)。該功能本應(yīng)允許 GPT-4 同時處理視覺和聽覺信息。目前，OpenAI 還沒有提供何時推出這些多模態(tài)功能的時間表。

除了高級語音模式，OpenAI 還在開放數(shù)據(jù)平臺 Hugging Face 上發(fā)布了多語言大規(guī)模多任務(wù)語言理解（MMMLU，Multilingual Massive Multitask Language Understanding）數(shù)據(jù)集。

這個新的評估工具是在 MMLU 基準(zhǔn)測試的基礎(chǔ)上發(fā)展而來。

MMLU 原本只針對英語，測試 AI 系統(tǒng)在數(shù)學(xué)、法律和計算機(jī)科學(xué)等 57 個學(xué)科領(lǐng)域的知識。而新的 MMMLU 數(shù)據(jù)集則囊括了中文、阿拉伯語、德語和孟加拉語等 14 種語言。

通過將這些多樣化的語言納入新的多語言評估中，尤其是在其中一些語言的訓(xùn)練數(shù)據(jù)資源有限的情況下，OpenAI 為多語言 AI 能力設(shè)立了新的基準(zhǔn)。

這一基準(zhǔn)測試可能會為該技術(shù)帶來更公平的全球訪問機(jī)會。一直以來，AI 行業(yè)因無法開發(fā)出能理解全球數(shù)百萬人使用的語言的語言模型而受到批評。

直到最近，AI 研究主要集中在英語和少數(shù)幾種廣泛使用的語言上，導(dǎo)致許多低資源語言被忽視。

OpenAI 決定將包括斯瓦希里語和約魯巴語在內(nèi)的語言收錄其中，這些語言雖然使用者眾多，但在 AI 研究中經(jīng)常被忽視。這也標(biāo)志著，AI 技術(shù)正朝著更具包容性的方向發(fā)展。

為了確保 MMMLU 數(shù)據(jù)集的準(zhǔn)確性，OpenAI 聘請了專業(yè)人工翻譯，這比依賴機(jī)器翻譯的同類數(shù)據(jù)集更為精確，特別是在訓(xùn)練資源較少的語言中。

通過依靠人類的專業(yè)知識，OpenAI 確保該數(shù)據(jù)集為評估多語言 AI 模型提供了更可靠的基礎(chǔ)。

對于企業(yè)而言，MMMLU 數(shù)據(jù)集提供了在全球背景下對其自身 AI 系統(tǒng)進(jìn)行基準(zhǔn)測試的機(jī)會。

隨著公司向國際市場擴(kuò)張，部署能夠理解多種語言的 AI 解決方案的能力變得至關(guān)重要。

無論是客戶服務(wù)、內(nèi)容審核還是數(shù)據(jù)分析，在多種語言中表現(xiàn)良好的 AI 系統(tǒng)都可以通過減少溝通摩擦和改善用戶體驗，來提供競爭優(yōu)勢。

除了發(fā)布 MMMLU 數(shù)據(jù)集，OpenAI 還啟動了 OpenAI 學(xué)院（OpenAI Academy）項目，以進(jìn)一步履行其對全球 AI 可及性的承諾。

（來源：OpenAI）

據(jù)介紹，該學(xué)院旨在投資開發(fā)人員和以使命為導(dǎo)向的組織，這些組織正在利用 AI 來解決其社區(qū)中的關(guān)鍵問題，特別是在低收入和中等收入國家。

學(xué)院將提供培訓(xùn)、技術(shù)指導(dǎo)以及 100 萬美元的應(yīng)用程序編程接口（API，Application Programming Interface）信用點，以確保當(dāng)?shù)?AI 人才能夠訪問前沿資源。

通過支持了解其地區(qū)獨(dú)特社會和經(jīng)濟(jì)挑戰(zhàn)的開發(fā)人員，OpenAI 希望賦予社區(qū)能力，以構(gòu)建為當(dāng)?shù)匦枨罅可矶ㄖ频?AI 應(yīng)用程序。

參考資料：https://techcrunch.com/2024/09/24/openai-rolls-out-advanced-voice-mode-with-more-voices-and-a-new-look/https://venturebeat.com/ai/openai-tackles-global-language-divide-with-massive-multilingual-ai-dataset-release/
運(yùn)營/排版：何晨龍

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權(quán)請聯(lián)系工作人員刪除。

博客專欄

OpenAI上線ChatGPT高級語音模式，并發(fā)布包含14種語言的數(shù)據(jù)集

相關(guān)推薦

技術(shù)專區(qū)

博客專欄

OpenAI上線ChatGPT高級語音模式，并發(fā)布包含14種語言的數(shù)據(jù)集

相關(guān)推薦

技術(shù)專區(qū)

OpenAI上線ChatGPT高級語音模式，并發(fā)布包含14種語言的數(shù)據(jù)集