新聞中心

EEPW首頁(yè) > 智能計(jì)算 > 業(yè)界動(dòng)態(tài) > Azure 語(yǔ)音合成再添新聲音,“風(fēng)格遷移”技術(shù)為不同音色實(shí)現(xiàn)多情感演繹

Azure 語(yǔ)音合成再添新聲音,“風(fēng)格遷移”技術(shù)為不同音色實(shí)現(xiàn)多情感演繹

作者: 時(shí)間:2022-08-17 來(lái)源:IT之家 收藏

Neural TTS(神經(jīng)網(wǎng)絡(luò)版文本轉(zhuǎn)語(yǔ)音)新增五種聲音模型,讓我們?cè)俅误w會(huì)到了“風(fēng)格遷移”技術(shù)對(duì) AI 語(yǔ)音模型多情感多風(fēng)格的強(qiáng)大支持。

本文引用地址:http://butianyuan.cn/article/202208/437407.htm

此次更新的五個(gè)美式英語(yǔ)聲音模型,包括青春甜美的 Jane、低沉溫和的 Nancy、隨性且精力充沛的 Davis、響亮激昂的 Jason 和沙啞粗獷的 Tony。在“風(fēng)格遷移”技術(shù)的支持下,不僅擁有開(kāi)心 (cheerful)、傷心 (sad)、生氣 (angry)、興奮 (excited)、期待 (hopeful)、友好 (friendly)、不友好 (unfriendly) 和恐懼 (terrified) 等豐富的情感表現(xiàn),還擁有首次運(yùn)用的呼喊 (shouting) 和耳語(yǔ) (whispering) 兩種表達(dá)方式。至此,用戶擁有可選擇的美式英語(yǔ)聲音模型已達(dá)到 20 個(gè),豐富的情感和風(fēng)格讓?xiě)?yīng)用場(chǎng)景更加多元。

1660707204660797.png

1660707243752944.png

1660707287199599.png

“風(fēng)格遷移”技術(shù)的原理是把一個(gè)聲音模型的韻律和語(yǔ)調(diào)復(fù)制到另一個(gè)聲音模型上,從而讓后者在本身音色不變的前提下,也可以擁有前者說(shuō)話的韻律和語(yǔ)調(diào)。過(guò)去,聲音風(fēng)格的搭建主要依靠錄音演員錄制各種風(fēng)格的聲音數(shù)據(jù),再使用錄音數(shù)據(jù)來(lái)生成多風(fēng)格的智能語(yǔ)音模型,但是一名錄音演員難以演繹所有風(fēng)格的聲音。風(fēng)格遷移技術(shù)創(chuàng)新地解決了這一問(wèn)題,可以高效地賦予多 AI 聲音情感和風(fēng)格。

聲音風(fēng)格和聲音情感模型的持續(xù)更新,讓 Neural TTS 的合成語(yǔ)音在多種業(yè)務(wù)場(chǎng)景中得到了廣泛應(yīng)用,讓用戶感受到了更逼真的語(yǔ)音體驗(yàn)。例如,游戲平臺(tái)可以快速為角色生成多種情感聲音,為游戲增添更多符合情節(jié)的個(gè)性化表達(dá),讓虛擬游戲世界栩栩如生。“State of Decay”(腐爛國(guó)度)的創(chuàng)作者 —— 亡靈工作室 (Undead Labs) 的使命是為游戲開(kāi)創(chuàng)嶄新的方向,他們?cè)谟螒蜷_(kāi)發(fā)中就應(yīng)用了 Neural TTS。推出過(guò)包括“Psychonauts 2”(精神病患者 2)在內(nèi)的多款游戲的 Double Fine 工作室,也正在利用 Azure Neural TTS 制作未來(lái)游戲項(xiàng)目的原型。音頻解決方案提供商 Remixd 在其平臺(tái)中集成了 Azure Neural TTS 的聲音模型 Jenny 和 Davis,讓其客戶在創(chuàng)建音頻內(nèi)容時(shí)有了更多選擇。

關(guān)于 Azure Neural TTS

Azure Neural TTS 是 Azure 認(rèn)知服務(wù)中強(qiáng)大的語(yǔ)音合成功能,能夠讓開(kāi)發(fā)人員使用 AI 技術(shù)將文本轉(zhuǎn)換為逼真的聲音。截止目前,微軟 Azure Neural TTS 支持全球 140 個(gè)國(guó)家和地區(qū)的語(yǔ)言,提供 400 個(gè)聲音模型,可加速聲音的自動(dòng)化生產(chǎn),幫助各種企業(yè)更快地訓(xùn)練出滿足業(yè)務(wù)場(chǎng)景的聲音,打造出專屬的聲音品牌 —— 無(wú)論是呼叫中心、語(yǔ)音助手、有聲書(shū)制作、聊天機(jī)器人、語(yǔ)音導(dǎo)購(gòu),還是影視劇 / 動(dòng)漫配音、自媒體短視頻、情感電臺(tái)、教育培訓(xùn)等場(chǎng)景。

持續(xù)的技術(shù)迭代和版本更新,讓 Azure Neural TTS 可以為更多企業(yè)、更多場(chǎng)景提供逼真、自然、接地氣的聲音體驗(yàn)。同時(shí),微軟的所有技術(shù)進(jìn)步都接受微軟負(fù)責(zé)任的 AI 流程的指導(dǎo),遵循公平、包容、可靠性與安全性、透明、隱私與保障、負(fù)責(zé)的原則,并通過(guò)微軟內(nèi)部的負(fù)責(zé)任人工智能辦公室 (ORA),人工智能、倫理與工程研究委員會(huì) (Aether),以及負(fù)責(zé)任 AI 戰(zhàn)略管理團(tuán)隊(duì) (RAISE) 來(lái)監(jiān)督、實(shí)施這些道德標(biāo)準(zhǔn)。



關(guān)鍵詞: 微軟 Azure AI語(yǔ)音模型

評(píng)論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉