AI手語主播通過朱廣權(quán)魔鬼面試,殘影級(jí)手速無懼貫口,今已正式上崗助力冰雪盛會(huì)
本文經(jīng)ai新媒體量子位(公眾號(hào) id:qbitai)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處
什么樣的手語主播能跟朱廣權(quán)battle得有來有回?
話不多說,咱直接板凳瓜子備齊,一起前排圍觀:
只見朱廣權(quán)語速起飛,妙語連珠,頻出“魔鬼”面試題,但這位手語老師完全沒在怕的:
如此表現(xiàn),不僅面試官朱廣權(quán)連連夸贊“精彩”,網(wǎng)友們也紛紛點(diǎn)贊。
沒錯(cuò),這位手語主播并非真人,而是一名來自百度智能云的虛擬數(shù)字人。
現(xiàn)在,她已正式上崗冰雪盛會(huì),將在各類冰雪賽事中,為2780萬聽障人士提供24小時(shí)不間斷的手語服務(wù)。
雖然是初次上崗,但這位AI手語數(shù)字人的專業(yè)度不容小覷。
根據(jù)測(cè)評(píng),其手語可懂度能達(dá)到85%以上,與主流的中英、中日機(jī)器翻譯結(jié)果相差無幾。
畢竟,“臺(tái)上一分鐘,臺(tái)下十年功”,為了給聽障人士們奉上這精彩的瞬間,AI手語數(shù)字人背后的程序員們,已經(jīng)下了不少苦工。
手語數(shù)字人背后的技術(shù)挑戰(zhàn)
在聊技術(shù)之前,或許你會(huì)好奇這樣一個(gè)問題,明明有字幕,為啥體育賽事等電視節(jié)目還需要手語解說?
實(shí)際上,由于種種現(xiàn)實(shí)因素的制約,比起文字,手語對(duì)聽障人士而言更加親切,也能更快速地傳遞信息。
因此,屏幕一角的手語翻譯,對(duì)于特殊人群而言其實(shí)是一個(gè)“更加平等享受資訊”的窗口。
這也就給AI手語數(shù)字人提出了一個(gè)本質(zhì)的技術(shù)問題:如何讓聽障人士能真正看懂?dāng)?shù)字人打出的手語?
乍一看,這就是個(gè)從語音到文本,從文本到手語符號(hào),再到手語數(shù)字人動(dòng)作的一個(gè)翻譯流程,但深究其背后的技術(shù)細(xì)節(jié),就會(huì)發(fā)現(xiàn)需要克服的難點(diǎn)要比表面看上去復(fù)雜得多。
首先,語音轉(zhuǎn)手語,并不是簡(jiǎn)單地構(gòu)建一個(gè)語音到視覺的轉(zhuǎn)換模型就行。
單就語序而言,手語和自然語言之間就存在較大的差異。舉個(gè)例子,“我想回家”這樣一句話,用手語打出來的順序其實(shí)是“家 回 我想”。
并且,手語還有語言精簡(jiǎn)的特性,手語的描述會(huì)對(duì)口語進(jìn)行精簡(jiǎn)。
也就是說,如果只是生硬地把口語中的詞匯轉(zhuǎn)換成手勢(shì),再把動(dòng)作簡(jiǎn)單地連接起來,這樣打出的手語只能說是“半吊子手語”,聽障人士很難看懂。
其次,表情神態(tài)同樣是手語表達(dá)中極為重要的部分。
有時(shí)一個(gè)手勢(shì)代表好幾個(gè)意思,如果沒有表情和口型的配合,就可能產(chǎn)生誤解。
除此之外,還要考慮數(shù)據(jù)匱乏、數(shù)字人動(dòng)作靈活度欠缺等種種問題。
總而言之,想要打造一個(gè)高質(zhì)量手語數(shù)字人,既需要語音、視覺、自然語言處理等AI技術(shù)同時(shí)發(fā)力,也少不了對(duì)于聽障人士真實(shí)需求的深入調(diào)研。
所以,這一次百度智能云的程序員們是如何成功讓AI手語主播具備助力冰雪盛會(huì)的實(shí)力的?
2個(gè)月,“做難而正確的事”
研發(fā)團(tuán)隊(duì)接到手語數(shù)字人任務(wù)時(shí),距離萬眾期待的冰雪盛會(huì)已僅剩不到2個(gè)月的時(shí)間。
但就是在這種幾乎沒有時(shí)間試錯(cuò)的情況下,程序員們卻放棄了現(xiàn)成的手勢(shì)漢語語料。
正如前文所言,漢語到手勢(shì)的簡(jiǎn)單轉(zhuǎn)換在很多情況下會(huì)讓聽障觀眾產(chǎn)生理解歧義,實(shí)際效果其實(shí)是大打折扣的。
為了“治本”,盡管面臨數(shù)據(jù)需要從頭采集標(biāo)注、額外增加的成本難以預(yù)估的壓力,百度智能云團(tuán)隊(duì)還是果斷選擇了自然手語語料:
做就做難而正確的事。
為此,百度智能云團(tuán)隊(duì)聯(lián)合天津理工大學(xué),組織了上百位聽障學(xué)生做語料的數(shù)據(jù)標(biāo)注,同時(shí)邀請(qǐng)手語語言學(xué)專家、特殊教育專家等專業(yè)人士,將大量行業(yè)知識(shí)融合到模型效果和聽障人群的體驗(yàn)當(dāng)中。
打下了高質(zhì)量的基礎(chǔ),接下來,就是一步步解決手語數(shù)字人“聽得清”、“會(huì)翻譯”、“會(huì)表達(dá)”三個(gè)問題。
“聽得清”,要靠語音識(shí)別模型。
ASR語音識(shí)別方面,在NLP、語音領(lǐng)域有著逾10年積累的百度本身已具備成熟的解決方案,識(shí)別準(zhǔn)確率能達(dá)到98%以上,還能hold住中英文混雜、生僻字、方言等特殊場(chǎng)景。
“會(huì)翻譯”,用上的就是手語翻譯模型。
與一般的語言翻譯模型不同,由于前文提到的手語表達(dá)中語言精簡(jiǎn)等特性,手語翻譯模型需要著重考慮精準(zhǔn)度和精簡(jiǎn)度。
其中精準(zhǔn)度影響到數(shù)字人手勢(shì)的精準(zhǔn),而精簡(jiǎn)度會(huì)影響傳遞信息的及時(shí)性。
在高質(zhì)量數(shù)據(jù)資源和百度多年積累的神經(jīng)網(wǎng)絡(luò)翻譯技術(shù)的基礎(chǔ)上,研發(fā)團(tuán)隊(duì)設(shè)計(jì)了從中文文本到手語符號(hào)的翻譯方法。
通過大規(guī)模知識(shí)學(xué)習(xí)、中間件控制等手段,研發(fā)團(tuán)隊(duì)成功在保障翻譯準(zhǔn)確率的情況下縮減了譯文長(zhǎng)度,實(shí)現(xiàn)了翻譯效果和時(shí)延的平衡。
2個(gè)月的時(shí)間里,經(jīng)過6次大的版本迭代,這一手語翻譯模型可懂度最終達(dá)到了85%以上,媲美主流的中英、中日等方向的機(jī)器翻譯結(jié)果,達(dá)到了業(yè)界領(lǐng)先水平。
最后,數(shù)字人的表達(dá)靠的是動(dòng)作生成模型,包括手勢(shì)、口型、表情的生成。
針對(duì)手勢(shì)問題,研發(fā)團(tuán)隊(duì)運(yùn)用人體動(dòng)作視覺識(shí)別技術(shù),讓AI學(xué)習(xí)手語視頻,將其中的二維骨骼點(diǎn)轉(zhuǎn)化為驅(qū)動(dòng)三維數(shù)字人的手語動(dòng)作,并且能夠精確到每一根手指。
基于此,百度智能云已經(jīng)建立起擁有近1萬個(gè)手語動(dòng)作的強(qiáng)大動(dòng)作庫。
而在口型和表情方面,研發(fā)團(tuán)隊(duì)運(yùn)用首創(chuàng)的4D掃描數(shù)據(jù)進(jìn)行訓(xùn)練,對(duì)表情和口型進(jìn)行精準(zhǔn)校正,通過超10萬個(gè)全身多邊形面、超1萬個(gè)臉部面、超240個(gè)面部表情行變基、超100個(gè)身體骨骼界限,賦予了手語數(shù)字人自然生動(dòng)的表情。
wink、吹泡泡都不在話下:
總體上,口型生成的準(zhǔn)確度能夠超過98.5%。
“降低成本是虛擬數(shù)字人發(fā)展的關(guān)鍵”
說到這里,想必你也看出來了,百度智能云的程序員們能夠大膽挑戰(zhàn)更有難度的技術(shù)路線,與百度本身長(zhǎng)期積累的AI技術(shù)、數(shù)字人技術(shù)不無關(guān)系。
實(shí)際上,在數(shù)字人的生產(chǎn)上,百度已經(jīng)把上述人像驅(qū)動(dòng)技術(shù)、智能對(duì)話技術(shù)、語音交互技術(shù),以及智能推薦技術(shù)匯總到了其平臺(tái)級(jí)產(chǎn)品——百度智能云曦靈平臺(tái)上。百度智能云曦靈集數(shù)字人生產(chǎn)、內(nèi)容創(chuàng)作、業(yè)務(wù)配置服務(wù)為一體,無論是虛擬員工這樣的服務(wù)型數(shù)字人,還是虛擬主持人、虛擬偶像這樣的演藝型數(shù)字人,都能基于該平臺(tái)一站式打造,甚至是“一句話生成”。
此前與馬斯克媽媽梅耶·馬斯克對(duì)話的百度集團(tuán)數(shù)字人“希加加”:
能夠彈琴獻(xiàn)唱的“龔俊數(shù)字人”:
就都是基于百度智能云曦靈打造。
目前,百度智能云曦靈平臺(tái)已經(jīng)推出了3D寫實(shí)、2D寫實(shí)、3D卡通三條生產(chǎn)線,實(shí)現(xiàn)了****/保險(xiǎn)、運(yùn)營(yíng)商、媒體/廣電、互娛/品牌商、MCN/藝人經(jīng)紀(jì)等全場(chǎng)景覆蓋,一站式打造“能聽、能說、能理解、可互動(dòng)”的數(shù)字人。
這就大大加速了一個(gè)數(shù)字人從設(shè)計(jì)到落地的流程,有效降低了數(shù)字人生產(chǎn)的成本,為數(shù)字人的規(guī)模化應(yīng)用打下了基礎(chǔ)。
百度集團(tuán)副總裁吳甜在參加央視《對(duì)話》節(jié)目錄制時(shí)還談到這樣的觀點(diǎn):
降低成本是虛擬數(shù)字人發(fā)展的關(guān)鍵之一。百度希望通過領(lǐng)先的全棧AI能力,把虛擬人的生產(chǎn)周期縮短到小時(shí)級(jí)別,降低生產(chǎn)成本,并驅(qū)動(dòng)生成內(nèi)容。
科技讓世界更公平
嚴(yán)格說起來,數(shù)字人并不算是全新的事物。
在過去幾年中,隨著AI等技術(shù)的成熟,以及短視頻、直播等新興媒介需求的涌現(xiàn),數(shù)字人正不斷涌現(xiàn)出新的面貌和新的應(yīng)用模式。
而從被提出到今天的廣泛落地,“數(shù)字人”這一科技熱詞,其實(shí)也已經(jīng)歷了好幾個(gè)認(rèn)知階段。
第一階段,大家探討的重點(diǎn)是數(shù)字人“真不真”,這是新技術(shù)之初見。
當(dāng)技術(shù)落地的嘗試開始展開,第二階段圍繞“危機(jī)感”的討論便隨之而來:人們開始關(guān)注數(shù)字人是否會(huì)侵占掉人類的工作機(jī)會(huì)。
現(xiàn)在,或許我們對(duì)數(shù)字人的認(rèn)知,又到了進(jìn)入新階段的時(shí)候。
正如AI手語數(shù)字人讓冰雪賽事的魅力觸達(dá)到了更多人群,越來越多的落地案例正在說明,數(shù)字人作為一種提升服務(wù)效率的方式,并非在“替代”人類工作,而是在填補(bǔ)人力所不能及的空白。
這也正是科技背后真正的價(jià)值——并非取而代之,而是幫助人、做人所不能之事。而當(dāng)百度這樣的科技企業(yè),致力于降低技術(shù)的成本、加速技術(shù)的落地,體現(xiàn)出的亦正是科技工作者的社會(huì)責(zé)任擔(dān)當(dāng)。
從這個(gè)角度來講,前沿技術(shù)儼然不再冰冷和遙遠(yuǎn),而是真正在讓人類共同體變得更加公平和美好。
你覺得呢?
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。
電子負(fù)載相關(guān)文章:電子負(fù)載原理