微軟翻譯突破百種語(yǔ)言和方言大關(guān)
編者按:“ ??????? ???、?? ????、???????????? 、?????????”,你知道這句話里有幾種語(yǔ)言,它們又是什么意思么?其實(shí)這只是我國(guó)少數(shù)民族語(yǔ)言的一部分,依次為維吾爾語(yǔ)、蒙古語(yǔ)、哈薩克語(yǔ)和藏語(yǔ)的“你好”之意。這類(lèi)文字我們?cè)诼眯兄幸矔r(shí)常能見(jiàn)到,比如,故宮里就有不少牌匾上有漢文、滿(mǎn)文和蒙文,只因大家看不懂,而常常被忽略。近日,微軟翻譯再添12種新語(yǔ)言和方言,其中就包括由微軟亞洲研究院提供技術(shù)支持的維語(yǔ)、 蒙語(yǔ)、藏語(yǔ)、土庫(kù)曼語(yǔ)、烏茲別克語(yǔ)等。目前,微軟翻譯共支持103種語(yǔ)言,讓你輕松實(shí)現(xiàn)跨國(guó)、跨地區(qū)交流無(wú)障礙。
近日,微軟 Azure 認(rèn)知服務(wù)翻譯的語(yǔ)言列表又添加了12種全新的語(yǔ)種和方言,微軟翻譯可以提供翻譯支持的語(yǔ)言總數(shù)已達(dá)103種!
新增語(yǔ)言的母語(yǔ)使用者合計(jì)達(dá)8,460萬(wàn)人,包括巴什基爾語(yǔ)、迪維希語(yǔ)、格魯吉亞語(yǔ)、吉爾吉斯語(yǔ)、馬其頓語(yǔ)、蒙古語(yǔ)(西里爾文字)、蒙古語(yǔ)(傳統(tǒng)文字)、韃靼語(yǔ)、藏語(yǔ)、土庫(kù)曼語(yǔ)、維吾爾語(yǔ)和烏茲別克語(yǔ)(拉丁文字)。微軟亞洲研究院為其中的七種語(yǔ)言和方言——迪維希語(yǔ)、蒙古語(yǔ)(西里爾文字)、蒙古語(yǔ)(傳統(tǒng)文字)、藏語(yǔ)、土庫(kù)曼語(yǔ)、維吾爾語(yǔ)和烏茲別克語(yǔ)(拉丁文字),提供了核心技術(shù)支持。目前最新版的微軟翻譯可以在全球56.6億人所使用的不同母語(yǔ)之間實(shí)現(xiàn)文本文檔的互譯。
打破語(yǔ)言障礙:實(shí)現(xiàn)100+語(yǔ)言翻譯的自由
微軟翻譯的核心使命是打破人與人之間的文化和語(yǔ)言障礙。為實(shí)現(xiàn)這一目標(biāo),微軟的研究員們不斷為這項(xiàng)服務(wù)增添新的語(yǔ)種和方言,同時(shí)確保所支持語(yǔ)言的機(jī)器翻譯達(dá)到并超過(guò)我們?cè)O(shè)置的高質(zhì)量標(biāo)準(zhǔn)。
微軟研究院在20多年前首次開(kāi)發(fā)出了機(jī)器翻譯系統(tǒng)。2003年,該機(jī)器翻譯系統(tǒng)將整個(gè)微軟知識(shí)庫(kù)(Microsoft Knowledge Base)從英文翻譯成了西班牙文、法文、德文、日文,并在微軟網(wǎng)站上發(fā)布了譯文版,使之成為當(dāng)時(shí)互聯(lián)網(wǎng)上規(guī)模最大、面向公眾開(kāi)放的初始機(jī)器翻譯應(yīng)用。
此后,微軟以統(tǒng)計(jì)機(jī)器翻譯(SMT)模型為基礎(chǔ),對(duì)系統(tǒng)做了進(jìn)一步改良,并通過(guò) Windows Live Translator、Translator API 以及作為微軟 Office 應(yīng)用程序的內(nèi)置功能,向用戶(hù)提供翻譯服務(wù)。
多年來(lái),微軟已將世界上諸多常用的語(yǔ)言和方言添加到了微軟翻譯的系統(tǒng)中。而隨著人工智能技術(shù)的發(fā)展,微軟研究院開(kāi)始采用神經(jīng)機(jī)器翻譯(NMT)技術(shù),將所有機(jī)器翻譯系統(tǒng)遷移到了基于 Transformer 架構(gòu)的神經(jīng)模型上,因此翻譯的流暢度和準(zhǔn)確性獲得了大幅提升。
引入 Transformer 架構(gòu)的 NMT 技術(shù),不僅可以利用包括單語(yǔ)語(yǔ)料數(shù)據(jù)在內(nèi)的更多數(shù)據(jù)來(lái)訓(xùn)練超大模型,提升翻譯的整體質(zhì)量,也為構(gòu)建機(jī)器翻譯模型開(kāi)辟了新的路徑,讓模型可以借助比先前更少的數(shù)據(jù)來(lái)進(jìn)行訓(xùn)練。多語(yǔ)言的 Transformer 架構(gòu)可以利用來(lái)自其他語(yǔ)言(通常屬于相同或相關(guān)的語(yǔ)系)的資料擴(kuò)充訓(xùn)練數(shù)據(jù),為低資源語(yǔ)言構(gòu)建翻譯模型。
當(dāng)全部技術(shù)都已準(zhǔn)備就緒的同時(shí),機(jī)器翻譯系統(tǒng)還必須要有一套數(shù)字化的并行文檔,其中包括目標(biāo)語(yǔ)言版本的文檔,以及另一種已納入翻譯服務(wù)的語(yǔ)言的翻譯版文檔。但對(duì)于很多小語(yǔ)種來(lái)說(shuō),這些并行文檔中的平行語(yǔ)料很難獲得。幸運(yùn)的是,微軟通過(guò)與語(yǔ)言社區(qū)的合作伙伴展開(kāi)合作,可以獲取人工翻譯的文本,收集低資源語(yǔ)言的數(shù)據(jù)。這些社區(qū)伙伴通常是在各自社區(qū)任職的志愿者,他們通過(guò)咨詢(xún)社區(qū)成員和長(zhǎng)者,不辭勞苦地收集雙語(yǔ)詞句。與社區(qū)合作伙伴的接觸始于2010年,當(dāng)時(shí)微軟與社區(qū)負(fù)責(zé)災(zāi)難響應(yīng)的人員合作,在海地發(fā)生毀滅性地震后短短10天內(nèi),就為海地克里奧爾語(yǔ)構(gòu)建了一個(gè)翻譯系統(tǒng)。從那時(shí)起,越來(lái)越多的社區(qū)伙伴加入了社群,幫助微軟創(chuàng)建了多個(gè)語(yǔ)言系統(tǒng),例如苗族語(yǔ)、烏爾都語(yǔ)、瑪雅語(yǔ)、毛利語(yǔ)和因紐特語(yǔ)等等。
盡管如此,缺少足夠的平行語(yǔ)料依然是小語(yǔ)種語(yǔ)言翻譯的最大難點(diǎn)。多年來(lái),微軟亞洲研究院承擔(dān)了多個(gè)小語(yǔ)種語(yǔ)言和方言的模型構(gòu)建工作,將新技術(shù)融入其中,幫助解決語(yǔ)料問(wèn)題。微軟亞洲研究院首席研究員秦濤表示,“基于源語(yǔ)言和目標(biāo)語(yǔ)言的平行語(yǔ)料及單語(yǔ)語(yǔ)料,我們?cè)谟?xùn)練階段將多語(yǔ)言模型與 MASS 預(yù)訓(xùn)練模型相結(jié)合,同時(shí)再利用相關(guān)大語(yǔ)種的豐富語(yǔ)料及單語(yǔ)語(yǔ)料來(lái)提升模型的翻譯質(zhì)量?!?/p>
圖 1:2016年,微軟利用神經(jīng)機(jī)器翻譯(NMT)技術(shù)提高了翻譯質(zhì)量,2019年,微軟采用 Transformer 架構(gòu)為低資源語(yǔ)言構(gòu)建了模型
Azure 認(rèn)知服務(wù)翻譯工具的技術(shù)能力
Azure 認(rèn)知服務(wù)中的翻譯工具由微軟翻譯提供支持,旨在幫助企業(yè)擴(kuò)大其全球影響力,讓他們能夠快速、可靠并以合理的成本跨越語(yǔ)言障礙,用客戶(hù)的母語(yǔ)與之進(jìn)行合作、交流并提供內(nèi)容服務(wù)。當(dāng)然,這項(xiàng)服務(wù)還能幫助企業(yè)內(nèi)部來(lái)自不同國(guó)家的員工在溝通時(shí)打破語(yǔ)言障礙。
Azure 認(rèn)知服務(wù)翻譯工具將 NMT 模型納入微軟產(chǎn)品中,通過(guò)文本翻譯和文檔翻譯 API,為用戶(hù)提供服務(wù),將純文本和復(fù)雜的文檔從一種語(yǔ)言翻譯成另一種語(yǔ)言。Azure 認(rèn)知服務(wù)翻譯工具還包含自定義翻譯服務(wù),該服務(wù)允許用戶(hù)使用自備翻譯存儲(chǔ)器構(gòu)建自定義的機(jī)器翻譯模型,用于翻譯他們?cè)诟髯詷I(yè)務(wù)及相關(guān)領(lǐng)域中所使用的特定術(shù)語(yǔ)。用戶(hù)可以通過(guò)文本和文檔翻譯 API 使用這些自定義機(jī)器翻譯模型。為了實(shí)現(xiàn)音頻或語(yǔ)音內(nèi)容的翻譯,Azure 認(rèn)知服務(wù)的翻譯工具和語(yǔ)音工具緊密集成,并通過(guò) Azure 語(yǔ)音 SDK 為語(yǔ)音翻譯和多設(shè)備對(duì)話提供支持。
Azure 認(rèn)知服務(wù)翻譯工具及其支持的產(chǎn)品被用戶(hù)廣泛采用,用于網(wǎng)站內(nèi)容和 App 的本地化、為業(yè)務(wù)分析的對(duì)話和內(nèi)容及法證調(diào)查的內(nèi)容提供翻譯等諸多應(yīng)用場(chǎng)景。該服務(wù)還無(wú)縫集成到微軟的許多產(chǎn)品中,每個(gè)人都可以隨時(shí)通過(guò)他們所選擇的語(yǔ)言來(lái)使用和創(chuàng)建內(nèi)容。集成了翻譯服務(wù)的微軟產(chǎn)品包括 Microsoft 365 中的文本和文檔翻譯、微軟 Edge 瀏覽器中的網(wǎng)頁(yè)翻譯、SwiftKey 中的消息翻譯、LinkedIn 中的用戶(hù)提交內(nèi)容翻譯、微軟翻譯 App 中的多語(yǔ)言對(duì)話翻譯等等。
消除語(yǔ)言障礙是承諾,但仍任重道遠(yuǎn)
如果一個(gè)人并不能掌握承載特定信息的語(yǔ)言,那么技術(shù)如何才能幫助他獲取信息呢?在一個(gè)不斷縮小的世界中,人們又將如何更了解和欣賞彼此的文化?語(yǔ)言障礙阻礙了人們獲取某些重要信息,而這也是促使微軟致力于打破這些障礙的動(dòng)因之一。將文本、文檔、語(yǔ)音和圖像從一種語(yǔ)言翻譯成另一種語(yǔ)言,將為實(shí)現(xiàn)這一目標(biāo)發(fā)揮重要作用。
微軟亞洲研究院高級(jí)研究員張冬冬認(rèn)為,“語(yǔ)言作為文化的載體,其翻譯任務(wù)一方面促進(jìn)了各種文化的交流,另一方面也在保護(hù)、復(fù)原那些正在消失或已經(jīng)消失的語(yǔ)言中所蘊(yùn)含的人類(lèi)知識(shí)、智慧文明。我們除了不斷提升主流語(yǔ)言機(jī)器翻譯質(zhì)量讓其接近人工翻譯水平外,同時(shí)也在考慮低資源和零資源語(yǔ)言的翻譯問(wèn)題。機(jī)器翻譯技術(shù)是解決跨國(guó)家、跨地區(qū)、跨民族無(wú)障礙交流、文化傳承等問(wèn)題的重要手段?!?/p>
事實(shí)上,當(dāng)翻譯語(yǔ)言覆蓋面達(dá)到世界語(yǔ)言總數(shù)的百分之一時(shí),微軟就已經(jīng)為全球72%的人口打破了語(yǔ)言障礙。微軟的科研和技術(shù)人員在感到自豪的同時(shí),也將以謙卑的態(tài)度繼續(xù)語(yǔ)言翻譯的探索與研究。未來(lái),微軟將繼續(xù)滿(mǎn)懷激情地改進(jìn)服務(wù)和解決方案,提升質(zhì)量,讓每個(gè)人都能獲取來(lái)自世界各地的內(nèi)容,消除語(yǔ)言差異帶來(lái)的分歧,同時(shí)保持對(duì)文化、傳統(tǒng)和歸屬感的尊重。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。