當(dāng)被大模型輸入技術(shù)內(nèi)功，數(shù)字人「文畫兩開花」，還在手機(jī)里隨時陪你聊天

發(fā)布人：機(jī)器之心時間：2022-06-22 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

能互動、擅寫作、會作畫，百度數(shù)字人度曉曉應(yīng)了這樣一句話，「天空才是她的極限」。

這年頭，數(shù)字人直播帶貨、虛擬主播、****客服，這些應(yīng)用場景已經(jīng)不再是多稀奇的事了。從時尚娛樂到文化商業(yè)，數(shù)字人迎來了全面開花。國內(nèi)大廠也紛紛抓住數(shù)字人這個發(fā)展機(jī)遇，推出花樣百出的娛樂和實用性數(shù)字人產(chǎn)品，致力于讓數(shù)字人更智能化更服務(wù)化。
百度 2020 年 9 月推出的國內(nèi)首個可交互虛擬偶像度曉曉，最近用她的智能互動、寫作和繪畫表現(xiàn)讓人們見識到了 AI 大模型的能力。
6 月 14 日，一段由百度打造的度曉曉和龔俊數(shù)字人聯(lián)袂出演的《每分每秒每天》歌曲 MV 刷屏全網(wǎng)，并登上各大音樂電臺、多個音樂排行榜，播放量更是超過 1300 多萬。與一般通過人工換聲實現(xiàn)虛擬人唱歌不同，度曉曉參與演唱的這首歌從作詞到編曲都是由 AI「操刀」，成為國內(nèi)首個虛擬偶像 AIGC（AI generated content, 人工智能創(chuàng)造內(nèi)容）歌曲。
度曉曉變身為 AI 唱作人，而在唱歌的表象下，歌詞中「每分每秒每天，我都在這里；等著你，來邀請，我隨時給你回應(yīng) …… 」點出了度曉曉更深層次的身份 —— 入端百度 APP、每分每秒每天陪伴人類的虛擬助手。度曉曉為用戶提供全程 AI 陪聊功能，升級搜索體驗，情感聊天、定外賣、寄快遞、講故事等，幾乎你能想到的需求都可以一呼即達(dá)。
如你所見，度曉曉實現(xiàn)自然的多輪聊天互動，在對話中識別用戶的搜索和服務(wù)需求，其中多輪聊天能力由百度文心大模型提供強(qiáng)大的底層技術(shù)支持，尤其是全球首個基于隱空間的生成式開放域?qū)υ挻竽Ｐ臀男?PLATO。

除了 APP 端更擬人的智能對話之外，百度文心大模型還一度讓度曉曉變身為高考作文寫手和 AI 畫家，分別要歸功于融合任務(wù)相關(guān)知識的千億大模型 ERNIE 3.0 Zeus 和跨模態(tài)圖文生成模型 ERNIE-ViLG。
6 月 7 日高考語文考試之后，度曉曉化身數(shù)字人考生挑戰(zhàn)全國新高考 Ⅰ 卷作文題《本手、妙手、俗手》，40 秒的時間內(nèi)完成了 40 篇高考作文，平均 1 秒生成 1 篇，寫作速度遠(yuǎn)超了人類。那么度曉曉生成的作文能滿足高考寫作的審題、邏輯和創(chuàng)意等要求嗎？
這一擔(dān)心也被證明是多余的，曾任北京高考語文閱卷組組長的申怡為她隨機(jī)生成的一篇作文打出了 48 分的成績（滿分 60 分），從歷年統(tǒng)計數(shù)據(jù)來看，這個分?jǐn)?shù)超過了 75% 的人類考生。稱呼她一聲寫作高手絕不為過。

度曉曉生成的高考作文示例。
給出一段話就能輸出一幅圖，這種神奇的跨模態(tài)能力成為近年來各大 AI 公司追捧的熱點，如英偉達(dá)的 GauGAN 和 GauGAN2、OpenAI 的 DALL·E 和 DALL·E 2。度曉曉數(shù)字人也擁有了這種繪畫能力，完成的 AI 畫作甚至得到了專業(yè)人士的認(rèn)可。
6 月初，度曉曉創(chuàng)作的「****」系列數(shù)字藏品上線百度 APP 開啟限時搶購，該系列共有 4 幅畫作。作為國內(nèi)首個數(shù)字人創(chuàng)作的藝術(shù)數(shù)字藏品，這些畫作在 24 小時內(nèi)就賣出了 17 萬元。更令人想不到的是，每幅畫作的創(chuàng)作時間僅需幾十秒，這種畫畫速度大概會令通常仔細(xì)斟酌、耗時很長的專業(yè)畫家羨慕吧。
隨后，度曉曉帶著她的畫作現(xiàn)身西安美術(shù)學(xué)院 2022 年「時空留痕?****西美」本科畢業(yè)展，在自己的專屬展區(qū)展出了此前制成數(shù)字藏品的四幅作品以及兩幅有關(guān)西安大雁塔的本地特色作品。這些畫作的水平又如何呢？西安美院教授評價稱「已經(jīng)達(dá)到了本科美術(shù)生的基本要求」。

度曉曉化身 AI 美術(shù)生，開了自己的專屬展區(qū)。
度曉曉出圈的背后 —— 百度 AI 技術(shù)賦予她內(nèi)涵
但應(yīng)看到，數(shù)字人的背后少不了技術(shù)的支撐，百度文心大模型為度曉曉的一系列外在能力展現(xiàn)提供了技術(shù)內(nèi)核。在 5 月 20 日的 WAVE SUMMIT 2022 深度學(xué)習(xí)開發(fā)者峰會上，文心大模型迎來了自發(fā)布以來的最大一次升級，新增 10 個大模型，包括基礎(chǔ)通用大模型、任務(wù)大模型、行業(yè)大模型三大類，比如基礎(chǔ) NLP 大模型中新增的融合任務(wù)相關(guān)知識的千億大模型 ERNIE 3.0 Zeus。

同屬文心 NLP 大模型范疇的全球首個基于隱空間的生成式開放域?qū)υ挻竽Ｐ臀男?PLATO ，保證了度曉曉在百度 APP 端不再尬聊。
作為百度研發(fā)的具有大規(guī)模參數(shù)的中英文對話預(yù)訓(xùn)練生成模型，文心 PLATO 歷經(jīng)多個版本。2019 年推出了通用領(lǐng)域的對話生成預(yù)訓(xùn)練模型 PLATO，在 NLP 領(lǐng)域國際頂會 ACL 2020 上正式展示；到 2020 年升級為 PLATO-2，涵蓋中英文版本，實現(xiàn)了開放域話題深度暢聊?，F(xiàn)在升級到了百億參數(shù)的文心 PLATO- XL 版本，在開放域?qū)υ捫Ч系玫搅顺掷m(xù)的提升。
既然說到了文心 PLATO，那我們就先來看在它的加持下，度曉曉如何在百度 APP 端實現(xiàn)接近真人水平的多輪流暢對話以及更擬人的智能化搜索？度曉曉和龔俊數(shù)字人目前實現(xiàn)了四大功能，即個性化聊天陪伴、輔助搜索、服務(wù)分發(fā)和互動玩法。其中個性化聊天可以實現(xiàn)多輪對話以及人設(shè)定制化能力，這也正是文心 PLATO 大模型的用武之地。
首先，為了學(xué)習(xí)通用對話生成能力，文心 PLATO 采用了完全生成方式，并根據(jù)多輪對話上下文（Context）生成對話回復(fù)（Response），在大規(guī)模對話語料上進(jìn)行預(yù)訓(xùn)練。PLATO 只有 8.3M 的訓(xùn)練樣本；PLATO-2 的英文和中文訓(xùn)練集樣本分別為 684M 和 1.2B，模型規(guī)模最高達(dá)到了 1.6B；到了 PLATO-XL，英文和中文訓(xùn)練集樣本分別 811M 和 1.2B，模型規(guī)模更是來到了 11B。
預(yù)訓(xùn)練時，針對開放域中涉及上下文的對話理解和回復(fù)的對話生成，文心 PLATO 采用編碼器和****共享參數(shù)的 Unified Transformer 作為基礎(chǔ)框架，使對話理解和對話生成進(jìn)行充分的信息融合交互。此外，考慮到對話答復(fù)與場景、意圖等對話情景信息相關(guān)，相同上下文不同的情境會對應(yīng)不同的答復(fù)（即一對多關(guān)系），而情境信息又難以用顯示文本進(jìn)行表示，文心 PLATO 又提出用隱變量因子表示情境信息，如下圖所示。
在大規(guī)模預(yù)訓(xùn)練樣本和預(yù)訓(xùn)練技術(shù)創(chuàng)新的基礎(chǔ)上，文心 PLATO 為度曉曉帶來了多輪流暢的開放域?qū)υ捘芰?/strong>。

文心 PLATO 的模型架構(gòu)。
人工智能發(fā)展至今，數(shù)據(jù)價值正在不斷得到體現(xiàn)和提升，可以說，數(shù)據(jù)即 “石油”。同樣，在開放域?qū)υ捴校哔|(zhì)量的對話語料也同樣重要，對模型訓(xùn)練起著重要作用，但我們都知道，高質(zhì)量的對話語料少之又少，另外語料所依附的人設(shè)信息千差萬別，導(dǎo)致模型在效果上參差不齊。
如何賦予對話機(jī)器人穩(wěn)定一致的人設(shè)一直是對話技術(shù)領(lǐng)域面臨的重要挑戰(zhàn)，文心 PLATO 在預(yù)訓(xùn)練對話模型的基礎(chǔ)上進(jìn)一步學(xué)習(xí)不同畫像信息下的對話生成能力，使模型具備了圍繞人設(shè)的定制化對話能力，還能在答復(fù)過程中始終保持人設(shè)的一致性。
這一能力加持到度曉曉身上，她便更加彰顯了自己的人設(shè)或個性化 IP。用一句流行的話說，度曉曉的人設(shè)要保持一致。同時，在對話時，度曉曉充分考慮用戶上下文的聯(lián)系，生成的回復(fù)始終不脫離語境，像人與人聊天那樣不偏題。

百度 APP 端內(nèi)度曉曉的多輪聊天能力展示。
最后，即使度曉曉已經(jīng)具備了一定的知識對話能力，但受限于預(yù)訓(xùn)練語料存在的知識稀疏性，生成回復(fù)中仍然會有不知如何答復(fù)或答非所問的情況出現(xiàn)。
針對這一問題，文心 PLATO 提出了問答生成任務(wù) + 預(yù)訓(xùn)練對話任務(wù)的連續(xù)預(yù)訓(xùn)練策略，將海量問答知識內(nèi)化到模型參數(shù)中，使模型及其支持的度曉曉在知識問答時更準(zhǔn)確、更全面。
這么一套技術(shù)組合拳下來，文心 PLATO 成就了現(xiàn)在的度曉曉， 更擬人化、更具針對性、更貼合用戶真實需求成為了她在百度 APP 內(nèi)的標(biāo)簽。她可以與用戶進(jìn)行語境連續(xù)的多輪自然對話，支持文本、圖片、表情包、音頻等多樣化聊天形態(tài)；當(dāng)在對話中識別出用戶的搜索意圖時，要么直接回復(fù)答案要么呈現(xiàn) APP 內(nèi)相關(guān)問題的搜索結(jié)果；用戶想要看電影、訂車****時，她也會直接跳轉(zhuǎn)至相應(yīng)服務(wù)界面。

百度 APP 端內(nèi)的多任務(wù)小能手度曉曉。
而此前，度曉曉 40 秒完成 40 篇高考語言作文的表現(xiàn)，背后利用的是文心大模型中的 NLP 千億大模型 ERNIE 3.0 Zeus。它是知識增強(qiáng)大模型 ERNIE 3.0 系列模型的最新升級，更在國內(nèi)首個開放了 API 調(diào)用。
在訓(xùn)練時，除了從海量無監(jiān)督文本數(shù)據(jù)和百度知識圖譜的學(xué)習(xí)之外，還針對上百種不同形式的任務(wù)數(shù)據(jù)進(jìn)行持續(xù)學(xué)習(xí)，增強(qiáng)了模型效果，顯著提升了在自由問答、信息抽取和情感分析等下游各類 NLP 任務(wù)上的零樣本 / 小樣本學(xué)習(xí)能力。

ERNIE 3.0 Zeus 大模型概覽。
對于此次高考寫作挑戰(zhàn)，度曉曉一方面具有數(shù)據(jù)「底氣」。得益于 ERNIE 3.0 Zeus 的千億參數(shù)，度曉曉在寫作訓(xùn)練時接受了大量風(fēng)格各異的高考作文樣本數(shù)據(jù)，在不斷的吸收消化過程中，培養(yǎng)出了自己的寫作風(fēng)格以及對于高考作文的需求認(rèn)知，在實戰(zhàn)中「應(yīng)題而作」。
另一方面，在充足、多樣化高考作文樣本數(shù)據(jù)的基礎(chǔ)上，度曉曉進(jìn)一步確立了一整套自己的寫作套路。在扣題立意方面，她始終不離給定的作文題目，圍繞主題組織文字，輸出支持該主題的積極正向觀點；在行文結(jié)構(gòu)上，面對 800 字的長文本生成要求，她能保持整體文章脈絡(luò)清晰、邏輯完整，并在開篇和結(jié)尾雙重扣題；在寫作技巧上，歷史典故、古詩詞拈手就來，還學(xué)會了排比、比喻等修辭手法，文章可讀性大大提升。

在 ERNIE 3.0 Zeus 的賦能下，度曉曉就像是眾多見多識廣的「尖子生」、「學(xué)霸」的集合體，理解能力和創(chuàng)作能力更強(qiáng)，寫出高分作文也就不足為奇了。
除了以上 NLP 領(lǐng)域的智能對話和 AI 寫作，跨模態(tài)也是文心大模型深耕已久的領(lǐng)域。度曉曉引起關(guān)注的「****」系列畫作采用的正是文心大模型跨模態(tài)圖文生成大模型 ERNIE-ViLG，它不僅構(gòu)建了包含 1.45 億高質(zhì)量中文文本 - 圖像對的大規(guī)?？缒B(tài)對齊數(shù)據(jù)集，而且基于飛槳平臺在該數(shù)據(jù)集上訓(xùn)練了百億參數(shù)模型，在文本生成圖像、圖像描述等跨模態(tài)生成任務(wù)具有顯著效果。

ERNIE-ViLG 大模型的流程圖，其中文本生成圖像模型中的兩階段訓(xùn)練和端到端方法是關(guān)鍵。
與上述高考寫作一樣，得益于 1.45 億高質(zhì)量中文文本 - 圖像對，ERNIE-ViLG 學(xué)會了類似于人類的作畫過程。整體可以分為兩步，大模型首先要理解輸入給自己的文字的含義，并結(jié)合背景知識擴(kuò)展更豐富的信息，找到契合的元素和作畫的靈感；然后構(gòu)思生成初步的草稿圖，再不斷優(yōu)化填充，從而逐步生成符合主題的高質(zhì)量圖片。
因此，對于使用了 ERNIE-ViLG 的度曉曉，僅僅輸入一段話，便能在幾十秒內(nèi)做出一幅畫作。她不僅可以根據(jù)不同的輸入文字需求畫出對應(yīng)的場景，還在畫作風(fēng)格上博采眾長，能夠 hold 住水彩、油畫、中國畫、印象派等多種風(fēng)格。

度曉曉生成的六幅畫作。
這些畫作具有充滿想象力的構(gòu)圖、流暢的筆觸和豐富的色彩，尤其第一幅大雁塔畫作，遠(yuǎn)處山峰縹緲，落日金輝，近處大慈恩寺佛塔高聳，大雁略過，意境頗為深遠(yuǎn)。如果事先不告訴你，你大概猜不出它們是由度曉曉創(chuàng)作的。這就是 AI 的神奇之處。
全新內(nèi)容生產(chǎn)方式 ——AIGC
從對話到寫作、作畫，度曉曉儼然成為了數(shù)字人中的「多面手」。一方面，在百度文心大模型整合的多模態(tài)交互、3D 建模、機(jī)器翻譯、語音識別等多項技術(shù)的助力下，度曉曉已經(jīng)在百度 APP 端內(nèi)實現(xiàn)了生動擬人智能的互動交流。另一方面，由于文心大模型超強(qiáng)的理解和生成能力，度曉曉的創(chuàng)作能力被充分地挖掘和展現(xiàn)出來。
可以這樣說，此時的度曉曉已經(jīng)脫離了傳統(tǒng)意義上的 CG 數(shù)字人，有了「內(nèi)涵」，而這些恰好契合了當(dāng)下備受關(guān)注的新型內(nèi)容生產(chǎn)方式 ——AIGC，即通過人工智能技術(shù)自動生產(chǎn)內(nèi)容。繼 UGC、PGC 之后，大模型賦能下的 AIGC 已經(jīng)成為了過去一年來百度 AI 技術(shù)加速落地的著陸點。
不僅如此，度曉曉近來展現(xiàn)的編曲、互動交流、寫作和作畫，都只是百度大模型技術(shù)支撐下在 AIGC 層面的牛刀小試。隨著底層 AI 大模型技術(shù)的不斷完善，AIGC 的可用性和適用性勢必會迎來提升和擴(kuò)展，更多內(nèi)容生產(chǎn)領(lǐng)域會被發(fā)掘出來。
像度曉曉這樣的數(shù)字人，落地場景也就不再局限于單一的端內(nèi)互動或圖文創(chuàng)作，未來的舞臺可以遍布影視、金融、文旅等各個領(lǐng)域，「天空才是她的極限」。
讓大模型不再流于參數(shù)，終究還是要落地，實現(xiàn)應(yīng)用價值
在近年來深度學(xué)習(xí)領(lǐng)域掀起這波「練大模型」潮流之際，百度持續(xù)發(fā)力文心大模型也是順勢而為，力爭在 AI 巨頭的競爭中始終保持領(lǐng)先優(yōu)勢。就之前的趨勢而言，追逐參數(shù)的多、模型的大似乎在國內(nèi)外巨頭們之間形成了一種默契。
從 GPT-3 開始，千億、萬億級大模型紛至沓來，如國外谷歌 1.6 萬億參數(shù)大模型 Switch Transformer、微軟聯(lián)合英偉達(dá)的 5300 億參數(shù)模型 MT-NLG，國內(nèi)浪潮 2457 億參數(shù)單體模型源 1.0、阿里達(dá)摩院 10 萬億參數(shù)多模態(tài)大模型 M6。
慢慢地，當(dāng)堆參數(shù)及其帶來的巨額訓(xùn)練成本不再那么吸引 AI 巨頭們時，如何使自身大模型更廣泛地落地成為了他們新的目標(biāo)。作為從 2019 年就開始積累預(yù)訓(xùn)練技術(shù)和大模型的 AI 頭雁，百度在探索大模型過程中修煉了自己的武功秘訣 —— 知識增強(qiáng)。
2021 年 12 月，百度發(fā)布全球首個知識增強(qiáng)千億大模型鵬城 - 百度?文心發(fā)布，它的參數(shù)量達(dá)到了 2600 億，是一個融合了 NLP 和 NLG 的全能模型。當(dāng)時，百度產(chǎn)業(yè)級知識增強(qiáng)大模型文心全景圖首次亮相。
今年 5 月的 Wave Summit 峰會上，百度聚焦「前沿大模型技術(shù)如何匹配真實場景中的方方面面要求」這一問題，提出了大模型產(chǎn)業(yè)落地的三個關(guān)鍵路徑，包括更適配應(yīng)用場景的模型體系、更有效的工具和方法以及更開放的生態(tài)。方方面面無不呼應(yīng)著落地。
同時，文心大模型除了迎來新成員之外，還可以通過百度飛槳的一系列大模型開發(fā)套件、大模型API和集成文心大模型的飛槳企業(yè)版EasyDL和BML開發(fā)平臺，全面釋放使用效能，進(jìn)一步降低應(yīng)用門檻。在生態(tài)和社區(qū)層面，構(gòu)建文心?旸谷社區(qū)，將大模型能力開放給普通開發(fā)者，人人皆可觸碰 AI 的魅力。文心大模型的個人、企業(yè)開發(fā)者數(shù)量已超過 6 萬人。

文心?旸谷社區(qū)地址：https://wenxin.baidu.com/younger
全新升級的文心大模型在知識增強(qiáng)和產(chǎn)業(yè)級這兩方面得到了進(jìn)一步加強(qiáng)，10 個大模型新成員中的國網(wǎng) - 百度?文心和浦發(fā) - 百度?文心就分別將文心大模型的能力輸入到了能源電力行業(yè)和金融服務(wù)行業(yè)，這也預(yù)示著文心大模型與行業(yè)的聯(lián)系越來越緊密。
目前，以知識增強(qiáng)和產(chǎn)業(yè)級為指導(dǎo)的文心大模型已經(jīng)逐漸在百度內(nèi)外「兌現(xiàn)」了自己的能力。
在百度內(nèi)部，搜索、信息流、百度地圖等場景中可以看到文心大模型的身影，如上文在百度 APP 端智能互動的度曉曉以及小度智能屏等；在百度外部，文心大模型在工業(yè)、能源、金融、教育、通信、媒體、醫(yī)療等各行各業(yè)都有了實戰(zhàn)場地，如工業(yè)領(lǐng)域的零部件質(zhì)量檢測、金融行業(yè)的合同信息抽取等，在賦能行業(yè)中真正實現(xiàn)了自身的應(yīng)用價值。
度曉曉最近頻頻出圈，讓更多人看到了其背后文心大模型的技術(shù)內(nèi)驅(qū)力。然而，未來文心大模型的落地場景不應(yīng)受限。
一方面，文心大模型可以按照能源行業(yè)國網(wǎng) - 百度?文心和金融行業(yè)浦發(fā) - 百度?文心的模式繼續(xù)推出更多行業(yè)大模型，持續(xù)推進(jìn)大模型在各行各業(yè)的深度應(yīng)用，滿足多樣化場景任務(wù)需求。
另一方面，在 AI for Science 領(lǐng)域，文心大模型中已經(jīng)有了兩個生物計算大模型（HELIX-GEM 和 HELIX-Fold），未來同樣有可能在數(shù)學(xué)、物理、化學(xué)等更多基礎(chǔ)學(xué)科領(lǐng)域構(gòu)建專屬大模型。這樣做可以持續(xù)探索大模型在科學(xué)領(lǐng)域解決問題的巨大潛力，更全面地推進(jìn) AI 與 Science 的融合。
大模型成為行業(yè)熱點已經(jīng)有兩三年時間，在百度看來，2022 年是大模型產(chǎn)業(yè)落地的關(guān)鍵年。不管是度曉曉這一系列的創(chuàng)意應(yīng)用，還是深入到更廣泛的行業(yè)和前沿技術(shù)領(lǐng)域，百度勢必會抓住大模型發(fā)展的這一機(jī)遇，在產(chǎn)業(yè)化落地的融合創(chuàng)新之路上繼續(xù)又穩(wěn)又快地走下去。
參考鏈接：https://arxiv.org/pdf/2109.09519.pdfhttps://arxiv.org/pdf/2006.16779.pdfhttps://aclanthology.org/2020.acl-main.9.pdfhttps://www.jiqizhixin.com/articles/2022-05-20-8https://wenxin.baidu.com/wenxin/modelbasedetail/plato/https://wenxin.baidu.com/wenxin/modelbasedetail/ernie_vilg/https://wenxin.baidu.com/wenxin/modelbasedetail/ernie3_zeus/

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權(quán)請聯(lián)系工作人員刪除。

電子管相關(guān)文章:電子管原理

雙控開關(guān)相關(guān)文章:雙控開關(guān)原理

博客專欄

當(dāng)被大模型輸入技術(shù)內(nèi)功，數(shù)字人「文畫兩開花」，還在手機(jī)里隨時陪你聊天

相關(guān)推薦

技術(shù)專區(qū)

博客專欄

當(dāng)被大模型輸入技術(shù)內(nèi)功，數(shù)字人「文畫兩開花」，還在手機(jī)里隨時陪你聊天

相關(guān)推薦

技術(shù)專區(qū)

當(dāng)被大模型輸入技術(shù)內(nèi)功，數(shù)字人「文畫兩開花」，還在手機(jī)里隨時陪你聊天