當(dāng)被大模型輸入技術(shù)內(nèi)功,數(shù)字人「文畫兩開花」,還在手機(jī)里隨時陪你聊天
能互動、擅寫作、會作畫,百度數(shù)字人度曉曉應(yīng)了這樣一句話,「天空才是她的極限」。
這年頭,數(shù)字人直播帶貨、虛擬主播、****客服,這些應(yīng)用場景已經(jīng)不再是多稀奇的事了。從時尚娛樂到文化商業(yè),數(shù)字人迎來了全面開花。國內(nèi)大廠也紛紛抓住數(shù)字人這個發(fā)展機(jī)遇,推出花樣百出的娛樂和實用性數(shù)字人產(chǎn)品,致力于讓數(shù)字人更智能化更服務(wù)化。
百度 2020 年 9 月推出的國內(nèi)首個可交互虛擬偶像度曉曉,最近用她的智能互動、寫作和繪畫表現(xiàn)讓人們見識到了 AI 大模型的能力。
6 月 14 日,一段由百度打造的度曉曉和龔俊數(shù)字人聯(lián)袂出演的《每分 每秒 每天》歌曲 MV 刷屏全網(wǎng),并登上各大音樂電臺、多個音樂排行榜,播放量更是超過 1300 多萬。與一般通過人工換聲實現(xiàn)虛擬人唱歌不同,度曉曉參與演唱的這首歌從作詞到編曲都是由 AI「操刀」,成為國內(nèi)首個虛擬偶像 AIGC(AI generated content, 人工智能創(chuàng)造內(nèi)容)歌曲。
度曉曉變身為 AI 唱作人,而在唱歌的表象下,歌詞中「每分每秒每天,我都在這里;等著你,來邀請,我隨時給你回應(yīng) …… 」點出了度曉曉更深層次的身份 —— 入端百度 APP、每分每秒每天陪伴人類的虛擬助手。度曉曉為用戶提供全程 AI 陪聊功能,升級搜索體驗,情感聊天、定外賣、寄快遞、講故事等,幾乎你能想到的需求都可以一呼即達(dá)。
如你所見,度曉曉實現(xiàn)自然的多輪聊天互動,在對話中識別用戶的搜索和服務(wù)需求,其中多輪聊天能力由百度文心大模型提供強(qiáng)大的底層技術(shù)支持,尤其是全球首個基于隱空間的生成式開放域?qū)υ挻竽P臀男?PLATO。
除了 APP 端更擬人的智能對話之外,百度文心大模型還一度讓度曉曉變身為高考作文寫手和 AI 畫家,分別要歸功于融合任務(wù)相關(guān)知識的千億大模型 ERNIE 3.0 Zeus 和跨模態(tài)圖文生成模型 ERNIE-ViLG。
6 月 7 日高考語文考試之后,度曉曉化身數(shù)字人考生挑戰(zhàn)全國新高考 Ⅰ 卷作文題《本手、妙手、俗手》,40 秒的時間內(nèi)完成了 40 篇高考作文,平均 1 秒生成 1 篇,寫作速度遠(yuǎn)超了人類。那么度曉曉生成的作文能滿足高考寫作的審題、邏輯和創(chuàng)意等要求嗎?
這一擔(dān)心也被證明是多余的,曾任北京高考語文閱卷組組長的申怡為她隨機(jī)生成的一篇作文打出了 48 分的成績(滿分 60 分),從歷年統(tǒng)計數(shù)據(jù)來看,這個分?jǐn)?shù)超過了 75% 的人類考生。稱呼她一聲寫作高手絕不為過。
度曉曉生成的高考作文示例。
給出一段話就能輸出一幅圖,這種神奇的跨模態(tài)能力成為近年來各大 AI 公司追捧的熱點,如英偉達(dá)的 GauGAN 和 GauGAN2、OpenAI 的 DALL·E 和 DALL·E 2。度曉曉數(shù)字人也擁有了這種繪畫能力,完成的 AI 畫作甚至得到了專業(yè)人士的認(rèn)可。
6 月初,度曉曉創(chuàng)作的「****」系列數(shù)字藏品上線百度 APP 開啟限時搶購,該系列共有 4 幅畫作。作為國內(nèi)首個數(shù)字人創(chuàng)作的藝術(shù)數(shù)字藏品,這些畫作在 24 小時內(nèi)就賣出了 17 萬元。更令人想不到的是,每幅畫作的創(chuàng)作時間僅需幾十秒,這種畫畫速度大概會令通常仔細(xì)斟酌、耗時很長的專業(yè)畫家羨慕吧。
隨后,度曉曉帶著她的畫作現(xiàn)身西安美術(shù)學(xué)院 2022 年「時空留痕?****西美」本科畢業(yè)展,在自己的專屬展區(qū)展出了此前制成數(shù)字藏品的四幅作品以及兩幅有關(guān)西安大雁塔的本地特色作品。這些畫作的水平又如何呢?西安美院教授評價稱「已經(jīng)達(dá)到了本科美術(shù)生的基本要求」。
度曉曉化身 AI 美術(shù)生,開了自己的專屬展區(qū)。
度曉曉出圈的背后 —— 百度 AI 技術(shù)賦予她內(nèi)涵
但應(yīng)看到,數(shù)字人的背后少不了技術(shù)的支撐,百度文心大模型為度曉曉的一系列外在能力展現(xiàn)提供了技術(shù)內(nèi)核。在 5 月 20 日的 WAVE SUMMIT 2022 深度學(xué)習(xí)開發(fā)者峰會上,文心大模型迎來了自發(fā)布以來的最大一次升級,新增 10 個大模型,包括基礎(chǔ)通用大模型、任務(wù)大模型、行業(yè)大模型三大類,比如基礎(chǔ) NLP 大模型中新增的融合任務(wù)相關(guān)知識的千億大模型 ERNIE 3.0 Zeus。
同屬文心 NLP 大模型范疇的全球首個基于隱空間的生成式開放域?qū)υ挻竽P臀男?PLATO ,保證了度曉曉在百度 APP 端不再尬聊。
作為百度研發(fā)的具有大規(guī)模參數(shù)的中英文對話預(yù)訓(xùn)練生成模型,文心 PLATO 歷經(jīng)多個版本。2019 年推出了通用領(lǐng)域的對話生成預(yù)訓(xùn)練模型 PLATO,在 NLP 領(lǐng)域國際頂會 ACL 2020 上正式展示;到 2020 年升級為 PLATO-2,涵蓋中英文版本,實現(xiàn)了開放域話題深度暢聊?,F(xiàn)在升級到了百億參數(shù)的文心 PLATO- XL 版本,在開放域?qū)υ捫Ч系玫搅顺掷m(xù)的提升。
既然說到了 文心 PLATO,那我們就先來看在它的加持下,度曉曉如何在百度 APP 端實現(xiàn)接近真人水平的多輪流暢對話以及更擬人的智能化搜索?度曉曉和龔俊數(shù)字人目前實現(xiàn)了四大功能,即個性化聊天陪伴、輔助搜索、服務(wù)分發(fā)和互動玩法。其中個性化聊天可以實現(xiàn)多輪對話以及人設(shè)定制化能力,這也正是文心 PLATO 大模型的用武之地。
首先,為了學(xué)習(xí)通用對話生成能力,文心 PLATO 采用了完全生成方式,并根據(jù)多輪對話上下文(Context)生成對話回復(fù)(Response),在大規(guī)模對話語料上進(jìn)行預(yù)訓(xùn)練。PLATO 只有 8.3M 的訓(xùn)練樣本;PLATO-2 的英文和中文訓(xùn)練集樣本分別為 684M 和 1.2B,模型規(guī)模最高達(dá)到了 1.6B;到了 PLATO-XL,英文和中文訓(xùn)練集樣本分別 811M 和 1.2B,模型規(guī)模更是來到了 11B。
預(yù)訓(xùn)練時,針對開放域中涉及上下文的對話理解和回復(fù)的對話生成,文心 PLATO 采用編碼器和****共享參數(shù)的 Unified Transformer 作為基礎(chǔ)框架,使對話理解和對話生成進(jìn)行充分的信息融合交互。此外,考慮到對話答復(fù)與場景、意圖等對話情景信息相關(guān),相同上下文不同的情境會對應(yīng)不同的答復(fù)(即一對多關(guān)系),而情境信息又難以用顯示文本進(jìn)行表示,文心 PLATO 又提出用隱變量因子表示情境信息,如下圖所示。
在大規(guī)模預(yù)訓(xùn)練樣本和預(yù)訓(xùn)練技術(shù)創(chuàng)新的基礎(chǔ)上,文心 PLATO 為度曉曉帶來了多輪流暢的開放域?qū)υ捘芰?/strong>。
文心 PLATO 的模型架構(gòu)。
人工智能發(fā)展至今,數(shù)據(jù)價值正在不斷得到體現(xiàn)和提升,可以說,數(shù)據(jù)即 “石油”。同樣,在開放域?qū)υ捴校哔|(zhì)量的對話語料也同樣重要,對模型訓(xùn)練起著重要作用,但我們都知道,高質(zhì)量的對話語料少之又少,另外語料所依附的人設(shè)信息千差萬別,導(dǎo)致模型在效果上參差不齊。
如何賦予對話機(jī)器人穩(wěn)定一致的人設(shè)一直是對話技術(shù)領(lǐng)域面臨的重要挑戰(zhàn),文心 PLATO 在預(yù)訓(xùn)練對話模型的基礎(chǔ)上進(jìn)一步學(xué)習(xí)不同畫像信息下的對話生成能力,使模型具備了圍繞人設(shè)的定制化對話能力,還能在答復(fù)過程中始終保持人設(shè)的一致性。
這一能力加持到度曉曉身上,她便更加彰顯了自己的人設(shè)或個性化 IP。用一句流行的話說,度曉曉的人設(shè)要保持一致。同時,在對話時,度曉曉充分考慮用戶上下文的聯(lián)系,生成的回復(fù)始終不脫離語境,像人與人聊天那樣不偏題。
百度 APP 端內(nèi)度曉曉的多輪聊天能力展示。
最后,即使度曉曉已經(jīng)具備了一定的知識對話能力,但受限于預(yù)訓(xùn)練語料存在的知識稀疏性,生成回復(fù)中仍然會有不知如何答復(fù)或答非所問的情況出現(xiàn)。
針對這一問題,文心 PLATO 提出了問答生成任務(wù) + 預(yù)訓(xùn)練對話任務(wù)的連續(xù)預(yù)訓(xùn)練策略,將海量問答知識內(nèi)化到模型參數(shù)中,使模型及其支持的度曉曉在知識問答時更準(zhǔn)確、更全面。
這么一套技術(shù)組合拳下來,文心 PLATO 成就了現(xiàn)在的度曉曉, 更擬人化、更具針對性、更貼合用戶真實需求成為了她在百度 APP 內(nèi)的標(biāo)簽。她可以與用戶進(jìn)行語境連續(xù)的多輪自然對話,支持文本、圖片、表情包、音頻等多樣化聊天形態(tài);當(dāng)在對話中識別出用戶的搜索意圖時,要么直接回復(fù)答案要么呈現(xiàn) APP 內(nèi)相關(guān)問題的搜索結(jié)果;用戶想要看電影、訂車****時,她也會直接跳轉(zhuǎn)至相應(yīng)服務(wù)界面。
百度 APP 端內(nèi)的多任務(wù)小能手度曉曉。
而此前,度曉曉 40 秒完成 40 篇高考語言作文的表現(xiàn),背后利用的是文心大模型中的 NLP 千億大模型 ERNIE 3.0 Zeus。它是知識增強(qiáng)大模型 ERNIE 3.0 系列模型的最新升級,更在國內(nèi)首個開放了 API 調(diào)用。
在訓(xùn)練時,除了從海量無監(jiān)督文本數(shù)據(jù)和百度知識圖譜的學(xué)習(xí)之外,還針對上百種不同形式的任務(wù)數(shù)據(jù)進(jìn)行持續(xù)學(xué)習(xí),增強(qiáng)了模型效果,顯著提升了在自由問答、信息抽取和情感分析等下游各類 NLP 任務(wù)上的零樣本 / 小樣本學(xué)習(xí)能力。
ERNIE 3.0 Zeus 大模型概覽。
對于此次高考寫作挑戰(zhàn),度曉曉一方面具有數(shù)據(jù)「底氣」。得益于 ERNIE 3.0 Zeus 的千億參數(shù),度曉曉在寫作訓(xùn)練時接受了大量風(fēng)格各異的高考作文樣本數(shù)據(jù),在不斷的吸收消化過程中,培養(yǎng)出了自己的寫作風(fēng)格以及對于高考作文的需求認(rèn)知,在實戰(zhàn)中「應(yīng)題而作」。
另一方面,在充足、多樣化高考作文樣本數(shù)據(jù)的基礎(chǔ)上,度曉曉進(jìn)一步確立了一整套自己的寫作套路。在扣題立意方面,她始終不離給定的作文題目,圍繞主題組織文字,輸出支持該主題的積極正向觀點;在行文結(jié)構(gòu)上,面對 800 字的長文本生成要求,她能保持整體文章脈絡(luò)清晰、邏輯完整,并在開篇和結(jié)尾雙重扣題;在寫作技巧上,歷史典故、古詩詞拈手就來,還學(xué)會了排比、比喻等修辭手法,文章可讀性大大提升。
在 ERNIE 3.0 Zeus 的賦能下,度曉曉就像是眾多見多識廣的「尖子生」、「學(xué)霸」的集合體,理解能力和創(chuàng)作能力更強(qiáng),寫出高分作文也就不足為奇了。
除了以上 NLP 領(lǐng)域的智能對話和 AI 寫作,跨模態(tài)也是文心大模型深耕已久的領(lǐng)域。度曉曉引起關(guān)注的「****」系列畫作采用的正是文心大模型跨模態(tài)圖文生成大模型 ERNIE-ViLG,它不僅構(gòu)建了包含 1.45 億高質(zhì)量中文文本 - 圖像對的大規(guī)??缒B(tài)對齊數(shù)據(jù)集,而且基于飛槳平臺在該數(shù)據(jù)集上訓(xùn)練了百億參數(shù)模型,在文本生成圖像、圖像描述等跨模態(tài)生成任務(wù)具有顯著效果。
ERNIE-ViLG 大模型的流程圖,其中文本生成圖像模型中的兩階段訓(xùn)練和端到端方法是關(guān)鍵。
與上述高考寫作一樣,得益于 1.45 億高質(zhì)量中文文本 - 圖像對,ERNIE-ViLG 學(xué)會了類似于人類的作畫過程。整體可以分為兩步,大模型首先要理解輸入給自己的文字的含義,并結(jié)合背景知識擴(kuò)展更豐富的信息,找到契合的元素和作畫的靈感;然后構(gòu)思生成初步的草稿圖,再不斷優(yōu)化填充,從而逐步生成符合主題的高質(zhì)量圖片。
因此,對于使用了 ERNIE-ViLG 的度曉曉,僅僅輸入一段話,便能在幾十秒內(nèi)做出一幅畫作。她不僅可以根據(jù)不同的輸入文字需求畫出對應(yīng)的場景,還在畫作風(fēng)格上博采眾長,能夠 hold 住水彩、油畫、中國畫、印象派等多種風(fēng)格。
度曉曉生成的六幅畫作。
這些畫作具有充滿想象力的構(gòu)圖、流暢的筆觸和豐富的色彩,尤其第一幅大雁塔畫作,遠(yuǎn)處山峰縹緲,落日金輝,近處大慈恩寺佛塔高聳,大雁略過,意境頗為深遠(yuǎn)。如果事先不告訴你,你大概猜不出它們是由度曉曉創(chuàng)作的。這就是 AI 的神奇之處。
全新內(nèi)容生產(chǎn)方式 ——AIGC
從對話到寫作、作畫,度曉曉儼然成為了數(shù)字人中的「多面手」。一方面,在百度文心大模型整合的多模態(tài)交互、3D 建模、機(jī)器翻譯、語音識別等多項技術(shù)的助力下,度曉曉已經(jīng)在百度 APP 端內(nèi)實現(xiàn)了生動擬人智能的互動交流。另一方面,由于文心大模型超強(qiáng)的理解和生成能力,度曉曉的創(chuàng)作能力被充分地挖掘和展現(xiàn)出來。
可以這樣說,此時的度曉曉已經(jīng)脫離了傳統(tǒng)意義上的 CG 數(shù)字人,有了「內(nèi)涵」,而這些恰好契合了當(dāng)下備受關(guān)注的新型內(nèi)容生產(chǎn)方式 ——AIGC,即通過人工智能技術(shù)自動生產(chǎn)內(nèi)容。繼 UGC、PGC 之后,大模型賦能下的 AIGC 已經(jīng)成為了過去一年來百度 AI 技術(shù)加速落地的著陸點。
不僅如此,度曉曉近來展現(xiàn)的編曲、互動交流、寫作和作畫,都只是百度大模型技術(shù)支撐下在 AIGC 層面的牛刀小試。隨著底層 AI 大模型技術(shù)的不斷完善,AIGC 的可用性和適用性勢必會迎來提升和擴(kuò)展,更多內(nèi)容生產(chǎn)領(lǐng)域會被發(fā)掘出來。
像度曉曉這樣的數(shù)字人,落地場景也就不再局限于單一的端內(nèi)互動或圖文創(chuàng)作,未來的舞臺可以遍布影視、金融、文旅等各個領(lǐng)域,「天空才是她的極限」。
讓大模型不再流于參數(shù),終究還是要落地,實現(xiàn)應(yīng)用價值
在近年來深度學(xué)習(xí)領(lǐng)域掀起這波「練大模型」潮流之際,百度持續(xù)發(fā)力文心大模型也是順勢而為,力爭在 AI 巨頭的競爭中始終保持領(lǐng)先優(yōu)勢。就之前的趨勢而言,追逐參數(shù)的多、模型的大似乎在國內(nèi)外巨頭們之間形成了一種默契。
從 GPT-3 開始,千億、萬億級大模型紛至沓來,如國外谷歌 1.6 萬億參數(shù)大模型 Switch Transformer、微軟聯(lián)合英偉達(dá)的 5300 億參數(shù)模型 MT-NLG,國內(nèi)浪潮 2457 億參數(shù)單體模型源 1.0、阿里達(dá)摩院 10 萬億參數(shù)多模態(tài)大模型 M6。
慢慢地,當(dāng)堆參數(shù)及其帶來的巨額訓(xùn)練成本不再那么吸引 AI 巨頭們時,如何使自身大模型更廣泛地落地成為了他們新的目標(biāo)。作為從 2019 年就開始積累預(yù)訓(xùn)練技術(shù)和大模型的 AI 頭雁,百度在探索大模型過程中修煉了自己的武功秘訣 —— 知識增強(qiáng)。
2021 年 12 月,百度發(fā)布全球首個知識增強(qiáng)千億大模型鵬城 - 百度?文心發(fā)布,它的參數(shù)量達(dá)到了 2600 億,是一個融合了 NLP 和 NLG 的全能模型。當(dāng)時,百度產(chǎn)業(yè)級知識增強(qiáng)大模型文心全景圖首次亮相。
今年 5 月的 Wave Summit 峰會上,百度聚焦「前沿大模型技術(shù)如何匹配真實場景中的方方面面要求」這一問題,提出了大模型產(chǎn)業(yè)落地的三個關(guān)鍵路徑,包括更適配應(yīng)用場景的模型體系、更有效的工具和方法以及更開放的生態(tài)。方方面面無不呼應(yīng)著落地。
同時,文心大模型除了迎來新成員之外,還可以通過百度飛槳的一系列大模型開發(fā)套件、大模型API和集成文心大模型的飛槳企業(yè)版EasyDL和BML開發(fā)平臺,全面釋放使用效能,進(jìn)一步降低應(yīng)用門檻。在生態(tài)和社區(qū)層面,構(gòu)建文心?旸谷社區(qū),將大模型能力開放給普通開發(fā)者,人人皆可觸碰 AI 的魅力。文心大模型的個人、企業(yè)開發(fā)者數(shù)量已超過 6 萬人。
文心?旸谷社區(qū)地址:https://wenxin.baidu.com/younger
全新升級的文心大模型在知識增強(qiáng)和產(chǎn)業(yè)級這兩方面得到了進(jìn)一步加強(qiáng),10 個大模型新成員中的國網(wǎng) - 百度?文心和浦發(fā) - 百度?文心就分別將文心大模型的能力輸入到了能源電力行業(yè)和金融服務(wù)行業(yè),這也預(yù)示著文心大模型與行業(yè)的聯(lián)系越來越緊密。
目前,以知識增強(qiáng)和產(chǎn)業(yè)級為指導(dǎo)的文心大模型已經(jīng)逐漸在百度內(nèi)外「兌現(xiàn)」了自己的能力。
在百度內(nèi)部,搜索、信息流、百度地圖等場景中可以看到文心大模型的身影,如上文在百度 APP 端智能互動的度曉曉以及小度智能屏等;在百度外部,文心大模型在工業(yè)、能源、金融、教育、通信、媒體、醫(yī)療等各行各業(yè)都有了實戰(zhàn)場地,如工業(yè)領(lǐng)域的零部件質(zhì)量檢測、金融行業(yè)的合同信息抽取等,在賦能行業(yè)中真正實現(xiàn)了自身的應(yīng)用價值。
度曉曉最近頻頻出圈,讓更多人看到了其背后文心大模型的技術(shù)內(nèi)驅(qū)力。然而,未來文心大模型的落地場景不應(yīng)受限。
一方面,文心大模型可以按照能源行業(yè)國網(wǎng) - 百度?文心和金融行業(yè)浦發(fā) - 百度?文心的模式繼續(xù)推出更多行業(yè)大模型,持續(xù)推進(jìn)大模型在各行各業(yè)的深度應(yīng)用,滿足多樣化場景任務(wù)需求。
另一方面,在 AI for Science 領(lǐng)域,文心大模型中已經(jīng)有了兩個生物計算大模型(HELIX-GEM 和 HELIX-Fold),未來同樣有可能在數(shù)學(xué)、物理、化學(xué)等更多基礎(chǔ)學(xué)科領(lǐng)域構(gòu)建專屬大模型。這樣做可以持續(xù)探索大模型在科學(xué)領(lǐng)域解決問題的巨大潛力,更全面地推進(jìn) AI 與 Science 的融合。
大模型成為行業(yè)熱點已經(jīng)有兩三年時間,在百度看來,2022 年是大模型產(chǎn)業(yè)落地的關(guān)鍵年。不管是度曉曉這一系列的創(chuàng)意應(yīng)用,還是深入到更廣泛的行業(yè)和前沿技術(shù)領(lǐng)域,百度勢必會抓住大模型發(fā)展的這一機(jī)遇,在產(chǎn)業(yè)化落地的融合創(chuàng)新之路上繼續(xù)又穩(wěn)又快地走下去。
參考鏈接:https://arxiv.org/pdf/2109.09519.pdfhttps://arxiv.org/pdf/2006.16779.pdfhttps://aclanthology.org/2020.acl-main.9.pdfhttps://www.jiqizhixin.com/articles/2022-05-20-8https://wenxin.baidu.com/wenxin/modelbasedetail/plato/https://wenxin.baidu.com/wenxin/modelbasedetail/ernie_vilg/https://wenxin.baidu.com/wenxin/modelbasedetail/ernie3_zeus/
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。
電子管相關(guān)文章:電子管原理
雙控開關(guān)相關(guān)文章:雙控開關(guān)原理