2022穩(wěn)居C位的AIGC，到底有什么用？

發(fā)布人：機器之心時間：2022-11-19 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

元宇宙之外，AIGC有其貼近產業(yè)的一面。

如果總結 2022 年十大技術趨勢，AIGC（AI-Generated Content）一定能穩(wěn)站一席。

一方面，市場融資火爆，AIGC 創(chuàng)業(yè)公司 Jasper. AI、Stability AI 都分別獲得了超 1 億美元的融資，資本都在盯著這個具有想象空間的賽道。

另一方面，技術呈現(xiàn)擴圈之姿，尤其在繪畫領域，一幅名為《太空歌劇院》的 AI 畫作甚至拿到了美國科羅拉多州博覽會藝術比賽的一等獎。

AI畫作《太空歌劇院》

但沉下心來觀察這個賽道會發(fā)現(xiàn)這樣的境況：AIGC 離產業(yè)應用有點遠。一些人會將生成式 AI 出色的表現(xiàn)與元宇宙等熱門概念聯(lián)系到一起，認為 AIGC 即將成為構建元宇宙的重要工具，徹底變革人類的生活方式，這一愿景為一些背靠生成式 AI 大模型的初創(chuàng)公司帶來了大筆融資，但距離落地成真還有一段時間。

生成式 AI 落地真的還有一段時間嗎？對于手握精尖技術去找應用、找落地的企業(yè)或許是這樣的，但對于已經在產業(yè)中摸爬滾打了 20 余年的京東來說，從 2017 年喊出“技術！技術！技術！”，到用 AI 技術武裝自身業(yè)務，再到把反復歷練的產業(yè) AI 能力通過京東云對外輸出服務產業(yè)，京東將 AI 能力滲透到了產業(yè)的毛細血管里，潤物細無聲般走進了百姓的生活，比如，當前應用最廣泛的就是交互數(shù)字人。

京東云

，贊106

這是京東云推出的言犀虛擬數(shù)字人主播，高性價比和不錯的交互體驗，讓 TA 獲得了眾多商家的青睞。在雙十一期間，言犀虛擬數(shù)字人服務近 200 家付費品牌，帶來數(shù)百萬 GMV 轉化。

從技術視角來看，當前數(shù)字人是 AIGC 技術的集大成者，包含了生成圖片、語言、音頻、視頻和 3D 等等。

從產業(yè)視角來看，在京東內部或許沒有 AIGC 這樣一個 “時髦” 的稱呼，但在日常業(yè)務中，他們早就開始用技術幫助商家生成商品文案、對話文本、外呼語音…… 現(xiàn)在還能生成數(shù)字人幫商家賣貨，其應用范圍貫穿京東的整個數(shù)智供應鏈。同時，他們的各種 AIGC 模型也從這條供應鏈上 “學習” 新的東西，把更好的技術、服務向外輸出，讓我們看到了這套技術更貼近產業(yè)的一面。

與數(shù)智供應鏈深度耦合的 AIGC

AIGC 并不是一個新概念，其萌芽階段可以追溯到上世紀 50 年代，90 年代從實驗性向實用性逐漸轉變。從 2014 年起，隨著以生成對抗網絡（GAN）為代表的深度學習算法的提出和迭代更新，AIGC 迎來了新時代，生成內容百花齊放，效果逐漸逼真直至人類難以分辨。2018 年，AI 生成的畫作以 43.25 萬美元的價格被成功拍賣，引發(fā)各界關注。

彼時，在京東 AI 團隊的研究中，AI 作畫已不是新鮮事，他們的研究涉及多模態(tài)、大模型等方面的基礎研究以及 AI 寫詩、AI 生成文案、AI 畫圖、AI 寫書法等一些實用性研究，為之后的 AIGC 產品問世打下了基礎。其中一篇典型論文成果 AttnGAN 引用過 1000 多次，是 AIGC 領域的經典工作之一。

AttnGAN 生成結果示例。

但同時，京東也意識到，如果真的想用這些 AIGC 技術變革行業(yè)，僅靠研究是不夠的，還需要結合業(yè)務實際來解決一些工程化難點。于是，從 2019 年開始，生成式 AI 如何一頭扎進京東的多個供應鏈環(huán)節(jié)成了團隊的第一要務。

供應鏈是一個極端復雜的、上下貫通的、跟千行百業(yè)都息息相關的實體鏈條，小至快消品、3C 電子、服裝，大至汽車、高鐵、飛機制造…… 只要有生產，有流轉，有消費，就有供應鏈。作為一家以供應鏈技術和服務為底層邏輯、擁有復雜供應鏈場景的新型實體企業(yè)，京東在數(shù)智供應鏈中醞釀以 AIGC、語音識別、語義理解等為代表的產業(yè) AI 能力，然后再通過與產業(yè)的深度融合，釋放其 “生萬物” 的潛力，其價值無疑是巨大的。但在此之前，他們必須先解決這些 AIGC 模型在供應鏈各環(huán)節(jié)的應用效果和效率的問題。

比如，語音生成的難點在于如何讓生成的語音更像真人，傳統(tǒng)的 TTS（語音合成）技術往往會因為缺乏環(huán)境音和語調、重音、情緒方面的變化而讓人感覺不真實。

京東語音算法負責人張政臣介紹，這種不真實在一定程度上是由訓練數(shù)據(jù)造成的，因為當前的大部分語音數(shù)據(jù)是在錄音棚里錄的，導致生成結果偏播音主持場景，用到直播等場景中就不太合適。

因此，京東的語音團隊首先考慮從語料入手來解決這個問題，這也是京東龐大供應鏈的優(yōu)勢所在：這條數(shù)智化供應鏈每天都會產生大量真實場景的對話，既有客服的也有主播的，拿這些語料訓練出的語音模型生成結果明顯要更加自然。此外，他們也用了一些技術性的方法，比如對于某些語氣詞、聲音的韻律變化單獨建模和控制。

當然，也有很多客戶會提出使用真人錄音的需求，同時又要往里面加入一些變量，比如把一段外呼錄音中的地點由 “經海路” 改成 “科創(chuàng)街” 或其他幾百個不同的地址。由于錄音成本很高，被改動的變量是需要用技術來合成的，同時又要保證合成的聲音和原有的錄音無縫銜接，聽不出差別。

得益于多年來利用供應鏈數(shù)據(jù)訓練出的大型基線模型，京東的語音團隊現(xiàn)在已經能夠以一種低成本的方式解決這個問題，只需要少量的數(shù)據(jù)（比如錄音師的十幾句話）就能實現(xiàn)個性化的 TTS，達到之前需要很多訓練數(shù)據(jù)才能達到的效果。

京東言犀語音生成片段音頻：00:0000:15京東言犀語音生成片段。其中，「王師傅、燒肉醬、采購專員」均為編輯生成，過渡平滑自然。

文本生成最大的問題是“可控性”，即想辦法讓模型生成我們想要的內容。

“我們早期的模型可以生成很流暢的文本，但是很多時候我們發(fā)現(xiàn)，可控這件事并沒有得到很好的解決，大家還是沉浸于生成超出想象的、天馬行空的內容。但是在真正的產業(yè)應用中，（模型）必須可解釋、可控?！本〇| NLP 算法工程師李浩然回憶說。

具體到言犀虛擬數(shù)字人這樣的商品營銷文案自動生成，“可控”就意味著模型生成的文本必須滿足可讀性（Readability）、忠實性（Faithfulness）、信息性（Informativeness）等幾個要求，長文本（比如直播劇本）還要具備多樣性（Diversity）和篇章連貫性（Coherence）。京東 NLP 團隊提出的基于領域知識增強的預訓練語言模型 K-PLUG 就是用來解決這些問題的。

在 K-PLUG 誕生之前，一些通用的預訓練語言模型也可以用來生成商品文案，但在商品賣點的獨特性等方面仍有所欠缺，比如下面這段油煙機的文案：

為了讓模型更精通電商場景，K-PLUG 首先會定義電商領域的領域知識，包括商品的知識圖譜、要素知識、類別知識以及賣點知識，然后針對這些不同的知識去設計不同的下游任務。有了這些知識，模型就學會了如何去 “閱讀” 商家給的商品說明材料以及去哪兒找規(guī)格、賣點等信息，然后通過 “Only Copy” 的機制將一些關鍵信息復制到生成文本中。

更重要的是，這里用到的電商知識是京東供應鏈已經積累了很多年的，覆蓋超過 1000 萬種自營商品。有了這些知識做基礎，K-PLUG 僅用 1 億參數(shù)量（約為 Google T5 的三分之一）就超過了 Google T5 的商品文案生成效果，而且因為體積小，更容易在業(yè)務中部署，實用性非常強。

據(jù)統(tǒng)計，基于 K-PLUG 的商品文案生成模型已經覆蓋了京東的 3000 多個三級品類，累計生成文案 30 億字，應用于京東發(fā)現(xiàn)好貨頻道、搭配購、AI 直播帶貨等，累計帶來超過 3 億元 GMV。

目前，京東的 NLP 團隊還在進一步優(yōu)化 K-PLUG 的長文本生成效果，以適應直播劇本撰寫等長文本場景。據(jù)悉，他們將嘗試利用京東平臺上現(xiàn)有的大量長文本以及領域知識來訓練更大的模型，使其生成的文本句與句之間更加有邏輯。

當然，未來的這個模型也不會很大（參數(shù)量約為 10 億），因為在使用時，大模型帶來的價值和成本有一個平衡點，在關注如何訓練超大規(guī)模參數(shù)模型、提高模型通用性的同時，京東更關注大模型在供應鏈各環(huán)節(jié)的應用效果。

“我們（在做業(yè)務的時候）并沒有追求千億級、萬億級的生成式大模型，因為它們在實際應用的時候會有多方面的問題，比如對服務器要求很高，這樣的模型在很多場景下可能都用不起來，所以我們會從效率的角度去做模型的設計。在有些場景下，即使是 10 億參數(shù)的模型，我們也會通過蒸餾、量化的方式讓它進一步提升效率，減少對服務器配置的要求。很多時候，我們的推理（理解或生成）模型既支持 GPU 的部署環(huán)境，也支持 CPU 的部署環(huán)境?！本〇|集團高級算法總監(jiān)吳友政解釋說。

“融”生萬物，向“實”而升

經過幾年的發(fā)展，當前的 AIGC 算法已經具備了真實復刻和創(chuàng)造某類既定內容的能力，同時相關模型對簡單場景的內容生成也取得了比較好的成果。但面對產業(yè)供應鏈中多樣性變化和復雜場景內容生成的挑戰(zhàn)，現(xiàn)有 AIGC 的算法能力仍需進一步提升。

舉例來說，當前的算法已經可以應對高清人臉和數(shù)字人頭像的生成，但在動畫視頻內容的生成上仍然稍顯乏力，因為后者的動態(tài)復雜性和可能性的復雜程度以幾何倍數(shù)增長。

“這意味著我們現(xiàn)在的算法其實已經不再是單點迭代，而是多種算法互相之間聯(lián)合優(yōu)化，變成一種系統(tǒng)級的優(yōu)化?！本〇|集團副總裁、智能產品與服務部總裁何曉冬坦言。

他回憶道，以前做 AI 算法的時候會局限于怎么做一個單點，比如語音識別、圖像識別，包括把這個單點的能力上云，讓別人調用。但從供應鏈的角度來看，很多技術要在鏈條里面產生價值，就必然是融合性的。

這種 “融合” 不僅是不同模態(tài)的技術（語音、文本、圖像等）之間的融合，也包括技術與各行各業(yè)的特異性場景的深度融合。

當然，融合的前提是前期有比較全面的積累，而這正是京東云做 AIGC 的優(yōu)勢所在：京東自身的供應鏈環(huán)節(jié)就足夠多，足夠復雜，每天都會提出很多新的挑戰(zhàn)，這幫助他們擺脫了單點技術思維，更多地從產業(yè)需求的角度去看這些技術，對每個方向都做更全面的思考和更深刻的理解。

這種融合性的做事方法已經幫助京東云在 “生萬物” 的道路上邁出了很大的一步，除了常規(guī)的對話生成、文本生成、語音生成等應用外，京東云還會用融合性的 AIGC 去做數(shù)字人生成和數(shù)字孿生。

由實而生，向實而升。京東是實體經濟高質量發(fā)展的見證者，更是深度的參與者。目前，他們正通過京東云向千行百業(yè)釋放自己的 AIGC 能力，這些能力降低了內容制作分發(fā)門檻，讓更多的中小企業(yè)可以參與到數(shù)字經濟中來，進而實現(xiàn)數(shù)字化轉型，這是實現(xiàn)產業(yè)升級的關鍵一步。

以實助實、增強實體經濟活力的效果，這既是 AIGC 的機會所在，也是京東云做 AIGC 的使命所在。

參考鏈接：

https://ieeexplore.ieee.org/document/8578241

http://www.caict.ac.cn/kxyj/qwfb/bps/202209/P020220902534520798735.pdf

https://zhuanlan.zhihu.com/p/530855309

*博客內容為網友個人發(fā)布，僅代表博主個人觀點，如有侵權請聯(lián)系工作人員刪除。