侵權(quán)、搶功爭(zhēng)議不斷，Stability AI 陷入?漩渦

發(fā)布人：硅星人時(shí)間：2022-10-30 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

侵權(quán)、“搶功”爭(zhēng)議不斷，Stability AI 陷入漩渦。——文｜杜晨編輯｜VickyXiao 圖片來源 | Stability AI

無數(shù)創(chuàng)業(yè)產(chǎn)品和業(yè)余項(xiàng)目出現(xiàn)，谷歌、字節(jié)等巨頭公司也都紛紛入局——最近 AI 創(chuàng)作這條賽道有多擁擠，已經(jīng)無需多言。
所有參賽選手當(dāng)中，最火的一家莫過于 Stable Diffusion。該項(xiàng)目背后的公司之一 Stability AI，也成為了行業(yè)的當(dāng)紅炸子雞。號(hào)稱“要讓10億人用上開源大模型”的它，前不久剛剛完成了1億美元融資，估值達(dá)到10億美元躋身獨(dú)角獸行列，
然而就在上周，Stable Diffusion 項(xiàng)目，以及這家風(fēng)頭正勁的公司，突然接連卷入兩場(chǎng)爭(zhēng)議：
不僅被藝術(shù)創(chuàng)作者“群起而攻之”，還被合作伙伴“反水”，被質(zhì)疑“搶功”……

/ 偷風(fēng)格，算偷嗎？ /
上周，美國(guó)媒體 CNN 采訪了多位藝術(shù)家。這些受訪者憤怒地表示：無法接受 Stable Diffusion 用他們的作品，卻砸他們的飯碗。
這些藝術(shù)家的作品，或者更準(zhǔn)確來說，他們?cè)谧髌分兴w現(xiàn)的風(fēng)格，都被 Stable Diffusion 用于訓(xùn)練模型了。
受訪者之一是在藝術(shù)節(jié)有一定知名度的油畫家 Erin Hanson。她的油畫作品用色風(fēng)格非常獨(dú)特，采用了更加多樣化、具有視覺沖擊力的色彩，且飽和度極高，已經(jīng)在藝術(shù)圈內(nèi)形成了個(gè)人特色。
前段時(shí)間 Stable Diffusion 爆紅之后，Hanson 注意到有人用這個(gè)模型生成的一些圖片結(jié)果，竟然有自己作品的味道。
經(jīng)過進(jìn)一步調(diào)查，她更加驚訝了：用戶甚至可以在生成圖片的時(shí)候，直接輸入“Erin Hanson 風(fēng)格”作為文字提示的一部分。Stable Diffusion 生成的結(jié)果，和 Hanson 已經(jīng)發(fā)表的作品幾乎一模一樣……
如果不注意畫中 Hanson 的簽名水印的話，你可能完全會(huì)以為兩張都是 Hanson 的親筆創(chuàng)作：

圖片來源：Erin Hanson（左）、Rachel Metz via Stable Diffusion（右）
但其實(shí)左邊有簽名水印的才是 Hanson 的正版作品 "Crystalline Maples"；右邊則是 CNN 記者通過 Stable Diffusion 生成的結(jié)果，使用的文字提示包括：水晶油畫，光和影，背光的樹，強(qiáng)烈輪廓，彩色玻璃，現(xiàn)代印象派，Erin Hanson 風(fēng)格等。
“如果我把它掛在我的墻上，應(yīng)該毫不違和吧？”Hanson 對(duì) Stable Diffusion 的“創(chuàng)作能力”表示相當(dāng)驚訝。
但在仔細(xì)研究了 Stable Diffusion 工作機(jī)制之后，她才明白過來：這個(gè) AI 模型根本沒有自己的創(chuàng)作能力。
因?yàn)樗娘L(fēng)格，屬實(shí)是“抄”來的。
Stable Diffusion 是一個(gè)具備文字轉(zhuǎn)圖片/視頻能力的生成模型，可以用幾秒鐘時(shí)間就生成高分辨率、具備真實(shí)性和/或“藝術(shù)性”的視覺結(jié)果。在訓(xùn)練方面，這個(gè)模型的初代版本采用了大約4000臺(tái)A100顯卡集群，用了一個(gè)月的時(shí)間。
而它的訓(xùn)練數(shù)據(jù)，則來自于德國(guó)AI非營(yíng)利機(jī)構(gòu) LAION（全稱大規(guī)模人工智能開放網(wǎng)絡(luò)）。初代版本所采用的的訓(xùn)練數(shù)據(jù)集，包括了近60億條圖片-文字平行數(shù)據(jù)。
很多和 Henson 一樣感到憤怒的藝術(shù)家們發(fā)現(xiàn)，原來是自己的作品，以及對(duì)應(yīng)的文字平行數(shù)據(jù)（比如姓名），被收錄到了 LAION 相關(guān)數(shù)據(jù)集里——才導(dǎo)致了自己的作品和風(fēng)格，被這個(gè)爆紅的 AI 創(chuàng)作模型所“剽竊”。
從網(wǎng)上大規(guī)模搜集資料作為 AI 模型的訓(xùn)練數(shù)據(jù)，早已不是什么新鮮事。事實(shí)上，今天我們正在使用的很多基于 AI 的技術(shù)和產(chǎn)品，包括并不限于搜索引擎、短視頻推薦算法、翻譯、圖像識(shí)別等，背后的模型在訓(xùn)練階段都重度使用了一些知名數(shù)據(jù)集。
這些數(shù)據(jù)集的內(nèi)容，絕大多數(shù)是沒有版權(quán)/使用目的限制的，無論最終是商業(yè)還是非商業(yè)目的，任何人都可以使用，只需要遵守相應(yīng)的來源引用和使用規(guī)范即可。

一些比較常用的圖片數(shù)據(jù)集舉例圖片來源：Triantafillou et al. in Meta-Dataset: A Dataset of Datasets for Learning to Learn from Few Examples
不過，隨著AI技術(shù)越來越先進(jìn)，應(yīng)用領(lǐng)域越來越多樣，新的使用場(chǎng)景（比如今天討論的AI文字生成圖片）就對(duì)更大規(guī)模的訓(xùn)練數(shù)據(jù)集，更多來自公開網(wǎng)域的各種形式（文字、圖片、音頻、視頻等）的信息和資料，產(chǎn)生了巨大的需求。
當(dāng)數(shù)據(jù)集從幾萬，幾十萬張圖片，“擴(kuò)容”到幾億甚至幾十億張的規(guī)模時(shí)，這一過程當(dāng)中，難免存在一些權(quán)利方面的漏洞。
而今天這些出離憤怒的藝術(shù)家們，就成為了權(quán)利漏洞，以及利用這些漏洞進(jìn)行商業(yè)化獲益行為的受害者。

他們的憤怒并非沒有理由。
畢竟 AIGC（AI生成內(nèi)容）這一或?qū)?dǎo)致藝術(shù)家們失業(yè)的新技術(shù)領(lǐng)域，已經(jīng)成為現(xiàn)如今科技創(chuàng)業(yè)的大熱門，無數(shù)創(chuàng)業(yè)者、投資人瘋狂涌入。結(jié)果奪走他們工作的這個(gè)玩意兒，居然正是用他們的創(chuàng)作風(fēng)格所訓(xùn)練出來的。
本來藝術(shù)家們已經(jīng)是一個(gè)普遍比較拮據(jù)的群體了?，F(xiàn)在這些 AI 端了人家的碗，還要砸人家的鍋——你說他們能不生氣么……

Erin Hanson 圖片來源：本人
在藝術(shù)家和版權(quán)人士的呼吁和努力之下，現(xiàn)在已經(jīng)有人開發(fā)出了一些工具，幫助權(quán)利人在大型數(shù)據(jù)集當(dāng)中搜索自己主張權(quán)利的作品。
比如 LAION 自己做了一個(gè)網(wǎng)頁(yè)工具可以把文字轉(zhuǎn)換為 CLIP embedding，用于搜索描述相同或者相似的內(nèi)容。再比如還有一個(gè)取名很巧妙的網(wǎng)站，叫做“Have I Been Trained”，幫助創(chuàng)作者搜索 LAION 數(shù)據(jù)集，查看自己的作品是否被用于訓(xùn)練了。

圖片來源：Have I Been Trained?
“Have I Been Trained” 的背后是一對(duì)居住在德國(guó)的藝術(shù)家和開發(fā)者，他們表示：在幫助藝術(shù)家確認(rèn)自己的作品是否被大規(guī)模數(shù)據(jù)集收錄之余，他們很快還將發(fā)布一套新的工具，允許藝術(shù)家能夠自主選擇作品是否被數(shù)據(jù)集所收錄。為此，這兩位開發(fā)者已經(jīng)和多家從事大規(guī)模 AI 模型研發(fā)的機(jī)構(gòu)和公司進(jìn)行了接洽。
對(duì)于“藝術(shù)家應(yīng)該掌握作品是否被收錄控制權(quán)”這件事，Stability.AI 和 LAION 也表示同意。
然而即便如此，Stable Diffusion 也只是眾多 AIGC 類模型的其中一個(gè)而已。還有更多模型/產(chǎn)品/項(xiàng)目處于未開源狀態(tài)，藝術(shù)家和權(quán)利人想要正當(dāng)維護(hù)自己的權(quán)益，所面臨的挑戰(zhàn)和阻礙，只會(huì)隨著時(shí)間變得更多和更艱難。
直到這一問題在全行業(yè)通過規(guī)范或制度解決之前，Stable Diffusion，以及包括 DALL·E 2、Midjourney 等在內(nèi)的主流模型，仍將作為“AI侵權(quán)”指控的對(duì)象長(zhǎng)期存在。
/ 多方心血，一家獨(dú)占？ /
由于 Stability AI 這家公司在過去一直正面和側(cè)面將自己宣傳為 Stable Diffusion 項(xiàng)目幕后的功臣，像侵權(quán)這樣的鍋，也被該公司背上了。
然而侵權(quán)只是 Stability AI 當(dāng)前面臨的諸多煩惱之一。就在前不久該公司完成1億美元融資，正式晉升為獨(dú)角獸之際，它突然發(fā)現(xiàn)：
正因?yàn)閿埩颂嗟墓?，過去一起做項(xiàng)目的好伙伴，對(duì)自己意見很大……
故事要先從上周四說起：一家名叫 Runway ML 的公司，在 Twitter 賬號(hào)上表示發(fā)布了 Stable Diffusion 1.5 版本。
網(wǎng)友一下子懵了：
等一下，你們這是正式版嗎？為啥 Stability AI 沒有任何公開宣布或者支持呢？

圖片來源：@ScottieFoxTTV
你們這個(gè)是 Stability AI 做的么？

圖片來源：@buZztiaan
緊接著就在發(fā)布當(dāng)天，發(fā)布網(wǎng)站 Hugging Face 透露，收到了來自 Stability AI 的刪除請(qǐng)求：
Stability AI 表示這個(gè)版本屬于其“知識(shí)產(chǎn)權(quán)泄露”，并要求 Hugging Face 下架這一發(fā)布……
就連 Hugging Face 自己也懵了，因?yàn)檫@樣的請(qǐng)求過去幾乎從沒有過。它在這個(gè)刪除請(qǐng)求下面加了一行字：為了保證過程透明公開，請(qǐng)這個(gè)repo的所有者（Runway）和Stability AI 提供更多資料……

圖片來源：Hugging Face
這究竟是怎么一回事呢？
首先我們需要再回顧一下 Stable Diffusion 的來歷：
需要明確的是，Stable Diffusion 的技術(shù)本身，其實(shí)來自于慕尼黑大學(xué)機(jī)器視覺學(xué)習(xí)組，和 Runway 公司。
今年的 CVPR22 大會(huì)上，這些研究者共同發(fā)表了一篇論文，研究的是潛伏擴(kuò)散模型，論文的名字叫做 High-Resolution Image Synthesis with Latent Diffusion Models。正是這篇論文里的研究，在后來成為了 Stable Diffusion 模型的理論技術(shù)基礎(chǔ)。

圖片來源：Rombach 等人
從論文署名可以看到，除了 Esser 是 Runway 旗下研究部門的首席研究科學(xué)家之外，其他作者的隸屬單位均為慕尼黑大學(xué)——也就是說，至少在論文發(fā)表的時(shí)候所有作者當(dāng)中，沒有一人屬于 Stability AI。
可要是這樣的話，Stability AI 又是怎么跟這事兒攀上關(guān)系的呢？
Runway 公司的 CEO Cristóbal Valenzuela 透露了真相：
1）基礎(chǔ)版本的技術(shù)，或者說論文，是慕尼黑大學(xué)和 Runway 一起搞的；2）Stable Diffusion，也就是對(duì)基礎(chǔ)版本進(jìn)行重新訓(xùn)練后得到發(fā)布的正式版本，仍然是 Esser 和 Rombach（論文的兩位主要作者）二人主要開發(fā)的；3）這個(gè)模型早在去年就正式開源了4）Stability AI 在整個(gè)過程中做出的貢獻(xiàn)僅限于：為正式版本的訓(xùn)練提供算力。

圖片來源：cvalenzuila / Hugging Face
而結(jié)合行業(yè)流傳的比較靠譜的消息，以及 Stability AI 創(chuàng)始人兼 CEO Emad Mostaque 的表述，我們了解的情況是：
所謂的算力，就是 Mostaque 個(gè)人出錢買了四千張A100顯卡……

圖片來源：英偉達(dá)
以及，對(duì)于 Stable Diffusion 重新訓(xùn)練所依賴的數(shù)據(jù)集 LAION-5B，Stability AI 也是這一其組織創(chuàng)建工作的出資人之一。
不管怎么樣，總的來說，包括 Runway、Stability AI、慕尼黑大學(xué)等在內(nèi)的幾家參與方，大家在 Stable Diffusion 的發(fā)布工作中的貢獻(xiàn)都是平等的。最一開始并不存在，也不應(yīng)該存在一家獨(dú)大的情況……
但是比較遺憾的是，在后續(xù)圍繞整個(gè) Stable Diffusion 項(xiàng)目的營(yíng)銷、宣傳，以及運(yùn)營(yíng)工作當(dāng)中，Stability AI 以及創(chuàng)始人 Mostaque，或多或少地突出甚至夸大了自己一方的貢獻(xiàn)和價(jià)值——對(duì)行業(yè)內(nèi)外的用戶，以及媒體和公眾，都造成了不實(shí)的印象。

硅星人原文截圖圖片來源：硅星人
事實(shí)上，Stability AI 這家公司，自己也在開源的 Stable Diffusion 基礎(chǔ)之上，開發(fā)了一個(gè)自己的網(wǎng)頁(yè)端應(yīng)用 DreamStudio Lite——從這一維度，和其它也做了類似事情的公司和團(tuán)隊(duì)相比，Stability AI 跟它們并無實(shí)質(zhì)區(qū)別。
在 Valenzuila 站出來“硬剛” Stability AI 之后，底下的留言也基本一邊倒向了 Runway 這邊……
網(wǎng)友紛紛表?yè)P(yáng)這位 CEO是“gigachad”（超級(jí)猛男）

很快，Stability AI 也撤回了刪除請(qǐng)求。
但該公司并沒有“示弱”。公司新任首席信息官 Dan Jeffries 暗戳戳地寫了一篇文章，指責(zé)被合作伙伴“搶跑” 1.5 版本的做法非常不負(fù)責(zé)任。同時(shí)他又扔出了一套十分夸張的說法，大意是：
“我們不發(fā)1.5版本，是因?yàn)槲覀兪盏搅吮O(jiān)管部門和公眾的意見，認(rèn)為我們的模型不安全，會(huì)傷害到別人。所以我們接下來的主要任務(wù)是搞好安全?！?/span>

Dan Jeffries 文章標(biāo)題截圖來源：本人
這里的“安全問題”主要指的是模型被用于制作 NSFW 內(nèi)容、Deepfake 等。而 Hugging Face 上討論此事網(wǎng)友對(duì)這篇文章表示：裝什么大尾巴狼呢？前幾個(gè)版本都有問題怎么你們照發(fā)不誤呢？如果真要打擊 NSFW 的話，那是不是 Photoshop 和視頻制作軟件都別發(fā)新版本了？
在 Hugging Face 的帖子被關(guān)閉之前，仍然有極少數(shù)人站在 Stability AI 這邊，大意是說 Runway 這個(gè)做法不體面，一個(gè)真正“穩(wěn)定”的版本應(yīng)該大家一起商量發(fā)布，更何況 Stable Diffusion 這個(gè)命名，本身就印證著它跟 Stability AI 有巨大的關(guān)系。

然而現(xiàn)在來看，Stability AI 和 Stable Diffusion 這兩個(gè)名字，誰蹭誰的熱度還不好說呢。

注：封面圖來自于 Stability AI，版權(quán)屬于原作者。如果不同意使用，請(qǐng)盡快聯(lián)系我們，我們會(huì)立即刪除。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

侵權(quán)、搶功爭(zhēng)議不斷，Stability AI 陷入?漩渦

相關(guān)推薦

技術(shù)專區(qū)