新版Midjourney太炸裂：AI繪畫再無Bug，“有圖有真相”時(shí)代徹底過去

發(fā)布人：硅星人時(shí)間：2023-04-01 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

、

進(jìn)化版的AI繪圖工具創(chuàng)造出了一個(gè)平行世界。

文| Juny 編輯| VickyXiao

過去幾個(gè)月，以ChatGPT為首的聊天機(jī)器人攪得科技界滿城風(fēng)雨，大家都忙著去跟各家的AI聊天，讓它們來寫郵件、寫代碼、寫詩。而當(dāng)語言模型在大跨步向前進(jìn)化時(shí)候，AIGC的另一個(gè)重要分支——繪圖，最近其實(shí)也完全沒閑著。

去年曾因拿下藝術(shù)比賽大獎(jiǎng)而名噪一時(shí)的Midjourney，近期在AI生成圖片領(lǐng)域熱度可以說堪比OpenAI。MidjourneyV4版本去年年底幾乎跟ChatGPT同期上線，而就在上周GPT-4推出的時(shí)候，Midjourney也飛速推出了第五代版本，而這一次的更新堪稱“炸裂”。

一周以來，各種用Midjourney生成的神圖層出不窮，國足奪冠、特朗普插秧、教皇打碟、異形下鄉(xiāng)……只要你敢想AI就敢畫，而且隨便拿出一張都能做到以假亂真的程度。但可能有創(chuàng)作的偽照片過于真實(shí)，引起了太多爭(zhēng)議，太多新用戶涌入導(dǎo)致服務(wù)器不堪重負(fù)，本周二，Midjourney宣布關(guān)閉了其免費(fèi)賬戶的使用通道。

不過，另外一方面，在人們瘋狂娛樂的同時(shí)，一些人也嘗試著把ChatGPT和Midjourney結(jié)合起來使用，一些由人類構(gòu)思、AI主導(dǎo)和操作的“人機(jī)合作”作品也逐漸顯現(xiàn)出了商業(yè)化應(yīng)用的輪廓。

｜當(dāng)圖片向照片進(jìn)化：一個(gè)由AI創(chuàng)造的平行世界誕生

你有沒有想象過這樣的畫面：

在不久前落幕的卡塔爾世界杯上，整個(gè)綠茵球場(chǎng)變成了一片紅色的海洋。大家歡呼雀躍，全場(chǎng)掌聲雷動(dòng)。

圖片來自小紅書博主，賬號(hào)：Ai船長(zhǎng)

愛因斯坦沒有出現(xiàn)在實(shí)驗(yàn)室里，而是梳著標(biāo)志性的發(fā)型，在音樂節(jié)上狂歡。

圖片來自推特

馬斯克沒有在21世紀(jì)造火箭和電動(dòng)汽車，而是穿越到了蘇聯(lián)工廠，真正當(dāng)起了一名“鋼鐵俠”（工人）。

圖片來自推特

這樣的世界，你覺得怎么樣？

以上這些無比真實(shí)的照片，并不是由誰花了大量時(shí)間PS制作的，而是很多普通人通過動(dòng)一動(dòng)手指頭，打幾個(gè)關(guān)鍵字，就讓人工智能在十幾秒內(nèi)所自動(dòng)生成的。

造就這以假亂真世界的幕后推手是一個(gè)名為Midjourney的AI生成圖片工具?？梢哉f，目前在AIGC繪圖領(lǐng)域，MidJourney是一個(gè)比OpenAI還神奇的存在。Midjourney沒有任何巨頭的重金支持，是一個(gè)自籌資金的獨(dú)立研究實(shí)驗(yàn)室，它的發(fā)起人為曾兩次拒絕蘋果收購的Leap Motion公司的創(chuàng)始人David Holz，目前全職員工僅有11人。

但就是這么一個(gè)超小型團(tuán)隊(duì)，卻是當(dāng)前AI繪圖領(lǐng)域最炙手可熱的明星，甚至將OpenAI的DALL-E、Stable Diffusion、英偉達(dá)的GauGAN2等同類工具都甩在了身后。

｜比肩GPT的更新速度，驚嘆和爭(zhēng)議相繼到來

Midjourney的迭代速度相較于OpenAI可以說是有過之而無不及。去年3月份第一版本首次上線，4月份便火速更新第二版本，接著7月份上線Open Beta V3版本首次向公眾開放，之后以其獨(dú)特的藝術(shù)性風(fēng)格吸引了一些用戶。其中，最出圈的就是這張由普通人給出提示詞、AI負(fù)責(zé)創(chuàng)作，跟人類藝術(shù)家同臺(tái)比賽之后斬獲金獎(jiǎng)的油畫。

之后Midjourney并沒有停下更新的腳步，11月又推出第四代版本添加了更多圖片風(fēng)格，緊接著今年3月份，Midjourney V5版本登場(chǎng)。此次V5版本的更新之所以能引發(fā)大量關(guān)注，主要是因?yàn)樗鉀Q了一個(gè)技術(shù)難題和完成了一次跨越性的突破。

其中，技術(shù)難題指的是——畫手。

讓AI畫出逼真的人類手部特征是一個(gè)看起來簡(jiǎn)單但卻出奇復(fù)雜的任務(wù)。首先，在 AI的訓(xùn)練圖集中，手往往都不是圖片的重點(diǎn)，同時(shí)人們握手、牽手、鼓掌等不同狀態(tài)下手部形態(tài)各異，很難形成標(biāo)準(zhǔn)化的模版，這也就造成了AI學(xué)習(xí)難度的激增。

此外，即便對(duì)于傳統(tǒng)人類畫師來說，畫手也是最困難的地方之一。手的幾何形狀復(fù)雜，并沒有一套標(biāo)準(zhǔn)的線條或形狀，指關(guān)節(jié)上的皺紋和褶皺、手掌上的陰影等細(xì)節(jié)非常多，并且每個(gè)人的手都不一樣，是獨(dú)一無二的存在，并不能套用。

因此正確并精細(xì)化地畫手對(duì)于所有的AI工具來說都是一項(xiàng)困難的挑戰(zhàn)，在Midjourney的V5之前，行業(yè)內(nèi)的AI繪畫工具都無法很好地完成。

Midjourney（左）、Stable Diffusion（右上）和DALL-E 2（右下）此前生成的奇怪人手，圖片來自buzzfeednews

但現(xiàn)在，Midjourney V5版本的已經(jīng)完美解決了這個(gè)問題。

圖片來自推特

不僅告別了六指或畸形，還能結(jié)合人物特點(diǎn)畫出不同狀態(tài)和年齡畫出不同的手部細(xì)節(jié)，就連在光影中的手指紋路也能被完美呈現(xiàn)。

圖片來自于mpost

而除了攻克了畫手這個(gè)技術(shù)難題之外，Midjourney V5此次另一跨越性的突破在于——能夠生成照片級(jí)的圖片，并且還是攝影大師拍的那種。

在V5之前，Midjourney生成的圖片總體以卡通或超現(xiàn)實(shí)風(fēng)格為主，但V5版本能夠支援包括真實(shí)、抽象、油畫等更廣泛的風(fēng)格，圖像解像度比上個(gè)版本提高2 倍。而此次寫實(shí)風(fēng)格的上線，可以說直接到了讓很多攝影師都要感嘆“攝影學(xué)不存在了”的地步。

比如，以“90年代大街上的模特”為主題，完美創(chuàng)造出真假難辨的照片。

圖片來自推特，賬號(hào)Nick St. Pierre

以“你好小朋友”為主題，用膠片質(zhì)感完成童年重現(xiàn)。

圖片來自小紅書博主，賬號(hào)：逗比

以“發(fā)生颶風(fēng)的新聞報(bào)道”為主題，無中生有地去還原一個(gè)災(zāi)難現(xiàn)場(chǎng)等等。

圖片來自推特

從以上這些照片示例中可以看出，Midjourney的寫實(shí)圖片生成并不局限于一種固定的風(fēng)格，而是會(huì)根據(jù)你描述場(chǎng)景和想要的風(fēng)格來智能化的調(diào)整色調(diào)、像素、鏡頭語言等。最近Midjourney產(chǎn)出的很多圖片，甚至已經(jīng)達(dá)到人的肉眼無法判別真?zhèn)蔚某潭取?/span>

如果從技術(shù)的角度，Midjourney的進(jìn)步無疑是讓人驚艷和贊嘆的。但可能也因?yàn)檫@些照片太過于真實(shí)和太多新用戶的涌入，本周二，Midjourney宣布關(guān)閉了其免費(fèi)賬戶的使用通道。分析認(rèn)為，此舉也是為了防止更多離譜的“照片”出現(xiàn)，從而擾亂現(xiàn)實(shí)世界和散布有害信息。

比如，此前真的就有媒體以把特朗普被捕的生成圖片當(dāng)成了真實(shí)現(xiàn)場(chǎng)照片，從而造成了虛假新聞的出現(xiàn)和發(fā)酵。此外，Midjourney目前的關(guān)鍵詞審核機(jī)制并不嚴(yán)格，因此也存在產(chǎn)生大量有害照片的風(fēng)險(xiǎn)。Midjourney表示他們正在進(jìn)一步加強(qiáng)對(duì)于AI生成內(nèi)容的監(jiān)管和審核。

圖片來自于The Verge

｜ ChatGPT+Midjourney強(qiáng)強(qiáng)聯(lián)合，AI作品走向商業(yè)化應(yīng)用

目前，MidJourney仍然需要結(jié)合Discord使用，使用方法依然很簡(jiǎn)單，通過輸入文字和一些參數(shù)要求描述即可。目前還支持用戶上傳自己的圖片，再根據(jù)圖片進(jìn)行AI生成。

目前，一段完整Midjourney的“咒語”示例大概如下：

A man in futuristic armor with cyberpunk details（對(duì)想要呈現(xiàn)圖片的文字描述，可以添加更多細(xì)節(jié)），shot on Canon R6 with 50mm f1.2（風(fēng)格描述，可以提出是什么設(shè)備拍攝的、或者是以哪位知名藝術(shù)家或攝影師的風(fēng)格），--v 5（使用第五代版本技術(shù)）--ar 4:6 （畫幅比例，V5 版本中你可以自定義任何比例）--iw 1（輸入的參考圖片的權(quán)重占比）

雖然咒語的構(gòu)成并不算復(fù)雜，但對(duì)于很多只有一個(gè)模糊想法的普通用戶來說，如何讓Midjourney來畫出自己腦中圖像仍然比較困難。于是，ChatGPT也登場(chǎng)了。

ChatGPT能發(fā)揮什么作用呢？首先你可以模糊地描述你的構(gòu)想，讓ChatGPT拓展成一個(gè)充滿細(xì)節(jié)的畫面描述，接著讓它從這段文字描述中提取關(guān)鍵詞。然后，你可以將Midjourney的提示句的語法構(gòu)成告訴ChatGPT，再通過幾次訓(xùn)練讓Midjounery記住如何通過你輸入的關(guān)鍵詞來創(chuàng)建Midjourney的命令語法。

之后你只需要復(fù)制粘貼ChatGPT給你的指令粘貼到Midjourney的命令框里即可生成圖片，如果你不滿意還可以讓ChatGPT來繼續(xù)幫你修改完善關(guān)鍵詞。

目前，已經(jīng)有很多人已經(jīng)在嘗試將ChatGPT和Midjourney結(jié)合產(chǎn)出的結(jié)果，應(yīng)用于自己的工作中。比如，做電商的不再需要去花大價(jià)錢去找攝影師、設(shè)計(jì)師，而是只需要把產(chǎn)品圖片和關(guān)鍵詞提供給AI工具，就能直接生成商業(yè)大片。

圖片來自小紅書博主，賬號(hào)：阿湯嬌嬌啊、阿泰ATAI動(dòng)態(tài)視覺

未來甚至也不用找真人模特了，直接用AI生成就行。

還有人將其用于室內(nèi)家居設(shè)計(jì)領(lǐng)域，幫助自己來做網(wǎng)站、生成宣傳圖片等。

可以預(yù)見的是，ChatGPT和Midjourney的合作可能僅僅只是AI商業(yè)化應(yīng)用的一個(gè)開端。隨著AI技術(shù)的快速發(fā)展，各種工具的出現(xiàn)讓AI的應(yīng)用范圍也會(huì)指數(shù)級(jí)的擴(kuò)大。目前，在設(shè)計(jì)、電商、廣告、游戲、影視等各個(gè)領(lǐng)域都涌現(xiàn)出了更多的用例，在娛樂性大大增強(qiáng)的同時(shí)，全新的機(jī)遇賽道也在被開啟。

最后，讓我們來做一個(gè)無獎(jiǎng)競(jìng)猜。以下兩張烤雞的圖片中，你認(rèn)為到底哪一張才是由真的相機(jī)拍攝的呢？

認(rèn)為是上邊這張請(qǐng)?jiān)谠u(píng)論區(qū)留1，認(rèn)為是下邊這張的請(qǐng)留2。歡迎大家參與！

注：封面圖來自于博主AI船長(zhǎng)，版權(quán)屬于原作者。如果不同意使用，請(qǐng)盡快聯(lián)系我們，我們會(huì)立即刪除。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

新版Midjourney太炸裂：AI繪畫再無Bug，“有圖有真相”時(shí)代徹底過去

相關(guān)推薦

技術(shù)專區(qū)

博客專欄

新版Midjourney太炸裂：AI繪畫再無Bug，“有圖有真相”時(shí)代徹底過去

相關(guān)推薦

技術(shù)專區(qū)

新版Midjourney太炸裂：AI繪畫再無Bug，“有圖有真相”時(shí)代徹底過去