文生圖關(guān)鍵問題探索:個性化定制和效果評價(2)
從上述論文對文生圖的評價結(jié)果可以看出來,達(dá)到可控生成任重而道遠(yuǎn),其中最關(guān)鍵的一點是alignment,還有很大的提升空間。因此,我們可以得到文生圖的第二個關(guān)鍵問題——可控生成。通過一句prompts輸入來生成圖片時,生成的圖片和文字之間的alignment會比較弱,比如:
- 同時輸入多個實體不能實現(xiàn)完全生成;
- 實體之間的關(guān)系不能體現(xiàn);
- 顏色和數(shù)量不能體現(xiàn);
- 文字顯示不出來。
在現(xiàn)行的一些研究中,研究者也提出引入對文本理解更好的模型來解決可控問題,比如EDiff-I[8]。這篇文章延續(xù)了Imagen的思路,既然T5文本理解對于可控生成有幫助,那就把它集成進(jìn)來,發(fā)揮出1+1>2的效果。但是,從文本模型角度來改進(jìn)可控生成所需資源比較多,首先需要一個更強(qiáng)的文本模型,然后才能訓(xùn)練得到更好的文生圖模型。因此,有一些研究便從可控編輯的角度來解決這個問題,比如一項名為P2P (Prompt-to-Prompt Image Editing with cross attention control[9]) 的研究便期望通過微調(diào)prompt達(dá)到可控生成的目標(biāo)(見圖3)。圖3 通過微調(diào)prompt達(dá)到可控生成的目標(biāo)InstructPix2Pix [10]這篇文章的思路跟P2P思路很像,也是通過圖像編輯來實現(xiàn)可控生成。不一樣的是,這篇文章用GPT-3來做prompt微調(diào)。從圖片編輯這條線上進(jìn)行研究效果的確很驚艷,但是評價偏弱,沒有一個很好的評價標(biāo)準(zhǔn)和體系,還是很難繼續(xù)推進(jìn)。圖像編輯算法Paint by Example提出了另外一種思路:將可控生成的難度降低,提供一個樣本圖片,結(jié)合圖像修復(fù)技術(shù)來達(dá)到局部可控生成。其技術(shù)思路很直觀,同時提供機(jī)器評價和人工評價的結(jié)果。總得來說,這個方向的改進(jìn)可能會引發(fā)下一波文生圖應(yīng)用熱潮,但是因為評價方法的缺失,導(dǎo)致進(jìn)展比較難以衡量。個性化模型
本文首先從評測的角度探討了文生圖模型的關(guān)鍵問題:可控生成。接著從應(yīng)用的角度出發(fā),重點研究如何定制一個文生圖模型,這是落地各行業(yè)應(yīng)用的關(guān)鍵所在。在影視、動漫、漫畫、游戲、媒體、廣告、出版、時尚等行業(yè)使用文生圖模型時,常常會遇到新概念、風(fēng)格、人物缺失的問題。例如,若需要生成某位明星A的中國風(fēng)肖像,但該模型并未見過此明星的肖像,也無法識別中國風(fēng),這將嚴(yán)重限制文生圖模型的應(yīng)用場景。因此,如何快速新增概念和風(fēng)格,成為當(dāng)前研究的重要方向之一。說到這里,大家第一時間想到的肯定就是DreamBooth[11]、Textual Inversion[12]和美學(xué)梯度[13]。DreamBooth本身是為Imagen設(shè)計的,通過三張圖就能夠快速學(xué)習(xí)到新概念/風(fēng)格/人物,但是現(xiàn)在已經(jīng)遷移到了Stable Diffusion。這個技術(shù)有很多個不同的版本,其核心思想是在小樣本上微調(diào)的同時盡量減少過擬合。Textual Inversion是從文本編碼器的角度來解決新概念引入的問題,其提出新風(fēng)格和概念的引入需要從文本理解開始,新的風(fēng)格和概念如果是OOV(Out Of Vocaburary,未登錄)的詞匯,那我們就在文本編碼器上增加這個詞匯來解決概念引入的問題。其思路是整個模型的所有參數(shù)都不需要調(diào)整,只需要增加一個額外的token以及其對應(yīng)的embedding就可以,即插即用。美學(xué)梯度方法跟之前inpainting的可控生成思路很類似,針對新的風(fēng)格,我們先降低難度,給出一些新風(fēng)格的樣例(這里是embedding),然后讓生成朝著與這個樣例更接近的方向展開。總而言之,這條線上的研究現(xiàn)在也沒有什么評價標(biāo)準(zhǔn)和體系,處于方興未艾的階段,離落地也很近,基本出來效果就可以直接創(chuàng)業(yè)。
高質(zhì)量數(shù)據(jù)集數(shù)據(jù)的重要性不言而喻,大量高質(zhì)量的文圖數(shù)據(jù)是文生圖發(fā)展的血液,沒有數(shù)據(jù)再好的算法也發(fā)揮不了作用。數(shù)據(jù)集不是開源一堆url提供下載就完了,其中包括了水印識別、NSFW(Not Suitable For Work)圖片識別、文圖匹配過濾等多種預(yù)處理操作,甚至包括說明文字的生成、改寫和優(yōu)化等操作。這個方向國外的LAION團(tuán)隊做的非常的扎實,國內(nèi)也有一些公司開源了數(shù)據(jù)集。下表2列出,僅供參考。表2:國內(nèi)外開源文圖數(shù)據(jù)集綜上,文圖數(shù)據(jù)現(xiàn)在是英文的數(shù)據(jù)在數(shù)量和質(zhì)量上都比中文和其他語言高了一截,希望未來有十億級別的高質(zhì)量中文數(shù)據(jù)集出現(xiàn)。結(jié)語文生圖模型是當(dāng)前人工智能領(lǐng)域最具潛力和前景的研究方向之一。未來,隨著計算能力的提高和技術(shù)的進(jìn)一步發(fā)展,文生圖模型的應(yīng)用前景將會更加廣泛和深遠(yuǎn)。然而,針對其應(yīng)用過程中存在的一些問題,如模型評價缺乏一致性、控制生成過程效率低下、定制個性化模型困難以及高質(zhì)量文圖數(shù)據(jù)集缺乏等,需要我們進(jìn)一步研究探索解決方案。隨著文生圖模型的不斷發(fā)展和完善,我們可以預(yù)見到未來人機(jī)交互方式的改變。在智能化時代的到來中,文生圖模型的應(yīng)用將會極大地改變?nèi)藗兣c計算機(jī)交互的方式,讓計算機(jī)更加“懂人”,進(jìn)一步提升人機(jī)交互的效率和質(zhì)量,也有望成為人工智能走向真正“人性化”的關(guān)鍵一步。總之,文生圖模型作為一項研究熱點,具有極其廣泛的應(yīng)用前景,未來也將在技術(shù)創(chuàng)新和產(chǎn)業(yè)應(yīng)用中扮演越來越重要的角色。參考鏈接[1] Radford, Alec, et al. "Learning transferable visual models from natural language supervision." International conference on machine learning.PMLR, 202[2] Ramesh, Aditya, et al. "Zero-shot text-to-image generation." International Conference on Machine Learning. PMLR, 2021.[3] Rombach, Robin, et al. "High-resolution image synthesis with latent diffusion models." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.[4] Dhariwal, Prafulla, and Alexander Nichol. "Diffusion models beat gans on image synthesis." Advances in Neural Information Processing Systems 34 (2021): 8780-8794.[5] Petsiuk, Vitali, et al. "Human Evaluation of Text-to-Image Models on a Multi-Task Benchmark." arXiv preprint arXiv:2211.12112 (2022).[6] Saharia, Chitwan, et al. "Photorealistic text-to-image diffusion models with deep language understanding." Advances in Neural Information Processing Systems 35 (2022): 36479-36494.[7] Raffel, Colin, et al. "Exploring the limits of transfer learning with a unified text-to-text transformer." The Journal of Machine Learning Research 21.1 (2020): 5485-5551.[8] Balaji, Yogesh, et al. "ediffi: Text-to-image diffusion models with an ensemble of expert denoisers." arXiv preprint arXiv:2211.01324 (2022).[9] Hertz, Amir, et al. "Prompt-to-prompt image editing with cross attention control." arXiv preprint arXiv:2208.01626 (2022).[10] Brooks, Tim, Aleksander Holynski, and Alexei A. Efros. "Instructpix2pix: Learning to follow image editing instructions." arXiv preprint arXiv:2211.09800 (2022).[11] Ruiz, Nataniel, et al. "Dreambooth: Fine tuning text-to-image diffusion models for subject-driven generation." arXiv preprint arXiv:2208.12242 (2022).[12] Gal, Rinon, et al. "An image is worth one word: Personalizing text-to-image generation using textual inversion." arXiv preprint arXiv:2208.01618 (2022).[13] Gallego, Victor. "Personalizing Text-to-Image Generation via Aesthetic Gradients." arXiv preprint arXiv:2209.12330 (2022).
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。