谷歌DeepMind發(fā)布Genie 2模型 可一鍵生成超逼真3D互動(dòng)世界
12月5日消息,美國當(dāng)?shù)貢r(shí)間周三,谷歌旗下人工智能研究機(jī)構(gòu)DeepMind推出了一款新模型,能夠創(chuàng)造出“無窮無盡”且各具特色的3D世界。
本文引用地址:http://butianyuan.cn/article/202412/465202.htm這款模型名為Genie 2,是DeepMind在今年早些時(shí)候推出的Genie模型的升級版。僅憑一張圖片和一段文字描述,例如“一個(gè)可愛的機(jī)器人置身于茂密的森林中”,Genie 2就能構(gòu)建出一個(gè)交互式的實(shí)時(shí)場景。在這方面,它與李飛飛創(chuàng)立的World Labs以及以色列新興企業(yè)Decart所開發(fā)的模型有著異曲同工之妙。
DeepMind宣稱,Genie 2能夠生成“豐富多樣的3D世界”,用戶可通過鼠標(biāo)或鍵盤在這些世界中自由跳躍、游泳等。經(jīng)過視頻訓(xùn)練,該模型能夠精準(zhǔn)模擬物體的交互、動(dòng)畫效果、照明、物理現(xiàn)象、反射效果以及“NPC”(非玩家角色)的行為。
Genie 2所創(chuàng)造的許多模擬場景,其視覺效果堪比AAA級視頻游戲,這很可能是因?yàn)樵撃P偷挠?xùn)練數(shù)據(jù)中融入了眾多熱門游戲的體驗(yàn)。然而,與眾多人工智能實(shí)驗(yàn)室一樣,DeepMind出于競爭壓力或其他考量,并未過多透露其數(shù)據(jù)來源及訓(xùn)練方法的細(xì)節(jié)。
這項(xiàng)技術(shù)對知識產(chǎn)權(quán)的影響引發(fā)關(guān)注。作為谷歌的子公司,DeepMind無疑能不受限制地訪問YouTube。而谷歌此前曾暗示,其協(xié)議允許使用YouTube視頻進(jìn)行模型訓(xùn)練。但問題是,Genie 2在制作過程中,是否無意間制作了它所“觀看”的視頻游戲未經(jīng)授權(quán)的復(fù)制品,恐怕只有法院才能給出最終裁決。
DeepMind透露,Genie 2具備從不同視角(如第一人稱視角與等距視角)生成連貫世界的能力,這些生成的世界可持續(xù)時(shí)間長達(dá)一分鐘,盡管多數(shù)情況下維持在10到20秒之間。
DeepMind團(tuán)隊(duì)在博客文章中表示:“Genie 2能夠智能地根據(jù)鍵盤操作作出反應(yīng),準(zhǔn)確識別角色并相應(yīng)移動(dòng)它。舉例來說,我們的模型能夠判斷方向鍵應(yīng)控制機(jī)器人的移動(dòng),而非樹木或云朵。”
眾多類似Genie 2的模型雖能模擬游戲及3D環(huán)境,卻常面臨人造感、連貫性缺失及幻覺相關(guān)的挑戰(zhàn)。例如,Decart的《我的世界》模擬器Oasis便存在分辨率低、迅速“遺忘”關(guān)卡布局的問題。
相比之下,Genie 2能夠記憶模擬場景中未直接呈現(xiàn)的部分,并在它們重現(xiàn)時(shí)精準(zhǔn)渲染,這一能力同樣體現(xiàn)在李飛飛World Labs的模型中。
然而,目前利用Genie 2制作的游戲尚缺乏足夠的趣味性,因?yàn)樗鼈兠糠昼姸紩宄婕业倪M(jìn)度。因此,DeepMind將Genie 2定位為一種研究與創(chuàng)新工具,專門用于“互動(dòng)體驗(yàn)”的原型制作及AI智能體的評估。
DeepMind在博客中寫道:“得益于Genie 2卓越的泛化能力,概念藝術(shù)和圖紙得以輕松轉(zhuǎn)化為完全互動(dòng)的環(huán)境。借助Genie 2,我們的研究人員能夠快速構(gòu)建出豐富多樣的環(huán)境供AI智能體使用,進(jìn)而生成訓(xùn)練期間未遭遇過的評估任務(wù),以檢驗(yàn)智能體的應(yīng)對能力?!?/p>
對于創(chuàng)意工作者,尤其是電子游戲行業(yè)的從業(yè)者而言,這種技術(shù)可能讓他們喜憂參半。近期,《連線》雜志的一項(xiàng)調(diào)查顯示,諸如動(dòng)視暴雪等大公司正借助人工智能技術(shù)來縮減成本、提升效率,并應(yīng)對員工流失的問題。事實(shí)上,動(dòng)視暴雪已裁汰了數(shù)十名員工。
盡管如此,谷歌在世界模型研究領(lǐng)域的投入正持續(xù)加大,這一領(lǐng)域有望成為人工智能領(lǐng)域的下一個(gè)重大突破。去年10月,DeepMind成功招募了蒂姆·布魯克斯(Tim Brooks),他此前負(fù)責(zé)OpenAI視頻生成器Sora的開發(fā)工作,現(xiàn)負(fù)責(zé)視頻生成技術(shù)和世界模擬器的研發(fā)。
兩年前,DeepMind還從Meta挖來了蒂姆·羅克塔謝爾(Tim Rockt?schel),他因?qū)Α禢etHack》等電子游戲的“開放性”實(shí)驗(yàn)而聞名。
評論