李飛飛對計算機視覺的愿景：World Labs 正為機器提供 3D 空間智能

作者：時間：2024-12-13 來源：IEEE

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

斯坦福大學教授李飛飛已經在 AI 歷史上贏得了自己的地位。她在深度學習革命中發(fā)揮了重要作用，多年來努力創(chuàng)建 ImageNet 數據集和競賽，挑戰(zhàn) AI 系統(tǒng)識別 1000 個類別的物體和動物。2012 年，一個名為 AlexNet 的神經網絡在 AI 研究界引起了震動，它的性能遠遠超過了所有其他類型的模型，并贏得了 ImageNet 比賽。從那時起，神經網絡開始騰飛，由互聯網上現在提供的大量免費訓練數據和提供前所未有的計算能力的 GPU 提供支持。

本文引用地址：http://butianyuan.cn/article/202412/465502.htm

在 ImageNet 問世后的 13 年里，計算機視覺研究人員掌握了對象識別技術，并轉向圖像和視頻生成。Li 是斯坦福大學以人為本的 AI 研究所（HAI）的聯合創(chuàng)始人，并繼續(xù)突破計算機視覺的界限。就在今年，她創(chuàng)辦了一家初創(chuàng)公司 World Labs，生成用戶可以探索的 3D 場景。World Labs 致力于為 AI 提供“空間智能”，即生成 3D 世界、在 3D 世界中進行推理和交互的能力。Li 昨天在大型 AI 會議 NeurIPS 上發(fā)表了關于她對機器視覺的愿景的主題演講，并在演講前接受了 IEEE Spectrum 的獨家采訪。

您為什么將演講的題目定為“Ascending the Ladder of Visual Intelligence”？

李飛飛：我認為智能具有不同程度的復雜程度和復雜程度是直覺的。在演講中，我想傳達這樣一種感覺，即在過去幾十年中，尤其是過去 10 多年的深度學習革命中，我們學到的視覺智能令人嘆為觀止。我們越來越有能力使用這項技術。我還受到了 Judea Pearl 的 “因果階梯” [在他 2020 年的書 The Book of Why] 的啟發(fā)。

該演講還有一個副標題，“從看到到做”。這是人們不夠欣賞的東西：視覺與互動和做事密切相關，無論是對動物還是對 AI 代理都是如此。這與語言背道而馳。從根本上說，語言是一種用于傳達想法的交流工具。在我看來，這些是非?；パa但同樣深刻的智能模式。

你的意思是我們本能地對某些景象做出反應嗎？

李：我說的不僅僅是直覺。如果你看一下感知的進化和動物智能的進化，它們就已經緊密交織在一起了。每當我們能夠從環(huán)境中獲取更多信息時，進化的力量就會推動能力和智能向前發(fā)展。如果你感覺不到環(huán)境，你與世界的關系就非常被動;你是否吃或被吃是一種非常被動的行為。但是，一旦你能夠通過感知從環(huán)境中獲取線索，進化壓力就會真正增加，從而推動智能向前發(fā)展。

您認為這就是我們創(chuàng)建越來越深入的機器智能的方式嗎？通過允許機器感知更多的環(huán)境？

李：我不知道“深”是不是我會用的形容詞。我認為我們正在創(chuàng)造更多功能。我認為它變得越來越復雜，功能越來越強大。我認為，解決空間智能問題是邁向全面智能的基礎和關鍵步驟，這是絕對正確的。

我看過 World Labs 的演示。您為什么想要研究空間智能并構建這些 3D 世界？

李：我認為空間智能是視覺智能的發(fā)展方向。如果我們認真地解決視覺問題并將其與行動聯系起來，那么有一個非常簡單、顯而易見的事實：世界是 3D 的。我們不是生活在一個平坦的世界里。我們的物理代理，無論它們是機器人還是設備，都將生活在 3D 世界中。甚至虛擬世界也變得越來越 3D。如果您與藝術家、游戲開發(fā)人員、設計師、建筑師、醫(yī)生交談，即使他們在虛擬世界中工作，其中大部分都是 3D 的。如果您花點時間認識到這個簡單而深刻的事實，那么毫無疑問，破解 3D 智能問題是根本。

我很好奇 World Labs 中的場景如何保持物體的持久性并符合物理定律。這感覺像是向前邁出的令人興奮的一步，因為像 Sora 這樣的視頻生成工具仍然在摸索這些東西。

李：一旦你尊重世界的 3D 性，很多事情都是很自然的。例如，在我們發(fā)布在社交媒體上的一個視頻中，籃球被放入場景中。因為它是 3D 的，所以它允許你擁有這種能力。如果場景只是 2D 生成的像素，籃球將無處可去。

或者，就像在 Sora 中一樣，它可能會去某個地方，但隨后消失了。在嘗試推動這項技術向前發(fā)展的過程中，您面臨的最大技術挑戰(zhàn)是什么？

李：沒有人解決這個問題，對吧？這非常非常困難。你可以看到 [在 World Labs 演示視頻中] 我們拍攝了一幅梵高的畫作，并以一致的風格生成了圍繞它的整個場景：藝術風格、照明，甚至那個社區(qū)會有什么樣的建筑。如果你轉過身來，它變成了摩天大樓，那將完全沒有說服力，對吧？而且它必須是 3D 的。你必須導航到它。所以這不僅僅是像素。

您能談談您用來訓練它的數據嗎？

李：好多。

您是否在計算負擔方面面臨技術挑戰(zhàn)？

李：這是大量的計算。這是公共部門無法承受的計算類型。這就是我很高興能休假的部分原因，以私營部門的方式做這件事。這也是我一直倡導公共部門計算訪問的部分原因，因為我自己的經驗強調了在資源充足的情況下進行創(chuàng)新的重要性。

賦予公共部門權力是件好事，因為它通常更受激勵于為了自身而獲得知識，為人類的利益而獲得知識。

李：知識發(fā)現需要資源支持，對嗎？在伽利略時代，這是讓天文學家觀測新天體的最佳望遠鏡。是胡克意識到放大鏡可以變成顯微鏡和發(fā)現的細胞。每當有新的技術工具出現時，它都會幫助人們尋求知識。現在，在 AI 時代，技術工具涉及計算和數據。我們必須認識到公共部門的這一點。

您希望在聯邦層面采取什么措施來提供資源？

李：這是 Stanford HAI 在過去五年中的工作。我們一直在與國會、參議院、白宮、行業(yè)和其他大學合作，以創(chuàng)建 NAIRR，即國家 AI 研究資源。

假設我們可以讓 AI 系統(tǒng)真正理解 3D 世界，那會給我們帶來什么？

李：它將為人們釋放大量的創(chuàng)造力和生產力。我希望以更高效的方式設計我的房子。我知道很多醫(yī)學用途都涉及了解一個非常特殊的 3D 世界，即人體。我們總是在談論人類將創(chuàng)造機器人來幫助我們的未來，但機器人在 3D 世界中導航，并且它們需要空間智能作為大腦的一部分。我們還討論了虛擬世界，這些世界將允許人們參觀地方、學習概念或娛樂。這些使用 3D 技術，尤其是混合動力車，我們稱之為 AR [增強現實]。我很想戴著一副眼鏡走過國家公園，它能為我提供有關樹木、小徑和云的信息。我也想通過空間智能的幫助下學習不同的技能。

什么樣的技能？

李：我蹩腳的例子是，如果我在高速公路上爆胎了，我該怎么辦？現在，我打開了一個“如何更換輪胎”的視頻。但是，如果我能戴上眼鏡，看看我的車發(fā)生了什么，然后在指導下完成這個過程，那就太酷了。但這是一個蹩腳的例子。你可以考慮烹飪，你可以考慮雕刻——有趣的事情。

您認為我們在有生之年能走多遠？

李：哦，我認為這將在我們的有生之年發(fā)生，因為技術進步的速度真的很快。您已經看到了過去 10 年帶來的一切。這絕對預示著接下來會發(fā)生什么。

新聞中心

李飛飛對計算機視覺的愿景：World Labs 正為機器提供 3D 空間智能

評論

相關推薦

技術專區(qū)