7 Papers & Radios | 谷歌大牛Jeff Dean撰文深度學(xué)習(xí)的黃金十年；擴散模型生成視頻

發(fā)布人：機器之心時間：2022-04-20 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

本周論文包括谷歌大牛 Jeff Dean 發(fā)文探索深度學(xué)習(xí)發(fā)展的黃金十年；Google Research 的研究者們提出了一種稱為「自洽性（self-consistency）」的簡單策略，顯著提高了大型語言模型的推理準(zhǔn)確率。

A Golden Decade of Deep Learning: Computing Systems & Applications
Domain Generalization via Shuffled Style Assembly for Face Anti-Spoofing
Self-Consistency Improves Chain of Thought Reasoning in Language Models
Reconfigurable Magnetic Slime Robot: Deformation, Adaptability, and Multifunction
Video Diffusion Models
Overcoming a Theoretical Limitation of Self-Attention
RETHINKING NETWORK DESIGN AND LOCAL GEOMETRY IN POINT CLOUD: A SIMPLE RESIDUAL MLP FRAMEWORK
ArXiv Weekly Radiostation：NLP、CV、ML 更多精選論文（附音頻）

論文 1：A Golden Decade of Deep Learning: Computing Systems & Applications

作者：Jeffrey Dean
論文鏈接：https://www.amacad.org/sites/default/files/publication/downloads/Daedalus_Sp22_04_Dean.pdf

摘要：自從計算機誕生之初，人類就夢想著能夠創(chuàng)造出會思考的機器。1956 年在達特茅斯學(xué)院組織的一個研討會上，約翰 · 麥卡錫提出人工智能這個概念，一群數(shù)學(xué)家和科學(xué)家聚集在一起尋找如何讓機器使用語言、形成抽象理解和概念、以解決現(xiàn)存的各種問題，當(dāng)時研討會參與者樂觀地認(rèn)為，在幾個月的時間里這些問題能取得真正的進展。
事實證明，預(yù)留幾個月的時間安排過于樂觀。在接下來的 50 年里，創(chuàng)建人工智能系統(tǒng)的各種方法開始流行，但后來又遭遇過時，包括基于邏輯的系統(tǒng)、基于規(guī)則的專家系統(tǒng)和神經(jīng)網(wǎng)絡(luò)。
直到 2011 年左右，人工智能才開始進入發(fā)展關(guān)鍵階段，取得了巨大的進步，這得益于深度學(xué)習(xí)中神經(jīng)網(wǎng)絡(luò)的復(fù)興，這些技術(shù)的進步有助于提高計算機看、聽和理解周圍世界的能力，使得人工智能在科學(xué)以及人類探索的其他領(lǐng)域取得巨大進步。這其中有哪些原因呢？
近日，谷歌大牛 Jeff Dean 發(fā)表了一篇文章《 A Golden Decade of Deep Learning: Computing Systems & Applications 》，文章探索了深度學(xué)習(xí)在這黃金十年里，計算系統(tǒng)以及應(yīng)用進步的原因都有哪些？本文重點關(guān)注三個方面：促成這一進步的計算硬件和軟件系統(tǒng)；過去十年在機器學(xué)習(xí)領(lǐng)域一些令人興奮的應(yīng)用示例；如何創(chuàng)建更強大的機器學(xué)習(xí)系統(tǒng)，以真正實現(xiàn)創(chuàng)建智能機器的目標(biāo)。
Jeff Dean 的這篇文章發(fā)表在了美國文理學(xué)會會刊 D?dalus 的 AI 與社會（AI & Society）特刊上。
推薦：谷歌大牛 Jeff Dean 單一作者撰文：深度學(xué)習(xí)研究的黃金十年。
論文 2：Domain Generalization via Shuffled Style Assembly for Face Anti-Spoofing

作者：Zhuo Wang 、 Zezheng Wang 、 Zitong Yu 等
論文鏈接：https://arxiv.org/abs/2203.05340

摘要：在這篇文章中，該研究提出了一個新的網(wǎng)絡(luò)結(jié)構(gòu) SSAN，用以實現(xiàn)具有域泛化性的活體檢測算法。與過去的方法直接在圖像完全表征上提升域泛化性的思路不同，該研究基于內(nèi)容特征和風(fēng)格特征在統(tǒng)計特性上的差異，對他們實施不同的處理。具體而言，對于內(nèi)容特征，本文采用了對抗學(xué)習(xí)的方式，使得網(wǎng)絡(luò)無法對他們進行數(shù)據(jù)域?qū)用娴膮^(qū)分。對于風(fēng)格特征，本文使用了對比學(xué)習(xí)的策略，來強化與活體相關(guān)的風(fēng)格信息，同時抑制域信息相關(guān)的部分。然后，本文對配對的內(nèi)容和風(fēng)格特征進行組合，構(gòu)成完全特征表示，并用以最后的分類。
此外，為了彌合學(xué)術(shù)界與工業(yè)界之間的差異，本文通過合并現(xiàn)有的公開數(shù)據(jù)集，建立了大規(guī)?；铙w檢測測試協(xié)議。在現(xiàn)有的協(xié)議和本文所提出的協(xié)議上，所提出的 SSAN 算法均取得了最佳的表現(xiàn)。
本文方法的整體框架如圖二所示。首先，本文使用一個雙流網(wǎng)絡(luò)來對圖像的內(nèi)容信息和風(fēng)格信息進行提取。第二步，一種風(fēng)格重組的方法被提出，以使不同的內(nèi)容特征和風(fēng)格特征進行組合。然后，為了抑制域相關(guān)的風(fēng)格信息，同時增強活體相關(guān)的風(fēng)格信息，本文在重組后的特征空間上使用了對比學(xué)習(xí)的策略。最后，總的損失函數(shù)用來訓(xùn)練所提出的網(wǎng)絡(luò)。
整體網(wǎng)絡(luò)框架
推薦：快手、北郵提出基于特征組合的域泛化性活體檢測算法，多項 SOTA。
論文 3：Self-Consistency Improves Chain of Thought Reasoning in Language Models

作者：Xuezhi Wang 、 Jason Wei 等
論文鏈接：https://arxiv.org/pdf/2203.11171.pdf

摘要：盡管語言模型在一系列 NLP 任務(wù)中取得了顯著的成功，但它們的推理能力往往不足，僅靠擴大模型規(guī)模不能解決這個問題?；诖耍琖ei et al. (2022) 提出了思維提示鏈（chain of thought prompting），提示語言模型生成一系列短句，這些短句模仿一個人在解決推理任務(wù)時可能采用的推理過程。
現(xiàn)在來自 Google Research 的研究者們提出了一種稱為「自洽性（self-consistency）」的簡單策略，它顯著提高了大型語言模型的推理準(zhǔn)確率。
簡單來說，復(fù)雜的推理任務(wù)通常有多個能得到正確答案的推理路徑，自洽方法通過思維提示鏈從語言模型中采樣一組不同的推理路徑，然后返回其中最自洽的答案。

該方法在一系列算術(shù)和常識推理基準(zhǔn)上評估自洽性，可以穩(wěn)健地提高各種語言模型的準(zhǔn)確性，而無需額外的訓(xùn)練或輔助模型。當(dāng)與最近的大型語言模型 PaLM-540B 結(jié)合使用時，自洽方法將多個基準(zhǔn)推理任務(wù)的性能提高到 SOTA 水平。
該方法是完全無監(jiān)督的，預(yù)訓(xùn)練語言模型直接可用，不需要額外的人工注釋，也不需要任何額外的訓(xùn)練、輔助模型或微調(diào)。
該研究在三種大型語言模型上評估一系列算術(shù)推理和常識推理任務(wù)的自洽性，包括 LaMDA-137B (Thoppilan et al., 2022)、PaLM-540B (Chowdhery et al., 2022) 和 GPT-3 175B (Brown et al., 2020)。研究者發(fā)現(xiàn)，對于這幾種規(guī)模不同的語言模型，自洽方法都能顯著提高其推理能力。與通過貪心解碼（Wei et al., 2022）生成單一思維鏈相比，自洽方法有助于在所有推理任務(wù)中顯著提高準(zhǔn)確性，如下圖 2 所示。

推薦：用自洽性提升大模型推理能力，谷歌解答基準(zhǔn)中 75% 數(shù)學(xué)問題，比 GPT-3 提升 20%。
論文 4：Reconfigurable Magnetic Slime Robot: Deformation, Adaptability, and Multifunction

作者：Mengmeng Sun、Chenyao Tian 等
論文鏈接：https://onlinelibrary.wiley.com/doi/abs/10.1002/adfm.202112508

摘要：看過電影《毒液》的朋友都知道，「共生體」以液體狀的形式出現(xiàn)，即使被打成肉泥或是一灘水，只要有足夠的時間也可以恢復(fù)?，F(xiàn)在，具有這般強大修復(fù)功能的機器人出現(xiàn)了。
這種「磁性粘液機器人」和粘液怪 slime 同名，是由來自哈爾濱工業(yè)大學(xué)和香港中文大學(xué)的研究者共同研發(fā)的，研究發(fā)表在同行評審期刊《Advanced Functional Materials》上。
slime 由聚乙烯醇、硼砂和釹磁鐵顆粒的混合物制成。研究團隊成員、香港中文大學(xué)教授張立說：「這種材料就像是水和淀粉的混合物，是一種非牛頓流體，其粘度會在外力作用下發(fā)生變化。當(dāng)你快速觸摸它時，它就像一個固體。當(dāng)你輕輕地、慢慢地觸摸它時，它就像液體一樣。」

由于該粘液中含有釹磁鐵等磁性顆粒，因此能夠由磁鐵控制其移動和變形，并且具有良好的導(dǎo)電性，可與電極相連，充當(dāng)電路開關(guān)。

slime 具備極好的拉伸性能，可以通過 1.5mm 的狹窄縫隙而不斷裂。該研究在相同的磁場條件下，比較了鐵磁流體液滴機器人和 slime 的拉伸能力。

此外，slime 能夠變成 O 形或 C 形來環(huán)繞細(xì)小的物體，一些科學(xué)家認(rèn)為這可能對消化系統(tǒng)有用，例如減少吞下小電池的危害。他們認(rèn)為使用這種粘液機器人對電池進行封裝，形成一種惰性涂層，可以避免有毒電解質(zhì)泄漏的危害。

推薦：來自哈爾濱工業(yè)大學(xué)和香港中文大學(xué)的研究者共同研發(fā)了一種磁性粘液機器人，具有強大的變形功能。
論文 5：Video Diffusion Models

作者：Jonathan Ho 、 Tim Salimans 等
論文鏈接：https://arxiv.org/pdf/2204.03458.pdf

摘要：擴散模型并不是一個嶄新的概念，早在 2015 年就已經(jīng)被提出。其核心應(yīng)用領(lǐng)域包括音頻建模、語音合成、時間序列預(yù)測、降噪等。
那么它在視頻領(lǐng)域表現(xiàn)如何？先前關(guān)于視頻生成的工作通常采用諸如 GAN、VAE、基于流的模型。
在視頻生成領(lǐng)域，研究的一個重要里程碑是生成時間相干的高保真視頻。來自谷歌的研究者通過提出一個視頻生成擴散模型來實現(xiàn)這一里程碑，顯示出非常有希望的初步結(jié)果。本文所提出的模型是標(biāo)準(zhǔn)圖像擴散架構(gòu)的自然擴展，它可以從圖像和視頻數(shù)據(jù)中進行聯(lián)合訓(xùn)練，研究發(fā)現(xiàn)這可以減少小批量梯度的方差并加快優(yōu)化速度。
為了生成更長和更高分辨率的視頻，該研究引入了一種新的用于空間和時間視頻擴展的條件采樣技術(shù)，該技術(shù)比以前提出的方法表現(xiàn)更好。
例如生成五彩斑斕的煙花：

這項研究有哪些亮點呢？首先谷歌展示了使用擴散模型生成視頻的首個結(jié)果，包括無條件和有條件設(shè)置。先前關(guān)于視頻生成的工作通常采用其他類型的生成模型，如 GAN、VAE、基于流的模型和自回歸模型。
其次該研究表明，可以通過高斯擴散模型的標(biāo)準(zhǔn)公式來生成高質(zhì)量的視頻，除了直接的架構(gòu)更改以適應(yīng)深度學(xué)習(xí)加速器的內(nèi)存限制外，幾乎不需要其他修改。該研究訓(xùn)練生成固定數(shù)量的視頻幀塊的模型，并且為了生成比該幀數(shù)更長的視頻，他們還展示了如何重新調(diào)整訓(xùn)練模型的用途，使其充當(dāng)對幀進行塊自回歸的模型。
下圖左為利用梯度方法的視頻幀，圖右為利用自回歸擴展基線替代（replacement）方法的幀。可以看到，使用梯度方法采用的視頻比基線方法具有更好的時間相干性。

推薦：視頻生成無需 GAN、VAE，谷歌用擴散模型聯(lián)合訓(xùn)練視頻、圖像，實現(xiàn)新 SOTA。
論文 6：Overcoming a Theoretical Limitation of Self-Attention

作者：David Chiang 、 Peter Cholak
論文鏈接：https://arxiv.org/pdf/2202.12172.pdf

摘要：盡管 transformer 模型在許多任務(wù)中都非常有效，但它們對一些看起來異常簡單的形式語言卻難以應(yīng)付。Hahn (2020) 提出一個引理 5），來試圖解釋這一現(xiàn)象。這個引理是：改變一個輸入符號只會將 transformer 的輸出改變

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權(quán)請聯(lián)系工作人員刪除。

博客專欄

7 Papers & Radios | 谷歌大牛Jeff Dean撰文深度學(xué)習(xí)的黃金十年；擴散模型生成視頻

相關(guān)推薦

技術(shù)專區(qū)