ACL 2021 | 時空可控的圖片描述生成
編者按:一直以來,圖片描述生成任務都是人工智能領域研究人員們關注的熱點話題。近期學術界提出的 Localized-Narratives 數(shù)據(jù)集,為圖片描述生成的可控性和可解釋性研究提供了新的機會。基于此,微軟亞洲研究院的研究員們展開了深入研究,致力于對圖像描述生成任務中所涉及的語義概念進行空間和時序關系上的控制,以提高其表現(xiàn)性能。同時,研究員們還提出了一種新模型 LoopCAG,并通過一系列實驗證明了其在多個層面的可控性優(yōu)勢。
針對視覺信號和語言信號的對應關系這一研究熱點,研究員們從圖片描述生成的可控性角度給出了解答,但想要深度理解和研究這一問題還有很長的路要走。希望感興趣的讀者可以閱讀論文全文,并發(fā)表自己的獨特觀點,和研究員們一起交流學術感想!
圖片描述生成是一項非常經典的人工智能任務,但是隨著人們對其關注度的提高,如何控制生成的內容還需要進一步探究。為了生成用戶希望且具備事實依據(jù)的圖片描述,學術界近期提出了一個被稱為 Localized-Narratives 的數(shù)據(jù)集,并且將鼠標軌跡作為一個額外的輸入,引入到圖片描述生成任務中。
對此,微軟亞洲研究院的研究員們進行了深入研究,發(fā)現(xiàn)鼠標軌跡的引入可以增強圖片描述生成的可控性和可解釋性,同時研究員們還提出了一種新模型 LoopCAG,顯著提升了圖片描述生成的性能。相關論文“Control Image Captioning Spatially and Temporally”已被 ACL 2021 接收。(論文鏈接:https://aclanthology.org/2021.acl-long.157.pdf)
軌跡控制的圖片描述生成任務可以定義為:當給定一個圖像和代表用戶意圖的鼠標軌跡時,模型應該生成與軌跡的每個部分相對應的描述。例如,當在圖1左側的圖像上畫上彩色軌跡時,需要生成如圖1右側的描述。軌跡和標有相同顏色的描述是相互對應的。從圖1中可以看出,描述中的一些詞,例如 “person”、“horse”、“tree”,可以在空間上直接與圖片中的視覺對象一一對應。同時,生成描述的順序需要與軌跡的順序保持一致。
圖1:軌跡控制的圖片描述生成
雖然,人們可以很容易地做到按軌跡的指示順序來描述圖片中的視覺對象 。但對于人工智能系統(tǒng)來說,如何識別、強調并沿著這些坐標安排視覺語義,是一件非常困難且具有研究意義的事情。
在這項工作中,微軟亞洲研究院的研究員們主要致力于對圖像描述生成任務中所涉及的語義概念進行控制,其包含兩個層面:空間上的對應關系和時序上的排列次序。空間上的對應關系是指,描述中的每一個詞都應該在圖像的正確區(qū)域找到正確的對應;時序上的排列次序是指,描述和軌跡之間的語義順序應該保持一致。
軌跡控制圖片描述生成任務的形式化表述
研究員們首先給出了針對這個問題的形式化表述。對于視覺輸入,需要在圖像上應用一個預先訓練好的視覺目標檢測器,得到一個對象級別的視覺特征集 V={v_1,…,v_N} ,其中包括 N 個視覺對象的向量表示。相對應的文字描述則是生成目標,表示為一個字符序列 Y={y_1,…,y_l},其中 y_j 是第 j 個字符,l 是字符序列的長度。
原始軌跡輸入是一個帶有時間戳的軌跡點序列,將軌跡點序列按相同的時間窗口
*博客內容為網友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。
電能表相關文章:電能表原理