讓機器人感知你的「Here you are」,清華團隊使用百萬場景打造通用人機交接
來自清華大學交叉信息研究院的研究者提出了「GenH2R」框架,讓機器人學習通用的基于視覺的人機交接策略(generalizable vision-based human-to-robot handover policies)。這種可泛化策略使得機器人能更可靠地從人們手中接住幾何形狀多樣、運動軌跡復雜的物體,為人機交互提供了新的可能性。
隨著具身智能(Embodied AI)時代的來臨,我們期待智能體能主動與環(huán)境進行交互。在這個過程中,讓機器人融入人類生活環(huán)境、與人類進行交互(Human Robot Interaction)變得至關(guān)重要。我們需要思考如何理解人類的行為和意圖,以最符合人類期望的方式滿足其需求,將人類放在具身智能的中心(Human-Centered Embodied AI)。其中一個關(guān)鍵的技能是可泛化的人機交接(Generalizable Human-to-Robot Handover),它使機器人能夠更好地與人類合作,完成各種日常通用任務,如烹飪、居室整理和家具組裝等。
大模型的火爆發(fā)展預示著海量高質(zhì)量數(shù)據(jù)+大規(guī)模學習是走向通用智能的一種可能方式,那么能否通過海量機器人數(shù)據(jù)與大規(guī)模策略模仿獲取通用人機交接技能?然而,若考慮在現(xiàn)實世界中讓機器人與人類進行大規(guī)模交互學習是危險且昂貴的,機器很有可能會傷害到人類:
而在仿真環(huán)境中(Simulation)進行訓練,用人物仿真和動態(tài)抓取運動規(guī)劃來自動化提供海量多樣的機器人學習數(shù)據(jù),然后將其部署到真實機器人上(Sim-to-Real Transfer),是一種更可靠的基于學習的方法,可以大大拓展機器人與人協(xié)作交互的能力。
因此,「GenH2R」框架被提出,分別從仿真(Simulation),示例(Demonstration),模仿(Imitation)三個角度出發(fā),讓機器人第一次基于端到端的方式學習對任意抓取方式、任意交接軌跡、任意物體幾何的通用交接:1)在「GenH2R-Sim」環(huán)境中提供了百萬級別的易于生成的各種復雜仿真交接場景,2)引入一套自動化的基于視覺 - 動作協(xié)同的專家示例(Expert Demonstrations)生成流程,3)使用基于 4D 信息和預測輔助(點云 + 時間)的模仿學習(Imitation Learning)方法。
相比于 SOTA 方法(CVPR2023 Highlight),GenH2R 的方法在各種測試集上平均成功率提升 14%,時間上縮短 13%,并在真機實驗中取得更加魯棒的效果。
- 論文地址:https://arxiv.org/abs/2401.00929
- 論文主頁:https://GenH2R.github.io
- 論文視頻:https://youtu.be/BbphK5QlS1Y
方法介紹
A. 仿真環(huán)境(GenH2R-Sim)
為了生成高質(zhì)量、大規(guī)模的人手 - 物體數(shù)據(jù)集,GenH2R-Sim 環(huán)境從抓取姿勢和運動軌跡兩方面對場景建模。
在抓取姿勢方面,GenH2R-Sim 從 ShapeNet 中引入了豐富的 3D 物體模型,從中挑選出 3266 個適合交接的日常物體,使用靈巧抓取的生成方法(DexGraspNet),總共生成了 100 萬個人手抓住物體的場景。在運動軌跡方面,GenH2R-Sim 使用若干控制點生成多段光滑的 Bézier 曲線,并引入人手和物體的旋轉(zhuǎn),模擬出手遞物體的各種復雜運動軌跡。
GenH2R-Sim 的 100 萬場景中,不僅在運動軌跡(1 千 vs 100 萬)、物體數(shù)量(20 vs 3266)兩方面遠超之前最新工作,此外,還引入了接近真實情境的互動信息(如機械臂足夠靠近物體時,人會配合停止運動,等待完成交接),而非簡單的軌跡播放。盡管仿真生成的數(shù)據(jù)不能完全逼真,但實驗結(jié)果表明,相比小規(guī)模的真實數(shù)據(jù),大規(guī)模的仿真數(shù)據(jù)更有助于學習。
B. 大規(guī)模生成利于蒸餾的專家示例
基于大規(guī)模的人手和物體運動軌跡數(shù)據(jù),GenH2R 自動化地生成了大量專家示例。GenH2R 尋求的 “專家” 是經(jīng)過改進后的 Motion Planner(如 OMG Planner),這些方法是非學習、基于控制優(yōu)化的,不依賴于視覺的點云,往往需要一些場景狀態(tài)(比如物體的目標抓取位置)。為了確保后續(xù)的視覺策略網(wǎng)絡能夠蒸餾出有益于學習的信息,關(guān)鍵在于確保 “專家” 提供的示例具有視覺 - 動作相關(guān)性(Vision-action correlation)。規(guī)劃時如果知道最后落點,那么機械臂可以忽略視覺而直接規(guī)劃到最終位置 “守株待兔”,這樣可能會導致機器人的相機無法看到物體,這種示例對于下游的視覺策略網(wǎng)絡并沒有任何幫助;而如果頻繁地根據(jù)物體位置進行重新規(guī)劃,可能會導致機械臂動作不連續(xù),出現(xiàn)奇怪的形態(tài),無法完成合理的抓取。
為了生成出利于蒸餾(Distillation-friendly)的專家示例,GenH2R 引入了 Landmark Planning。人手的運動軌跡會按照軌跡光滑程度和距離被分成多段,以 Landmark 作為分割標記。在每一段中,人手軌跡是光滑的,專家方法會朝著 Landmark 點進行規(guī)劃。這種方法可以同時保證視覺 - 動作相關(guān)性和動作連續(xù)性。
C. 以預測為輔助的 4D 模仿學習網(wǎng)絡
基于大規(guī)模專家示例,GenH2R 使用模仿學習的方法,構(gòu)建 4D 策略網(wǎng)絡,對觀察到的時序點云信息進行幾何和運動的分解。對于每一幀點云,通過迭代最近點算法(Iterative Closest Point)計算和上一幀點云之間的位姿變換,以估計出每個點的流(flow)信息,使得每一幀點云都具有運動特征。接著,使用 PointNet++ 對每一幀點云編碼,最后不僅解碼出最終需要的 6D egocentric 動作,還會額外輸出一個物體未來位姿的預測,增強策略網(wǎng)絡對未來手和物體運動的預測能力。
不同于更加復雜的 4D Backbone(例如 Transformer-based),這種網(wǎng)絡架構(gòu)的推理速度很快,更適用于交接物體這種需要低延時的人機交互場景,同時它也能有效地利用時序信息,做到了簡單性和有效性的平衡。
實驗
A. 仿真環(huán)境實驗
GenH2R 和 SOTA 方法進行了各種設定下的比較,相比于使用小規(guī)模真實數(shù)據(jù)訓練的方法,在 GenH2R-Sim 中使用大規(guī)模仿真數(shù)據(jù)進行訓練的方法,可以取得顯著的優(yōu)勢(在各種測試集上成功率平均提升 14%,時間上縮短 13%)。
在真實數(shù)據(jù)測試集 s0 中,GenH2R 的方法可以成功交接更復雜的物體,并且能夠提前調(diào)整姿勢,避免在夾爪靠近物體時再頻繁進行姿勢調(diào)整:
在仿真數(shù)據(jù)測試集 t0(GenH2R-sim 引入)中,GenH2R 的方法可以能夠預測物體的未來姿勢,以實現(xiàn)更加合理的接近軌跡:
在真實數(shù)據(jù)測試集 t1(GenH2R-sim 從 HOI4D 引入,比之前工作的 s0 測試集增大約 7 倍)中,GenH2R 的方法可以泛化到?jīng)]有見過的、具有不同幾何形狀的真實世界物體。
B. 真機實驗
GenH2R 同時將學到的策略部署到現(xiàn)實世界中的機械臂上,完成 “sim-to-real“的跳躍。
對于更復雜的運動軌跡(例如旋轉(zhuǎn)),GenH2R 的策略展示出更強的適應能力;對于更復雜的幾何,GenH2R 的方法更可以展現(xiàn)出更強的泛化性:
GenH2R 完成了對于各種交接物體的真機測試以及用戶調(diào)研,展示出很強的魯棒性。
了解更多實驗、方法內(nèi)容,請參考論文主頁。
團隊介紹
該論文來自清華大學 3DVICI Lab、上海人工智能實驗室和上海期智研究院,論文的作者為清華大學學生汪子凡(共同一作)、陳峻宇(共同一作)、陳梓青和謝鵬威,指導老師是弋力和陳睿。
清華大學三維視覺計算與機器智能實驗室(簡稱 3DVICI Lab),是清華大學交叉信息研究院下的人工智能實驗室,由弋力教授組建和指導。3DVICI Lab 瞄準人工智能最前沿的通用三維視覺與智能機器人交互問題,研究方向涵蓋具身感知、交互規(guī)劃與生成、人機協(xié)作等,與機器人、虛擬現(xiàn)實、自動駕駛等應用領(lǐng)域密切聯(lián)系。團隊研究目標是使智能體具備理解并與三維世界交互的能力,成果發(fā)表于各大頂級計算機會議、期刊上。
來源:機器之心*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。