1月9日報道,這兩天,智元機器人、上海交通大學與上海人工智能實驗室共同研發的機器人領域首個4D世界模型EnerVerse亮相,該模型旨在讓機器人在任務指引和實時觀測的基礎上規劃未來動作。
在機器人技術領域中,動作規劃始始終是一大難題。現有的機器人動作規劃方法,往往難以實現在語言、視覺和動作等多模態空間之間精確對齊,并且還缺乏大規模、多模態且帶有動作標簽的數據集。
對此,EnerVerse架構可以通過自回歸擴散模型(autoregressive diffusion),在生成未來具身空間的同時引導機器人完成復雜任務。EnerVerse還引入稀疏記憶機制(Sparse Memory)與自由錨定視角(Free Anchor View, FAV),在提升 4D 生成能力的同時,實現了動作規劃性能的顯著突破。
智元機器人表示,EnerVerse 不僅具備卓越的未來空間生成能力,更在機器人動作規劃任務中實現了當前最優(SOTA)表現。
目前,項目主頁與論文已上線,模型與相關數據集即將開源。
一、逐步生成未來具身空間,靈活表達4D空間
EnerVerse 采用逐塊生成的自回歸擴散模型,通過逐步生成未來具身空間來引導機器人動作規劃。其關鍵設計包括:1)擴散模型架構:基于結合時空注意力的 UNet 結構,每個空間塊內部通過卷積與雙向注意力建模;塊與塊之間通過單向因果邏輯(causal logic)保持時間一致性,從而確保生成序列的邏輯合理性。
2)稀疏記憶機制:借鑒大模型(LLM)的上下文記憶,EnerVerse 在訓練階段對歷史幀進行高比例隨機掩碼(mask),推理階段以較大時間間隔更新記憶隊列,有效降低計算開銷,同時顯著提升長程任務的生成能力。
3)任務結束邏輯:通過特殊的結束幀(EOS frame),實現對任務結束時機的精準監督,確保生成過程在合適節點終止。
▲自回歸擴散模型
EnerVerse提出了靈活的自由錨定視角(FAV)方法,以解決過去在具身操作中由于遮擋關系復雜,難以構建完美的全局視角的問題。核心特點有:
1)自由設定視角:允許根據場景靈活重置錨定視角,避免固定多視角在狹窄空間中的局限性。例如,在廚房等場景,FAV可以輕松適應動態的遮擋環境。
2)跨視角空間一致性:基于光線投射原理,EnerVerse使用視線方向圖作為視角控制條件,同時將擴散模型中的2D空間注意力擴展為跨視角的3D空間注意力,確保生成的多視角視頻在幾何上保持一致。
3)Sim2Real Adaption:通過在仿真數據上微調的4D生成模型與4D高斯潑濺(4D Gaussian Splatting)交替迭代,構建了一個數據飛輪,為真實場景下的FAV生成提供偽真值支持。