免播放器亚洲,亚洲欧美一区二区三区四区,亚洲国产伊人

1月9日報道，這兩天，智元機器人、上海交通大學與上海人工智能實驗室共同研發的機器人領域首個4D世界模型EnerVerse亮相，該模型旨在讓機器人在任務指引和實時觀測的基礎上規劃未來動作。

在機器人技術領域中，動作規劃始始終是一大難題。現有的機器人動作規劃方法，往往難以實現在語言、視覺和動作等多模態空間之間精確對齊，并且還缺乏大規模、多模態且帶有動作標簽的數據集。

對此，EnerVerse架構可以通過自回歸擴散模型（autoregressive diffusion），在生成未來具身空間的同時引導機器人完成復雜任務。EnerVerse還引入稀疏記憶機制（Sparse Memory）與自由錨定視角（Free Anchor View, FAV），在提升 4D 生成能力的同時，實現了動作規劃性能的顯著突破。

智元機器人表示，EnerVerse 不僅具備卓越的未來空間生成能力，更在機器人動作規劃任務中實現了當前最優（SOTA）表現。

目前，項目主頁與論文已上線，模型與相關數據集即將開源。

一、逐步生成未來具身空間，靈活表達4D空間

EnerVerse 采用逐塊生成的自回歸擴散模型，通過逐步生成未來具身空間來引導機器人動作規劃。其關鍵設計包括：1）擴散模型架構：基于結合時空注意力的 UNet 結構，每個空間塊內部通過卷積與雙向注意力建模；塊與塊之間通過單向因果邏輯（causal logic）保持時間一致性，從而確保生成序列的邏輯合理性。

2）稀疏記憶機制：借鑒大模型（LLM）的上下文記憶，EnerVerse 在訓練階段對歷史幀進行高比例隨機掩碼（mask），推理階段以較大時間間隔更新記憶隊列，有效降低計算開銷，同時顯著提升長程任務的生成能力。

3）任務結束邏輯：通過特殊的結束幀（EOS frame），實現對任務結束時機的精準監督，確保生成過程在合適節點終止。

▲自回歸擴散模型

EnerVerse提出了靈活的自由錨定視角（FAV）方法，以解決過去在具身操作中由于遮擋關系復雜，難以構建完美的全局視角的問題。核心特點有：

1）自由設定視角：允許根據場景靈活重置錨定視角，避免固定多視角在狹窄空間中的局限性。例如，在廚房等場景，FAV可以輕松適應動態的遮擋環境。

2）跨視角空間一致性：基于光線投射原理，EnerVerse使用視線方向圖作為視角控制條件，同時將擴散模型中的2D空間注意力擴展為跨視角的3D空間注意力，確保生成的多視角視頻在幾何上保持一致。

3）Sim2Real Adaption：通過在仿真數據上微調的4D生成模型與4D高斯潑濺（4D Gaussian Splatting）交替迭代，構建了一個數據飛輪，為真實場景下的FAV生成提供偽真值支持。

欧美在线观看天堂一区二区三区_99re66热这里只有精品4_国产午夜亚洲精品不卡_欧美国产视频在线观看

首個機器人4D世界模型來了！智元和上交大聯合研發

免費教學更多>>