欧美在线观看天堂一区二区三区_99re66热这里只有精品4_国产午夜亚洲精品不卡_欧美国产视频在线观看

首頁 > 生活分享 > 免費教學 > 首個機器人4D世界模型來了!智元和上交大聯合研發

首個機器人4D世界模型來了!智元和上交大聯合研發

發布時間:2025-01-10 17:14:32
1月9日報道,這兩天,智元機器人、上海交通大學與上海人工智能實驗室共同研發的機器人領域首個4D世界模型EnerVerse亮相,該模型旨在讓機器人在任務指引和實時觀測的基礎上規劃未來動作。
 
在機器人技術領域中,動作規劃始始終是一大難題。現有的機器人動作規劃方法,往往難以實現在語言、視覺和動作等多模態空間之間精確對齊,并且還缺乏大規模、多模態且帶有動作標簽的數據集。
 
對此,EnerVerse架構可以通過自回歸擴散模型(autoregressive diffusion),在生成未來具身空間的同時引導機器人完成復雜任務。EnerVerse還引入稀疏記憶機制(Sparse Memory)與自由錨定視角(Free Anchor View, FAV),在提升 4D 生成能力的同時,實現了動作規劃性能的顯著突破。
 
智元機器人表示,EnerVerse 不僅具備卓越的未來空間生成能力,更在機器人動作規劃任務中實現了當前最優(SOTA)表現。
 
目前,項目主頁與論文已上線,模型與相關數據集即將開源。
 
 
一、逐步生成未來具身空間,靈活表達4D空間
EnerVerse 采用逐塊生成的自回歸擴散模型,通過逐步生成未來具身空間來引導機器人動作規劃。其關鍵設計包括:1)擴散模型架構:基于結合時空注意力的 UNet 結構,每個空間塊內部通過卷積與雙向注意力建模;塊與塊之間通過單向因果邏輯(causal logic)保持時間一致性,從而確保生成序列的邏輯合理性。
 
2)稀疏記憶機制:借鑒大模型(LLM)的上下文記憶,EnerVerse 在訓練階段對歷史幀進行高比例隨機掩碼(mask),推理階段以較大時間間隔更新記憶隊列,有效降低計算開銷,同時顯著提升長程任務的生成能力。
 
3)任務結束邏輯:通過特殊的結束幀(EOS frame),實現對任務結束時機的精準監督,確保生成過程在合適節點終止。
 
 
▲自回歸擴散模型
 
EnerVerse提出了靈活的自由錨定視角(FAV)方法,以解決過去在具身操作中由于遮擋關系復雜,難以構建完美的全局視角的問題。核心特點有:
 
1)自由設定視角:允許根據場景靈活重置錨定視角,避免固定多視角在狹窄空間中的局限性。例如,在廚房等場景,FAV可以輕松適應動態的遮擋環境。
 
2)跨視角空間一致性:基于光線投射原理,EnerVerse使用視線方向圖作為視角控制條件,同時將擴散模型中的2D空間注意力擴展為跨視角的3D空間注意力,確保生成的多視角視頻在幾何上保持一致。
 
3)Sim2Real Adaption:通過在仿真數據上微調的4D生成模型與4D高斯潑濺(4D Gaussian Splatting)交替迭代,構建了一個數據飛輪,為真實場景下的FAV生成提供偽真值支持。
 
主站蜘蛛池模板: 呼玛县| 泰宁县| 苏州市| 临漳县| 务川| 天祝| 商南县| 丁青县| 广汉市| 乌拉特中旗| 桦甸市| 林州市| 濮阳市| 滕州市| 乌兰县| 乌拉特前旗| 湾仔区| 临夏县| 莆田市| 延边| 北辰区| 昌图县| 靖边县| 盘锦市| 房山区| 台中市| 阿克苏市| 林甸县| 通化县| 涟水县| 万荣县| 修武县| 新晃| 专栏| 喀喇沁旗| 酒泉市| 黄山市| 乌拉特后旗| 大连市| 江油市| 诏安县|