近日,智元牽頭聯合清華大學、麥吉爾大學完成的研究成果MANSION成功入選CVPR2026。該成果在全球首次提出面向整棟建筑的語言驅動多樓層3D場景生成框架,構建大規模場景生態系統,為具身智能落地復雜現實環境打造關鍵“數字試驗場”。
當機器人在醫院跨樓層運送物資、在寫字樓完成多樓層配送、在家庭執行跨空間家務,這些長時程、跨樓層任務,正是具身智能走向現實的核心考驗。當前行業研究場景仍停留在“單層樣板間”,與真實世界需求存在顯著斷層。
近年來,機器人感知、操作、導航能力快速提升,但場景基準嚴重滯后。真實掃描數據成本高、難編輯;現有合成環境多為單層布局,缺少樓梯、電梯、跨層連接等關鍵結構,無法支撐跨樓層、長時程復雜任務訓練。
場景研究停留在“樣板間時代”,已成為制約具身智能走向現實的核心瓶頸。構建可交互、可配置、貼近真實的樓宇級研究平臺,成為行業迫切需求。
為破解行業難題,該團隊創新推出MANSION混合框架,融合多模態大模型與幾何求解器,實現從自然語言指令到完整多樓層3D建筑的端到端生成。
區別于簡單房間拼接,MANSION從建筑全局邏輯出發:先規劃整棟樓功能分區、垂直交通與整體風格,再逐層生成拓撲結構與房間布局,通過幾何求解生成符合物理約束的平面圖,最終生成可直接在仿真器運行的交互式3D場景。框架從源頭保證樓梯、電梯、跨層結構對齊合理,生成建筑連貫可用。
基于MANSION,團隊發布MansionWorld數據集:包含1000+棟多樓層建筑、2—10層、10000+房間,覆蓋住宅、辦公、醫院、學校、商超等全場景,支持導出至Blender、NVIDIAIsaacSim等平臺,全面賦能全球研究。
公開資料顯示,CVPR是計算機視覺領域全球頂級會議,MANSION的入選,標志著學術界對這項工作的創新性與價值的認可。從單層到多層、從靜態到可編輯、從“仿真場景”到“真實任務世界”,MANSION不僅是技術突破,更重新定義具身智能研究方向,即讓技術扎根真實需求,服務產業落地。
智元機器人表示,未來將持續深耕具身智能核心技術,開放MansionWorld數據集與生態能力,攜手全球產學研伙伴,推動通用機器人走進樓宇、家庭、醫院、商場等復雜現實場景,以持續創新打造中國機器人全球技術名片。