RSS2025 | 清华大学！DemoGen：面向机器人操作的合成数据生成

01:00:35

让机器人更聪明！GRAPE 提升机器人通用性，实现多样化任务

41:10

NeurIPS'2024 | 让视频生成模型走进物理世界！

41:46

ICRA 2025 Best Paper Finalist | D(R,O) Grasp：全新交互式表征重塑跨智能体灵巧手抓取

50:24

香港科技大学 | 多传感器融合SLAM方法研究

30:12

北航开源！自动驾驶仿真系统新范式 | 利用真实场景重构自动驾驶闭环仿真

42:15

清华最新发布UniAct！具身通用动作框架！增强的具身基础模型性能远超OpenVLA

50:44

UB&CMU合作力作！实时30Hz的VL-Nav视觉语言导航系统来了！导航速度和精度直接拉满

40:38

CVPR'25 开源！GoalFlow：解锁端到端生成式策略新未来~

01:05:04

CVPR 2025 满分论文！TSP3D：高效3D视觉定位(3D Visual Grounding)

50:26

CVPR'25开源 | 自动驾驶3D重建大模型！仅需单帧6张图像，0.1秒内完成大规模场景3D重建！

01:07:31

CVPR 2025 满分论文！重建 vs 生成：解决扩散模型中的优化难题

51:07

下一个世界模型，真的需要视频生成吗？还是3D原生才是终极解法？| 如何用无人机影像，极速生成真实3D城市？| 4D城市生成如何彻底改变自动驾驶？

55:34

港科大 | 全方面超越OccWorld！OccLLM：Occ世界模型再度问鼎SOTA

39:25

具身智能空间泛化性的Scaling Law！清华新算法框架让机器人操作更加鲁棒

01:01:27

港大最新 | GPT4Scene：用Vision Language Models去理解3D场景

38:01

清华大学获X-Embodiment最佳论文奖，机器人顶会CoRL 2024获奖名单出炉

01:13:21

重磅分享！具身智能操作&灵巧手技术进展 | 四种不同仿人灵巧手方案分析 | 数据采集系统的方案综述

45:19

无需训练！零成本实现场景级别新视角生成！

01:01:02

NeurIPS'24 Spotlight | Github千星开源 | 视频生成模型真的可以模拟世界吗？

56:36

大模型时代下的端到端自动驾驶

58:27

从协同感知到通信：EI-Drive 实现真实网络环境中的自动驾驶仿真

58:29

3D点云+扩散模型+高质量演示数据！实现双臂机器人通用物体操作！

01:15:19

ECCV2024 具身智能 Workshop最佳论文 | RoboTwin：双臂操作数据飞轮，赋能数据驱动的策略学习

01:03:25

清华开源RDT-1B，揭秘全球最大的双臂机器人扩散大模型

48:49

GaussianRPG：首个开源的基于3DGS的自动驾驶闭环仿真器

41:36

雨雪无阻｜毫米波成像雷达赋予具身智能鲁棒的空间感知

01:14:12

别再用SuGaR了！重磅开源SA-GS：重新定位最新大场景3D重建SOTA

58:05

浙大章国锋团队最新NIS-SLAM：突破神经隐式语义RGB-D SLAM的极限

40:09

UCL开源 | Spann3R：基于空间记忆，不估计相机参数也能实时重建

01:24:50

NeurIPS'24三维网格生成新模式！自回归大语言模型也能生成三维网格

39:58

IROS' 24 开源｜GV-Bench：面向长期回环检测的几何验证评估

41:43

ECCV 2024 Oral满分论文｜PointLLM：大语言模型直接理解点云

49:14

CVPR'24开源 | 吊打一切VINS！又快又好的视觉惯性导航系统！

45:05

CVPR'24 开源｜特征匹配新范式：从语义区域到点的匹配框架

54:29

ECCV'24 Oral开源高赞 | 无需优化，MVSplat两张图实现高质量3DGS重建

01:14:24

上汽零束 | NeRO：基于隐式神经网络的道路重建

37:09

NVIDIA最新开源！OmniDrive：结合大模型推进自动驾驶3D感知、推理、规划

37:05

NeurIPS 24' 开源｜视图场景图MSG：拓扑理解提升空间智能新高度！

54:56

CoRL & IROS'24 | 结合LLM的人形机器人自主行为规划！

47:45

TRO'25 | 港大 eVTOL 飞行新突破！尾座式无人机在复杂环境中的自主导航

01:10:21

港科大最新！GaussianProperty：无需训练，VLM+3DGS完成零样本物体材质重建与抓取

01:24:00

港科大和北京智源联合发布 | MapNav：一种新的视觉语言导航历史表征方法

55:32

CVPR 2025｜给机器人装上大脑！RoboBrain教你如何具像化操作！

53:45

当DeepSeek-R1遇上具身智能 | Reason-RFT 让机器人“看懂”空间变化，轻松帮你搞定桌面整理！

48:36

上海 AI Lab开源力作！DriveArena: 首个基于生成模型的自动驾驶闭环仿真平台

42:55

卡内基梅隆大学 | DarkGS: 移动光源3DGS！从泰坦尼克号这一幕说起

01:09:27

三维生成4.5k星开源项目 | Wonder3D单张图片变高质量三维

32:15

清华大学！应用于空地协同的激光-视觉紧耦合相对定位

55:36

ECCV'24开源 | 让照片随心所欲动起来！基于光流运动场与扩散模型的图像动画化方案

48:25

Transcrib3D：基于大语言模型三维指称表达理解SOTA

01:00:29

浙大开源 | 端到端智驾试金石：最新写实闭环自动驾驶仿真器HUGSIM

58:32

NYU开源 | CityWalker: 让机器人导航到任何地方!

01:10:22

The Storm by 3D AIGC：清华团队探索3D AIGC的无限可能！

45:05

香港科技大学！CVPR&NeurIPS2024开源 | 迈向通用可泛化的自动驾驶世界模型

44:06

中科院最新CityGaussian：VRAR时代的城市重建新标杆

52:15

自驾场景快速训练！CarDreamer：首个开源世界模型自动驾驶平台

58:14

CVPR'24 Oral Waymo新SOTA！纯稀疏检测器SAFDNet的前世今生!

49:53

CVPR满分论文！即插即用的6D物体姿态估计大模型（BOP排行榜第一)

01:14:42

ICML'24开源！LEO：首个三维世界中的具身通用智能体

56:06

SIGGRAPH'2024|RTG-SLAM：基于3DGS的大尺度场景实时三维重建

58:55

国防科大最新 | DistGrid：基于分布式神经辐射场阵列的大规模场景重建

33:58

CVPR'24 | XScale-NVS: 基于哈希特征流形的大场景跨尺度高分辨神经渲染SOTA

01:15:05

CVPR'25 全开源 | 机器人导航 Learn from RoomTour! 视觉语言导航的全能涨点选手

53:32

当MVS遇上Gaussian MVSGaussian 快速、可泛化的高斯重建框架！

54:38

CVPR2024开源NeRF-SLAM新SOTA：请任意选择你的高效神经表征和渲染方程？

01:09:09

港大重磅开源 | Tailor3D：定义3D物体生成编辑新范式

51:50

CVPR'24 Highlight！面向智能眼镜、人形机器人打造的第一人称视角多模态评测集！

51:20

香港理工大学 | Mini-Splatting: 从Gaussian Splatting走向最小场景表示与高效三维重建

59:48

NeurIPS'24开源｜迈向灵活3D感知：用Object-Centric Occupancy大幅提升长时序3D目标检测

52:00

ECCV 2024 | LaneGAP：基于连续路径建模的车道拓扑构建算法

19:59

突破维度限制！GenXD：拿捏真实通用3D、4D生成！

42:27

北大重磅开源！基于八叉树的轻量级形状生成扩散模型

26:07

ECCV'24 | 真假难辨！自动驾驶场景语义图像合成新方案

55:05

ECCV '24开源 | HRMapNet：利用历史信息增强自动驾驶中的在线地图感知

42:52

来看看遥遥领先在做什么 | 华为诺亚自动驾驶资产生成最新工作(ECCV'24)

45:05

首个Linear RNN-based 通用3D检测框架LION, 全部SOTA！

51:23

Adobe Research | 零样本3D重建：无需真实数据也能生成逼真3D模型

36:03

CVPR'24&ECCV'24 | 上下文模型如何将3D表征压缩近百倍！3D表征压缩技术的新SOTA！

35:36

MM-Gaussian: 多模态室外3DGS SLAM

25:26

CVPR'24 | Symphonies：基于实例级建模的3D场景占用预测新SOTA!

44:21

CVPR'24 Highlight 开源｜DyNFL：使用NeRF对动态激光雷达场景仿真

36:29

上交开源 | 再现物理世界的通路：由三维重建到物理仿真

59:46

ECCV 2024 oral | 通过跟踪实现在线高清地图重建，达到SOTA性能！

31:11

首次解锁CARLA V2! 交大RethinkLab提出隐世界模型下的强化学习自动驾驶模型Think2Drive

47:18

光场分解与Gaussian Splatting：颠覆传统渲染管线的创新应用GS-ID

53:59

无需真实机械臂也可以训练具身大模型！通过Robostudio的R2S2R工具链来采集训练和部署机器人策略

22:04

CVPR'24 | KTPFormer: 3D人体姿态估计SOTA! 在Transformer下即插即用涨点！

35:29

CVPR'24 I'M HOI：拥抱多模态！融合视觉惯性感知，精准捕捉人物交互!

58:06

ICLR'24 | DiffTF：基于Transformer的SOTA大词汇3D物体生成

56:02

定制化视频生成新模范！零样本主体驱动，精确运动控制！复旦&阿里等发布DreamVideo-2

01:04:23

Co-Driver：基于 VLM 的自动驾驶助手，具有类人行为并能理解复杂的道路场景

26:18

港科大最新 | 3D目标检测新SOTA，APNovel提升140%

01:13:18

港大开源 | DreamWaltz-G: 输入文本即可生成全身动作及表情可驱动的3D数字人！

47:35

大场景重建！DoGaussian：分布式训练3DGS，速度提升6倍以上，高质量渲染

50:13

CVPR'24 Hightlight | GP-NeRF: 基于上下文感知的通用语义NeRF！

56:02

ICML'24开源 | AVTrack：最强实时无人机跟踪算法！

53:34

CVPR 2025｜智能融合新机制！多模态大模型中的跨模态信息流

39:32

港科大最新Co-Occ！激光视觉多模态Occupancy任务！

27:36

清华最新！无人机飞行速度建模 | Localization matters too: 定位误差如何影响无人机飞行速度

52:15

NeurIPS'24 Spotlight开源 | Voxel Mamba 第一个Group-free的3D目标检测序列化模型

45:46

CVPR'24开源 | 基于可驱动3D高斯的单目人体数字化身建模

58:35

CVPR'24 开源| OMG-Seg: Beyond SAM，一种统一的图像，视频，开集，交互式的分割模型

52:57

北大&港中文&腾讯联合开源ViewCrafter！实现相机精准可控新视角视频生成+场景级3D生成

43:23

DetAny3D：任意单目图也能“万物3D”！

47:57

TRO'25 开源 | 无需中间模块！最新端到端的机器人导航方案NeuPAN！任意复杂场景下都能用！

36:49

开创立体匹配新纪元！OpenStereo：集成12种SOTA网络，支持6大主流数据集！

53:34

CVPR 2025 最佳论文候选 FoundationStereo | 英伟达开源双目深度估计大模型

54:33

面向地面机器人的激光SLAM还能做点什么？刷精度？剔动态？

47:19

CVPR'25开源 | WildGS-SLAM：适用于动态场景中的单目SLAM方法！

57:16

RAL'25开源 | 港科大重磅分享：深入探索VIO领域的重难点！

53:57

Nature Communications开源！香港大学推出会飞的象鼻，空中连续体机器人开启柔性操作！

54:17

RSS'25 | ConRFT使用强化学习微调VLA实现96.3%成功率和超强鲁棒性！

27:25

清华最新开源MARS！第一个基于NeRF的自动驾驶开源模拟器！

59:12

CVPR'25+RSS'25 | G3Flow：生成式操作表征，2D基座模型赋能3D策略 | CordViP：新颖的灵巧操纵学习框架

01:14:40

ECCV'24 oral | DVLO：首个基于深度聚类的多模态融合里程计网络

38:51

TRO重磅开源 | 开放混杂场景机器人抓放：成功率、效率、泛化三重进化

01:01:10

任意手以任意方式抓取任意物体！从手物交互生成到机器人灵巧操作

57:18

CVPR'25 | SPR：与场景无关的相机位姿估计

59:31

全球领先的具身智能机器人科研平台：Franka机器人以及多模态具身智操作策略和数据采集分享

47:57

上海人工智能实验室开源 | 打通自动驾驶最后一公里！Nexus突破边缘场景生成

59:27

西湖大学MiLab具身专场 | 全栈VLA技术分享

53:11

上海AI Lab最新 | 迈向可泛化和可规模化的空间具身智能

51:29

不占显存，还能提速！推理时间减少70%！这个「压缩神器」助力前馈3DGS实现超高视点输入！

47:06

CVPR'25 Highlight！清华开源一键式视频扩散模型，视频到3D，一步到位！

37:11

重磅分享！用于机器人操纵任务的视觉基础模型

41:37

CVPR'25开源 | 无需编码，全新的depth利用方式！

58:09

首次把3D生成大模型推到了1536³分辨率，Sparc3D：生成mesh直接打印！

33:08

告别双系统，清华博世带来完全开源性能SOTA的纯血VLA！

30:30

CVPR 2025 | Qwen赋能AI「看见」三维世界，SeeGround实现零样本开放词汇3D视觉定位

29:51

博世 X 清华 | CVPR2025端到端第二名DiffVLA：成功实现通用机器人控制框架π0的VLA范式在动态交通场景中的创新应用

44:36

ICCV 2025 | TesserAct: 首个通用4D世界模型

01:03:00

ICCV'25 Hi3DGen开源 | 法线为桥：为高清三维几何生成另辟蹊径

49:46

RSS 2025 Best Student Paper Finalist | 视-触/力觉融合的模仿学习框架

01:17:44

首个泛化高斯溅射语义SLAM框架！GS4：十倍效率三维建图

56:48

ICCV'25开源 | 新一代自动驾驶标配视觉语言大模型？DriveBench全面揭示视觉语言大模型在退化图像下的「幻觉」问题！

51:13

清华最新开源！OneTwoVLA：统一视觉语言动作模型，让机器人通用性更强

51:42

北大ICLR'25&ICCV'25| 铰链物体真实物理机制仿真突破！基座模型赋能泛化策略！

52:03

香港中文大学 | ReSim：迈向真实驾驶世界仿真的世界模型

01:02:16

ICCV'25开源 | 从Transformer到Mamba，轨迹预测迎来架构变革！

49:12

CVPR'25 | 浙大提出三维生成先验助力手持物体重建新方案

40:06

ICRA'25 最佳论文 | 2025年了视觉SLAM怎么还没有被解决？

44:37

CVPR 2025 开源 | 标签高效下三维目标感知最新进展！

55:49

CVPR'25 最佳论文一作亲解 | VGGT：纯前馈Transformer架构，快速3D重建新范式！

01:24:18

ICRA 2025 | Gaussian-LIC：首个LiDAR-IMU-Camera融合的3DGS-SLAM系统

57:30

RA-L'25开源 | 北理工&清华新作ActiveSplat：主动高保真场景重建+3D高斯泼溅新突破！

46:07

上海期智&清华！BEV-VAE：首个自监督BEV视角的VAE，从图像到场景生成跃迁~

01:15:47

华人团队PyVision爆改多模态模型，Claude视觉推理能力飙升31%

55:33

清华RAL'25开源 | VR-Robo：通过3DGS实现机器人视觉运动与导航！

54:09

CVPR'25 Highlight｜DepthCrafter: 开放世界长序列视频的一致性深度估计

27:01

CVPR 2025 Highlight | 北大ConsisID & OpenS2V - 频域感知的主体一致性视频生成

55:12

ACM MM'25 | 小鹏最新：利用导航指令模仿人类驾驶员的超视距自动驾驶

49:00

上海AL Lab | NavDP：跨场景及本体的通用端到端导航方法

53:15

NUS邵林团队最新VLA‑OS | 揭秘机器人VLA模型的第一性原理！

55:07

IROS'25 | 基于非成对视觉-动作数据的时空表征融合，助力灵巧操作学习

44:16

CVPR冠军方案BridgeVLA | 真机性能提升32%，3D VLA新范式！

47:50

ICCV'25 Highlight 港大开源 | GameFactory：迈向交互式生成视频的更高级智能

49:53

CVPRW'25 MEIS Best Paper | LangCoop：首个自然语言V2X协作框架，开创自动驾驶新范式!

45:53

探索3D生成的上限 | 南洋理工大学联合数美万物发布Ultra3D

39:11

CoRL 2025｜零遥操作！AirExo-2助力规模化机器人模仿学习

01:01:46

IROS 2025 | 灵巧操作新范式：视触融合 × 基于未来力引导的操作策略

47:02

ICCV'25开源 | TurboReg：超高速高精度点云配准方法，让SLAM配准快200多倍！

31:15

RSS'25 | CMU开源基于人类操作数据预训练的跨具身学习框架！

01:04:11

CVPR'25 Highlight | SLAM3R：北大陈宝权团队等只用单目长视频就能实时重建高质量的三维稠密点云

55:04

牛津开源！第一人称视角的3D视觉数据集Oxford Day and Night：聚焦挑战性光照条件下的新视角合成和视觉重定位

01:23:23

开源LVLM新框架WAP登顶EmbodiedBench榜单！复旦&创智邱锡鹏团队造出「世界感知」具身智能体，代码数据完全开源！

56:59

人形机器人的具身智能 | 运动控制、多模态感知、大模型决策、高层泛化任务

01:07:57

CVPR 2025 Highlight | UltraFusion：基于扩散生成模型的超高动态范围成像

34:53

RSS'25｜3D世界模型怎样应用于机器人对柔性物体的操作？

01:05:32

ICCV 2025 | 机器人非抓取操作重大突破！北大&银河通用王鹤团队提出自适应世界动作模型DyWA

48:02

卡耐基梅隆大学 | 跨实体世界模型预训练助力小样本机器人学习

51:34

ICCV 2025 Highlight | 人体动作大模型研究：面向通用泛化的人体动作生成

50:26

ICCV25满分论文 | MTU3D统一空间理解与主动探索的具身导航

54:50

港科大(广州)最新开源 | ReconVLA：通过隐式视觉重建实现机器人精准感知与操作

51:43

CoRL 2025 oral | DemoSpeedup: 通过熵引导的数据加速来加快视觉运动策略执行

58:40

上交最新 | Interleave-VLA：首个支持交错图文指令的VLA框架

01:15:03

ICLR 2025 Oral | LS-Imagine在开放世界中基于长短期想象进行强化学习

35:01

ICCV'25开源 | 机器人自主探索未知复杂空间？GLEAM破解主动探索建图的泛化难题！

57:31

CoRL 2025 | 探究下VLA模型泛化差的原因......

34:56

Splat Feature Solver：从任意2D观测表征到3D Splat携带表征的统一解法

01:00:32

CoRL 2025 Oral | ClutterDexGrsap: 首个杂乱场景下的零样本Sim2Real闭环灵巧手通用抓取系统

53:37

CORL 2025 | 触觉全栈方案：如何用触觉实现精细操作——硬件·模拟·训练

01:05:31

ICCV'25开源 | Dita：基于DiT的通用VLA模型

55:05

RSS'25开源｜首个完全开源的全向视触觉传感器！灵巧手轻松实现纸类物体的抓取！

41:40

ICCV'25 Oral 开源 | 首个3DGS场景语义前馈网络Scenesplats

58:02

清华最新 | MemoryVLA：机器人操作中视觉-语言-动作模型的感知-认知记忆

51:22

还在卷端到端模型？Embodied-R1另辟蹊径：用「指向」+强化学习实现SOTA性能！

01:15:03

ICCV'25开源 | TRACE带你从动态重建迈向动态物理参数恢复！

51:57

ICCV'25开源｜FiVE-Bench：精细视频编辑新基准，揭示扩散与整流流模型实力

37:55

快速大规模重建三维场景 | SAIL-Recon：重塑千张图像的三维重建

50:26

ICCV'25开源｜ AnimateAnyMesh：全新3D Animation范式！首个前馈通用mesh驱动框架！

33:52

SIGGRAPH'25开源｜港大重磅分享：基于AI的高质量四边形网格生成

55:45

ICCV'25 Highlight 开源 | 即插即用！面向高斯和点云的可泛化显示连续表面重建！

46:32

FastVGGT：4× 加速、千张输入，免训练的优化神器

01:06:09

香港中文大学 | RoboMemory：专为物理具身系统中的终身学习而设计

57:42

ICCV 2025 | 打造通用工具智能体的基石：北大提出ToolVQA数据集，引领多模态多步推理VQA新范式

44:23

NeurIPS'25 开源｜3DGS的过度共适应现象是稀疏视角重建伪影的核心原因

01:04:31

北大开源3D-R1 | 3D多模态大模型在具身智能导航任务上的应用

01:05:30

NeurIPS'25开源 | 首个免对齐框架SIU3R！无需2D特征对齐，0.1秒同时实现场景理解与三维重建！

37:52

从视觉「流」到动作：无噪声、无条件的高效机器人流策略新范式

49:14

NeurIPS'25 | 统一像素级分割和区域理解，一个模型支持9大视觉任务！

56:11

CoRL 2025 最佳论文奖 UniFP | 基于强化学习的足式机器人混合力位控制统一框架

01:13:49

CoRL 2025 | 毫秒级人机共治！一致性模型协助高精度操作

01:09:51

上海AI Lab | 高保真在线重建新SOTA！精度吊打On-the-fly NVS!

30:55

NeurIPS 2025 高分论文 | Pixel-Perfect Depth：深度估计新范式！

36:38

ICCV 2025 | Dense Policy: 用双向自回归的模仿学习策略实现复杂场景和高动作约束的机器人操作

01:29:27

IROS'25 HRII Workshop最佳论文 | ARMADA：解放人工监督需求，让多台机器人并行而「自觉」地部署策略！

42:02

IROS'25开源 | RoboEngine几行代码实现任意场景机器人策略视觉鲁棒

24:46

复旦 TRO 2025开源 | VINGS-Mono：首个公里级大场景单目GS-SLAM

48:42

IROS'25 Oral | NOLO：北大开源通用视频导航模型

51:49

NeurIPS'25 & CoRL'25｜无人机打排球—来看看清华团队的解决方案

01:08:23

统一高效VLA+RL训练框架：RLinf-VLA——RL如何训练VLA？

51:47

NeurIPS'25 MEgoHand | 北大开源多模态手物交互序列预测模型

01:02:32

ICCV'25 开源｜RL开源方案：免训练框架让VLM提供可靠奖励

43:38

微软重磅开源MoGe-2：仅1张图像实现精确的几何估计、绝对尺度、纹理细节

01:01:26

重磅开源 | 首个物理真实的灵巧操作力标注数据集DexCanvas深度解析

37:44

清华开源 | πRL：首个面向流匹配VLA的在线强化学习微调框架

01:12:32

IROS'25冠军 | X-VLA重磅开源，全面刷新机器人基准性能记录

40:33

微软开源 | 机器人缺大规模数据？VITRA用真实生活人类视频重建VLA预训练新范式

58:03