OpenReLoc 利用开放词汇物体匹配和 LLM 描述,从单张图像鲁棒估计相机位姿,在真实室内场景中优于封闭词汇方法。
Zhaopeng Cui, Jiarui Hu, Jingbo Liu, Boming Zhao +6
研究人员构建了一个结合SLAM、SAM和视觉语言模型的管道,为仓库机器人创建上下文语义地图,能识别物体并判断其是否可移动。
Marvin Rüdt, Hao Pang, Constantin Enke +2
InSight使机器人能够通过VLM推理识别缺失基元并生成训练数据,自主获取新操作技能。
Maggie Wang, Lars Osterberg, Stephen Tian +3
Jiaming Liu, Yinxi Wang, Chenyang Gu +15
Rongxu Cui, Zongzheng Zhang, Jingrui Pang +11
AutoDex是一个端到端自主系统,无需人工干预即可收集物理标定的灵巧抓取试验——在100个日常物品上生成3,593次真实世界抓取尝试,每小时75次试验。
Mingi Choi, Gunhee Kim, Jisoo Kim +4
TaCauchy将基于有限元的力计算集成到Isaac Sim中,为视觉触觉传感器提取完整柯西应力张量。
Hengfei Zhao, Yifan Xie, Junhao Gong +6
Alexandre Hadji-Thomas, Andrew Stirling, James R. Forbes
Zhenghao "Mark'' Peng, Honglin He, Quanyi Li +2
GroundControl通过检测目标导向运动的统计显著偏离,利用轨迹一致性不确定性预测视觉语言智能体导航失败。
Nastaran Darabi, Divake Kumar, Sina Tayebati +2
GazeLNN实时预测人类视觉注意力以引导无人机相机控制,在Jetson Orin NX上以45 FPS实现最新水平的注视预测。
Fatma Youssef Mohammed, Grzegorz Malczyk, Kostas Alexis
Oxana Shamilyan, Ievgen Kabin, Zoya Dyka +2
Przemyslaw Musialski
我们优化机器人手,使人类拇指-食指指尖运动在逆运动学下可复现
Sha Yi, Nicklas Hansen, Xueqian Bai +3
大多数机器人动作模型会忘记几秒前发生的事情,导致它们在需要回忆过去事件的任务中失败。MemoryWAM引入了一种混合持久记忆系统,让机器人世界动作模型能够回忆长期上下文。
Sizhe Yang, Juncheng Mu, Tianming Wei +8
Mohamed Nabail, Leo Cheng, Jingmin Wang +1
Bhawna Paliwal, Haritheja Etukuru, William Liang +3
基于多视角3D接地VLM推理的零样本长时程灵巧操作框架,可复用原子动作基元支持工具使用任务。
Jisoo Kim, Sangwon Baik, Taeksoo Kim +4
EBench是一个包含26个任务的基准测试,从五个能力维度诊断移动操作策略,而非单一成功率。
Ning Gao, Jinliang Zheng, Xing Gao +22
Jiye Lee, Yonghun Choi, Jungdam Won
🍪 Cookie 偏好设置
我们使用 Cookie 来衡量性能。 隐私政策