主页 > 开源代码 >

聚焦于机器人研究，提出FuSe方法，通过语言锚定对通用机器人策略进行微调视觉、触觉、听觉

开源代码
2025-08-24 21:00:02

聚焦于机器人研究，提出FuSe方法，通过语言锚定对通用机器人策略进行微调视觉、触觉、听觉

聚焦于机器人研究，提出 FuSe 方法，通过语言锚定对通用机器人策略进行微调，利用多模态传感器提升性能，在多种任务中表现优异，具备跨模态推理能力。

研究背景：与世界交互需多感官协作，当前先进通用机器人策略多依赖视觉和本体感受数据训练，忽略其他模态信息。方法：FuSe 利用自然语言作为跨模态锚定，结合多模态对比损失和基于感官的语言生成损失，对视觉运动通用策略在异构传感器模态上微调。多模态对比损失最大化不同模态和场景语义间互信息；多模态生成损失通过生成网络和辅助交叉熵损失，将观察嵌入与语言指令对比学习。数据集：收集 26,866 条轨迹数据集，涵盖桌面抓取、购物袋抓取、按钮按压任务，涉及视觉、触觉、音频等多种传感器数据。实验结果：FuSe 在所有任务环境中超越基线方法，在购物袋抓取任务提升显著。还具备简单和复杂跨模态推理能力，且适用于不同通用策略架构，如 PaliGemma - based 3B - parameter VLA 模型。引用

标签：

聚焦于机器人研究，提出FuSe方法，通过语言锚定对通用机器人策略进行微调视觉、触觉、听觉由讯客互联开源代码栏目发布，感谢您对讯客互联的认可，以及对我们原创作品以及文章的青睐，非常欢迎各位朋友分享到个人网站或者朋友圈，但转载请说明文章出处“聚焦于机器人研究，提出FuSe方法，通过语言锚定对通用机器人策略进行微调视觉、触觉、听觉”

上一篇
如何从共炮点数据构建速度场，为射线层析或全波形反演提供初始模

下一篇
【linux】文件与目录命令-grep