MiniMax开源首个视觉RL统一框架

2025年05月29日阅读:41521

MiniMax开源首个视觉RL统一框架
图片来源于网络，如有侵权，请联系删除

日前，国内多模态AI领军企业MiniMax正式开源了其自主研发的首个视觉强化学习(Visual RL)统一框架——V-Triune。这项技术在国际权威基准测试MEGA-Bench上表现亮眼，32B模型性能提升达14.1%。

作为迈向通用视觉智能体的核心突破，V-Triune的开源标志着中国企业在多模态AI技术领域取得重要突破。本次V-Triune所呈现的工作，是创业团队MiniMax在构建未来大规模多模态Agent模型视觉推理能力方面的一次有益探索和重要技术储备。

MiniMax开源首个视觉RL统一框架
图片来源于网络，如有侵权，请联系删除

当前在多模态强化学习领域，视觉感知和视觉推理任务往往被独立或松散地处理，限制了信息的共享和协同优化的潜力。V-Triune的核心贡献在于，提出了一个能够统一处理视觉感知和视觉推理任务的强化学习系统，让视觉语言模型（VLM）在一个训练流程中同时学习这两类任务，从而大幅提升视觉信息的综合利用效率和模型的泛化能力。

据介绍，通过V-Triune这个统一框架的设计与验证，不仅展示了通过RL协同优化VLM感知与推理任务的可行路径，更通过动态IoU奖励等算法创新，解决了关键任务的痛点，提升了性能。这项工作为后续开发更强大、更通用、更“聪明”的视觉智能系统，提供了重要的思路和组件。

【责任编辑:陈听雨】

阅读下一篇：