图片来源于网络,如有侵权,请联系删除
日前,国内多模态AI领军企业MiniMax正式开源了其自主研发的首个视觉强化学习(Visual RL)统一框架——V-Triune。这项技术在国际权威基准测试MEGA-Bench上表现亮眼,32B模型性能提升达14.1%。
作为迈向通用视觉智能体的核心突破,V-Triune的开源标志着中国企业在多模态AI技术领域取得重要突破。本次V-Triune所呈现的工作,是创业团队MiniMax在构建未来大规模多模态Agent模型视觉推理能力方面的一次有益探索和重要技术储备。
图片来源于网络,如有侵权,请联系删除
当前在多模态强化学习领域,视觉感知和视觉推理任务往往被独立或松散地处理,限制了信息的共享和协同优化的潜力。V-Triune的核心贡献在于,提出了一个能够统一处理视觉感知和视觉推理任务的强化学习系统,让视觉语言模型(VLM)在一个训练流程中同时学习这两类任务,从而大幅提升视觉信息的综合利用效率和模型的泛化能力。
据介绍,通过V-Triune这个统一框架的设计与验证,不仅展示了通过RL协同优化VLM感知与推理任务的可行路径,更通过动态IoU奖励等算法创新,解决了关键任务的痛点,提升了性能。这项工作为后续开发更强大、更通用、更“聪明”的视觉智能系统,提供了重要的思路和组件。
【责任编辑:陈听雨】