2025_NIPS_Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo
文章核心内容总结
本文聚焦多模态大语言模型(MLLMs)在复杂任务中推理能力不足的问题,提出集体蒙特卡洛树搜索(CoMCTS) 方法,将集体学习融入树搜索以高效探索推理路径。基于该方法构建了含26万条数据的多模态数据集Mulberry-260k,通过集体监督微调(CoSFT)训练出具备分步推理与反思能力的Mulberry系列模型。实验表明,该模型在多个基准测试中优于多数开源模型,且与闭源模型竞争力相当。
核心创新点
- CoMCTS方法:首次将集体学习与MCTS结合,通过多模型协同完成扩展、模拟与错误定位、反向传播、选择四大迭代操作,解决单模型搜索陷入低质量节点、效率低下的问题。
- 反思推理路径构建:利用CoMCTS生成的正负推理节点,构建从错误节点到正确节点的反思路径,让模型在长链推理中动态校准方向。
- Mulberry-260k数据集:包含丰富、明确的推理节点树,覆盖数学、科学、医疗等多领域,同时支持推理与反思训练,为MLLM推理研究提供优质资源。
- Mulberry系列模型:通过数据集训练获得类OpenAI o1的分步推理与反思能力,在多模态推理任务中表现突出。
Abstract 翻译
本文旨在开发一种多模态大语言模型(MLLM),该模型通过学习生成推理过程中的每个中间步骤,直至得出最终答案,从而理解并解决问








