阿里巴巴宣布推出 Marco-o1,这是一种大型语言模型 (LLM),旨在解决传统和开放式问题解决任务。
阿里巴巴马可波罗团队的 Marco-o1 代表着人工智能处理复杂推理挑战的能力又向前迈进了一步,特别是在数学、物理、编码以及可能缺乏明确标准的领域。
Marco-o1 以 OpenAI 的o1 模型为基础,融合了多种先进技术,包括思想链 (CoT) 微调、蒙特卡洛树搜索 (MCTS) 和新颖的反射机制,从而脱颖而出。这些组件协同工作,以增强模型在各个领域的问题解决能力。
开发团队使用多个数据集实施了全面的微调策略,包括 Open-O1 CoT 数据集的过滤版本、合成的 Marco-o1 CoT 数据集和专门的 Marco 指令数据集。总的来说,训练语料库包含超过 60,000 个精心策划的样本。
该模型在多语言应用中表现出了特别令人印象深刻的结果。在测试中,Marco-o1 在英语 MGSM 数据集上的准确率显著提高 6.17%,在中文数据集上的准确率提高 5.60%。该模型在翻译任务中表现出特别的优势,特别是在处理口语表达和文化细微差别时。
该模型最具创新性的特征之一是它在 MCTS 框架内实现了不同的动作粒度。这种方法允许模型探索不同细节级别的推理路径,从广泛的步骤到更精确的 32 或 64 个标记的“小步骤”。该团队还引入了一种反射机制,促使模型自我评估并重新考虑其推理,从而提高复杂问题解决场景的准确性。
MCTS 集成已被证明特别有效,所有 MCTS 增强版模型都比基础 Marco-o1-CoT 版本有显著改进。该团队对不同动作粒度的实验揭示了有趣的模式,但他们指出,确定最佳策略需要进一步研究和更精确的奖励模型。
开发团队坦诚地承认了该模型目前的局限性,他们承认虽然 Marco-o1 具有强大的推理特性,但它仍未达到完全实现的“o1”模型的水平。他们强调,此次发布代表着对改进的持续承诺,而不是成品。
展望未来,阿里巴巴团队已宣布计划整合奖励模型,包括结果奖励模型 (ORM) 和过程奖励模型 (PRM),以增强 Marco-o1 的决策能力。他们还在探索强化学习技术,以进一步完善模型的解决问题能力。
Marco-o1 模型和相关数据集已通过阿里巴巴的 GitHub 存储库向研究社区开放,并附有全面的文档和实施指南。该版本包括安装说明和示例脚本,用于直接使用模型和通过 FastAPI 进行部署。