机器之心报道机器之心编辑部OpenAI o1 给大模型规模扩展 vs 性能的曲线带来了一次上翘。它在大模型领域重现了当年 AlphaGo 强化学习的成功 —— ...
在数字化的时代,推理能力的较量正如同科技界的竞技场。最近,阿里云推出了其最新的数学推理过程奖励模型:Qwen2.5-Math-PRM。这款模型以仅有7B的微小参数量,颠覆了大型人工智能模型的传统认知,再次证明了更小也能更聪明的真理!
多知1月11日消息,微软近日宣布了其新的 rStar-Math 技术,这一创新的推理方法可以应用于小型语言模型(SLMs),该技术目前仍处于研究阶段,相关研究论文已发布在 arXiv.org 上,由微软、北京大学和清华大学的八位作者共同完成。rStar-Math核心在于,让小模型具备深度思考的能力,利用蒙特卡罗树搜索,这种方法模拟人类的 ...
在数学推理领域,阿里云再次震撼科技界,推出了其全新的过程奖励模型——Qwen2.5-Math-PRM。于1月16日发布的这一创新,涵盖了72B及7B两种尺寸,表现显著优于同类开源模型,尤其在推理错误的识别能力上,7B版本竟然超越了广受关注的GPT-4o。
和微软之前推出的 Phi-4 不同,rStar-Math 采用蒙特卡洛树搜索(Monte Carlo Tree Search)进行推理,这种方法模拟了人类逐步解决问题的思维方式,能够将复杂问题分解成更小的部分,逐步求解。
微软亚洲研究院的数学与人工智能研究团队近日取得了一项新的技术突破,他们专为解决数学问题设计并开发了名为rStar-Math的技术。这项技术于1月10日通过官方博文正式对外公布。