Process Model - 搜索 News

7 天

在1月16日的科技公告中，阿里云通义团队推出了其全新的数学推理过程奖励模型Qwen2.5-Math-PRM，令人惊讶的是，7B版本在推理错误识别能力上竟已超过了众所周知的GPT-4o。同时，随着开源首个步骤级评估标准ProcessBench的发布，推理过程中的错误评估将有了全新基准。

腾讯网1 天

Npj Comput. Mater.: 大原子模型为材料研发提速：零样本也能精准?

海归学者发起的公益学术平台分享信息，整合资源交流学术，偶尔风月随着人工智能（AI）的迅猛发展，原子层面的建模、模拟与设计正经历深远的变革。基于机器学习的势能函数模型如今在精度上已可媲美从头算电子结构方法，并支持大规模、长时程模拟。然而，模型的生成与训 ...

13 天

小模型的数学能力更强？微软新方法挑战参数越大模型越好传统观点

小语言模型，是《麻省理工科技评论》评选出的 2025 年“十大突破性技术”之一。人们往往认为大语言模型更擅长做数学题，事实上小语言模型也能做数学题甚至做得更好。 1 月 8 日，由微软亚洲研究院团队领衔的一篇论文在 arXiv ...

新浪网12 天

小模型的数学能力更强？微软亚研团队新方法挑战“参数越大模型越 ...

而不正确的中间步骤，又会明显降低生成数据的质量。对于过程奖励建模（PRM，process reward ...

腾讯网7 天

阿里云通义开源最强过程奖励PRM模型，7B尺寸比GPT-4o更能发现推理错误

1月16日，阿里云通义开源全新的数学推理过程奖励模型Qwen2.5-Math-PRM，72B及7B尺寸模型性能均大幅超越同类开源过程奖励模型；在识别推理错误步骤能力上，Qwen2.5-Math-PRM以7B的小尺寸就超越了GPT-4o。同时，通义团队 ...

红板报 on MSN7 天

阿里云通义开源首个推理步骤评估标准，探索AI推理模型新路径

17 天on MSN

天工大模型 4.0 o1 版 / 4o 版上线，App 及网页可免费使用

IT之家 1 月 6 日消息，昆仑万维集团今日宣布，天工大模型 4.0 o1 版和 4o 版同步上线，全量登陆网页端和 App 端，可免费使用。天工大模型 4.0 o1 版号称国内首款具备中文逻辑推理能力的 o1 ...

1 天

Most rainforests too degraded to provide good habitats 多数雨林退化严重而无法为 ...

Modern life makes us tired, right? But research from societies in Africa and South America suggests people in the ancient ...

17 天

仅需一万块钱！清华团队靠强化学习让 7B模型数学打败GPT-4o

OpenAI o1和o3模型的发布证明了强化学习能够让大模型拥有像人一样的快速迭代试错、深度思考的高阶推理能力，在基于模仿学习的Scaling Law逐渐受到质疑的今天，基于探索的强化学习有望带来新的Scaling Law。近日，清华大学NLP实验室、上海AI Lab、清华大学电子系、OpenBMB社区等团队提出一种新的结合过程奖励的强化学习方法—— PRIME（Process Reinforc ...

2 天

Whale makes epic migration, astonishing scientists 一座头鲸的漫长迁徙路线令 ...

Modern life makes us tired, right? But research from societies in Africa and South America suggests people in the ancient ...

来自MSN18 小时

如何评价 Kimi 发布的多模态推理模型 k1.5？

从技术报告看，K1.5的亮点是真的不少。

17 天

「天工大模型4.0」o1版和4o版正式上线天工APP和网页免费使用

「天工大模型4.0」o1版和4o版正式上线天工APP和网页免费使用,算法,推理,逻辑推理,模态 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果