来源|多知
作者|Penny
9月12日晚,OpenAI开发了一系列新的人工智能模型,旨在让大模型花更多时间思考后再做出反应。它们可以推理复杂的任务,解决比以前的科学、编码和数学模型更难的问题。
根据OpenAI的官方博客显示,OpenAI o1 在竞争性编程问题(Codeforces)中排名第 89 位,在美国数学奥林匹克 (AIME) 预选赛中跻身美国前 500 名学生之列,并在物理、生物和化学问题 (GPQA) 基准测试中超越人类博士级准确度。
OpenAI o1 就是此前被传的内部代号为“草莓”的项目,这是一个不同于大语言模型的新模型,更像一个推理模型。
除了官方博客,OpenAI还发布了o1的多个视频,包括解数学题、做贪吃蛇游戏、破译韩文、破解逻辑谜题、解答量子物理等。可以看到,o1的推理能力得到极大提升,带来范式的变化。
根据OpenAI研究团队的采访显示,o1被定义为"推理模型”,这些系列的新特点:
1)注重思考过程:“推理模型”会在回答问题之前进行更多思考,采取了用思考时间来给出更优的结果,这与语言大模型一步到位给出答案不同;
2)自生成思维链:团队使用强化学习(RL)训练模型生成和完善自己的思维链,而不仅仅依赖人类编写的思路链;
3)可以自我反思:o1能够质疑自己、反思错误,展现出更复杂的推理过程,尤其是在数学能力上。
OpenAI称:“我们大规模强化学习算法教会模型如何在高度数据高效的训练过程中利用其思路进行有效思考。我们发现,随着强化学习的增加(训练时间计算)和思考时间的增加(测试时间计算),o1 的性能会持续提高。扩展此方法的限制与 LLM 预训练的限制大不相同,我们将继续研究这些限制。”
OpenAI称,在竞争性编程平台 Codeforces 的测试中,OpenAI o1 取得排名前 89% ,位于顶级选手行列。而在美国数学奥林匹克预选赛(AIME)中,o1解答正确率为 83% ,而GPT-4o 仅能解答对 13%。此外,o1在物理、生物和化学等领域的基准测试(GPQA)中,表现甚至超过了一些博士级别的准确度。
OpenAI还对o1在GPQA钻石版上进行了评估,这是一个测试化学、物理和生物学专业知识的困难智能基准。
为了将模型与人类进行比较,OpenAI还招募了拥有博士学位的专家来回答GPQA钻石版的问题。结果是o1超越了这些人类专家的表现,成为第一个在这一基准上做到这一点的模型。
OpenAI坦言,这些结果并不意味着o1在所有方面都比拥有博士学位的人更有能力——只是表明该模型在解决博士学位预期解决的一些问题上更为熟练。
在其他几个机器学习基准上,o1也超越了最先进的水平。
在启用了视觉感知能力后,o1在MMMU(多模态大规模在多学科任务上的表现基准)评测集上得分为78.2%,使其成为第一个与人类专家竞争的模型。它还在57个MMLU子类别中的54个上超越了GPT-4o。
OpenAI首席执行官山姆·奥特曼在其个人社交平台表示,“o1是迄今为止我们最强大的模型,虽然它的表现仍然存在缺陷,不过在你第一次使用它的时候仍然会感到震撼。”
o1此次发布的有两个版本:标准版 o1-preview 和简化版 o1-mini。虽然 o1-preview 在处理复杂问题时表现更加精准,但它的成本也相对更高。而 o1-mini 则是一款更轻便、经济的模型,价格比 o1-preview 便宜 80%,主要面向对推理性能要求较低的用户。
OpenAI o1 的发布标志着开发具有复杂推理能力的人工智能迈出了重要一步。它在专门任务中超越人类的能力,加上其强化学习框架,使其适合于科学、工程和其他需要批判性思维的领域的应用。
可以说,o1在推理能力上的提升将进一步改变教育领域,虽然仍有不足之初,但教育领域又多了一个参考工具。
END
作者:Penny