该模型具备长思维能力,并能在推理过程中进行自我反思和纠正。

强推理模型书生InternThinker开放体验,在数学推理场景表现突出

2024-11-29 09:54:31发布     来源:多知    作者:Doris  

  多知11月29日消息,近日,上海AI实验室展示了自主生成高智力密度数据、具备元动作思考能力的“模型”等一系列创新进展,并开放强推理模型书生InternThinker试用体验。该模型具备长思维能力,并能在推理过程中进行自我反思和纠正,从而在数学、代码、推理谜题等多种复杂推理任务上取得更优结果。

  为高效提升模型的推理能力,InternThinker采用了更接近人类学习方式的路径。

  人在学习解决复杂推理任务时,并非从海量的样本中进行单点知识的学习,而是思维模式的学习——在解决问题的过程中,通过回忆相关知识点,对正确的解题过程进行理解、记忆,对错误解题等过程进行反思和修正,即对自我的认知过程进行觉察和调节——该能力也被称作元认知能力。元认知理论的相关研究发现,通过显式地引导和感知人在解决问题过程中的思想模式,可提升复杂任务的学习和解决效果。

  受元认知理论的启发,研究团队设计了一系列元动作来引导模型解决问题的过程,如对问题的理解、知识回忆、规划、执行、反思、总结等。模型在面对复杂任务时,会显式且动态地选择元动作,再进一步展开相关动作的具体思维过程。通过这种设计,利用部分训练任务,可强化模型对关键元动作组合的使用,显著提升模型学习效率。

  因此,InternThinker模型在解决复杂的数学题上具有优势,它能获取已有强推理模型的思维链数据并进行蒸馏。

  目前,InternThinker模型仍在持续迭代中。