“教会了模型教学任务”

网易有道首席科学家:为什么教育大模型能判断9.11和9.9谁大?

2024-07-19 11:02:59发布     来源:多知    作者:Penny  

  多知7月19日消息,近日,多知曾报道了【9.11和9.9哪个更大】测试了多个大模型,其中一些通用大模型都答错了,错法各有不同,而教育垂类大模型都答对了,包括学而思旗下九章大模型旗下的九章随时问,猿力科技看云大模型旗下的海豚AI学以及基于子曰教育大模型研发的APP——有道小P。

  对此,网易有道首席科学家段亦涛向多知解释:“类似9.11和9.9哪个大,以及算数运算,奇偶校验,字符串复制等其他的任务,都属于inductive inference(归纳推理)的任务。这类问题不是逻辑推理能力的问题。他们的特点是用一段代码,或者一个特定的电路就可以做到完美。

  从机器学习的角度来看,如果希望模型获得这样的能力,是一个inductive learning(归纳学习)的过程。就是说从有限的数据样例中总结出一个通用的规则。inductive learning是一个非常重要的学习方式,人类所有的对世界规律的认知,比如万有引力,都是通过inductive learning来获取的。众所周知,inductive learning(归纳学习)需要inductive bias(归纳偏置),即独立于数据的额外假设。这是因为任何有限数量的训练样本都对应着无限多种可能的后续情况,对应于不同的规则。大卫·休谟(David Hume)在他的《人类理解研究》(An Enquiry Concerning Human Understanding)一书中对归纳问题的研究中指出,我们对世界的所有观察都只是一系列“恒常共现”的现象,而因果关系等规则则是由人类大脑赋予的。这就是人类学习中的inductive bias。

  不幸的是,目前大模型不具有使用灵活的inductive bias的机制。它本质上还是一个语言模型,它从语言数据中学习的是统计相关性,而这使它不擅长做规则学习,从而不擅长归纳推理。比如它可能在语料中看到版本号、日期、书的章节等样例。而在这种场景下,9.11的确是比9.9大。所以它可能给出错误的答案。”

  那么怎么才能解决这个问题?

  段亦涛说:“有道做大模型应用的思路是应用驱动,扬长避短。我们聚焦教育场景,利用我们多年积累的业务数据和AI技术,来克服大模型的这类问题。首先多年来我们的教学业务积累了大量的数据,包括题目、知识点、教案、讲解等等。这些数据蕴含了有道的名师对教学内容的深刻理解和剖析。我们利用这些数据,采用了一系列技术,包括预训练,SFT,RLHF等,加强了模型的领域能力。同时,我们也用RAG的方式,将庞大的教学资料作为外部知识库形式提供给LLM,进一步强化它的结果的准确性。

  另外特别重要的一点是,我们开发出了有效的强化模型指令遵循能力的技术。这使得模型能够很好地理解和利用我们的业务数据中对概念和解题思路的讲解。比如我们的教辅数据里包含如何比较两个小数的大小的思路,模型遵循这些思路,就能做对。从某种意义上讲,我们找到了办法,将inductive inference(归纳推理)转变为deductive inference(演绎推理),从而避免了大模型学习规则的短板。也就是说,我们找到了有效的教学方法,教会了模型这些任务,而不是完全依赖它自己去学到。

  这个方式并不简单,它依赖模型具有很强的指令遵循能力。我们也是通过深入的思考和大量的尝试才做到。”

  相关阅读:

  9.11和9.9谁大?教育大模型高光时刻,通用大模型翻车