编者按:
本文系多知网约稿。作者认为无论是国内外,教育领域的AI应用正在蓬勃发展,并且大模型正在快速渗透教育行业。对于广大教育从业者来说,如何使用好大模型才是正途,而知晓了大模型的底层逻辑和运作原理才能更好地使用它。
OpenAI的ChatGPT用户量直线飙升至月访问10亿,跻身顶流网站之列。无论是国内外,教育领域的AI应用正在蓬勃发展。海外的多邻国、可汗学院、Quizlet等纷纷拥抱AI;国内,好未来推出MathGPT,投资深言科技;科大讯飞发布星火大模型的产品;网易有道加速研发“子曰”大模型;作业帮正在内测针对国内市场的教育大模型。无疑大模型正在快速渗透教育行业。然而,对于广大教育从业者来说,如何使用才是正途。但只有真正理解大模型的工作原理,才能知其优劣势,从而更精准地应用于工作和产品研发中。
本文将用通俗的语言,帮助大家理解大模型典型代表GPT是如何运作、如何训练的。
01
第一个问题:GPT是如何回答出大段文字的
首先我们来了解一下什么是 GPT。ChatGPT,顾名思义,就是利用 GPT 技术实现聊天的软件。其中"Chat" 代表聊天功能,"GPT" 则是实现这一功能的技术核心。
那GPT的核心原理是什么呢?答案就是:“单字接龙。”也就是,一个字一个字的接龙,在上文最后一个字的后面,接下一个字。“苹果”-“果实”-“实在”-“在意”就是典型的词语接龙,只不过,GPT单字接龙的依据,不是和最后一个字组成词语,而是基于上文的语境,来预测下一个字。如上文语境是“今天天气好,太”,那么机器在这句话后面,大概率会接的就是“阳”字。
那GPT是如何生成长文的呢?即,将自己生成的字,和刚才的上文组成新的上文,然后紧接着再生成下一个字。正如刚才的那句话“今天天气好,太”后接了“阳”字后,新的上文就是“今天天气好,太阳”,紧接着就可能依次生成“当”“空”“照”,如此循环,就形成了一段文字。我们在用GPT问答的过程,GPT也是把问题作为上文,答案作为下文一个字一个字生成而得。所以我们在使用GPT的时候,也会发现他在生成内容的时候,有明显的一个字一个字打出来的感觉,这就是他在单字接龙。
02
第二个问题:GPT是如何回答出我们想要的答案的
GPT原理不难,就是一个字一个字的生成,最终回答出一段文字。但如何确保生成的内容符合我们的期望,而不是随意堆砌文字呢?答案是:概率。
实际上,生成的下一个字时可以是任何字,但由于GPT经过了多次训练,所以它会根据概率选择下一个字,以生成我们期望的文字。例如,当GPT遇到“今天天气好”这个上文时,下一个字生成“太”的概率就很高,接着是生成“阳”“当”“空”“照”几个字。
那为什么“太”字的概率就很高呢?因为GPT被类似的段落训练过。我们可以将训练过程想象成是一位老师一遍又一遍地告诉机器:今天天气好,下一句是“太阳当空照”’。经过多次训练, GPT就学会了这个组合,之后在进行单字接龙时,按照“今天天气好,太阳当空照”的顺序接龙下去的概率就很高。
那下一个字的概率是如何计算的呢?概率本是数学的概念,文字和文字之间是不能进行数学运算的。所以机器会先把上文的文字,转化成向量(数学上可以进行计算),通过对向量进行一系列复杂的计算和比对,最终来选择下一个字。
这样,通过利用上文和连续选择最高概率的下一个字,机器就能够生成连贯的文本。那什么样的下一个字概率大呢?这与它与训练数据(或者说,教导它的内容)的接近程度有关,越接近,概率就越大。
然而上文的组合形式是五花八门,即便两种组合相似度很高,计算出的下一个字的概率分布也可能大相径庭。这就解释了为什么我们在问同样的问题时,机器可能会给出不同的回答。这也帮助我们理解为什么提示词能够协助我们得到更佳的答案,因为提示词为GPT提供了具体的上文环境。比如,如果我们先告诉GPT我是一名律师,那么在计算下一个字的概率分布时,与法律相关的字的概率就会显著提高。
03
第三个问题:是如何训练GPT让它拥有上述能力的?
步骤一【预训练】
GPT是如何进行训练的呢?我们可以将其与我们背诵课文或古诗时的方式进行类比。想象一下,我们遮住下文,然后回忆,直到想起下一句是什么。GPT在训练阶段采用了类似的方法,称为自回归训练。它会给定一段文字,遮住下文部分,然后尝试猜测接下来的内容,如果猜错了就重新尝试,直到猜对为止。不同的是,机器会运用一些方法来调整模型参数,以便更准确地猜测下一个字。这个过程被称为无监督学习,即不用老师去指出学生错误或者纠正,只需将数据或文本提供给机器,让它自己学习。
通过大量的数据和无数次的计算,机器学会了按照人类的方式逐字生成内容。以GPT-3为例,它使用了45TB的文本数据进行训练。如果我们假设一本书有200页,每页有500字,那么相当于GPT-3学习了4500亿本书的内容。而现在的GPT-4,训练的数据量更大,使其具备了更强大的生成能力。当这个过程完成时,也就称完成了预训练,GPT便拥有了通才的能力。
步骤二【微调】
然而,即使机器学会了文本生成,我们仍然需要防止它乱说话。因为在各类文本中,存在大量不适当的内容,包括恐怖主义、歧视和脏话等。这就引入了第二步,即微调过程。简而言之,我们使用规范的文本来纠正这个"话痨",当它说脏话时,我们告诉它"不可以";当有人询问"如何安稳地自杀"时,我们告诉它回答"要劝导提问者不要自杀,要热爱生命"。这个过程被称为监督学习,就像有个老师在监督机器学习,对于机器输出的内容,是有标准答案的,如果回答不好,就重新回答。为什么叫微调呢,因为相比第一个步骤(预训练),规模要小很多。正如需要培养一个绅士,在预训练基础上,你只需要规范他的礼仪即可。
步骤三【强化学习】
机器学会了说话并能够正确表达,但如果它始终按照训练文本的模式生成内容,就会变得呆板和缺乏创意。为了鼓励机器生成更具创造性和独特性的内容,引入了强化学习的方法,即基于人类反馈的强化学习(RLHF)。
RLHF的思想很简单,当机器生成了我们认为不错的回答时,我们给予它鼓励;而当机器生成的回答不够理想时,我们给予它批评或纠正。通过不断的反馈和调整,机器能够逐渐学会生成更加优秀和独特的回答。我们可以观察到,在与chatGPT聊天时候,回答里会有“better”“worse”“same”的评价,这实际就是GPT在利用我们这些用户对机器进行纠正,让它知道什么样的回答是我们喜欢的,机器就更倾向于生产那类回答。
04
问题四:训练一个大模型和养一个聪明的孩子有什么不同
如果你能看到这里,你会发现训练一个大模型和抚养一个小孩很像。小时候,让他去接触各种各样的事物,然后通过正规教育规范他的行为,再同时通过奖惩去激发他的创造性。
但,他和抚养一个小孩有什么不同呢?
1、模型并不是真正学会了语言并了解了语言的意义,而是学会了一种承载了语言及意义的文字搭配方式。(请多读3遍,有点绕口)而小孩是可以理解其意义的。
2、模型不是数据库,不是你问问题后,它去庞大的数据库里去找答案。而是,他学会了推理,知道了文字与文字之间的关系。你提问后,它按照它学到的推理结构,去产生你要的问题的答案,这并不是记忆。但小孩既有推理能力,也有记忆能力。
由此,就出现了大模型目前无法解决的问题,一把双刃剑——生成性。
这一特性让它能产生未见过的内容,是本次大模型技术飞跃的关键亮点。虽然大模型不理解自己生产的内容是什么,但它确实给我们提供了非常良好的体验,如近似人的聊天。然而,这也带来了问题,即模型的答案无法完全受到控制,无论微调或强化学习如何进行,始终存在不确定性,会生成一些我们不想要的答案。这就是模型幻觉,即使这种不可控随着模型完善可以降低,但却无法消除,这也是人工智能领域目前的一大挑战。
就如同儿童玩具不应包含不适内容,游戏NPC的对话必须和游戏世界观一致,教育工具不应违背核心价值观一样,内容生产需要可控。因此,大企业通常不会冒险采用成熟产品试水,即使这个风险的概率非常小。这样的挑战在很大程度上阻碍了大模型的商业应用,所以我们能看见大模型在资本圈火热,但在商业上暂时未创造出与其匹配的价值。对于这个问题我们将在接下来的文章中进行探讨,若有感兴趣的话题,请留言。
注:以上仅为初步阐述GPT原理,为方便理解而进行简化。实际操作过程中涉及各类复杂细节,若需深入理解,建议查阅相关学术论文。
(本文仅代表作者个人观点,供读者参考。)