来源|多知OpenTalk
整理|徐晶晶
摄|张蔚斐
近日,在多知OpenTalk第45期“AI如何引领教育走向新纪元”活动上,洋葱学园App的产品负责人林健分享了产品与AI结合的思考与探索。
这是洋葱学园第一次系统性地对外披露其打造“AI智能学伴”的底层思考逻辑。
林健表示,关于AI赋能教育,洋葱学园有两个基础认知:
1.“匹配用户真实使用场景和核心痛点的体验设计” 是1,“疾速发展的AI技术”是将价值放大的0。
2.优质的内容永远是洋葱学园最重要的核心资产。
基于上述两个基础认知,洋葱在服务学生和家长时,在自适应学习、学习规划、答疑、判主观题等环节都进行了AI探索。
在学习场景外,洋葱学园还关注到孩子的心理健康场景——推出了“暖暖AI”产品功能,使洋葱学园App成为也能提供情绪价值的“成长伙伴”。
以下为林健分享原文(经多知编辑):
大家好!我是洋葱学园App的产品负责人林健,是一名设计师背景的产品经理,也是重度的AI应用爱好者,有比较丰富的服务设计和产品设计的经历。首先我来简单介绍下洋葱学园这家公司。
洋葱学园创建于2013年,创始团队的核心成员大多来自“阳光书屋”,这是一个聚焦乡村信息化教育的公益组织。成立之初,公司推出了“洋葱数学App”,结合优质课程内容与人机交互能力为学生提供更好的学习体验。
之后,洋葱快速发展,推出不同学段、不同学科的课程,学习场景也不断拓宽,更名为“洋葱学园”。到今天,洋葱学园已经成为一家教育科技集团化公司,涉足8条业务线:数字资源、智能学伴、智能硬件、基础教育数字化、职业教育数字化、教育公益、融合出版和研学实践教育。
洋葱学园集团旗下运营5个子品牌,分别是洋葱学园App、洋葱学园教师版、洋葱星球、洋葱智课和洋葱助教行动。
过去10年,洋葱学园累计的学生用户超过1.1亿名,全国已经有三分之一的中小学生成为了洋葱学园的“葱粉”;公立校教师用户超过336万名。目前,洋葱自主研发了超过8000部数字课程,学生的自主学习时长超过1.6亿小时,学习行为数据超过4343亿条。洋葱学园积累的用户数据,是做AI赋能教育时非常关键的因素。
01
两个基础认知:“先教育,后AI”
随着AIGC浪潮的到来,我们做产品时也会有些焦虑:一定要快速地把AI用在产品上、让用户和场景都被AI赋能吗?如果是,具体应该怎么做?
我们希望把洋葱学园打造为学生的AI智能学伴,给用户提供更具伙伴感的使用体验。对于AI赋能教育,洋葱学园有两个基础认知。洋葱后续的决策和动作,都会基于这两个基础认知进行拆解。
第一个基础认知是,“匹配用户真实使用场景和核心痛点的体验设计” 是1,“疾速发展的AI技术”是将价值放大的0。
我们希望尽可能简单和专注,让新技术自然地和用户学习场景以及最真实的需求相结合。在我们看来,新的技术出现时会让用户感到非常新鲜,但要想让用户坚持使用并且获得个人成长,就一定得找出精准的目标用户是谁,并识别出他们的真实诉求。
第二个基础认知是,优质的内容本身永远是洋葱学园最重要的核心资产。
洋葱学园的课程内容生产成本很高。一节5到8分钟的数字课程,平均研发和打磨历时至少2个月。高质量的内容也是洋葱学园创立至今被用户高度认可的基石。
基于这两个基础认知,洋葱学园目前都做了哪些结合AI的探索和尝试?在C端,我们服务的对象包括学生和家长,从服务对象出发,洋葱学园分别能做什么?
02
一个目标:AI,让孩子学会“自主学习”
面向学生,我们致力于将洋葱学园打造为AI智能学伴。
我们思考的问题是,是用AI能力为学生创造新的学习场景或学习能力,还是将AI能力嵌入学生已有的学习流程、助力现有的学习场景?
市场上很多产品都提供了帮助学生总结课程重点、生产学科素材、进行作文批改等能力。类似的功能,洋葱也在做,因为这些功能帮助学生以更便捷的方式、更低廉的成本获得学习内容。
但,这类功能是不是AI赋能教育里最有价值的探索?
我们认为,类似的功能和场景一定很有价值,但仍是“授人以鱼”,我们想在这个基础上做更多的探索。为学生创造新的学习场景或者学习能力,并不是最能够彰显AI能力价值的点。因为AI工具其实是一种“新”的交付方式,但是否是“更好”的交付方式则完全取决于背后将技术产品化的教育者。例如当涉及到文章批改、总结等,AI在经过精心设计的prompt和工作流的基础上,可能可以做到以较高的水平给到用户一些建议,但是要提升交付的质量和可用性,背后少不了有经验的教育者参与。
那么,在嵌入学生已有的学习流程、助力现有的学习场景方面,洋葱学园有哪些尝试?
首先,洋葱学园将AI能力嵌入已有的核心学习流程的重要探索之一是自适应学习。这个功能叫“洋葱AI精准学”,通过将用户真实的学情和知识图谱融合呈现,帮助不知如何学的用户快速上手,并取得较好的学习效果。
早在2017年,洋葱学园就已经开始对自适应学习进行探索了,对洋葱的课程做了细致的切片,在课程中加入一些交互分支,让学生可以反复学习薄弱的知识点片段,或者匹配到更适合自己当前学习难度的片段等。
今天,洋葱学园已经能够非常精准地为每位用户推送适合的学习内容。基于庞大的用户基数和学习行为数据,我们为所有课程内容、习题和讲义打了科学系统的标签,再加上AI能力的加持,确保用户学到的是适合他的内容。
当前,我们已经能够在用户学习数据比较少的情况下,评估某一道题用户做对做错的概率,准确率已超过70%。对于用户来说,整个学习体验就会非常好,能够让他集中精力学习相对薄弱的地方。
学生在学习这些内容时,既能够感受到挑战,激发思考,又不会感觉过难、产生挫败感。这样的学习体验可以不断调动学习积极性,让学生更容易坚持下去。
与此同时,我们的学习数据不断积累,基于数据反馈,课程研发也能不断优化,给习题和讲义打的标签更加精准,进而算法也更加精准,最终形成正向的循环。
其次,我们还做了很多关于学习规划的探索。
通过对用户的调研,我们发现,很多学生的学习效果不理想,是因为他们不知道如何开始学习。
为了解决这个问题,洋葱学园基于不同的用户分层、真实需求痛点,为他们制定各种学习计划。比如针对中高考备考,我们会采集真实性的诉求,比如学生当下的能力水平是怎样的、希望最终达到什么样的水平以及能投入多长时间学习,然后结合课程研发能力、AI能力,给用户制定学习规划。
第三,洋葱学园还做了用AI赋能答疑、判主观题的探索。
洋葱学园有一个功能板块叫“去答疑”。基于课程内容的答疑和追问,也是一个AI可以大有所为的方向。
在这个方面,通过将完整的课程内容、学生原本的提问和提问所关联课程的具体时间点等信息结合,再加上专业的教研老师和产品共同讨论设计prompt,以适当的工作流进行处理,我们可以为用户提供更加及时的答疑服务。
还有很多用户听完一节课之后,会问到没有出现在课程中的相关题目,我们也会在答疑环节进行讲解。
洋葱学园课程设计的思路一直是,当用户提出一个问题后,我们并不会直接给他答案,而是引导他思考题目中可能会用到哪些知识点,以什么样的思路一步步把题目解出来。这方面,我们也对AI进行了大量的预训练和调校,让它能够给到用户相对可靠的讲解,尤其在偏文科或者低年级理科上都取得了不错的效果。这也在很大程度上节省了洋葱在答疑方面的人力投入。
学生使用在线教育产品学习的过程中还有一个常见痛点,就是有很多“主观题”,这些题目没有标准答案,往往是通过判断学生的作答中是否包含了一些“得分点”或符合题目要求的表达等来进行给分。因此在类似刷题练习或模拟测试场景中,用户的体验并不理想。经常是在完成作答后,将标准答案和题目解析给到用户,需要用户自行判断是否作答正确。
而这个场景下需要的正好是大语言模型比较擅长的能力,通过合适的prompt工程和工作流设计,洋葱学园研发了AI判主观题的功能。用户在主观题作答场景可以节省宝贵的学习时间,学习体验也会得到显著的提升。
自适应学习、做学习规划、给用户答疑以及主观题判题包括进一步讲解,这些是洋葱学园产品团队在进行产品迭代时,把AI能力嵌入学生现有学习场景并为之赋能的一些探索。通过融入这些场景,可以让用户更加没有感知、更加自然地受益于AI能力的发展,在学习过程中取得更好的效果。这也是洋葱学园愿意投入更多精力做的板块。
03
新场景:AI智能规划,辅助家庭教育
面向家长,洋葱学园思考的是如何帮家长更好地融入学生的学习场景中。
我们经常会收到学生的反馈,比如“自己平时的学习压力大多数来自于父母,他们根本不知道怎么能让我学习更好,只会跟自己要结果”。
另一方面,我们也面访了不同年龄段学生的家长。结果发现,相比我们,很多家长可能不懂科学的教育方式,但是他们对孩子倾注的心血和爱一定是超过我们的。我们更应该做的,不是以一种说教的姿态去设计产品,而是考虑如何帮助他们更好地参与到孩子的学习场景中。
家长的第一个痛点就是不知道怎么辅导孩子学习,由此产生了很多焦虑。
针对这一问题,在没有AI参与之前,我们做了家长课堂,来告诉家长如何解决孩子会遇到的常见问题。
如今,我们可以借助AI能力,结合洋葱学园课程研发团队的输出,设计了能够匹配不同学生情况的学习规划,让这些学习规划以更加个性化、有温度的方式提供给孩子和家长。让家长和学生都可以根据规划尽量高效地利用自己的时间和精力。
家长的第二个痛点是,很多家长完全不了解孩子的学习情况,没有时间关心孩子。
为此,洋葱学园尽可能多维度地呈现学情,除了让学生了解自己的学习情况,还将学情以适当的方式和频率同步给家长。目的是做到学生心里有数、家长心里有谱。
其中,给学生的学情报告很丰富,包含很多细节。比如他错的题为什么错了、应该如何进一步提升等等。
而给家长的学情分析是更凝练的。家长不再仅是通过孩子每次测试才了解学习情况,而是一份长期的数据跟踪,让家长能够花最小的精力,真正地参与到孩子的学习中。这样家长会比较放心,同时也会对孩子多一些理解。
家长的第三个痛点是,他们担心报了这些课程,孩子却学不下去。
我们的方案是多管齐下,用一套相对科学的激励体系,让学生感受到自己内化的成长和正反馈,让他尽可能地坚持学下去。
我们对激励体系做了详细拆解,包括怎么让学生感知到学习目标;当学生做不同的学习行为时,我们给到他什么样的激励反馈;以及这些激励最终有什么出口。
进一步拆解来看,用户在App内有各种各样的行为,指向各种等价的成长值数值,把这些数值对标到不同的成就等激励指标,再进而这些指标会反向催生用户完成更多的学习行为。在完成这些行为后,用户会得到潜移默化的提升,并且会真正爱上学习。
在家长看来,他们的孩子就像爱玩游戏一样逐渐爱上了使用洋葱学园进行学习。
上图是洋葱学园的游戏化激励场景之一,App内有答题PK场,学生会像打竞技场一样跟其他同学PK做题。
这其中也应用了AI能力。比如匹配答题竞争对手时,为了减少匹配时间(并不一定每时每刻都有跟用户同学段、学同学科、学习成果相似的用户在线),我们会通过历史上真实用户的答题记录形成一个Bot,让Bot跟真实用户在线PK,后者对PK的过程也更具真实感。
用户完成PK后,会获得各种各样的学习成就——作业猎人、备考砖家等。这些成就的名称会让学生觉得有趣,也愿意搜集。
我们还做了游戏化的等级体系和各种升级任务,也通过虚拟资产让用户学习时得到一些量化的反馈,比如用户能通过学习积累各种道具丰富自己的个人形象。
04
新功能:“暖暖”,基于AI 大语言模型的成长伙伴
学习场景外,还有哪些AI可以发挥效能,为学生和家长提供支持,并提升学生学习能力或状态的场景?
洋葱学园希望打造的AI智能学伴,是更有伙伴感、更有信任感的。
为此,洋葱学园孵化了“暖暖”。
这是洋葱学园基于大量用户咨询的数据和问题,投入了具有专业资质的人力资源,结合生成式人工智能打造的GPT,目标是为学生提供健康成长的陪伴和关怀。
洋葱学园App内有个名为“洋葱树洞”的功能,收到过大量用户的反馈,其中不乏情绪低落的反馈。这种负面情绪,有些来自于家庭关系,有些来自于人际交往,有些则是来自于学业压力,在学生的现实生活中也难以排解。
因此,“暖暖”诞生了。
洋葱学园基于大量数据提炼出典型的心理健康痛点问题,并整理成音视频课程,放在“暖暖”的功能页里,可以让用户快速找到这些课程。
当用户的问题并不是这些典型问题时,“暖暖”里还有结合洋葱的世界观构建的虚拟人物Bot暖暖老师(虚拟的心理咨询老师)和同学IP。基于大语言模型,这些人物会跟用户沟通,解答疑惑。
为确保内容的准确,我们在这方面也投入了具备执业资质的专业人力资源一起调校,并且有非常严格的审核机制,在经过大量测试和可行性验证后,我们才把这个功能推向用户。
如果识别到用户的问题需要真人介入,我们会把这类用户流转给洋葱的心理咨询老师,让心理咨询老师介入,提供更加专业的支持。
在这个过程中,我们将长期收集的各种用户典型问题,结合prompt工程和科学的工作流设计,借助专业的心理咨询师支持,将大量的用户咨询分层处理,最终构建了目前版本的“暖暖”。
在我看来,“暖暖”最有价值的地方在于,真的有那么多的孩子愿意信任洋葱来倾诉他们心里的疑惑和问题,并且这些问题和困惑能够被洋葱学园看到和重视起来,真正投入各种资源去着手解决。
这是我们在学习场景外,一个更有“伙伴感”的重要尝试。
05
未来产品规划
洋葱学园未来产品规划中,还会有哪些与AI相结合的可能?
其一,坚持从基础认知出发,发挥洋葱的优势,做能够为用户提供“内化成长”的事。
其二,对技术的快速发展和迭代保持足够的重视和关注,在质变到来时做好准备。
我对洋葱学园产品团队的要求是日常都要尽可能多地了解和接触最前沿的AI技术发展,并且多进行尝试,只有这样,我们才能对新技术的能力边界有相对清晰的感知,进而对产品未来的发展和迭代方向有想象力。
06
Q&A
提问:您好,我是一名设计师,目前在一家在线互联网教育公司搬砖。我有三个问题请教。
第一个问题,您讲到一个具体落地的场景答疑和判主观题,设计AI工具的时候,我们怎么考虑平衡工具的引导性和学习动力?
第二个问题,在整体AI互动过程中,许多地方做不到那么精准,那么有什么兜底措施?
第三个问题,现在洋葱学园改版的风格,从产品设计角度是希望用户在使用过程中获得怎样的情感体验?这背后的支撑理论是什么?
林健:第一个问题更像是在问基于不同的用户分层如何更好地满足他们不同的诉求。
洋葱学园的用户分层是非常复杂的:覆盖了小初高中职所有的学段年级,这些不同的年级里,学生情况也不同,比如有擅长学习的和不擅长学习的,有有目标和没目标的。这些不同用户的客观属性和当下学习情况可以做非常多的分层,每一个用户都有不同的诉求。
要为不同用户提供匹配他们目标预期的产品,我们先要做的是识别用户的需求:有些用户可能需要的是工具,那我们就要足够清晰地呈现工具让他能比较快地找到这个工具立刻使用;另外一些用户来了之后,我们要先给他安全感,告诉他放松,跟着我们来就可以搞定。
这也是我们一直努力的方向。
第二个问题是关于学习规划的。目前绝大多数学生的学习问题或者他需要的学习规划还是有共性的。难免有特别个例的情况,但绝大多数是可以归类分层的。基于这些分层,我们尽可能多地做颗粒度,以一个比较合理的成本和可用性服务好绝大多数的用户。
对于比较特例的用户,我们会借助AI能力去识别。比如我们做的AI精准学功能,当用户开始学习,他有了一些前置输入之后,我们对他进行最初的学情采集,也有一些纠正,他先给我们输入,我们再给他相对精准的内容推送,帮助他学到更适合自己的内容。这算是一个兜底。
第三个问题就是洋葱的设计风格是不是有意为之以及效果怎么样。截止到三年前,洋葱学园最大占比的用户群体还是初中学生。随着这几年洋葱学园的课程在多学科多学段多场景的拓展,我们的用户也逐渐变得更加丰富和多元化。
对于洋葱之前最核心的初中用户群体来说,经过大量调研和测试发现,我们现在的风格真正受到用户的喜欢。因为二次元的国漫美术风格也非常火,很多学生非常喜欢。我们在这个基础上对洋葱学园整个视觉设计进行了一个完整的大改版。
当然,实事求是地说,单一的风格肯定不能满足所有用户的真实学习诉求。比如有些希望来了以后就纯想学习的用户会认为这种风格偏游戏化了。我们现在的风格可能需要进行针对性调整。我们也在努力保证不同喜好的用户都能在我们的产品内获得符合预期的学习体验。
提问2:我来自北京外国语大学儿童语研究中心。没有测量就没有进步,AI在助力教育,目前咱们所出的相关题目如何保证它的信效度?我看到洋葱学园上的练习的内容,质量高与低决定学生学习时间的效率高与低。与此同时,这个题目的信度和效度决定A学生、B学生和C学生同样做一道题精准度,以及这道题出的可信度高不高。AI如何赋能考试和测评能达到更高的信度和效度?
林健:洋葱学园有“老中青”三代组成的专业教研团队,其中既包括有30多年教龄的学科带头人、教研员,退休后被我们聘为课程顾问,也包括有多年公立校教学经验的教育者。他们在教研时会考虑怎么做学生学习能力的分层,并且针对不同的分层提供更适合的学习内容。
其次,洋葱学园的习题很多取自于全国各地各种考试的真题。我们会做的一件事情是,由专业的教研团队为这些题打上科学的标签。基于这些标签和大量用户学习真实情况,我们能够从数据维度识别到某种学习水平或者某种学习习惯的某类用户,他们在答具备某些标签的题时正确率如何,他们的成长或者学习提升情况如何。结合这些真实数据和教研团队判断,我们会进一步完善标签设计和内容推荐的策略,进一步提升整体的学习效果。
提问3:洋葱学园也做了数学的AI答疑辅导,一个特别普遍的问题是,国内外数学AI答疑辅导里都可能有大模型幻觉带来的不准确的问题。您怎么看这个问题?
林健:这个问题特别好。
首先这是一个工程问题,同时也是一个一边做、一边等风来的问题。
答疑场景怎么解决大模型幻觉,我们也做了非常多的测试。落地层面,首先,我们需要确保大语言模型给用户的回答是基于一个可选的回答框架下的,我们把给用户答疑的过程拆解成一个个的中间环节,让每个环节尽可能可控,每个环节里让大模型解决它能力范围内做得比较好的一个点,确保最终输出的结果可用度比较高。
举个例子,比如我们肯定不能完全借助大模型给到一个题的正确答案。这种情况下,我们会从许多方面尝试控制它。比如我们要确保这道题在我们的题库里有正确答案,有标准解析。我们让大模型基于标准解析,符合洋葱讲述标准和课程设计逻辑思路,把这个课程一步步地用适合学生学习和理解的方式润色拆解,再一点点地给到学生。比如第一步该如何分析思考这个问题,第二步要得到这个结论应该具备哪些能力,一步步地拆解给到用户。
我们要做的,第一个是工程设计,让这个事情尽量可控,第二个是尽量不让大模型做它做不好的事。这也是为什么今天大家打开洋葱学园会发现,AI智能答疑还不是所有学段都有的功能。它也在逐渐迭代优化测试,让其可用度一步步变得更高。
所以我们要先做,同时等风来,此时此刻我们能做的就是尽可能地控制这个风险。
相关阅读:
洋葱学园十年:App用户突破1亿,布局智慧教育和学习机等多个业务
多知OpenTalk第45期相关阅读:
END
本文整理:徐晶晶