未来方向:提供更定制化的AI课程,要在技术、数据上建立壁垒。

葡萄智学韩异凡谈“闯关”:AI产品模型更适合儿童英语赛道

2019-03-15 08:26:14发布     来源:多知网    作者:黎珊  

  多知网3月15日消息,在【Open Talk】第十九期“AI英语老师‘蹿红’:耍把式还是有本事?”活动上,葡萄智学联合创始人韩异凡分享了葡萄英语从选型、验证技术可行性到完善教学流程、不断提升技术能力等打磨阶段经历的事情。现如今,市场上类似的产品正在增多,韩异凡提到,葡萄英语接下来要跑得更快,在技术和数据层面建立壁垒。

  

  (葡萄智学联合创始人韩异凡)

  以下为韩异凡演讲全文(经多知网编辑):

  葡萄智学成立于2018年3月份,初创团队大部分来自于搜狗搜索,几位联合创始人基本都是从一毕业就进入了搜狗,做了十几年的搜索,在人工智能领域有着比较深入的认知和技术上的积累。

  现今的教育行业,有很多的痛点存在,比如教育资源的稀缺性,我们认为人工智能能够在很大程度上去解决这些问题。从另外一个维度上说,它也可以降低成本,让更多的人能够享受优质的教育资源。

  葡萄智学成立后,选取了英语学科作为一个切入点。经过半年时间左右的研发,第一款产品葡萄英语就上线了,我们希望用科技提升学习效率和教育资源的平衡。

  当前人工智能三大核心技术组成:图像识别、语音技术、语义理解

  在讲述葡萄英语这款产品整个打磨历程之前,我大概讲一下人工智能技术有哪些。如今人工智能的核心应用技术有三个:第一是图像识别,第二是语音技术,第三个是语意理解。

  首先是图像识别,图像识别有几个细分技术领域。比如文字识别,应用到教育领域,大家看到的拍图搜题,自动阅卷,都是用了文字识别的技术。

  识图搜索也是应用的比较早期的一款技术。这种技术被应用的场景是,你看到谁穿了一件衣服可以拍张照片,通过识图找到这件衣服的购买链接,或者去找这件衣服的相似款。

  人脸识别技术比较有价值的应用也有很多,应用到教育领域,可以分析孩子学习时候的注意力、兴趣度、关注度等等,进而调整后续的教学方法和内容。

  还有一些是图像识别技术和其他人工智能的技术结合在一起做的应用。比如像图文翻译、照片生成。

  第二个人工智能的核心技术:语音技术。语音技术从大的应用方向上讲,语音识别、语音评测和语音合成这三个大的方向。其它比如有效语音判断、语音增强和声纹识别其实是为了辅助比如语音识别的正确性、准确率去做的额外工作。

  语音识别是把我们说的话能够转换成一种文字。我们做实际应用的时候,在葡萄英语场景里面,我们需要识别孩子说的英文具体的含义是什么。在这个过程里,有效语音判断、语音增强和声纹识别这些分支的技术都会起到一些作用,比如说我们会发现孩子在学习英语的过程中家长会陪在旁边,背景音会有家长聊天的声音,这个时候就需要通过有效语言判断,通过声纹识别的技术把家长的声音过滤掉,拿到孩子的声音。

  语音评测是指发音质量的评测,对英语而言又有很多细分的项目。发音的准确度,句子的发音流畅度、完整度等等。

  语音合成其实是语音识别的一个反向应用,它把文字转变成语音输出出来。语言合成再往上就是一种带着情感迁移的语音合成,它可以合成出符合某个人的音色、音质特征的语音出来。

  第三个人工智能的核心技术是语意理解,语意理解是人工智能技术里面最难的一项技术。我通常会打比方说人工智能能做到一个什么样的水平和一个真人做这件事情是否容易做一些类比。就像语意理解这件事情,我们可以设想两个真人在做沟通,经常会出现A说了一句话,B理解的时候很有可能就理解出来完全不同的一个意思。语意理解是非常困难的事情。

  技术和内容为打磨重点,葡萄智学相关团队人员占比80%

  我觉得有一句话说的特别对,“因为相信所以看见”,葡萄相信人工智能是提升教育质量与公平的最有效解决方案。我们从教育最核心的三个元素入手,去构建葡萄英语这款产品。内容层面上来说,我们通过自己去构建内容的方式来最终达到因材施教。师资层面我们构建了一个智能老师。技术层面,最终通过技术的方式能够促进教育的公平性。

  

  团队对人工智能领域技术的深入理解和深厚积累,是打造葡萄英语的第一阶段。

  有了这样的积累之后,要去做一款儿童英语学习的产品,我们面临的第一个问题是选型。选产品形态,当时有两类,是1V1的真人教学,还是偏游戏的人机交互方式?

  成人可以自学,但是孩子不可能一直坐着,按照机械的操作完成学习。考虑到教育这件事情的严肃和严谨性,以及儿童学习的特点,我们选择了1V1的教学方式,也是尊重教育的严肃性。

  选择完这样一种产品形态之后,接下来面临的是老师是用真人老师还是用虚拟形象?其实最早是想用虚拟形象,当时有很多的想法,我们可以签很多的IP,孩子可以选喜欢的IP形象,比如可以让唐老鸭教他学英语,这对AI而言没有任何的成本。

  但是当我们看了大量教学视频之后,会发现英语教学里老师的语音、语调、表情、动作,对于整个教学质量是至关重要的。它不是说你去构建一个虚拟动画形象的建模,给他生产几套动作,就能够实现的。所以我们当时就选择了真人老师的方向,当时选择的时候,市面上还没有这样的方式。

  确定了产品的形态之后,接下来我们验证我们所设想的技术可行性。首先验证的是,比如在语音识别这件事情上,我们能不能做到和真人一样的及时反馈,以及整节课下来能不能真的逼近直播的互动效果。

  在验证了技术是可以做到这一点之后,接下来我们做的是完善教学流程。

  

  葡萄英语其实是非常重的一款产品,葡萄英语在主课之外会有预习环节,还有个性化的作业环节,我们为主课配备了辅修课,还会为孩子生成个性化辅导课。个性化辅导课结合整个单元的课程报告,依托AI大数据分析,设计出针对孩子薄弱部分的专属课程。

  此外,我们还加了入学测试以及阶段测试,给孩子输出能力模型报告。在做教育这件事情上,我们还是很严谨的,在教材上我们引入了牛津大学出版社《Let's Go》的版权,我们在中美英三地都建立了教研中心。在英国,我们聘请了英国剑桥的博士作为教研中心负责人,每堂课的课件都经过审核。

  现如今,技术和教研团队的规模占葡萄智学的80%,葡萄在技术和内容层面的投入占比非常大。

  前期的工作完成之后,接下来我们就重点提升技术实力,我们公司核心的基因还是技术。2月28号我们在线上换上了我们自己的引擎,这也是从去年我们就一直在研发的自有引擎,我们评估我们的自有语音引擎效果是两倍于现在市面上所有的第三方语音引擎效果。

  

  我们现在还在研发对话系统,我们希望未来孩子会有一个玩伴陪同他去学习,我们有一个IP形象叫淘淘,它会和孩子做口语听力的对话训练,通过IP形象动画互动的方式,让孩子既不枯燥,也可以在玩中练了口语和对话。

  葡萄英语这款产品会把人工智能的知识图谱、语音识别和评测,对话系统、自适应学习,个人的学习报告和能力模型的构建等一系列的技术应用在其中,并且会串联在整个产品的每一个环节。

  学生上主课里面做的每一个练习,每一个知识点的掌握程度,课后作业做的情况,以及对话系统的产品里面做的对话练习,这些数据我们都会记录下来,去分析这个孩子的能力模型是什么,继而去调整接下来这个孩子他的教学应该是怎样的。

  未来方向:提供更定制化的AI课程,要在技术、数据上建立壁垒

  AI老师在儿童英语学习上有哪些痛点?真人老师效果不稳定,师资有限,好老师稀缺,这都是现实真实存在的问题,包括好老师的稀缺性推高了成本和价格,现在很多线上课是需要预约的,上课不灵活,以及难以针对每个学生去做因材施教,这都是现在教育存在的一些痛点。

  而AI老师完全可以解决这些问题。AI老师效果稳定,好老师无限复制,可以24小时在线,孩子可以无需预约随时上课,更是可以提供千人千面的个性化教学。

  葡萄英语已将AI技术贯穿到了整个英语教学的过程,通过AI定制1对1教学,让每个孩子都能“因材施教”。目前我们产品已经上了个性化测评课,我们通过一套孩子的练习反馈数据科学测量孩子的真实水平,并去匹配推荐最适合孩子的课程。葡萄英语还有一个单元大复习课,会根据本单元孩子的学习变化、知识能力掌握情况,量身定制个性化辅导课,让孩子在游戏互动场景下进行查缺补漏,边玩边学,吃透每个知识点。

  葡萄英语AI定制课的虚拟老师也针对各种场景做了各种处理,甚至提前预埋了很多突发情况的解决方案。比如,当孩子发音不标准的时候,当孩子用中文回答的时候,当孩子不想答,AI老师都会针对性的给出反应,例如鼓励孩子再来一次,再讲解一次问题让孩子做选择等。葡萄英语的课程有很强的互动性,涵盖听说读写各种训练,课程整体时常基本控制在25分钟左右

  我一直认为未来的教育一定是因材施教的,每个孩子都不一样,怎样找到一种适合这个孩子的内容以及适合这个孩子的教学方法,才能达到更高效的学习,这是AI老师未来可以做到的一点。葡萄英语是要“让每一个孩子能够公平且高效的学习”。

  去年12月26号融资消息公布后,接下来就有很多类似的产品出来,在这样的竞争环境下,我们只能做得更快。因为我们知道现在这款产品还有很大的潜力空间,我们自己知道我们未来要做成一个什么样子,我们必须跑得更快,在技术和数据以及用户心智层面建立壁垒。

  【问答环节】

  问:孩子比较喜欢现实生活的某一位老师,我想模拟一下现实中老师他的形态以及说话的方式,如果要实现,这个难度有多大?

  韩异凡:技术难度不大,难度在数据层面。要拥有丰富的老师的大量视频才可以把这个建模给建出来。

  问:需要多少?

  韩异凡:几百小时这样的视频量,而且可能对于本身视频的质量还要有很高的要求。现在在技术层面比较可行的一种方案是老师在专业的场景里面,就跟拍武打片类似的采集点,这样效果会更好。如果仅仅是视频的话,其实现在的技术做起来还是会有一定的困难。