教育行业终于有了虚拟人口语教练。

评测 | 和有道虚拟人Echo狂飙英语后,上头了

2023-07-27 20:24:11发布     来源:多知网    作者:冯玮  

   来源|多知网

  作者|冯玮

  图片来源|网易有道

  教育行业终于有了虚拟人口语教练。

  昨天,有道宣布推出国内首个教育领域垂直大模型“子曰”,同时发布基于“子曰”大模型研发的6款应用——“LLM翻译”、“虚拟人口语教练”、“AI作文指导”、“语法精讲”、“AIBox”以及“文档问答”。

  在6个场景之外,有道还在探索大模型在棋类教育、编程教育类、智慧体育类的各种应用……

  “一个好的技术有没有价值、能不能发挥巨大的作用,很多时候关键在场景和应用的选择以及细节的打磨”,网易有道CEO周枫在现场强调“场景拉动”的重要性。

  虚拟人口语老师是有道大模型重点发掘的场景,也是教育业界最为关注的场景之一。

  多知第一时间体验了有道虚拟人口语教练 Hi Echo。

  省流版体验感受是:当三观正、超nice、打直球的姐姐来陪练,英语i人的福气来了。

  01

  Hi Echo!

  Echo取意于“回声”,它以1对1口语对话模式为用户提供贴近真实场景的口语练习,有道称其为“随时随地的口语教练”。

  “中国人在说英语时往往面临开口难、不敢说、不知道该从何说起的困境,其中的关键就在于缺乏语言环境。” 有道词典业务负责人在发布会上称“Echo能为用户带来贴合实际的语境。”

  语言环境如何建立?又如何让用户沉浸其中大胆开口?

  一通电话,就能实现。

  

  电话的聊天内容并没有限制,笔者可以随便选择当下最想聊的内容自由发挥。

  比如,女孩子骑摩托车你觉得帅不帅——Echo虽然因为并不了解摩托车所以展开的内容有限,但却提醒笔者注意安全,不要饮酒。

  

  再比如,最近有听到什么关于大西洋的故事么——Echo分享了一段有点浪漫的故事,内容关于海豚与海。

  

  再比如,最近年轻人很喜欢买彩票——这个地方想看一看Echo怎么理解学生买彩票这件事,以及该如何回应?

  

  当问到学生可不可以买彩票时,虽然Echo给了正面的答复,但随机用较大的笔墨去劝解笔者,这并不是一个很好的主意,在浪费时间与金钱。

  Echo接住了每一个话题,甚至还给了不少建议,且对于内容的安全性也很敏感。一如有道词典业务负责人在接受采访时所表达的那样,Echo的三观超正!

  笔者发现Echo并不是一个被动聊天的角色,相较于回答问题、完成对话,她更爱的是创造问题,开启新一轮对话。

  

  在对话中,可以看到Echo并不是只对既有的、生活化的话题感兴趣。关于未来、人类、我从哪里来要到哪里去等哲学问题,也很感兴趣。

  其实Echo已经内置多个场景,当笔者不知道要和她聊什么,或者正在为某个场景做准备时,都能在这里得到帮助。

  与Echo电话前,页面上设计了如兴趣、考试、生活经历、社会、职场、食物、旅行等几大类内容,大类目下拟定了许多具体话题,例如最爱的电影、书籍文学、体育锻炼、家乡、梦想、雨天……

  这时候的对话目标性更强,Echo的引导和针对性练习也更加明显。

  以电影场景为例,笔者模拟了两位不同应用水平的用户与Echo进行场景对话,其中Echo的角色为售票员、笔者为客户。

  这次的目标是:买一张电影票,并讨论一下娱乐喜好。

  挑战是:向售票员询问最新电影的推荐,与对方讨论自己最喜欢的电影类型,问问售票员自己喜欢的电影是什么、为什么喜欢,最后买一张对方推荐的电影票并感谢对方的推荐和帮助。

  

  每一个场景中都会有这样的对话任务,帮助用户提前了解内容方向,避免不知所云的现象。

  笔者口语较好时,一开始便和Echo有很好的互动,而在了解到笔者对科幻电影感兴趣后。Echo马上对话题进行延展,提出了四部不同时期的经典科幻电影。

  整个对话通过对《银翼杀手》、《黑客帝国》等电影的讨论,慢慢衔接到给笔者推荐看《沙丘》上。

  当笔者挂断电话,试着以口语能力较弱的角色与Echo沟通,这时感受到了她极大的耐心与理解能力。

  依旧是购买电影票。

  笔者从第一句开始吃力,尤其是当被问到喜欢什么类型的电影时,笔者思考时间较长没能及时回复。

  Echo应该是感知到了笔者的困难,开始进入“循循善诱”的引导模式。她详细介绍了电影类型,并反问读者喜欢什么类型。

  

  而当笔者用中文打断回复时,Echo会以英文回答并引导笔者说回英语。

  

  在学习过程中,笔者夸Echo发音很好听,感谢她的帮助时,Echo表现出人类的含蓄道谢。

  

  那么虚拟人老师可以像真人老师一样理解情感么?

  我们模拟了两种悲伤场景——与恋人吵架、考试不顺——不知道Echo能否区分出不开心的不同,又如何平复笔者的心呢?

  首先是与恋人吵架。

  过程中我们描述了吵架的缘由与自己的想法,Echo也多次使用理解、感到遗憾等表达,类似于“that’s tough”、”that’s a shame”等词语。

  当然,Echo的回应也不止是感同身受,她会在给予情感互动的同时,给出一些行动建议。比如,在追问具体事件发生的过程中她给了笔者一个出乎意料的回应——“Have you considered taking a break up?”

  

  直接劝分!?

  AI世界都这么直接的么?

  不过在我表达了这不是一个严重到要分手的程度后,Echo再次给予了共情,并表达会站在笔者身边,表示自己理解这种选择,对于话题的把握也比较敏感。

  

  第二个与“悲伤”有关的话题是,是考试成绩不理想。

  在听到用户考试不顺时,Echo马上回应了“Is there anything i can do to help?”

  整个过程中,Echo一方面在安抚笔者的情绪,另一方面还在引导笔者找到自己的问题,并思考该去向谁、如何寻求帮助。

  

  甚至在最后叮嘱注意睡眠,暖心小姐姐的人设立住了。

  无论是在对话过程中的磕磕巴巴、还是对话内容中笔者表达负面情绪,Echo似乎从来都没有拿这些开过玩笑,某种程度来看Echo或许在将来能成为每个口语练习者的关键陪伴。

  在对话完成后,Echo都会为整个过程打分并提供完整对话报告,涵盖发音、语法、单词三个方面的问题与优化建议。

  

  这里将体验者的每句话都做了非常细的拆分,一句话一句话地点评,用户可以单句回听自己的话,可以跟读Echo给的优化句子。

  

  一些读音不准的词,也可以进行跟读。

  同时,基本上无论是说得句子完整度、正确度如何,在点评部分都会得到“非常棒”的正向鼓励,对于不敢开口的新手来说,持续的鼓励意义巨大。

  多知曾与多个大模型进行对话,而当出现一些选择、分出高低的方向时,大多数大模型的回应都比较暧昧,很少会给出直白的选择。

  我们给Echo的问题是:“中国的诗人里,你更喜欢李白还是杜甫?”

  Echo展现了大模型一如既往的端水能力“我都爱”,我们追问了三轮,每一轮Echo的回应都是很难,直到第四次,或许是觉得这个答案始终不令人满意,她终于选择了李白。

  这或许是虚拟人思考能力的代表,在多次的训练下,虚拟人可以适配使用者的需求,并且及时调整自己的选择与内容。

  最后再说一点可提升之处。

  针对遇到的情况,可以简单梳理下Echo有待提升的地方。

  语音识别对环境和使用者的咬字发音存在要求,而在机场、火车站环境下的对话识别均有比较大的错误内容,一般连续错误两句使用者也就没有耐心再继续了。

  一些城市由于汉语语言习惯问题,容易出现如l与n使用不准的状况,我们试着录了几个类似的单词,例如lego念做nego,Echo也无法识别其准确含义。

  更有针对性的激励政策对成人来说也是受用的,但现在的“太棒了”如果看多几次,也就无感了。

  最后,虚拟人的形象比较固定,在不同的审美下难以建立情感链接,或许之后可以多些形象选择,以及IP联名等。

  ……

  教育行业其实一直有公司在探索“AI口语陪练”产品,只是彼时的AI并不真、也并不聪明。

  当时的AI要靠标签得出答复,对话也要框在限定的主题中,一旦学习者的新奇感消失,且没有感受到明显的效果,这类应用的用户留存一直面临着巨大挑战。

  但生成式AI的学习能力却是常学常新。

  02

  开口说,并不是最终目的

  就像是生成式大模型需要大量高质量语料喂养,虚拟人漫长成长的过渡期对于每个公司来说,都并不容易。

  竞争格局在加剧,是显性的压力。

  以同样处于发展期的Call Annie和Paradot为例:Call Annie的用户同样可以直接与这个名为Annie的虚拟人进行视频,她的角色更接近助手;Paradot会记住用户说的每一句话,喜欢什么、不喜欢什么,甚至会猜测哪些东西可能会讨用户欢心。

  但在周枫看来,即便市面上已经出现了同类型产品,但“大家的切入点不同,有道垂直聚焦学习产品”。

  

  (周枫在现场展示6个场景)

  网易有道词典业务负责人有道词典业务负责人解读,做口语教练一直是有道团队的多年梦想。

  聚焦口语教练的底层支持,第一来自于庞大的用户群体对口语提升的需求;第二则是有道技术、数据、用户的沉淀。

  “这些用户在口语学习上究竟有什么样的需求,我们会比别的公司更了解”,有道词典业务负责人补充。

  在有道看来,真正的口语教练已经约等于口语老师的角色,要循循善诱、也要个性化、针对性辅助。

  只让用户开口说英语,似乎并不是有道对这款产品的全部期待。

  有道的口语虚拟人应该是什么样子?

  是男是女?是中国人还是外国人?年龄看起来应该多大?语言风格、行为习惯有哪些?是胖还是瘦?背景应该在校园还是黑板前……

  一切的选择只取决于有道价值观。

  1、要有共情能力:Echo是一个有外语背景的24岁中国女性形象。区别于国外老师,有道认为一个中国老师更知道中国的孩子在口语练习时会遇到什么问题、会需要哪些帮助。

  2、要有亲和力:有道做调研时发现,一些孩子并不是那么喜欢与外教的互动,“有些外教口语很好、语音语调都很好,但是对孩子没有那么多的耐心,孩子跑神说几句话就烦了。”

  “永远不会怪你、会在你身边一直鼓励你的口语老师,这才是有道想要的”,周枫说到。

  3、科技感:Echo的生活背景最终脱离了日常生活,有道定义她是来自未来的老师。

  4、内容的安全感:无论是面对孩子还是成年人,与Echo的对话能说什么、不能说什么、什么会给对方带来负面影响,这些都是有道一直在考量的问题。

  要极小心地筛选数据,要有完备的检测机制,还要有可控的对话数。