句酷批改网(以下简称“批改网”)创办三年时间,最近获得了数千万元的A轮投资,正在进行B轮融资。在“决胜东方创业大赛”上,获得“最佳商业模式”和“最具盈利能力”两个奖项。据官方数据,全国有1600所学校使用批改网,包括清华、北大、复旦等高校,清华将他们的产品融入到了日常教学体系中。10万名大学英语教师中,4万名在使用他们的产品。
多知网采访批改网创始人之一陈瑞江,听他讲批改网是如何做到这些的。
批改网的创办和发展,与创始人张跃的技术背景有很大的关系。张跃曾经在微软、奇虎360公司工作,其工作的主要内容是语言的搜索及处理。
因为看好语言搜索这个领域的发展,张跃在2006年创办了双语例句搜索网站“句酷网”。那个时候张跃还没有找到明确的创业方向,但是开始了最原始的数据积累。这些数据积累,在开发产品时派上了大用场。
偶然发现英语老师的需求
在2010年,一次偶然的机会让他们发现高校英语老师的需求。
批改网在向南京大学推广英语学习综合平台时,南京大学的老师告诉他们,这样的平台意义不大。高校实行大班制,每位老师带一百多名学生。教师批改作文,花费时间太长。1分钟一篇,看完需要两个小时。而老师最痛苦的地方还在于重复的错误反复出现。此外,学生写作文,如果老师反馈及时,那学生就有写作的动力。但是,因为各种原因,老师的反馈要隔一周甚至两周。
所以高校老师最大的需求是改善作文批改环节。
回到北京后,批改网立刻开始研发。利用之前的数据积累,三个月开发出批改软件的第一个版本。陈瑞江现在说起那个版本时,仍忍不住要说,第一个版本很难看。但还是坚持给南京大学的外语教师试用,希望得到真实的反馈。
自此,批改网的团队每个月到南京3次,听完老师的建议后回北京修改,改完继续让老师试用。这样的状态保持了一年的时间。在这一年,试用人数不断扩大,但是没有收入。做项目挣的钱也难以支持批改软件的研发。所以他们接受了一些天使投资。
2011年6月28日,批改网带着软件的第二版,分别询问了南京大学教师和北京部分英语写作教学经验丰富的教师,是否可以推广到其他学校。当得到肯定的答复时,2011年9月份,批改网开始在江苏省的一个学术会议上推广。
刚开始推广地点选择了重点高校比较多的北京和江苏。团队所有人员出去拜访高校老师,请他们免费试用。渐渐地,批改网被清华、复旦、上海交通等高校接受。
现在批改网通过组织大赛或者会议的方式进行营销。全国使用批改网的学校有1600所,学生400万,老师4万。
为了使产品的功能更完善,批改网采取两个方式:一是多了解国外同行的发展水平,了解目前最新的人工智能技术。将自己的产品与国外产品作对比,但不盲目修改。目前全球范围内拥有英语作文机改核心引擎的不超过十家。主要以麦格劳希尔、培生集团、美国ETS协会三家为主。
二是技术团队每周周一将收集来的用户反馈逐一分析,了解用户需求。能够改的立刻就改。改完后给用户发感谢信。
批改网的营收模式是将产品卖给学校,向学校收费。学校的老师、学生免费使用。至于营收数额,陈瑞江称,批改网在2013年底就已经营收平衡。目前员工有五十多位。其中技术人员占到三分之一,销售和运营人员占到三分之一。
机器如何改作文?
批改网修改作文的原理是,作文提交后,网站将作文从“词汇”、“句子”、“篇章结构”、“内容相关度”4个大类192个维度进行拆分,每个维度都会与批改网建立的英语本族语语料库(即国外英语文章的素材)作对比。语料库越丰富,对比的客观性就越高,机器批改与人工批改的一致率就越高。
比如,在作文中经常出现“learn knowledge”这样的中式英语。将这样的语言搭配与语料库资料对比后发现,以英语为母语的国家中,使用“learn knowledge”的频率为0次,使用频率最高的是“have knowledge”。所以,会建议学生使用“have knowledge”。
这4个维度总共占比100%。可以根据考核需要去调整每个维度所占比例。比如,侧重考核词汇,可以将词汇比列调高。在批改时,机器就会侧重词汇。作文改完后,机器会打分。分数越高,说明作文的表达方式越接近英语本族的表达方式。目前能够批改的文章包括英语四六级、雅思、托福等等。
所以,机器批改作文,使用的是搜索、抓取技术,搜索国外的文章素材并抓取过来。而且,语言是动态变化的,语料库需要实时更新。目前,批改网积累了30亿字词的语料库,每天都在增加。
为了测试机器批改与人工批改的基本一致率,批改网在2011年尝试批改南京大学的1456份英语作文,将批改结果与人工批改结果对比发现,两者基本一致率为92.05%。美国ETS的E-Rater公布的基本一致率是92%。
此外,考虑到不同专业学生需要写出不同文体。比如新闻专业学生会用英语写新闻。教育专业学生写论文时,写英文摘要。所以,批改网语料库中会实时抓取不同文体的文章。新闻方面抓取《纽约时报》等报刊。教育专业论文会采集教育杂志、期刊。
学生在写作文时还存在一种情况,就是抄袭。所以,批改网花费了不少精力改善“抄袭检测”功能。当学生提交作文后,点击“抄袭检测”,批改网会将与作文内文相似的文章全部排列出来。相似度越高,排名越靠前。
批改网的核心是利用积累的大数据与用户对话,及时给每位用户个性化反馈,并记录每个学生的学习过程。通过反馈驱动学生学习。比如告诉学生作文错在哪里,错的原因是什么,如何修改。将使用过程中积累的数据进行分析,生成学生诊断报告、写作能力分析报告,驱动教师教学。
未来产品研发大方向:人机合作
在与高校老师交流的过程中,经常有老师询问批改网的技术人员:机器能否判断出文章是否具有创新性,文章是否具有逻辑性?
陈瑞江解释道,目前通过技术难以判断一篇文章是否符合逻辑。前后连贯性,可以通过连接词的使用判断。语义的逻辑性,文章的创新性,从目前人工智能的角度来讲还是比较困难。批改网更多的是从语言的表达方面做批改。
此外,批改网还要提高对文章错误的识别率;产品的趣味性、师生之间和学生之间的互动都不够。
批改网近日宣布获得数千万元A轮投资。采访过程中,陈瑞江向多知网透露,目前已经开始接触B轮投资。投资所获资金将主要用于产品研发和市场扩张方面。
未来批改网产品研发大方向是如何实现人机合作,如何利用好群体智慧。
“人机合作”就是将人工批改与智能修改相结合。陈瑞江称,目前人工智能领域有一个共识,就是机器不能代替人工,人机合作才是未来发展的大方向。未来机器批改,教师评阅,学生互评,学生自评四者会相互结合。
群体智慧是指,个别学生或者个别老师反馈,团队可能不会重视。如果反馈的人数很多,就会引起重视。所以,批改网后台不断在分析用户的反馈数据。因此批改网的产品增加“点赞”“评价有用或者没有”等功能。
三维扩张是指文体扩张、目标人群扩张、区域扩张。
从作文单一文体扩张到摘要、论文、书信、汉译英、听写、口语等方面;从大学生这个目标人群向上扩展到研究生,博士,向下延伸到中小学;从目前的大陆市场向港澳台、日本、韩国等地扩张。据了解,香港和台湾已经有大学在付费使用批改网。拓展国外的团队已经开始筹备。
陈瑞江认为,中国要“走出去”,要学会输出标准,批改网未来5年最重要的任务就是收集数据,用真实的数据成为事实上的标准。