AI编校能够提高效率、扩大产能。

果麦文化:AI编校可替代有标准化答案的工作,预计两年内做到错误率十万分之一

2023-06-01 10:46:46发布         

  多知网6月1日消息,最近果麦文化进行了投资者活动,提到编校是行业痛点,而AI编校能够提高效率、扩大产能,目前已经做出了AI编校Demo。

  果麦文化提到,出版行业成本由高至低分别为纸张和印刷、作者版税、编校。编校是出版行业第三大成本来源,公司每年耗费千万元用于编校,依旧无法解决编校难的问题。AI编校能够提高效率、扩大产能。

  果麦文化有自己的研发部门,过去基于规则做编校相关的产品,但效果不理想。2022年,公司利用神经网络学习和通用大模型进行尝试之后,发现其能够解决过去基于规则不能解决的问题。去年做的小demo效果比较好,有信心基于通用大模型/自然语言处理去解决行业痛点。

  果麦文化进一步表示,目前国家标准是错误率万分之一,AI编校达到千分之一就可以达成一个普通人的编校工作,预计在未来两年可以做到十万分之一,能100%解决问题。

  在果麦文化看来,ChatGPT4立足于海量数据的基础上,对于原始已存在的错误,可能无法正确识别。而AI编校不会被超大模型覆盖掉,出版行业不是夕阳产业,2024年至2030年,预测会呈现稳步增长趋势。AI编校能够提高效率,扩大产能,以往大部分编辑都在做编校工作,而不是创造性的工作。

  果麦文化还透露,已经积累了7900万左右的互联网用户,2020年下半年开始进行直播带货卖书,抖音十大读书账号果麦占据半壁江山(易中天、戴建业、小嘉啊、好书博物馆等)。

  2019-2022年果麦To C收入占总收入比重分别约2%、10%、14%和18%,2023年Q1达到了24%。To C可以直接跟用户做交易,没有应收账款,显著提升的To C收入占比改变了果麦的销售模式,毛利率从2020年46%逐年上升,2023年Q1毛利率超过50%。从2014年到2019年,毛利率稳步上升,已经初步完成互联网改造。

  关于AI编校的问答:

  Q1:在校对错误中,AI编校能解决好哪些类型?哪些类型解决不够好以及怎么提升?

  1)校对错误一般四种:错别字,语义错误,事实性错误,敏感词错误。

  2)对于事实性错误和敏感词错误,AI大模型做得比较好。

  3)语义错误:大模型基于全网去抓中文语料,往往被普通人的语言水平所影响,这个是未来重点要攻克的方向。

  4)未来AI编校主要集中在语义错误上,在这类错误识别上去提高精度。

  Q2:校对事实类错误和错别字会同步进行吗?

  中文具有模糊性的特征,有些错别字需要结合具体语境去判断。结合全文理解文字、识别错别字、校对事实错误这三件事在难度上一致,而目前基于规则的模型都做不到,因此需要大模型或神经网络进行学习。

  Q3:为什么会投资AI编校?

  1)编校是行业痛点,公司为此付出了很多人力成本。

  2)公司前期尝试过AI编校,并且果麦也有自己的研发部门,过去基于规则做了编校相关的产品,但效果不理想;2022年,利用通用大模型进行初次尝试后,有所突破,所以决定投资这个赛道。

  Q4:AI编校能做哪些相关工作?

  公司内部主要是使用“十维数据分析系统”在辅助工作,目前AI编校做的主要工作是:替代有标准化答案的工作,譬如,在编辑日常工作过里的文字标点符号错误、事实错误等,都可以通过AI编校模型去替代。