文| 黎珊
近日,延安发生的机器判卷失误事件引发了社会广泛的关注。
今年延安中考成绩公布后,一位延安市子长县考生家长发现,“网上公布的英语分数与孩子平时的成绩和预故估分数差距很大。”在联系学校后,这位家长发现有同样疑惑的家长不在少数,一个班甚至整个学校的考生出现类型情况。
临近中考填报志愿截止日期,在上访过后,部分家长接到延安市考试管理中心工作人员的电话,称“准确的成绩将重新公布”。
而重新公布的成绩,不少考生的分数出现了较大偏差,两次对比少则相差几分,多则相差二三十分。
最终公示的复查结果是,在2018年参加中考的21108名考生中,英语客观题评分差错率3252例。
“这么重要的考试,出现这么大的失误。而且出了错误,这么草率的处理。”包括不少考生家长在内,社会舆论对本次考试操作提出了强烈的质疑。
那为什么这次延安在中考这么重要的考试中,会发生如此重大的判卷失误?
大型考试机器判卷失误概率较低,设备和过程管理是两个关键
目前,针对大型考试,我国普遍实行网络阅卷方式。
网上阅卷,准确说指用电子扫描及网络技术,对客观题自动阅卷,对主观题进行网上评卷的阅卷系统。“系统+设备”,构成了网络阅卷的应用场景。一套高速扫描仪每分钟扫描近100页,每台扫描仪对应一套扫描识别软件,对试卷进行数据采集。
针对客观题,网上阅卷过程更多是自动化的,扫描仪扫描卷面(答题卡区域)内容,对客观题选项进行自动识别并通过系统进行判分;对于主观题,阅卷系统对卷面进行图像电子化后,判分环节终归是人工阅卷的方式。
基于两者的差异,“虽然都客观题评判是自动化的。但一定程度上来说,主观题的阅卷准确率可能要高于客观题。”有专业人士对多知网表示。
以主观题——高考语文作文为例,目前主要是电脑阅卷方式。通过扫描将卷面图像录入电脑,每篇作文由两位评卷员进行评阅,如果两人给出的分数,评分误差大于规定分值,就交由第三方进行评阅,如果误差仍然大于规定分值,将由学科评卷组组长进行评阅,直到分值达到误差允许范围,评分才算合格。
这样的过程管理使得主观题阅卷能够做到尽可能公正且准确。
但由于客观题并不需要人工判卷,就难以通过人工方式对评判进行比对复查。阅卷的准确性主要依赖系统及设备的稳定性,以及人工操作的标准性。
从追责结果就能看出,设备问题成为其阅卷失误的关键所在。
此次为延安市中考提供阅卷技术服务的第三方西安冠宇信息科技有限公司对此次事件的解释是:失误属于机械故障,由于走纸系统磨损,导致扫描图案变形。
那么对于此类问题,有办法进行规避吗?
在中高考分数评判的流程中,设计了相应的环节对此类问题进行规避。比如,在设备采购时需审核机器的稳定性;正式阅卷之前,进行预测演练;评分过后,有相应的抽查机制。此外,各地教育考试机构都安排了考生卷面分数复查申请的环节,复查内容为各科答题卡是否存在漏评、总分漏记、错记等。
这样的复查流程设计主要是为了规避针对客观题阅卷可能出现的问题。
除了在流程的设计上尽量做到万无一失。对提供阅卷服务的第三方技术公司的合理筛选,也成为保证考试阅卷准确性的关键。
根据天眼查的搜索信息显示,西安冠宇信息科技有限公司曾经历两起劳动争议的法律诉讼,并被西安市雁塔区人民法院纳入失信被执行人名单。在对此次事件的调查采访中,有记者问及“是否了解西安冠宇信息科技有限公司有失信记录”及“为什么在两年前更换对服务企业进行更换”时,延安市考试管理中心相关人员并没有给出正面回答。
从阅卷服务商的选择,到阅卷过程的管理,任何一个环节的差池都有可能导致分数的失误。而像中高考这样的大型考试,经不起这样的失误。这就对提供阅卷及相关服务的行业参与者提出了更多要求。
至于这次类似事件,假设在执行层面的过程管控更加严格,也是可以避免的。
实际上,这类传统的针对考试提供的机器阅卷服务,并不算新兴技术。
在近20年的时间中,围绕网络阅卷技术诞生了一大批考试服务公司。市场竞争激烈,但其竞争的关键不在于技术的先进性,而更多在其对过程管理的把控能力。
“一般大型考试,由于其考试模式固定,答题纸质量较好,对阅卷技术的要求并不算太高,这类阅卷技术发展已趋于成熟,在全国也得到大规模的推广。”一业内人士对多知网表示。
在延安事件中,其考试管理中心主任在接受采访时就有表示,当时工作人员并未发现扫描异常情况。如果工作人员及时发现,会停下来进行重新扫描。
这意味着,有效的过程管理一定程度上规避这类问题。比如增设应急的设备,加强实操人员培训,通过流程化的方式降低阅卷失误风险。
机器阅卷第二代产品自动批改,将面临更多的挑战
随着技术的成熟,提供备考解决方案供应商越来越多。这个市场上,根据产品和参与方不同,基本划分出了几个不同的层次:第一种是用于中考高考的机器阅卷产品,也是目前应用最广泛的批改产品,这也是对技术要求相对比较低的一类产品。
另一种则是升级版的批改产品。这类产品已经不再简单关注阅卷,而是将使用场景转移到日常教学中。其目标不在形成考试终结型报告,而是将“阅卷”作为切入点,通过自动批改对学校教与学的数据进行采集,从而为精准教学和自适应学习提供依据。
对于学校日常教与学的数据采集,涉及到学习过程的方方面面,如果不是好的产品落地,对学校、教师及学生的将会带来不可逆的“伤害”。
“孩子的时间是不可逆的,不管是考试成绩,还是学习的过程性评价,教育成本不可承受。”一位老师评价。所以,二代批改产品的要求比一代阅卷产品的要求要高出很多。
因此,新一代通过阅卷技术进行探索的企业也面临多个方面的挑战。
首先,通过阅卷采集数据,保证准确率是最基本的底线。这要求企业对大量不同的阅卷场景进行摸索,同时,在探索的过程中,尽量要做到不影响学校的日常教学。比如,课间作业数据采集,只能抓紧利用课间10分钟进行处理,并及时将作业样本交还给老师,保证不打乱教学进度。
其次,由于不同学校,不同教学场景的差异性较大,企业研发的教学产品需要能适配各种场景。这需要企业通过积累获取大量样本,否则产品在落地的过程中,很难真正适用于学校,从而可能误导教学过程。
这些都对企业学科的场景理解能力、教研的能力,合理的运营能力,和有效的商业模式等提出了更高的要求。
值得注意的是,不少从业者表示,“这块技术,目前虽然还不够成熟,竞争也还不充分,但行业的期待值很高”。因此,越来越多的市场参与者加入其中。这其中包括向新技术转型的老一代阅卷公司、直接从新阅卷技术切入的创业型公司、一些大型教育企业等等。
“在还不能保证数据的准确的情况下,不轻易把不成熟的数据反馈到教学环节中去。”这是不少行业人士从事这块业务最基本的底线。(多知网 黎珊)