我是高考阅卷组的一位老师。
在我看来,高考阅卷是一份枯燥与精彩并存的短暂工作。
在高考阅卷系统中,每一个监考老师登陆之后屏幕上都有 60 秒的停顿,屏幕上只有一行红色的字:
「现在已经进入正式评卷阶段,你的打分将直接影响考生的最终成绩,请严格执行评分细则!」
60 秒你什么都不能干,只能盯着它看。
每一个阅卷老师都明白,自己面对的不是流水线上的工业产品,每一份试卷背后都是一个十年苦读的具体的学生。
高考阅卷组是一个很少占用公共舆论资源的组织,你在正常情况下很少听到关于这个组织的公开讨论。
为什么呢?
这一方面是因为:和世界上所有组织一样,高考阅卷组运转良好的直接表现,就应该是所有人都感受不到它的存在——每一个学生交出试卷的时候,总能根据自己的考场表现预估一个大致分数,而当你拿到成绩单时,也总能发现自己的实际得分和预期大体一致,这说明我们对你的判分是能形成共识的;
另一方面,由于高考在中国本质上是一个重大的人才选拔机制,高考阅卷工作因此在某种程度上也成了一项政治性任务——是呀,如果你的判卷可以轻易影响一个人的命运,那么你的工作就要非常小心,而且极其严格。
最后,每一位高考阅卷组成员在进入阅卷场时都要签署保密协定,对每道题的评分细则在某段时间内(目前通常是 5 年)严格保密,因此大多数老师都会本着「少说少犯错,不说不犯错」的原则选择在公开场合禁声。
这就在有意无意间造成了一个舆论真空:所有老师都在强调「多考一分,超越千人」,但是很少学生知道那些判分的人是如何决定你的最终得分的。
而当没有人在公开场所正式说明这些流程时,没有明确信息源的谣言就会出现。
你一定多多少少听说过以下这些关于高考阅卷的谣言:
1. 老师 1 秒钟改一张卷子,只看最终答案,算错就 0 分;
2. 字写的好一点,老师也会多给你一些分;
3. 判卷任务很重,老师为了赶时间不会那么严格;
当然,流传最广的还有下面这一条:
4. 如果实在不会写,也要编一些东西把答题卡写满,老师还会给你一些辛苦分的!
——这些都对吗?
它们全部都是错的!
在这一章接下来的部分,我会向你介绍高考阅卷工作的基本流程和评分的基本原则,帮助你更加了解阅卷人的想法。
你的分数是由阅卷人决定的,但如果你了解阅卷机制,那么你的分数就由自己决定。
1、标准统一:阅卷老师的岗前培训
「公平性」是高考阅卷工作要的首要准则。
但是公平是一个抽象的概念,具体到高考阅卷过程中,我们应该如何体现公平性呢?——很简单,我们只要在两个维度保证判分统一即可:
1、第一条要求是阅卷组成员间的个体偏好要被抹除:对于同一张试卷,不同的阅卷老师给出的分值应该是一样的;
2、第二条要求是考生间的得分原则要保持统一:对于同一个阅卷老师,如果批阅的两张试卷使用了同样的解法,那么这两张试卷应该得到同样的分数。
——高考阅卷组围绕这两条基本要求,进行了一系列的制度设计,保证阅卷的公平性。
中国每一个省份都有数十万考生参加高考,这么多的试卷要在 7-10 天的时间内批阅完毕,阅卷组里往往需要很多老师同时工作,高考阅卷的大部分制度设计都是为了保证不同的老师对评分细则保持统一的理解,具体的方法分为以下几步:
首先,和所有的工作一样,阅卷组是需要岗前培训的。
因为高考阅卷整个过程会持续 7~10 天的时间(通常来说是 8 天,很少超过 9 天的)。
基本情况是:正常而言 7 号 8 号高考结束,然后考生的试卷会被扫描归档,阅卷工作一般从 11 号或 12 号开始。
按照惯例,25 号的凌晨考生就能够查分了,所以通常而言分数的统计核对工作 23 号就要完成,严格来说 24 号工作就已经全部结束了。
但尽管时间这么紧,我们一定都会有半天的时间进行阅卷培训,具体内容是帮助每一位阅卷老师精确理解高考的评分细则。
在这段时间里,我们会签一份保密协议,强调一些纪律性问题,包括不能在阅卷期间私自接受媒体采访,严禁在阅卷期间公开透露评分细则,阅卷工作结束五年内也禁止透露评分细则。
然后我们每一位老师会领取一份我们即将批阅的题目答案——这份被称之为《评分细则》的东西与稍后省教育院公布的《参考答案》是内容一致的,唯一的不同在于我们拿到的答案后面,每个步骤都标注了相应的分值,这就是我们工作的核心。
在纸质阅卷的时代,这份答案是需要每个老师签字领取,用完上交的;但现在因为我们都改成了电子阅卷,这份答案就不再有纸质版,而会是在每一位阅卷老师登陆的系统中自动保存。
阅卷组的组长会针对这个细则进行非常精细的讲解。
精细到什么程度呢?
除了「每一个步骤哪个位置该给什么样的分数」这种普通问题,每一道题目阅卷组还会「猜测」学生会在哪些地方犯错误——比如有些题目的某个条件,就是命题人给学生挖下的坑,一道题目有不同的坑,阅卷组的老师则会评估考生掉进不同坑里的后果如何。
老师在教你「揣测出题人的意图」,其实阅卷人也在「揣测答题者的意图」。
阅卷组认为考生们会犯的那些典型错误将会被罗列出来,并由阅卷组长向我们一一解释每一种错误出现时应该如何扣分。
当然了,在组长讲完了《评分细则》后,所有阅卷组成员在正式工作之前还有一个所谓的「适应性练习」:我们会从今年真正交上来的那些试卷中随机抽取几千套试卷作为「样卷」,发给每一位老师进行轮流打分,测试大家对《细则》的理解程度——这几千套试卷会不断在所有阅卷组老师的机器之间轮流打转,其目的就是帮助我们练习和感知。
这个训练的过程中,每个老师大概会批阅 200 至 300 份样卷,因为样卷会是系统随机重复分发的——就是你批阅了 200 套到 300 套试卷,但这其中甚至有 150 套都是重复的,有时一张试卷可能断的重复在你面前出现,其目的就是系统会比你两次看到同一张试卷时的判分结果是否一样;也会对比你判出的分数和其他老师相比是否差距过大。
如果你的判分与同行相比偏差特别大,那系统就会把你给挑出来,阅卷组长会找你单独谈话,来一对一给你进一步解释,看看你对评分细则是不是了解的不够充分。
在适应性训练结束后,我们还会进行一个复盘。就是所有的阅卷组成员都集中在一起交流一下在我们批阅样卷的过程当中有没有碰到一些非常特殊的案例,是之前大家闻所未闻的。
这个环节是我最喜欢的,阅卷过程很枯燥,但这个环节总是充满了惊喜。
老师们会讲一些你闻所未闻,根本就想不到的事情。
比如我在 2018 年阅卷的过程中就遇到了这样一个学生。
那一年全国 I 卷理科数学的 17 题是一个解三角形的题目,最后的问题是求一条边的长度:
又一个熊孩子,估计是真的算不下去了,他居然在答题纸上画了一个特别标准的图(真的特别标准),然后写「根据精确作图,并测量可得:……」
——这道题目的最终结果是 5,因为他画的图实在太精确了,所以他就量出了一个正确结果!
你看,这样的案例,命题组的老师事先能想到吗?
根本想不到!
但是在阅卷过程中正儿八经就会出现。
那对于这些非常特殊的案例我们应该如何判分?
这不可能由任何一个老师单独做决定,我们都会把这些特殊案例反馈给阅卷组长,然后所有老师一起讨论,最后将讨论决议纳入评分细则中。
即便你的案例是一个特殊案例,但这个特殊化的案例在我们的评分流程中会获得统一认知,如果下一次其他同学出现了和你一样特殊的答案,我们一定能保证你俩得的分数是一样的。
就是我们所追求的「公平性」原则在岗前培训中的体现。
2、三重保护:阅卷流程中的公平性维护
除了在岗前培训阶段的制度设计,我们在真实阅卷过程中也有很多环节可以随时监控老师对评分细则的把控。
在高考阅卷系统中,每一个监考老师登陆之后屏幕上都有 60 秒的停顿,屏幕上只有一行红色的字:
「现在已经进入正式评卷阶段,你的打分将直接影响考生的最终成绩,请严格执行评分细则!」
60 秒你什么都不能干,只能盯着它看。
每一个阅卷老师都明白,自己面对的不是流水线上的工业产品,每一份试卷背后都是一个十年苦读的具体的学生。
参与高考阅卷的每一位老师自己也都经历过高考,还有很多是多年毕业班的执教老师——知道了这些,你就明白网络上那些「随便改个分」的说法在老师的主观意愿上都是很难成立的。
而且在客观条件上,老师的判分也会非常谨慎,比如阅卷系统的制度设计:
首先一个系统设置,就是我们的电子化阅卷系统会「随机重复」地给阅卷老师发放一些你自己之前改过的试卷。
但是通常而言,如果老师每小时批阅几百上千份试卷,我们是不可能记住哪一张是自己改过的,但是系统会时不时悄悄的塞给我们一份自己之前改过的试卷,系统的目的就是想要看一下,你同一个人两次看一张一模一样的试卷,你判的分数是不是丝毫不差的。
这个分数是不能有任何误差的,如果你的两次判分出现误差,系统马上对你做一次记录——同一个人改同一张卷子,两次的分数居然都不一样,那说明你肯定是对评分细则理解有问题的,如果你总是出现这个问题,那阅卷组长就会把你叫出去单独谈话,看看你到底是怎么回事儿。
第二个系统设置叫做「双人确认」。
这可能是流传最广的一个设计,很多同学都听过这个说法:就是你的每一份试卷系统都至少会分发给两位老师的打分,100 万份试卷我们至少要批阅 200 万次,尽管这样让我们整体的工作量直接翻倍,但这是必要的工作。
对于每一道题目,系统都会设置一个容错率——这个分数通常是 1 到 2 分,往往跟这道题目的总分值相关——比如高考数学全国卷的大题都是 12 分,那么它的容错率一般是 2 分。
当两位老师批阅同一道题目后,系统会比较这两个老师评分的差值,如果这个差值不超过容错率,那么一个学生的最终得分将会是这两位老师打分的均值:比如说一张试卷,我认为这位考生应该得 8 分,然后另外一个老师认为这一张试卷应该得 9 分,那么这是可以的,这个学生最终得分会是 8.5 分;
但是,如果两位老师对同一道题目的评分超过容错率,那么系统会引入第三位阅卷老师打分,并且对比这三位老师的差值,取相邻最小的那两位老师的分值平均:比如一张试卷,我认为只能得 5 分,另外一个同学老师认为这其实是一份 8 分的试卷,那这时系统就会引入第 3 个老师来进行评分,假如第三个老师认为这是一个 6 分的试卷,那么系统会在 5,8,6 这三个数据之间比对,很明显 5 和 6 差值更小,所以这个学生最终得分是 5.5 分。
这个时候,那个打 8 分的老师实际上判分作废了——这个在我们的行话里叫做「废卷」,废卷的意思是,你的评分和自己的同行之间出现了特别大的偏差,在刚刚的例子里,大多数人都认为这是一个 5-6 分的试卷,你怎么就认为它值 8 分呢?这肯定是你对评分细则的理解有问题,所以如果一个老师判出的废卷率太高的话,你仍然会被阅卷组长叫出去单独谈话。
当然有些时候你会问:如果三个老师打出来的分数是一个等差数列怎么办呢?比如刚刚的那个例子,如果第三个老师打出了 11 分——5,8,11 这三个分数谁也不比谁更近,相当于三个老师对于同一个试卷的认知非常离散,怎么办呢?
首先你可以想象这样的情况在真实情境下是很难出现的,总共 12 分的题怎么会出现这么离散的差异化评分呢?
但如果真的出现这种情况,这张试卷就会被提交到阅卷组组长那里进行仲裁。
通常而言遇到这种情况阅卷组长会把评分的三位老师叫进来听一听每一位的决策过程,综合考虑给出一个最合适的分数。
最后,还有一种非常特殊的情况,就是我们会在阅卷过程当中碰到一些在最初版本的评分细则之外的解法,它是正确的解法,但在我们的评分细则之外——这种情况在解析几何还有导数的大题当中经常碰到。
遇到这种在评分细则上不存在的解法,我们阅卷组的老师是没有权限直接判分的——我们这时会点击阅卷系统中的「问题卷」,将这份试卷直接提交到阅卷组长那里。
如果这种特殊解法只是偶尔出现,比如一个上午全场已经改完几万份试卷才出现一两次,那么这种问题我们会在下午阅卷开始前召开分析会议,召集全体老师来讨论一下这种解法应不应该给分,应该给多少分。
然后,这个标准一旦达成,我们就会形成一个决议,把这个决议补在我们的《评分细则》后面,以附录的形式发放给每一个老师,等于这个所谓的「特殊解法」也被纳入到了评分细则的范围之内,我们的以后如果遇到类似的情况,也要根据评分细则执行判分。
当然还有一种情况是,这种特殊解法非常普遍,一个上午阅卷组长就收到了十几份关于这种解题方法的问题卷——那么这时阅卷组长是可以直接叫停全体老师,直接开始针对这种解法展开讨论的,等于把本应该在下次阅卷工作开始前的讨论会议提前举行。
你可以看到:整个阅卷的流程是非常标准化的。
3、阅卷人的制约:规则、流程与《评分细则》
任何一位阅卷老师都并没有决定别人命运的权力——我们也受到各种制约:你的判分需要被同行评阅,你的误差会被系统记录,你也不能独自对《评分细则》中不存在的解法直接给分。
总之,阅卷老师手中的权力非常有限,高考阅卷是一个十分单调,甚至比较枯燥的工作。
我曾经听过一个笑话:一个阅卷老师对自己的学生说,阅卷是一份非常枯燥的工作,和富士康的流水线工人一样做的都是重复的体力劳动。
他的学生问:老师,你在阅卷组里具体做什么的呀?
这位老师说:我负责把答题卡塞进读卡器里备案号:YXA1DNrQQQxiLReBO0xfD1Ew