自动化作文评分系统正在迅速普及,但是这些系统既容易被高大上的废话蒙骗,又容易因为歧视而影响打分。

每年都有数百万计的考生参加标准化测试,这些考试将会对他们的未来产生重大影响。像研究生入学考试(GRE)之类的全国性考试将会决定考生是否能进一步接受高等教育,而州考更是决定一切,包括学生能否毕业,学校能否拿到联邦教育拨款,老师能否拿到工资。

传统的纸笔考试已经被电脑化考试所取代。与此同时,批卷过程 —— 甚至包括作文的批改 —— 也已经转交给算法来完成。

根据 VICE 的调查,自然语言处理(Natural language processing,简称 NLP)人工智能系统 —— 通常称为 “自动化作文评分引擎”(automated essay scoring engine)—— 已经在全美至少21个州成为了标准化考试的主要或者次要改卷工具。另有三个州未对我们的咨询做出回应。

在这21个州当中,有三个州表示考试作文除了交给 NLP 批改之外,还会由一位阅卷老师进行打分。但是在其余的18个州当中,只有一小部分的考生作文 —— 这个比例大概在5%到20%之间 —— 会在被机器评分之后由一位阅卷老师随机抽取进行复检。

但是根据心理计量学家(专门研究测试的专业人士)和人工智能专家的研究,以及 VICE 获得的资料来看,这些评分工具很容易出现人工智能领域频繁出现的一个问题:对特定群体的算法歧视。另外,VICE 的一项实验还发现,其中的一些系统会被充斥高大上词汇但实则空无一物的作文所蒙骗。

作文评分引擎并不能真正分析文章的质量。这些系统是通过成千上万的作文案例训练,学会识别哪些模式会被阅卷者打高分,哪些模式会被打低分。然后,评分引擎会根据这些模式来预测阅卷者会给一篇作文打多少分。

“问题在于歧视也是一种模式,所以这些机器学习系统也会学会这种歧视。” 华盛顿大学计算语言学教授艾米丽·M·班德(Emily M. Bender)说,“这些机器学习程序不仅会在训练过程中学会这种歧视,还会把这种歧视放大。”

 1567957599436540.jpg根据 VICE 的调查绘制的地图,图中显示的是美国各州使用自动化作文评分系统的情况。

来自某些特定语言背景的学生经常会遭到有意识或无意识的歧视。长久以来,教育行业一直在设法应对这种歧视,比如美国有好几个州 就禁止教授黑人英语用语

专家表示人工智能的使用有可能会加剧这种歧视。用真人阅卷者的评分数据对作文评分引擎进行训练,会将已有的歧视根植入算法之中。评分引擎也非常看重包括句子长度、词汇、拼写、主谓一致之类的评分指标,在这些方面,英语学习者和其他考生群体的写作方法很可能不一样。另外,这些系统也无法判断更为微妙的给分项,比如创造性。

然而,考试管理人员和一些州级教育部门官员已经采纳了这种技术。通常来说,一篇作文是交给两位阅卷老师联合打分,但是使用机器来给作文打分或者让机器和阅卷老师一起打分,成本要小得多。

关于机器评分中存在的歧视问题,相关研究非常稀少,部分原因在于打造这些评分系统的公司很注重保密。这些开发公司对自己的算法严密保护,政府也不希望让公众注意到现在给学生改卷的不是真人而是算法的事实。关于评分引擎是否能够公平对待来自不同语言背景的考生,目前只有寥寥几份公开研究报告,但这些研究确实印证了一些批评者的担忧。

非营利性机构教育考试服务中心(Educational Testing Service,简称 ETS)是少有的几家(甚至可能是唯一一家)对机器评分歧视问题展开研究并公布研究结果的供应商。许多的州考、GRE 还有托福考试(海外学生要想报考美国的一些大学,就必须通过这一考试)都是采用 ETS 的 “E-rater” 评分引擎进行评分。

“在我所接触到的相关领域人员来看,这是一个受到普遍关注的问题,也是一个普遍存在的问题,” ETS 新产品开发副总裁大卫·威廉姆森(David Williamson)告诉 VICE,“只不过我们对这个问题毫不忌讳。”

根据1999、2004、2007、2008、2012、2018年的研究,ETS 发现相比于阅卷老师,他们的评分引擎更倾向于给部分学生 —— 尤其是来自中国大陆的学生——打高分。与此同时,它也倾向于给美国黑人以及说阿拉伯语、西班牙语、印度语的学生打低分,哪怕是对系统进行重新设定也于事无补。

“如果我们对系统进行调整,帮助来自某个国家的学生,那就可能会对来自另一个国家的学生造成不良影响,” 资深 ETS 研究者布伦特·布立基曼(Brent Bridgeman)告诉我们。

这份2018年12月的研究 对 ETS 的算法进行了深入分析,来确定造成这种评分差异的原因。

在 GRE 考试阅卷中,比之其它考生群体,E-rater 倾向于在语法和技术细节上给中国大陆学生打低分,但是这个评分引擎会在论文长度和复杂用词选择上给他们打出高出平均分的分数,这导致机器评分给中国大陆学生打出的总体得分比专业阅卷老师的打分更高。威廉姆森和他的研究团队认为,这一结果暗示许多来自中国大陆的学生在写作时会使用大量预先背诵好的作文模板。

与此同时,E-rater 在给美国黑人考生打分时,倾向于在语法、文风和文章组织(这一评分指标与作文长度息息相关)等指标打低分,因此美国黑人考生往往会获得低于平均分的分数。但是如果把他们的作文交给专业阅卷老师来批改,最后的分数往往会好看很多。

这种歧视将严重影响考生在重大考试中的成绩。GRE 作文是满分六分制,只有没有写完或者严重脱题的作文才会被判0分。ETS 研究者在对比专业阅卷老师和 E-rater 的平均给分上的区别时,发现机器给中国考生的打分比平均分高出1.3,而给美国黑人考生打出的分数则低出0.81。这些还只是平均结果,对于部分考生来说,这种评分差异会体现得更加明显。

所有 E-rater 打分的作文都会另外交给一位阅卷老师打分,如果评分差距太大,就会交由第二位阅卷老师做最终定夺。因为这个人机结合的机制,ETS 认为 E-rater 中存在的歧视并不会对学生成绩产生严重影响。

根据联邦法律,在没有获得学生书面同意的情况下公开学生的 GRE 或者其它考试分数是违法行为,因此外界人士想要审核像 E-rater 这样的评分系统几乎是不可能的。

另外一份关于机器评分歧视的研究发布于2012年。这项研究由新泽西科技学院负责主持,用来研究哪种考试的预测效果最好,帮助把一年级新生分入辅导写作班、基础写作班或者高级写作班。

诺伯特·艾利奥特(Norbert Elliot)是《写作分析期刊》(Journal of Writing Analytics)的编辑,此前也担任过 GRE 技术咨询委员会的成员。彼时他也是新泽西科技学院的一名教授,并且负责主持了 这项研究。研究发现美国大学理事会(College Board)的机器评分考试 ACCUPLACER 并不能给女性考生、亚洲考生、西班牙考生、美国黑人考生的作文打出可靠分数。新泽西科技学院认为,根据联邦民权法第六或第七条款的规定,他们无法为这项测试的使用做合法辩护。

自此以后,ACCUPLACER 考试进行了升级,但是机器评分存在的很多问题依然没有得到解决,特别是在没有阅卷老师参与的情况下。

“巴别塔生成器证明就算你的作文毫无连贯性,也就是说前一个句子和后一个句子根本没有关联,也依然可以拿到高分。”

几年前,前麻省理工大学跨学科写作主任莱斯·佩罗曼(Les Perelman)和一群学生联手开发了一个 “Basic Automatic B.S. Essay Language Generator”,简称 “巴别塔生成器”(BABEL),这个程序能把各种复杂词句东拼西凑组成一篇狗屁不通的文章。他们发现把这种废文交给不同的评分引擎打分,往往都能拿到高分,有时甚至能拿到满分。

VICE 重现了这一实验。我们用巴别塔生成器生成了两篇作文,一篇是 issue 类,一篇是 argument 类。我们把这两篇作文提交到 GRE 的在线批改网站 ScoreItNow! 上,该网站使用 E-rater 进行打分。结果两篇文章都获得了4分(满分6分)。系统给出的评语是:两篇论文表现出考生 “能对论点进行有效分析,并且能清晰表达出自己的观点。”

其中一篇作文讨论的是科技对人类自主思考能力的影响。这篇作文的第一句话是这样写的:“Invention for precincts has not, and presumably never will be undeniable in the extent to which we inspect the reprove”。虽然遣词造句颇显高雅,但这句话的意思显然超出了我们的理解范围。

佩罗曼告诉 VICE,“巴别塔生成器证明就算你的作文毫无连贯性,也就是说前一个句子和后一个句子根本没有关联,” 也依然可以拿到高分。

“自动化作文评分只是在考生作文中标记写作元素的一种手段。如果我们过分强调写作惯例,标准的书面英语,那么这些程序只会青睐某些类型的文章。” 前新泽西科技学院教授艾利奥特说道,“了解写作惯例只是学生写作能力的一部分……如果学生能够表达出独到见解,那么阅卷老师会给他高分,但是机器不会。”

尽管如此,艾利奥特却支持使用机器给作文评分(前提是每篇作文还要交由一位阅卷老师进行品控),以及使用 NLP 系统向学生提供即时反馈。

“我对于大学出现的这些问题持批判态度,但是对于利用科技提升学生成绩的做法,我还是非常支持的。” 他说,“虽然这一系统有时候会对学生做出错误分类,但我并不会因此而一刀切地关闭整个写作分析系统。“

但是因为算法中存在歧视,使得自动化评分的优点也遭到质疑,比如系统给学生和教师做出的即时反馈。

“如果你给学生的即时反馈带有歧视,那这样的反馈还有价值吗?还是说这种反馈会加深针对某些特定群体的歧视?”AI Now 研究所的博士后研究者莎拉·麦尔斯·维斯特(Sarah Myers West)告诉 VICE。

在大部分采用机器阅卷的州,如果随机抽取的作文获得的人机评分差距太大,就会交给另一位阅卷老师进行复审。

犹他州使用人工智能作为主要评分依据已经有很多年了。

“人工阅卷对我们州来说是一笔不小的开销,而且特别花时间。”犹他州评估发展协调员西德妮·卡特(Cydnee Carter)说。她还表示自动化评分有个好处是能给学生和老师即时反馈。

1567957666115712.png美国研究协会在一份2017-2018年度技术报告中向犹他州教育委员会提供的一道问答题,该题目将由人工智能进行打分。

通过公开记录请求,VICE 获得了犹他州的年度技术报告。提供报告的是和犹他州合作时间最长的考试供应商 —— 非营利性机构美国研究协会(American Institutes for Research,以下简称 AIR)。这些报告让我们得以一窥供应商是如何通过监管他们的作文评分系统来实现公平性的。

每一年,AIR 都会在州考中对新题目进行检测。AIR 关注的一个重点,是女性考生或者来自部分少数族裔群体的考生在某些题目上的得分是否跟总体分数相近的白人或者男性考生有差异。这个叫作 “项目功能差异”(differential item functioning,简称 DIF)

在犹他州2017-2018学年中,AIR 发现有348道英语语言艺术题目对3年级至8年级的少数族裔或者女性考生表现出轻微 DIF(对他们不利),相比之下,对白人或者男性学生表现出轻微 DIF 的题目只有40道。AIR 还发现有3道英语语言艺术题目对少数族裔或者女性考生表现出严重的 DIF。

被发现有严重 DIF 的题目会交给 AIR 的公平与敏感性委员会进行审查。

AIR 自动化评分高级主任苏珊·洛特里奇(Susan Lottridge)告诉我们,要确定这些案例中出现歧视的原因并不容易,它可能是由试题的用词导致,或者因为阅卷老师本身带有歧视导致,或者是因为算法中的歧视导致。

“在这些开放性的题目上,我们真的不知道会出现 DIF 的原因是什么,” 她说,“我觉得这个问题只能交给研究人员去回答。”

洛特里奇还表示,总体来看,AIR 的评分引擎 “对不同群体的打分还是比较相近的”。

但对于一些教育者来说,这还远远不够。2018年,因为教师群体和像佩罗曼这样的写作专家的集体抗议,澳大利亚搁置了在全国标准化考试中引入机器评分的计划。而在整个尚未成熟的人工智能产业,各种歧视问题也在促使人工智能公司重新看待这些工具。

“这在广义的人工智能领域都是一个大问题,” 维斯特说,“它依然是一个长期挑战,你也可以看出歧视问题在人工智能领域是多么复杂和根深蒂固。但是一个问题很困难,并不意味着我们就可以弃之不顾,毕竟这些考试能够决定考生能否获得将来就业所需的相关证书。”

Illustrator: 汉特·弗兰奇(Hunter French)

Translated by: 英语老师陈建国

编辑: 胡琛浩(Arvin Hu)

© 异视异色(北京)文化传播有限公司
版权所有,未经授权不得以任何形式转载及使用,违者必究。