趣文网 > 作文大全

GRE作文用AI打分 20周年了:AI给中国考生的分数 远超人类打分

2020-11-16 12:30:01
相关推荐

栗子 发自 凹非寺量子位 报道 | 公众号 QbitAI

GRE作文用了AI打分。

这原本不能算个新闻。

但由于美媒VICE发布的一项调查,这件事又成了热烈讨论的焦点。

VICE调查了美国的50个州,发现有至少21个州 (包括加州) 的教育系统,已经把AI当成作文打分的主要/第二主要工具,用在标准化考试里。

△ 蓝=AI打分,浅蓝=有试点,红=无AI打分,桃红=看学区,灰=未回应

这21个州里,只有3个州表示,人类也会参与作文打分;余下18个州,只会随机抽出5%-20%的作文,交给人类复核一下AI给的成绩。

问题是,标准化考试常常作为选拔依据,左右人类前途。AI打分的话,命运就在AI手里了。

这时,人们不免想起了GRE,这个20年前就开始用AI判作文的大前辈。

有有不少研究表明,包括GRE打分机器e-rater在内,许多AI评判文章的机制,都有明显的缺陷。

不过经年累月,AI不但没有被各种作文考试抛弃,反而越发受欢迎了。

于是,Hacker News网友开启了激烈的讨论,不到一日热度便有了330+。

GRE:机器比人更偏爱中国考生

早在1999年,主办GRE的美国教育考试服务中心 (ETS) ,就开始用e-rater给作文打分了。

跟据官方信息,这个自然语言处理 (NLP) 模型,评分标准有以下8条:

· 基于词汇考量的内容分析 (Content Analysis Based on Vocabulary Measures)

· 词汇复杂度/措辞 (Lexical Comlexity/Diction)

· 语法错误比例 (Proportion of Grammar Errors)

· 用法错误比例 (Proportion of Usage Errors)

· 机械错误比例 (Proportion of Mechanics Errors):指拼写错、大小写错、标点错等等技术问题。

· 风格评论比例 (Proportion of Style Comments):比如,某个短语出现过多,太短的句子过多,太长的句子过多等等。

· 文章组织和发展分 (Organization and Development Scores)

· 地道用语 (Features Rewarding Idiomatic Phraseology)

当然,这只AI不止服务GRE。至少,托福和GRE一样,也是ETS出品的考试。

至于这套算法的缺陷都出在哪,ETS官方就做过不少研究,且从不避讳研究结果。

在1999、2004、2007、2008、2012和2018年的作文里,都能发现AI给中国大陆考生的分数,普遍比人类打分要高。

相反,在非裔美国人身上,AI常常比人类给分要低。在母语是阿拉伯语、西班牙语和印地语的考生那里,也有相似的情况。即便团队一直改进算法,也没有消除这个问题。

ETS的一位高级研究员说:

如果我们想让算法对某个国家的某个群体友好一些,那就很可能会伤害到其他群体了。

再进一步,分单项来观察AI的打分情况。

会发现在全部考生里面,e-rater给中国大陆考生的语法(Grammar) 和写作技巧 (Mechanics) 分,整体偏低;

而在文章长度和复杂单词的选用上,中国大陆考生的AI打分超过平均。最终,AI给大陆考生的总分,整体比人类打分更高。GRE作文满分6分,AI比人类打分平均高出1.3分。

相比之下,在非裔美国人身上,AI比人类打分平均要低0.81分。以及,这只是平均数据,在许多考生那里,差异来得比这更剧烈。

不论是1.3还是0.81,在6分制的考试里都不是小数字,可能严重影响考生的成绩。

不止如此,MIT的小伙伴们开发过一个叫BABEL的算法,把复杂的词句拼贴在一起,得出的文章没有任何实在的意义,却被GRE的线上评分工具ScoreItNow!打出了4分的好成绩。

但ETS说,AI不是单独判卷,每篇AI打分的作文,都有一个人类同时打分。然后,把人机打分之间的差异,交给第二个人类去判断,得出最终的分数。

所以,ETS认为考生并不会受到AI缺陷的不利影响。

不过对比一下,传统方法是两个人类同时给一篇文章打分;而当AI替代其中一人打分,相当于这个人的职责变成了复核。

成本大概下降了不少,对结果的影响有多大就很难说,至少打分机制和AI参与之前有差别了。

另外,AI的存在不止影响评分,也直接影响考生的应试策略。这些年,讨好AI的攻略越来越多:

△来自ChaseDream论坛@竹林中人

还好,GRE有人类和AI一起打分。

可还有许多考试是直接交给AI判作文的:

不止GRE算法有问题

比如,VICE调查发现,犹他州把AI作为主要 (Primary) 作文评分工具,已经有些年头了。

州内的一位官员解释了原因:

手动打分除了耗费时间之外,也是本州一项重大开支。

所以,用AI来为写作评分,在降低成本的同时,能不能做到公平公正?

美国研究协会 (American Institutes of Research,AIR) 是一间非盈利机构,也是犹他州最主要的考试提供方。

关于交给AI打分的是怎样的题目,AIR给出了一个范本:

这道题目是,看到一张海牛图像,考生要写出一个观察 (A) ,和一个推理 (B) 。

而AIR每年都会做出一份报告,评估一些新题目的公平性。

评估的一个重点就是:女生和少数族裔学生,在特定考题上,是不是比男性/白人的表现要差。这个指标叫做“差异试题功能 (DIF) ”。

报告显示,2017-2018学年、三至八年级的写作考题里,有348道题被判定为,对女生和少数族裔学生有轻微DIF;相比之下,对男生和白人学生有轻微DIF的题目有40道。

另外,还有3道题被判定为:对女生和少数族裔学生有严重DIF。这些题目会交由专门的委员会审核。

可能造成DIF的原因有多种,而算法偏见是大家最关心的因素。

一位来自犹他州的家长 (@dahart) ,占据了Hacker News讨论版的顶楼。

他很不喜欢听那些官员讲“成本”。他觉得,教育本来就是费时费力的,不可能又快又便宜。

他说,孩子的作文是机器打分,全家不满意AI给的分数,爱人和孩子都会哭。

One More Thing

当然,AI判作文也不止美国才有。

去年,《南华早报》说国内已经有6万所学校靠AI批改作业,分布在全国各地。

其中,学生提交的英文作业,也是机器打分。作文批改系统来自酷句批改网,要理解文字的一般逻辑和意思,对作文的整体质量做出像人一样合理的评判,还要在写作风格、结构、主题等方面给出建议。

据说,AI和人类教师对一篇作文的评分,在92%的情况下是一致的。

但从评论来看,同学们也像美国的小伙伴一样,受了不少委屈:

这样的情感,还是不分国界的。

阅读剩余内容
网友评论
显示评论内容(3) 收起评论内容
  1. 2022-05-11 04:04龙&微[福建省网友]IP:3406380918
    AI打分真的太厉害了,感觉考试变得更加科学和有效了,希望能够推广到更多领域。
    顶10踩0
  2. 2021-07-02 04:39泉岗[湖南省网友]IP:1744555242
    这是一个了不起的进步,AI打分的准确性肯定能够提高考试的公平性,期待这项技术的更多应用。
    顶8踩0
  3. 2020-08-23 05:15还是主动服软的男孩最可爱[新疆网友]IP:762566527
    真是太神奇了,AI技术的发展给考生带来了更公正客观的评分,希望能够更广泛地应用到各种考试中。
    顶0踩0
相关内容
延伸阅读
小编推荐

大家都在看

水资源英语作文 写作文的好词好句开头 关于奶奶的作文600字 自信作文题目 小学六年级语文作文题目 库里作文素材 台阶作文600字 作文温暖400字 廉洁自律的作文 跌宕起伏的作文 初二上册语文第二单元作文 有人物描写的作文 介绍旅游景点英语作文 青春有信仰作文 四年级暑假作文350字 初中作文200字左右 以阅读为主题的作文 作文执着 赞美祖国的作文开头 辣的作文 我的母亲150字作文 四年级大扫除作文 怎么保持健康英语小作文 意志力的作文 为什么作文 参加架子鼓比赛作文 小狗自述作文 面对挫折作文450字 星空幻想作文 我错了作文400