中国 AI 帮忙批改英文作文,北京 90% 高校採用、批改破

作者/量子位 夏乙舒石

本文经 AI 新媒体量子位(公众号 ID:QbitAI)授权转载,转载请联繫出处

你被机器批改过作业吗?

最近,老外特别关注 AI 在中国教育界的进展,例如人脸识别进课堂、高中 AI 教材出版等等,这一次关注的焦点是:AI 代替老师批改作业 。

起因是,英文媒体《南华早报》最近有篇 报导 说,中国有大约 6 万所学校都在用人工智慧来批改学生的作业,每四所学校中就有一所在用,这些学校分布在四川、山东、安徽、北京等地。

学生们提交的英文作业,打分交由机器完成,而不是人类教师。作文批改系统,要比 Word 的拼写检查复杂得多。它能够理解文字的一般逻辑和意思,对作文的整体质量做出像人一样合理的评判,还要在写作风格、结构、主题等方面给出改进建议。

据说,92% 的情况下,AI 和人类教师对一篇作文的评分是一致的。

这个笼罩 6 万所学校的人工智慧,就是 句酷批改网 。在它的背后,是一个多所高校和公司共同推进了近 10 年的项目:语言智慧评测关键技术及应用。

数据显示,这个机器教师的学生已经达到 1.2 亿 ,还覆盖了北京 90% 高校,以及所有区县的中学。但它也像一道分水岭,有些人压根没听过。这一点也不奇怪。要知道 2016 年底,这个服务覆盖的学校才 6000 多所。

也就是说,一年之间, 它覆盖的学校数量增长了 900%。

高分秘籍

学生对机器批改作业,感受如何?一个可见的情况是,你能轻鬆从微博上找到各种吐槽。

比如:「生活所有的痛苦都来自英语批改网和老师的公邮」

中国 AI 帮忙批改英文作文,北京 90% 高校採用、批改破

「受了批改网一肚子气」

中国 AI 帮忙批改英文作文,北京 90% 高校採用、批改破

「就像相信批改网是垃圾。即使在批改网的排名是倒数也不影响就是这样坚定地上交的决心」

中国 AI 帮忙批改英文作文,北京 90% 高校採用、批改破 说起这些,量子位的一位同事,默默地贴出她被批改网「支配」的往事:100 多字的英语短文,修改了 40 多次。

中国 AI 帮忙批改英文作文,北京 90% 高校採用、批改破

当人把命运交到机器手里,心中总是有点不服气。

于是不断有人试图证明,机器评分这套系统,不过尔尔。比如此前未来网就在 报导 中提及此事。

网友 TroyS 反映,一次专门到网上查到批改网各种 高分表达 并且用到作文里,提交后得了 86 分,修改语法错误后分数变为 91.5 分。此后,该网友把「高分表达」删除,试着用普通表达后,评分还是 91.5 分。

再后来, 试着删掉最后一段、试着删掉最后两段,提交后的分数也都仍然是 91.5 分。但更令其吃惊的是,当该网友把最后两段又贴回去后,分数变成了 90 分 ,并且此后修改了 17 次之多,但分数没变过。

知乎网友猴赛雷也提到,通过使劲重複题目要求中的词和句子、贯穿全文,结构以首先、其次这类 八股文模式 照搬,文内多加六级高级词彙和句式等,再加上批改网推荐替换的词彙都用上,最后就能得到高分,但是内容驴唇不对马嘴。

未来网记者将网上找的《假如给我三天光明》的英文节选贴到批改网上,提交后得分 85.5 分,并提示标题「假如给我三天光明」的英文表达「疑似谓语缺失」。根据文后的按句点评修改两处提交后,得分仍为 85.5 分。然而,当记者删掉最后一段后,得分变为了 86 分。接着,记者又删除第一段,提交后得分变成了 86.5 分。当记者再将第二段删除后,分数又变成了 86 分。

总而言之一句话,机器批改作业,确实还有很多不完善的地方。

一位自称曾经是批改网研发的用户也表示:「批改网的批改原理是用多维度加权平均来给你打分。如果一个维度权重很重,你刚好改了之后这个维度的值降了,一加权自然就分数低了。」

「同学们加油,是机器就有漏洞,就看你们能不能总结出规律了。」

背后原理

机器到底是如何批改作业的?

在批改网的官方页面上,对于背后技术的阐释如下。

2014 年多知网的一篇 报导 中,批改网创始人讲述了更多的细节。我们摘录如下。

再提供点新信息,根据《2018 年国家科学技术进步奖项目提名公示》中披露的内容显示,批改网背后的技术「历经近 10 年的潜心研究」。

其中列出的五个主要的创新点包括:

    首次提出全信息语言评测模型构建大规模评测本体知识库构建大规模评测语料库和规则库提出篇章主题聚合度模型提出文档自动编辑和转换模型。

不管细节怎样,总有质疑说机器批改打分的价值不大,目前仍有一些不足云云。但是,这套系统可能真的击中了老师的痛点。官方也把这个作为宣传的重点:

系统的开发者们把它定位成一种辅助工具。对于缺乏教育资源的偏远地区学生来说,一个批改作文的 AI 能为他们带来不错的写作训练;对于一般的学校来说,它能帮老师们搞定堆积如山的作业,加快批改的速度。

然而根据《南华早报》的报导, 老师们对作文批改 AI 的信任度并不是很高 。老师们依然认为,这个系统还不能算完美,有些很好的作文得不到高分。

其实,在作文批改 AI 出现更早的美国,机器打分早已有了更大胆的应用。测试机构 ETS 的作文评分系统 e-rater,从 2010 年开始,就开始正式参与托福考试作文的打分,一个人类评分员和 e-rater 给出的分数一平均,就成了托福作文的得分。

而这次被英文媒体关注的中国批作业 AI,老师们也只是在日常作业和小测验中使用 AI 来批改打分,真正的考试,还不敢交给它。

上一篇: 下一篇:

相关推荐