一套新的自然语言处理(NLP)评估基准,名为 SuperGLUE

自然语言处理(nlp),是机器学习领域的一个分支,专门研究如何让机器理解人类语言和相关文本,也是发展通用人工智能技术亟需攻克的核心难题之一。
不久之后,纽约大学、华盛顿大学、剑桥大学和 facebook ai 将联合推出一套新的自然语言处理(nlp)评估基准,名为 superglue,全称是 super general-purpose language understanding。
该系统是现有 glue 基准的升级版(所以前面加上了 super)。研究人员删除了原本 11 项任务中的 9 项,更新了剩下 2 项,同时加入了 5 项新的评估基准。新版本将更契合未来 nlp 技术的发展方向,难度也是大幅增加,更具挑战性。
(来源:nikita nangia)
这套系统的数据集、工具包和具体评估标准预计将于 5 月初公布。不过从最新发布的 superglue 论文中,我们可以先睹为快。
什么是 glue?
实现 nlp 的方法有很多,主流的方法大多围绕多任务学习和语言模型预训练展开,由此孕育出很多种不同模型,比如 bert、mt-dnn、alice 和 snorkel metal 等等。在某个模型的基础上,研究团队还可以借鉴其它模型的精华或者直接结合两者。
为了更好地训练模型,同时更准确地评估和分析其表现,纽约大学、华盛顿大学和 deepmind 的 nlp 研究团队在 2018 年推出了通用语言理解评估基准(glue),其中包含 11 项常见 nlp 任务,都是取自认可度相当高的 nlp 数据集,最大的语料库规模超过 40 万条,而且种类多变,涉及到自然语言推理、情感分析、阅读理解和语义相似性等多个领域。
图 | glue的11项任务
不过glue基准才发布一年,已经有很多 nlp 模型在特定任务中超过了人类基准,尤其是在 qqp、mrpc 和 qnli 三项任务中:
qqp 是“quora 问题配对”数据集,由 40 万对 quora 问题组成,模型需要识别两个问题之间的含义是否相同。
mrpc 是“微软研究释义语料库”,与 qqp 类似,模型需要判断两个形式不同的句子是否具有相似的意思(即释义句)。
qnli 任务基于“斯坦福问答数据集(squad)”,主要考察模型的阅读理解能力。它需要根据维基百科中的文章来回答一些问题,答案可能存在于文章中,也可能不存在。
图 | nlp 模型在三项任务中普遍超过了人类基准,越靠右侧的模型分数越高
目前综合分数最高的是微软提交的 mt-dnn++模型,其核心是多任务深度神经网络(mt-dnn)模型,并且在文本编码层整合了 bert。仅次于它的是阿里巴巴达摩院 nlp 团队的 alice large 模型和斯坦福的 snorkel metal 模型。
从上面图中我们也能看出,得益于 bert 和 gpt 模型的引入,模型在很多glue 任务的得分都已经接近人类基准,只有 2-3 个任务与人类有明显差距。
因此,推出新的评估基准势在必行。
图 | glue排行榜前五名
从 glue 到 superglue
新的 superglue 遵从了 glue 的基本原则:为通用语言理解技术的进步提供通俗,但又具有挑战性的基准。
在制定这个新基准时,研究人员先在 nlp 社区公开征集任务提案,获得了大约 30 份提案,随后按照如下标准筛选:
任务本质:测试系统理解英语的能力。
任务难度:超出当前最先进模型的能力,但是人类可以解决。
可评估性:具备自动评判机制,并且能够准确对应人类的判断或表现。
公开数据:拥有公开的训练数据。
任务格式:superglue 输入值的复杂程度得到了提升,允许出现复杂句子,段落和文章等。
任务许可:所用数据必须获得研究和重新分发的许可。
在筛选过程中,他们首先重新审核了现有的 glue 任务集,从中删除了模型表现较好的 9 项任务,保留了 2 项表现最差的任务——winograd 模式挑战赛(wsc)和文本蕴含识别(rte)——它们还有很大的进步空间。
两项任务分别属于自然语言推理和阅读理解范畴。人类通常比较擅长这样的任务,甚至于不需要特殊训练就可以精通。比如看到这样两句话:
“这本书装不进书包,因为它太大了。”
“这本书装不进书包,因为它太小了。”
尽管两个句子包含两个含义截然相反的形容词,人类还是可以轻松理解,因为我们知道“它”的指代物不同。但上面那些nlp模型却表现的很糟糕,平均水平不足人类的 70%。而这其实就是 wsc 任务的主要内容。
最后,研究人员挑选(设计)了 5 项新任务,分别是 cb,copa,gap,multirc 和 wic,主要测试模型回答问题,指代消解和常识推理的能力。
图 | 新版superglue任务集,其中rte和wsc来自于现有的glue任务
研究人员认为,superglue 的新任务更加侧重于测试模型在复杂文本下的推理能力。
比如 wic 要求模型在两段内容中,区分同一个单词的含义是否一致(听起来简单,但对于机器来说非常困难)。cb 和 copa 都是考察模型在给定“前提”的情况下,对“假设”或“理由”的正确性进行判断,只不过有的侧重于分析从句,有的侧重于问答模式。
gap 则要求模型对性别做出判断,能够通过“姐姐”,“哥哥”和“妻子”这样的词汇,分辨文本中“他”和“她”的指代对象。
multirc 任务更加复杂,模型需要完成阅读理解,然后回答问题。一个典型的例子是这样的:
图| 搜索关键词“speedy recover”,几乎一眼就能找到答案,但机器未必知道
选择了新的任务之后,研究人员用主流 nlp 模型进行了测试。
最流行的 bert 模型的表现勉强可以接受,但其量化之后的综合分数比人类低约 16.8%,说明机器距离人类基准仍有不小的差距,而且 superglue 确实比glue 难了不少。
图 | 现有模型在superglue上的表现
鉴于目前 superglue 还没有正式推出,我们还无法查看任务数据集和模型排行榜。在 5 月份推出 superglue 后,它可能还会经历一些微调,然后在7月份变为正式版本,供研发 nlp 模型的团队挑战。
目前来看,superglue 和 glue 之间的差距是可以接受的,新任务具有一定的挑战性,但并非遥不可及,足以为全球的 nlp 团队树立一个新的标杆。

一年卖出超12亿颗蓝牙音频芯片!杰理第三次冲击A股
受疫情影响 国内首季智能手机出货量将按年跌逾三成
OpenNJet成为孵化项目,通明智云携手开放原子开源基金会倡议发起云原生工作委员会
清华朱军团队提出ProlificDreamer:直接文本生成高质量3D内容
苹果、微软为什么越来越不喜欢卖产品了?
一套新的自然语言处理(NLP)评估基准,名为 SuperGLUE
多晶硅产业发展指导意见即将出台
杭州临安区为吸引更多的芯片制造企业进驻,给予最高1亿元的资金支持
AWS基于Arm架构的Graviton 2处理器落地中国
加州大学戴维斯分校利用RFID跟踪蜂鸟活动
分布式账本交易网络Ripple介绍
奔驰宝马共享自动驾驶专利 两大竞争对手合作的背景分析
航晶微电子国产DC-DC选型首推
使用接触式位移传感器的注意事项说明
教你74hc595时序图怎么看知识详解
安防监控系统需要怎样的配管配线技能
ATA-2041高压放大器技术指标
预测未来五年内5G技术将实现无线产业健康有序地发展
2019年手机设计趋势似乎将从刘海屏、水滴屏转为开孔屏
运算放大器学习笔记