微软新研究提出一个新的多任务深度神经网络模型——mt-dnn。mt-dnn结合了bert的优点,并在10大自然语言理解任务上超越了bert,在多个流行的基准测试中创造了新的最先进的结果。
语言嵌入是将自然语言符号文本(如单词、短语和句子)映射到语义向量表示的过程。这是自然语言理解(nlu)深度学习方法的基础。学习对多个nlu任务通用的语言嵌入是非常必要的。
学习语言嵌入有两种流行方法,分别是语言模型预训练和多任务学习(mtl)。前者通过利用大量未标记的数据学习通用语言嵌入,但mtl可以有效地利用来自许多相关任务的有监督数据,并通过减轻对特定任务的过度拟合,从正则化效果中获益,从而使学习的嵌入在任务之间具有通用性。
最近,微软的研究人员发布了一个用于学习通用语言嵌入的多任务深度神经网络模型——mt-dnn。mt-dnn结合了mtl和bert的语言模型预训练方法的优点,并在10个nlu任务上超越了bert,在多个流行的nlu基准测试中创造了新的最先进的结果,包括通用语言理解评估(glue)、斯坦福自然语言推理(snli)和scitail。
mt-dnn的架构
mt-dnn扩展了微软在2015年提出的多任务dnn模型(multi-task dnn),引入了谷歌ai开发的预训练双向transformer语言模型bert。
mt-dnn架构
mt-dnn模型的架构如上图所示。低层在所有任务之间共享,而顶层是特定于任务的。输入x可以是一个句子或一对句子,其中的每个单词都先被表示为一个嵌入向量序列,表示为l_1。
然后,基于transformer的编码器捕获每个单词的上下文信息,并在l_2中生成共享的上下文嵌入向量。
最后,对于每个任务,额外的 task-specific 的层生成特定于任务的表示,然后是分类、相似度评分或相关性排序所需的操作。mt-dnn使用bert来初始化它的共享层,然后通过mtl改进它们。
领域自适应结果
评估语言嵌入的通用性的一种方法是测量嵌入适应新任务的速度,或者需要多少特定于任务的标签才能在新任务上获得不错的结果。越通用的嵌入,它需要的特定于任务的标签就越少。
mt-dnn论文的作者将mt-dnn与bert在领域自适应(domain adaption)方面的表现进行了比较。
在域适应方面,两种模型都通过逐步增加域内数据(in-domain data)的大小来适应新的任务。
snli和scitail任务的结果如下表和图所示。可以看到,在只有0.1%的域内数据(snli中为549个样本,scitail中为23个样本)的条件下,mt-dnn的准确率超过80%,而bert的准确率在50%左右,这说明mt-dnn学习的语言嵌入比bert的更加通用。
与bert相比,mt-dnn在snli和scitail数据集上的精度更高。
在glue、snli和scitail 3个benchmarks上的结果
在glue测试集的结果,mt-dnn在10个任务上的结果均超越了bert
模型开源
微软已经在github开源mt-dnn包,其中包含了预训练的模型、源代码,并描述了如何重现mt-dnn论文中报告的结果,以及如何通过domain adaptation使预训练的mt-dnn模型适应任何新任务。
华为云左少夫:面向分布式云原生构筑无处不在的云原生基础设施
金属富勒烯超分子体系中电子自旋与荧光性质的协同作用
AD静态参数和动态参数的测试方法介绍
SF5773开关电源IC的特性及应用领域是什么?
上海已开始免费发放两万张纯电动汽车牌照
微软新研究提出一个新的多任务深度神经网络模型——MT-DNN
IBM 大中华区技术高峰论坛:让混合云和人工智能“照进”认知型企业的现实
iPhone8要推出双卡双待?落后12年,酷派发图“欢迎”!
Camille bauer认证级电能质量监测解决方案
我国智能传感器产业将在技术创新和产业规模上取得重大突破
开发一个嵌入式系统所需要的工具和环境要求
小米6什么时候上市:双曲面即将量产,2000万像素双摄加持!
该选择电暖气还是空调来取暖?
焊接易出现的质量问题有哪些?
字体(GB/T 14691-1993)
大联大推出基于安森美GS-065-011-1-L功率晶体管的65W PD电源方案
R&S新型毫米波变频器真正实现上限至325 GHz的网络分析
微软发布自研AI芯片——Azure Maia100
车载智能硬件,谁是花架子?哪些正中用户需求痛点
微软引入更多产品的Windows Update更新方式