目前的机器翻译模型基于编码器-解码器系统结构,本文提出了一种名为“普适注意力”的新翻译模型,用2d卷积网络做序列预测,无论长句短句翻译结果都更好,使用的参数也更少。实验表明,新模型的总体表现优于目前最出色的解码器-编码器模型系统。
目前,最先进的机器翻译系统基于编码器-解码器架构,首先对输入序列进行编码,然后根据输入编码生成输出序列。两者都与注意机制接口有关,该机制基于解码器状态,对源令牌的固定编码进行重新组合。
本文提出了一种替代方法,该方法于跨两个序列的单个2d卷积神经网络。网络的每一层都根据当前的输出序列重新编码源令牌。因此,类似注意力的属性在整个网络中普遍存在。我们的模型在实验中表现出色,优于目前最先进的编码器-解码器系统,同时在概念上更简单,参数更少。
“普适注意力”模型及原理
我们的模型中的卷积层使用隐性3×3滤波器,特征仅根据先前的输出符号计算。图为经过一层(深蓝色)和两层(浅蓝色)计算之后的感受野,以及正常3×3滤波器(灰色)的视野的隐藏部分。
上图为具有两个隐藏层的解码器网络拓扑的图示,底部和顶部的节点分别表示输入和输出。水平方向连接用于rnn,对角线方向连接用于卷积网络。在两种情况下都会使用垂直方向的连接。参数跨时间步长(水平方向)共享,但不跨层(垂直方向)共享。
块级(顶部)和每个块(底部)内的densenet体系结构
令牌嵌入大小、层数(l)和增长率(g)的影响
无论是长句、短句,翻译结果都更好
与现有最佳技术的比较
我们将结果与表3中的现有技术进行了比较,包括德-英翻译(de-en)和英-德翻译(en-de)。我们的模型名为pervasive attention。除非另有说明,我们使用最大似然估计(mle)训练所有模型的参数。对于一些模型,我们会另外报告通过序列水平估计(sle,如强化学习方法)获得的结果,我们通常直接针对优化bleu量度,而不是正确翻译的概率。
在不同句子序列长度上的表现
在上图中,我们将翻译质量视为句子长度的函数,并将我们的模型与rnnsearch、convs2s和transformer进行比较。结果表明,我们的模型几乎在所有句子长度上都得到了最好的结果,convs2s和transformer只在最长的句子上表现更好。总的来说,我们的模型兼备rnnsearch在短句中的强大表现,同时也接近convs2s和transformer在较长句子上的良好表现。
隐性的句子对齐
上图所示为最大池化运算符在我们的模型中生成的隐式句子对齐。作为参考,我们还展示了我们的模型使用的“自我注意力”产生的对齐。可以看到,两种模型都成功定性地模拟了隐性的句子对齐。
我们的模型(l = 24,g = 32,ds = dt = 128),具有不同的池化操作符,使用门控卷积单元
在不同的滤波器尺寸k和深度l下,我们的模型(g = 32,ds = dt = 128)的表现。
与iwslt德语-英语翻译模型的最新结果的比较。
(*):使用我们的实现获得的结果(**):使用fairseq获得的结果。
脱离编码器-解码器范式,用densenet作机器翻译
我们提出了一种新的神经机器翻译架构,该架构脱离了编码器-解码器范例。我们的模型将源序列和目标序列联合编码为深度特征层次结构,其中源令牌嵌入到部分目标序列的上下文中。沿源维度对此联合编码进行最大池化,将相关要素映射到下一个目标令牌的预测。该模型实现基于densenet的2d cnn。
由于我们的模型会结合语境,对每一层当前生成的目标序列的输入令牌重新编码,因此该模型网络构造的每层中都具有“类似注意力”(attention-like)的属性。
因此,添加明确的“自注意模块”具有非常有限、但十分积极的效果。然而,我们模型中的最大池化运算符生成的隐式句子对齐,在性质上与注意力机制生成的对齐类似。我们在iwslt'14数据集上评估了我们的模型,将德-英双语互译。
我们获得的bleu分数与现有最佳方法相当,我们的模型使用的参数更少,概念上也更简单。我们希望这一成果可以引发对编码器-解码器模型的替代方案的兴趣。在未来,我们计划研究混合方法,其中联合编码模型的输入不是由嵌入向量提供的,而是1d源和目标嵌入网络的输出。
未来我们还将研究如何该模型来跨多语种进行翻译。
在零售业部署rfid的必要性体现在哪里
动力锂电池和普通锂电池的主要区别
文本噪声标签在预训练语言模型(PLMs)上的特性
基于可变形卷积的大规模视觉基础模型
福音Type-C分线器定制厂商打消扩展的顾虑
一种名为“普适注意力”的新翻译模型,用2D卷积网络做序列预测
新型多媒体电话的发展前景
在FPGA芯片上使用VHDL语言实现UART模块的设计
就这么简单!任意模拟范围的有效分辨率计算
华为nova 4测评采用麒麟970处理器无论是游戏性能还是拍照都无可挑剔
英特尔助力解决双十一退货风波
手套控制的机器人手的制作
中国铁塔将积极开放资源助力铁路的信息化和智能化建设
苹果新专利曝光,iPhone8的logo使用液态金属还能发光?
高德地图APP上线AR导航功能,实时呈现直观的3D导航指引
什么是电阻的高频工作模式?电阻电桥的工作原理及其特性
移轴镜头实拍技巧3 补偿建筑物的变形
贴片电阻损坏原因分析和解决办法
探究了物联网现阶段发展特性、与人工智能的关系以及未来发展方向
SEMI预测 半导体市场2019年仅成长2.6%