深度学习与图神经网络学习分享:Transformer

在过去的几年中,神经网络的兴起与应用成功推动了模式识别和数据挖掘的研究。许多曾经严重依赖于手工提取特征的机器学习任务(如目标检测、机器翻译和语音识别),如今都已被各种端到端的深度学习范式(例如卷积神经网络(cnn)、长短期记忆(lstm)和自动编码器)彻底改变了。曾有学者将本次人工智能浪潮的兴起归因于三个条件,分别是:
· 计算资源的快速发展(如gpu)
· 大量训练数据的可用性
· 深度学习从欧氏空间数据中提取潜在特征的有效性
尽管传统的深度学习方法被应用在提取欧氏空间数据的特征方面取得了巨大的成功,但许多实际应用场景中的数据是从非欧式空间生成的,传统的深度学习方法在处理非欧式空间数据上的表现却仍难以使人满意。例如,在电子商务中,一个基于图(graph)的学习系统能够利用用户和产品之间的交互来做出非常准确的推荐,但图的复杂性使得现有的深度学习算法在处理时面临着巨大的挑战。这是因为图是不规则的,每个图都有一个大小可变的无序节点,图中的每个节点都有不同数量的相邻节点,导致一些重要的操作(例如卷积)在图像(image)上很容易计算,但不再适合直接用于图。此外,现有深度学习算法的一个核心假设是数据样本之间彼此独立。然而,对于图来说,情况并非如此,图中的每个数据样本(节点)都会有边与图中其他实数据样本(节点)相关,这些信息可用于捕获实例之间的相互依赖关系。
近年来,人们对深度学习方法在图上的扩展越来越感兴趣。在多方因素的成功推动下,研究人员借鉴了卷积网络、循环网络和深度自动编码器的思想,定义和设计了用于处理图数据的神经网络结构,由此一个新的研究热点——“图神经网络(graph neural networks,gnn)”应运而生
近期看了关于transformer的信息
来简述一下transformer结构
transformer 整体结构
首先介绍 transformer 的整体结构,下图是 transformer 用于中英文翻译的整体结构:
transformer 的整体结构,左图encoder和右图decoder
可以看到 transformer 由 encoder 和 decoder 两个部分组成,encoder 和 decoder 都包含 6 个 block。transformer 的工作流程大体如下:
第一步:获取输入句子的每一个单词的表示向量 x,x由单词的 embedding(embedding就是从原始数据提取出来的feature) 和单词位置的 embedding 相加得到。
transformer 的输入表示
第二步:将得到的单词表示向量矩阵 (如上图所示,每一行是一个单词的表示 x) 传入 encoder 中,经过 6 个 encoder block 后可以得到句子所有单词的编码信息矩阵 c,如下图。单词向量矩阵用 xn×d 表示, n 是句子中单词个数,d 是表示向量的维度 (论文中 d=512)。每一个 encoder block 输出的矩阵维度与输入完全一致。
transformer encoder 编码句子信息
第三步:将 encoder 输出的编码信息矩阵 c传递到 decoder 中,decoder 依次会根据当前翻译过的单词 1~ i 翻译下一个单词 i+1,如下图所示。在使用的过程中,翻译到单词 i+1 的时候需要通过 mask (掩盖) 操作遮盖住 i+1 之后的单词。
transofrmer decoder 预测
上图 decoder 接收了 encoder 的编码矩阵 c,然后首先输入一个翻译开始符 ,预测第一个单词 i;然后输入翻译开始符 和单词 i,预测单词 have,以此类推。这是 transformer 使用时候的大致流程。


一加7T超微距样张公布 细节出彩
基于FPGA的GPS和GSM双重车载定位系统设计
飞思卡尔MC56F827xx系列DSP的特性和在电机控制中的应用
机器人搭建过程中的坑和未来的改进方向
超声波清洗机的结构与工作原理
深度学习与图神经网络学习分享:Transformer
乾照透露Micro LED发展“小目标”
简述云知声发展崛起之路
嵌入式系统中单片机与处理器有什么区别
华为RIP与BFD联动实验
乂学教育:从“爱智慧”到“AI教师”
浅谈大型回流焊机的系统组成
在户外广告领域中,98寸透明屏的亮度大吗?
新型的 Mini50 密封连接器:紧凑型密封镀层,减轻了线束的总重量
物联网安全告急 芯片设计安全问题升级
第十七届慕尼黑上海光博会观众预登记全面开启
乘势而上 杰发科技奋力打造汽车电子“中国芯”
恒温恒湿测试箱在半导体和电子电气等行业的应用-贝尔试验设备
物联网传递信息可以改变联网汽车的方式
特朗普亲自带头,在一家美国的短视频平台上开通了账号