采用双塔BERT模型对文本字符和label进行编码

这是一篇来自于 acl 2022 的文章,总体思想就是在 meta-learning 的基础上,采用双塔 bert 模型分别来对文本字符和对应的label进行编码,并且将二者进行 dot product(点乘)得到的输出做一个分类的事情。文章总体也不复杂,涉及到的公式也很少,比较容易理解作者的思路。对于采用序列标注的方式做 ner 是个不错的思路。
1、模型
1.1 架构
▲图1.模型整体构架
从上图中可以清楚的看到,作者采用了双塔 bert 来分别对文本的 token 和每个 token 对应的 label 进行编码。这里作者采用这种方法的思路也很简单,因为是 few-shot 任务,没有足够的数据量,所以作者认为每个 token 的 label 可以为 token 提供额外的语义信息。 作者的 meta-learning 采用的是 metric-based 方法,直观一点理解就是首先计算每个样本 token 的向量表征,然后与计算得到的 label 表征计算相似度,这里从图上的 dot product 可以直观的体现出来。然后对得到的相似度矩阵 ([batch_size,sequence_length,embed_dim]) 进行 softmax 归一化,通过 argmax 函数取最后一维中值最大的 index,并且对应相应的标签列表,得到当前 token 对应的标签。
1.2 detail
此外,作者在对标签进行表征时,也对每个标签进行了相应的处理,总体分为以下三步: 1. 将词语的简写标签转为自然语言形式,例如 per--》person,org--》organization,loc--》local 等等; 2. 将标注标签起始、中间的标记转为自然语言形式,例如以 bio 形式进行标记的就可以转为 begin、inside、other 等等,其他标注形式的类似。 3. 按前两步的方法转换后进行组合,例如 b-per--》begin person,i-per--》inside person。 由于进行的是 few-shot ner 任务,所以作者在多个 source datasets 上面训练模型,然后他们在多个 unseen few shot target datasets 上面验证经过 fine-tuning 和不经过 fine-tuning 的模型的效果。 在进行 token 编码时,对应每个 通过 bert 模型可以得到其对应的向量 ,如下所示:
这里需要注意的是 bert 模型的输出取 last_hidden_state 作为对应 token 的向量。 对标签进行编码时,对标签集合中的所有标签进行对应编码,每个完整的 label 得到的编码取 部分作为其编码向量,并且将所有的 label 编码组成一个向量集合 ,最后计算每个 与 的点积,形式如下:
由于这里使用了 label 编码表征的方式,相比于其他的 ner 方法,在模型遇到新的数据和 label 时,不需要再初始一个新的顶层分类器,以此达到 few-shot 的目的。
1.3 label transfer
在文章中作者还罗列了实验数据集的标签转换表,部分如下所示:
▲图2. 实验数据集label transfer
1.4 support set sampling algorithm
采样伪代码如下所示:
▲图3. 采样伪代码
2、实验结果
▲图4. 部分实验结果
从实验结果上看,可以明显的感受到这种方法在 few-shot 时还是有不错的效果的,在 1-50 shot 时模型的效果都优于其他模型,表明了 label 语义的有效性;但在全量数据下,这种方法就打了一些折扣了,表明了数据量越大,模型对于 label 语义的依赖越小。这里笔者还有一点想法就是在全量数据下,这种方式的标签语义引入可能会对原本的文本语义发生微小偏移,当然,这种说法在 few-shot 下也是成立的,只不过 few-shot 下的偏移是一个正向的偏移,能够增强模型的泛化能力,全量数据下的偏移就有点溢出来的感觉。 双塔 bert 代码实现(没有采用 metric-based 方法):


介绍三种芯片级ESD事件
华为MateBook B系列将提供哪些功能?
谐振过电压的原因_如何防止谐振过电压
“新基建”正带来新机遇,将进一步发展人工智能的蓬勃应用
工业协议转换网关是什么?有什么功能?
采用双塔BERT模型对文本字符和label进行编码
中国电信和中国联通在未来的5G运营中有可能共建一张网
头盔里到底藏着什么黑科技?大朋E2虚拟现实头盔拆解
TCL发布TCL PLEX手机,骁龙675+6.53英寸+123°超广角相机
华为畅享7和红米Note4X哪个好?性价比评测分析
红外线探测器哪个牌子好
芯圣电子兼容STM8S003的王牌选手-HC89S003A系列
高通推出Wi-Fi 6端到端解决方案,让网速更快更稳定
爱特梅尔与i-Novi合作推出3DA触控感应直觉无线照明控制
细说共模干扰和差模干扰
ESD静电二极管的优势及特点是怎样的
未来产品设计将是怎么的发展趋势
由CVT和TCU组成的汽车的无级变速系统
美方严厉管制先进技术出口?韩企很庆幸
瑞为技术智助登机方案精彩亮相新加坡APEX未来旅客体验展