通过Token实现多视角文档向量表征的构建

写在前面
今天给大家带来一篇acl2022论文mvr，「面向开放域检索的多视角文档表征」，主要解决同一个文档向量与多个语义差异较大问题向量语义不匹配的问题。通过「插入多个特殊token」实现多视角文档向量表征的构建，并为了防止多种视角间向量的趋同，引入了「退火温度」的全局-局部损失，论文全称《multi-view document representation learning for open-domain dense retrieval》。
该篇论文与前两天分享的dcsr-面向开放域段落检索的句子感知的对比学习一文有异曲同工之妙，都是在检索排序不引入额外计算量的同时，通过插入特殊token构建长文档的多语义向量表征，使得同一文档可以与多种不同问题的向量表征相似。
并且目前的检索召回模型均存在一些缺陷：
cross-encoder类模型（bert）由于计算量太大，无法在召回阶段使用；
bi-encoder类模型（dpr）无法很好地表现长文档中的多主题要素；
late interaction类模型（colbert）由于使用sum操作，无法直接使用ann进行排序；
attention-based aggregator类模型（polyencoder）增加了额外运算并且无法直接使用ann进行排序。
模型
通常向量表征时，采用特殊字符[cls]对应的向量表征作为文本的向量表征。为了获取文档中更细粒度的语义信息，mvr引入多个特殊字符[vie]替代[cls]。
对于文档来说，在文本前插入多个字符[]，为了防止干扰原始文本的位置信息，我们将[]的所有位置信息设置为0，文档语句位置信息从1开始。
对于问题来说，由于问题较短且通常表示同一含义，因此仅使用一个特殊字符[vie]。
模型采用双编码器作为骨干，分别对问题和文档进行编码，如下：
其中，表示链接符，[vie]和[sep]为bert模型的特殊字符，和分别为问题编码器和文档编码器。
如上图所示，首先计算问题向量与每个视角的文档向量进行点积，获取每一个视角的得分，然后通过max-pooler操作，获取视角中分值最大的作为问题向量与文档向量的得分，如下：
为了防止多种视角间向量的趋同，引入了带有退火温度的global-local loss，包括全局对比损失和局部均匀损失，如下：
其中，全局对比损失为传统的对比损失函数，给定一个问题、一个正例文档以及多个负例文档，损失函数如下：
为了提高多视角向量的均匀性，提出局部均匀性损失，强制将选择的查询向量与视角向量更紧密，原理其他其视角向量，如下：
为了进一步区分不同视角向量间的差异，采用了退火温度，逐步调整不同视角向量的softmax分布，如下：
其中，为控制退火速度的超参，为模型训练轮数，每训练一轮，温度更新一次。注意：在全局对比损失和局部均匀损失中，均使用了退火温度。
实验
如下表所示，mvr方法对比于其他模型，获取了更好的效果。
并且，通过实验发现，当视角个数选择8时，mvr模型效果最佳。
针对global-local loss进行消融实验，发现当没有局部均匀损失和退火温度时，会使得效果下降；当两者都没有时，效果下降更加明显；并且一个合适退火速度，对训练较为重要。
相比于其他模型来说，在文档编码阶段和检索召回阶段的速度基本没有影响，但由于需要存储多个视角向量，因此造成存储空间变大。
并且，对比了简单的句子切割或者等片段截断方法获取一个文本的多个向量表征，发现其效果均不理想，与dcsr一文观点一致。
总结
该论文为了对长文档更好地进行向量表征，引入多个特殊字符，使其生成「多种不同视角的向量表征」，解决了同一个文档向量与多个语义差异较大问题向量语义不匹配的问题。

微型扬声器行业市场供需现状调查分析
宏展科技荣获2022年度讯石英雄榜品牌推荐奖
全球高校人工智能学术联盟正式成立
PCB接地技术真的很重要吗？
第一家使用汽车无线充电技术的是宝马
通过Token实现多视角文档向量表征的构建
上海完成了首个5G测试站建设和行业应用测试
怎样来正确的理解工业物联网
微智达Linux/安卓工业一体机与数控系统的完美结合
中国移动构建基于云、互联网和服务化架构的IT支撑系统
如何去实现一种肖特基整流二极管的设计？
台湾自2011年至2017年集成电路出口额屡创新高，平均年增8.9%
Orange Business Services助力中国跨国企业出海：提升客户数字化体验
从语音导航到汤唯定制语音 AI百度地图不断突破自身局限
电容器毁灭性故障，让PCB板直接报废
芯讯通携手高通开启智能物联网的全新篇章
浪潮宣布为可重构AI计算发展计划参与者提供最新FPGA加速卡支持
照明用LED驱动技术方案的探讨
人工智能技术复合年增长率不断增长服务业从中收益
华为保时捷Design Mate RS搭载LG的OLED屏