如何通过多模态对比学习增强句子特征学习

论文：mcse: multimodal contrastive learning of sentence embeddings
链接：https://aclanthology.org/2022.naacl-main.436.pdf
代码：https://github.com/uds-lsv/mcse
视觉作为人类感知体验的核心部分，已被证明在建立语言模型和提高各种nlp任务的性能方面是有效的。作者认为视觉作为辅助语义信息可以进一步促进句子表征学习。在这篇论文中，为了同时利用视觉信息和文本信息，作者采用了sota句子嵌入框架simcse，并将其扩展为多模态对比目标。作者发现，除了文本语料库之外，使用少量多模态数据可以显著提高sts任务的性能。在论文的最后，作者也对该方法所存在的局限性进行了分析
虽然这篇论文的框架非常简单，但是我觉得对于实验和作者的局限性分析还是有值得思考的地方
方法
mcse模型
simcse：
就是通过dropout+编码两次构建正样本对，进行对比学习
给定一个图像句子对，把他们映射到一个共同的嵌入空间中
f()为预训练的语言编码器和预训练的图像编码器，g()为映射头
接下来就是多模态对比学习：
最终的损失函数为 simcse的损失+多模态对比损失：
experiments
作者使用flickr30k（包含29, 783个训练图像）和ms-coco（包含82, 783个训练图像）作为多模态数据集，使用wiki1m（个句子）作为文本语料库
simcse和mcse的差别就是，mcse利用了图像-句子对，引入了多模态对比损失。即使多模态数据量相对较小，可获得辅助视觉信息的mcse模型也能进一步取得显著的改进。在sts16上，bert+mcse的性能较差，作者解释为域差异，其中一些接近训练分布的子集比其他子集更能从视觉基础中获益。
表1
为了进一步研究不同数据集的影响，作者只在多模态数据上训练模型，并在表2中报告结果。我们观察到，在没有大型纯文本语料库的情况下，性能比表1中的结果下降了很多，但是依然可以超过simcse。此外，作者将成对的图像替换为打乱的图像进行训练，模型下降了0.8-5.0个点，进一步验证了视觉语义的有效性。
这点其实我不太理解，是将图像句子对的匹配关系给打乱了么，如果是这样的话，感觉好像没什么意义呀
表2
作者使用bert-base model只在多模态数据上进行了训练，来研究数据规模大小对性能的影响，在数量有限的样本上，simcse取得了更好的性能，随着数据量的增加，mcse的性能更好，作者推测，这一现象可以归因于多模态映射投权重的渐进训练。
作者报告了alignment and uniformity两个量化指标，结果表明，与simcse模型相比，mcse模型在保持一致性的同时获得了更好的对齐得分。这一分析进一步支持了视觉基础可以通过改善文本嵌入空间的对齐特性来增强句子特征学习。
limitations
作者还指出了该方法所存在的局限性，多模态数据收集标注困难，如果可以合理的利用噪声图像-句子对，或者摆脱显式的图像文本对齐关系，将会有很大的实用价值。此外，我们发现只有来自相关领域的子集可以获得显著的改进，而其他子集则受到域偏移的影响。对于学习通用的句子嵌入来说，减小域偏移是至关重要的。此外，“语义相似度”的定义是高度任务依赖的。除了sts基准之外，值得探讨的是纯文本模型和多模态模型在其他基准上的性能差距，这些基准也可以评估句子特征的质量。

苹果也撒狗粮：iOS11新图标脱单了
感谢哈尔滨工业大学对我司HS-225B恒温恒湿试验箱的认可
APS自动排产-AP工厂高级计划
9个比较常用的cmd命令分享
谷歌调用Android TV许可协议棒杀亚马逊
如何通过多模态对比学习增强句子特征学习
华为Mate X2将于2月26日再次开售
站在5G时代的风口最先起飞的会是汽车
手机芯片性能排名天梯图2021
索尼WH-XB700评测低音爱好者的狂欢
研究人员创造了高密度、自我修复的硅电池，没有硅的脆弱性
法拉电容优点及缺点有哪些
关于LS-DYNA软件包详细讲解
幻响小贝HiFi2.1蓝牙音箱评测材质的选择以及做工上比较用心
鲲云科技携手浪潮推出新一代数据流AI服务器
未来互联网会消失吗，那么取而代之的将会是什么
区块链数字化营销平台Friendz介绍
现代汽车卡车编队试验成功，可减轻驾驶员道路上的疲劳
基于Linux 的两种分层存储实现方案
浅谈降低100G系统功耗的六大关键技术