复杂知识库问答任务的典型挑战和解决方案

知识库问答旨在通过知识库回答自然语言问题。近来,大量的研究集中在语义或句法上复杂的问题上。在本文中,我们精心总结了复杂知识库问答任务的典型挑战和解决方案,介绍了复杂知识库问答的两种主流方法,即基于语义解析(基于sp)的方法和基于信息检索(基于ir)的方法。首先,我们形式化地定义了知识库问答任务并介绍了该任务下相关的数据集。然后,我们从两个类别的角度全面回顾了前沿方法,说明他们针对典型挑战的解决方案。最后,我们总结并讨论了一些仍具有挑战的未来研究方向。
知识库(kb)是一个结构化的数据库,它以(主题、关系、对象)的形式包含一系列事实。大型kbs,如freebase [bollacker et al., 2008], dbpedia [lehmann et al., 2015]和wikidata [tanon et al., 2016],已经构建服务于许多下游任务。知识库问答(kbqa)是一种基于知识库的自然语言问答任务。kbqa的早期工作[bordes et al., 2015; dong et al., 2015; hu et al., 2018a; lan et al., 2019b; lan et al., 2019a]专注于回答一个简单的问题,其中只涉及一个单一的事实。例如,“j·k·罗琳出生在哪里?”“是一个可以用事实来回答的简单问题”(j.k.罗琳)罗琳,出生地,英国)。
最近,研究人员开始更多地关注于回答复杂问题,即复杂的kbqa任务[hu et al., 2018b; luo et al., 2018]。复杂问题通常包含多个主题,表达复合关系,并包含数值运算。以图1中的问题为例。这个例题的开头是“the jeff probst show”。这个问题不是问一个单一的事实,而是要求由两个关系组成,即“被提名人”和“配偶”。该查询还与一个实体类型约束“(jeff probst,是一个电视制作人)”相关联。最后的答案应该通过选择有最早结婚日期的可能候选人来进一步汇总。一般来说,复杂问题是涉及多跳推理、约束关系、数值运算或上述几种组合的问题。
回到简单kbqa的解决方案,已经提出了两种主流方法的一些研究。这两种方法首先识别问题中的主题,并将其链接到知识库中的实体(称为主题实体)。然后,通过执行已解析的逻辑形式或在从知识库中提取的特定于问题的图中进行推理,在主题实体的邻近区域内获得答案。这两类方法在以往的工作中通常被称为基于语义解析的方法(基于sp的方法)和基于信息检索的方法(基于ir的方法)[bordes et al., 2015; dong et al., 2015; hu et al., 2018a; gu et al., 2020]。它们包括解决kbqa任务的不同工作机制。前一种方法用符号逻辑形式表示问题,然后对知识库执行它,获得最终答案。后一种方法构造一个特定于问题的图,给出与问题相关的全面信息,并根据其与问题的相关性对抽取的图中的所有实体进行排序。
然而,当将这两种主流方法应用于复杂的kbqa任务时,复杂的问题会给这两种方法的不同部分带来挑战。我们认为主要挑战如下:  
现有基于sp的方法中使用的解析器难以覆盖各种复杂的查询(例如,多跳推理、约束关系和数值运算)。类似地,以前的基于ir的方法可能无法回答复杂的查询,因为它们的排序是在没有可追溯推理的情况下对小范围实体执行的。
在复杂问题中,更多的关系和主题意味着更大的潜在逻辑形式的搜索空间,这将显著增加计算成本。同时,更多的关系和被试会阻碍基于ir的方法检索所有相关实体进行排序。 
两种方法都把理解问题作为首要步骤。当问题在语义和句法方面都变得复杂时,就要求模型具有较强的自然语言理解和泛化能力。
对于复杂问题,为答案标记ground truth路径是非常昂贵的。通常,只提供问答对。这表明基于sp的方法和基于ir的方法需要分别在没有正确逻辑形式和推理路径标注的情况下进行训练。这种微弱的监管信号给两种方式都带来了困难。
关于相关综述,我们观察到wu等人[2019]和chakraborty等人[2019]回顾了关于简单kbqa的现有工作。此外,fu等人[2020]研究了复杂kbqa的当前进展。他们只从技术的角度提供了高级方法的一般观点,而更多地关注于电子商务领域的应用场景。与这些综述不同的是,我们的工作试图识别在以往的研究中遇到的挑战,并以全面和有序的方式广泛讨论现有的解决方案。具体来说,我们将复杂kbqa的方法根据其工作机制分为两种主流方法。我们将这两种方法的整个过程分解为一系列模块,并分析每个模块中的挑战。我们相信这种方式特别有助于读者理解挑战,以及如何在现有的复杂kbqa解决方案中解决这些挑战。此外,我们还对复杂kbqa的几个有前途的研究方向进行了展望。
原文标题:ijcai2021最新「复杂知识库问答研究」综述论文,阐述kbqa方法、挑战与对策
文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。


高通正利用4G和5G让世界变得更加互联
一文了解Java 21的新功能
RA6快速设计指南 [17] 外部总线,一般布线实践 (上)
Magnify World展,五项vr新技术介绍
人工智能技术将是未来医疗行业的发展方向
复杂知识库问答任务的典型挑战和解决方案
5G网络共享建设的详细资料概述
在成为全球第一器件厂商的路上,英飞凌做了哪些准备?
基于变频器空载试验操作
“探知三大场景,解锁科技密码”——云帆顺利召开毫米波雷达技术沟通暨产品发布会
协作机器人或将推动中国机器人的发展进程
简要分析光纤衰减器与光纤适配器的区别
Intel新嵌入式主板搭载QM370或HM370芯片组
CC2640 CC1310高低温测试
中兴通讯预制化全模块数据中心被授予“CCBN2021 产品创新优秀奖”
人机界面未来的发展趋势如何?
中兴通讯正式发布5G网络智能化白皮书
测土配肥施肥仪器是什么,它的特点有哪些
推动天津电网建设走在全国前列,2021年初步建成一流能源互联网
EMC滤波器常见故障及预防措施