PFN模型整体结构和分区过滤编码器内部结构

01 前情提要
关系抽取目前的算法大概可以分为以下几种：
●pipeline approach：
先抽实体，再判关系，比如陈丹琦大神的《a frustratingly easy approach for joint entity and relation extraction 》
●joint entity and realtion extraction：
联合模型，目前我看过的有这么几种方式：
■将联合任务看做是一个填表问题，比如：table sequence，tplinker
■将联合任务看做是一个序列标注问题，比如：etl span，prgc
■将联合任务看做是一个seq2seq问题，比如：spn4re
这篇论文：parition filter network（pfn，分区过滤网络）是一个联合模型，他们把问题定义为一个填表问题。
他们在总结之前论文的encoding层的时候，把之前的论文的encoding层分成了两类：
●sequential encoding：串行，先生成一个task的特征（一般都是ner），再生成另一个task的feature（一般就是关系抽取），而后面这个task的特征，是不会影响到前面那个task的特征的。
●parallel encoding：并行，两个task的特征是并行生成的，互不影响，只在input层面共享信息。
他们认为task间的信息没有得到很好的交互，（但其实table sequence还是有交互的），其实现在很多算法里都在讲交互，比如nlu里面的sf-id/bi-model。同时，之前也有论文（比如table sequence和陈丹琦那篇论文）发现了关系预测和实体抽取有可能有些特征是不共享的（table sequence为了解决这个问题，直接用了俩encoder，陈丹琦大佬那一篇直接是pipeline方法，本身就是俩模型）。而这篇论文想在一个encoder中完成两个task的特征抽取，所以他们提出了一个分区和过滤的思路，找出“只与ner相关的特征”“只与关系预测相关的特征”和“与ner和关系预测都相关的特征”。
这里插一句，他们这篇论文效果是不错的，同时也得出了一个结论，这里提前贴一下，虽然之前有些模型论证关系抽取的特征部分是对ner有害的，但他们发现关系signal对ner是有益的（或者说是部分有益的，因为他们做了分区）。
废话不多说了，下面介绍模型： 02 问题定义给定一个文本，也就是一个输入序列：    ，其中   表示下标是i的单词，l是句子的长度，目的是找到： ● 找到所有的实体：    ，用token pairs的方式（填表），其中  分别是这个实体的头和尾字，e是实体类型 ● 找到所有的关系：    ，依然是token pairs的方式（填表），其中    分别是subject的首字和object的首字，r是关系类型。 03 模型——pfn
模型主要包含两个部分：分区过滤编码器(paritition filter encoder, pfe) 和两个task unit (ner unit 和 re unit)，如下图（图中其实还有一个global feature，这个按照论文中的解释可以算在encoder里面）
模型整体结构和分区过滤编码器内部结构 >>> 3.1 分区过滤编码器(pfe)
pfe是一个循环特征编码器，类似于lstm。在每一个time step，pfe都会把特征拆分成为三个分区：entity partition/ relation partition/ shared partition，其中entity partition是仅与实体抽取相关的分区，relation partition是仅与relation相关的分区，shared partition是与两个任务都相关的分区。然后通过合并分区, 就会过滤走与特定task无关的特征（比如合并entity partition和shared partition，就可以过滤掉特征中仅与relation相关的特征）。
上面的流程会被拆分成两个部分：
● 分区(partition) ：拆分成三个分区
● 过滤(filter)：合并分区
分区过滤编码器
3.1.1 分区操作
如上图所示，pfn中类似lstm，也定义了cell state  （这个是历史信息）和 hidden state   ，此外还定义了candidate cell state  （就是候选分区的信息），relation gate  ，entity gate  。每个时间步t，分区操作流程如下：首先计算candidate cell state:
然后计算relation gate和entity gate：
其中    ，   虽然这里只列了两个式子，但实际看上面的图就知道，这里的要生成两层分区，我叫他们“候选分区层”（负责对candidate cell state进行分区）和“历史分区层”（负责对 t-1 时间步的cell state进行分区），每层对应两个gate，我叫他们“候选relation gate”“候选entity gate”以及“历史relation gate”“历史entity gate”。
然后再在每层利用刚刚计算到的两个gate，生成三个分区（两层就是6个分区）：
图中为t-1时间步的历史分区，用t-1时间步的历史gate生成，t时间步的候选分区一个道理这张图可以解释一下上面这个分区，图片来自官方代码的git
最后根据 t-1 时间步的历史gate 和历史信息cell state，和 t 时间步的候选gate 和候选信息candidate cell state，生成 t 时间步的三个分区的information：
这部分看代码可能更清晰：
到这里，如果类比lstm的话，cell state 和 hidden state 怎么更新，我们还不知道，同时得到三个分区信息按理说是互不重叠的。所以接下来我们让他们交互，同时看如果更新那两个state。这里有一些问题，就是为什么有要用cummax操作，这是个什么玩意？？这里主要是因为这篇论文在这里的gate设计上面参考了ordered neurons: integrating tree structures into recurrent neural networks中的设计。这里我参考这篇论文简单说一下我的理解，需要对信息进行排序，切分，所以正好用一个二值gate  来描述，我们来计算这个gate。假设我们用一个  表示g中某个位置出现第一个1的概率，看起来像是几何分布，但并不是，因为不是伯努利试验，所以算起来比较麻烦。我们计算gate g中第k个位置是1的概率，就可以用累计分布函数:   。这样的话，我们就可以表示二值gate g每个位置为1的概率了，而因为二值gate g每个位置都是离散的，也不好用，所以就用概率来代替它，可以作为它的期望。然后用这个概率去定义两个gate，一个单调增的cummax，一个单调减的cummax，防止冲突。
3.1.2 过滤操作
首先，根据上一步生成的三个分区的信息，交互得到生成三个memory，以达到过滤的效果：实体相关/关系相关/shared
这里就达到了过滤的效果，实体部分过滤掉了仅与relation相关的，relation部分过滤掉了仅与实体相关的，shared部分包含了task间的信息，可以认为是平衡两个task 然后，三个memory分别过tanh得到相应的三个hidden state，直接从当前时间步的cell中输出，当做是 ner-specific feature/ relation-specific feature/ shared feature，用于下一阶段的运算
最后，更新cell state 和 hidden state，三个memory拼接在一起过线性映射得到 t 时间步的 cell state，t 时间步的 cell state 过 tanh 得到 t 时间步的 hidden state
到这里，一个pfe 的 cell 就讲完了。
>>> 3.2 global representation
上面的 pfe cell 其实是一个单向编码器，但一般嘛，大家都用双向的编码器，哪怕你用个bilstm呢，也是双向的呀，本文为了代替双向编码器中的后向编码器，就提出了这个global representation。
具体来说就是获得两个task-specific全局的表征：分别用每个时间步的 entity-specific feature 和 relation-specific feature 拼接 shared feature，过线性映射和tanh，然后做个maxpooling over time，就获得了两个task-specific feature:
>>> 3.3 task unit
task unit 包含两个unit：entity unit 和 relation unit，分别是两个填表任务
● entity unit
如果句子输入长度是l，那么表格的长度是l*l，表格中的（i, j）位置表示以第i个位置开始和第j个位置结束的span的entity-sepcific 表征，这个表征的为拼接：第i个位置和第j个的entity-specific feature，以及entity-specific global representation，过linear以及elu激活函数
接下来就是输出层：就是一个线性映射，映射到entity type数目的维数上，然后每维做sigmoid，判断是不是其代表的entity type（之所以采用这种多标签分类的方式，是为了解决overlapping问题）
● relation unit
如果一个句子长度是l，那么表格长度是l*l，表格中的 (i, j) 位置标示以第i个位置为首字的span，和以第j个位置为首字的span的关系表征，这个表征的和entity unit差不多，拼接：第i个位置和第j个的relation-specific feature，以及relation-specific global representation，过linear以及elu激活函数
然后一样做多标签分类
>>> 3.4 训练和推断
● 损失函数：两个bce
● 推断的时候有两个超参数阈值：实体阈值和关系阈值，都设置为0.5
04 实验 >>> 4.1 主要结果
可以看到，在使用同样的预训练模型的情况下，效果是要比tpliner和table sequence要好的（table sequence是有一些交互的哟），同时这篇论文在webnlg上的结果也比同时emnlp2021论文的prgc要好一点点(pfn-93.6, prgc-93.0, tplinker-91.9) >>> 4.2 消融实验
他们的消融实验主要进行了如下几个：
●编码器的层数实验：1层效果就很好 ●双向编码器vs单向编码器：主要是为了证明他们的global representation的作用，结果发现效果真不戳，在他们的这一套里面，全局表征完全可以代替后向编码器，甚至效果更好 ■前向+g>双向+g>双向>单向 ●编码器的结果：他们换成了两个lstm，发现他们的效果好 ■对于并行模式：entity 和 relation 分别过一个lstm，只在input级别共享 ■对于串行模式：先过第一个lstm，hidden state 用于entity预测，同时 hidden state会被送到第二层lstm中去，结果用于预测relation ●分区粒度：这个我觉得实验设置一定是他们的好，没必要单拎出来讲 ●解码策略：两种，一种是relation只考虑entity prediction 结果的（解码时级联，relation不考虑所有单词，仅考虑candidate set），一种是他们这种两张表都填的（relation考虑所有单词） ■他们发现后者效果更好，原因可能有二：a. 前一种有误差传递；b. 第二种表中的负例多，有点对比学习的意思，因此学到的正例的表征更牛逼。
>>> 4.3 关系抽取的signal对ner的影响
之所以做这个实验，是因为之前有论文认为关系抽取的特征对ner在joint模型中是有害的，因为两者需要的特征不同。他们只是部分同意这个观点，也就是说，关系抽取的特征部分是对ner有害的，但也有一部分对ner有益的，他们这篇论文其实就是识别出来哪部分有益，哪部分有害，并对有益部分加以利用。
4.3.1 关系内和关系外的实体抽取的差别
在主要实验中，ace05里面他们的ner效果拉垮了，他们认为是关系外的实体很多，统计了一下有64%的实体都是关系外实体。
他们做了三个数据集上面的，关系内的实体识别效果f1都要好于关系外的。（scierc中gap超大，因为scierc中的实体专业程度更强，也更长，有关系效果更好），此外，precision的gap尤其大，证明失去了relation信息的，模型在entity上就会过拟合。
同时看到：关系外实体的占比与 ner的效果是负相关的。这有可能是因为joint model的一个缺点：考虑到关系内和关系外的实体的推断逻辑是不一样的（一个有relation影响，一个没有），那么joint model有可能对关系外的ner的效果是有害的。
但我这里弱弱的问一句，这是不是说对于类外实体，如果gate可以做的更好，就可以效果依然棒呢，其他两个比它好的论文里面（table sequence也是交互的啊，pure我还没看，回头看看）。
4.3.2 ner鲁棒性分析
他们与纯ner算法做对比，进行了鲁棒性的分析，发现他们的ner的鲁棒性还是不错的，可能的原因就是relation signals对实体进行了约束，从而让鲁棒性更强。
所以通过上面两部分，他们认为关系信息对ner效果是有帮助的。此外，提一嘴，他们反驳了陈丹琦大佬论文《a frustratingly easy approach for joint entity and relation extraction》关于关系信息对ner的帮助比较小的结论，认为那篇论文是在ace2005上面做的实验，类外实体太多了，所以效果不明显。

欧胜推出世界领先的用于消费性产品的立体声ADC解决方案
厉害吧！高通在可穿戴、无人机、车联网等领域强势布局
什么是物联网控制系统？它具有哪些特点？
网卡的总线类型
荷兰检方已证实特朗普推特账号被黑
PFN模型整体结构和分区过滤编码器内部结构
5G前传网络对大芯数光纤的诉求需要5G C-RAN网络架构
使用二极管并联LDO的方法
2018年各家的旗舰智能手机有任何明显的特质，那就是它们都很“无聊”
装配工作的基本要求是什么产品装配的工艺过程简述
为电脑加装一块发烧级的单端甲类环绕耳机放大器 BH3854
抢先看毫米波器件发展现状及石墨烯毫米波器件优势
聚灿光电第三季度大幅度亏损，LED芯片产业迈入新阶段
数字电位器X9241与PIC单片机的接口及程序设计电路图
RC模型电池上面标注的基本参数以及该如何选择电池
自动门控制器电路图
应对危机的四大移动技术战略详解
C语言实现可以直接运行的贪吃蛇源码
我国新一代载人飞船试验船测试工作已完成将力争实现返回舱可重复使用10次
选择一台适合自己生产需要的码垛机需要注意什么因素