论文:TURL: Table Understanding through Representation Learning (arxiv.org)
code:“TURL: Table Understanding through Representation Learning” (github.com)
词汇表征: Word representation
输入嵌入: Input Embedding
关系Web表:relational Web table,指在HTML代码的帮助下展现在网络上的具有行列结构的表格。
Abstract
在本文中,我们提出了TURL,一个新的框架,它引入了关系Web表的预训练/微调范式。
在预训练期间,我们的框架以一种无监督的方式学习关系Web表上的深度上下文表征。它的通用模型设计与预训练的表征可凭借最小的任务特定的微调应用于广泛的任务。
具体来说,我们提出了一个【结构感知】(Structure-aware)的Transformer编码器来建模关系Web表的行-列结构,并提出了一个新的掩蔽实体恢复(MER)预训练目标,以捕获大规模未标记数据中的语义和知识。
1 Introduction
一方面,在关系Web表数据集上的工作通常依赖于复杂设计的特定于任务的方法,有着以下的缺点:
- 简单的特性只捕获浅层模式,并且通常无法处理Web表中的灵活模式和各种表达式
- 特定于任务的特性和模型架构需要努力进行设计,并且不能很好地跨任务进行泛化
另一方面,预训练/微调范式在非结构化文本上取得了成功,但几乎没有扩展到对关系Web表这种范式研究上。
此外,像Word2Vec这样的浅层神经模型的学习能力相对有限,这阻碍了对关系Web表中包含的复杂语义知识的捕获。
综上所述,为填补空白,我们提出了新框架TURL,通过无监督方式的预训练和特定任务的微调来学习关系Web表上的深度上下文表征。
两个主要挑战:
- Relational table encoding:挑战在于开发一种建模行和列结构的方法,以及集成来自表的不同组件的异构信息。
- Factual knowledge modeling:关系Web表包含大量关于实体的事实知识,现有的语言模型无法直接捕获
Relational table encoding
我们将来自不同表组件的信息编码到单独的输入嵌入中,并将它们融合在一起。接下来我们使用了带有掩码自监督的结构感知Transformer编码器。
我们通过限制每个元素只聚合来自其他结构相关元素的信息,来显式地对行和列结构进行建模。为实现这一点,我们构建了一个基于表结构的可见性矩阵,并将其作为自注意层的附加掩模。
Factual knowledge modeling
我们首先在预训练学习每个实体的嵌入。然后,我们在可见性矩阵的帮助下,对同一行或列中的实体之间的关系进行建模。
最后,我们提出了一个掩蔽实体恢复(MER)预训练的目标。该技术随机屏蔽表中的实体,目的是基于其他实体和表上下文恢复屏蔽项。
我们的贡献主要有以下三点:
- TURL是第一个向关系Web表引入预训练/微调范式的框架
- 我们提出了一种结构感知的变压器编码器来建模关系Web表中的结构信息。我们还提出了一个新的屏蔽实体恢复(MER)预训练目标,以学习关系Web表中的语义和关于实体的事实知识。
- 为了促进这个方向的研究,我们提出了一个包含6个不同任务的表解释和增强的基准。
2 Preliminary
【定义一】给定一个关系Web表语料库,表征学习任务旨在以无监督的方式为所有Table caption 𝐶和Header 𝐻以及每个实体中的所有token(例如,所有实体单元𝐸和主题实体$e_t$)学习任务无关的上下文向量表征。
3 Related Work
Representation Learning
Word2Vec
等工作在大规模文档上预训练分布式词汇表征,而词汇表征被广泛应用在输入嵌入中并取得了比随机初始化更优秀的表现。
然而潜在的一词多义问题,即在不同语境中模拟不同的词汇使用,激发了上下文化词汇表征的发展。
不同于学习每个词汇固定的嵌入,该工作建立了学习句子中联合分布概率的语言模型。这种语言模型在大量NLP任务中取得了SOTA的结果。
在知识库(Knowledge Base)表征学习方面,ERNIE
利用预训练知识库嵌入和去噪实体自动编码器目标,将知识库信息注入到预训练过的BERT模型中,实验结果表明这一操作对实体链接、关系提取等任务有效。
尽管在文本和知识库上取得了表征学习的成功,但是关系Web表中上下文表征学习的探索还彻底。先前NLP社区的两篇论文研究了对Web表的预训练,以帮助表上的语义解析【TABERT】或问题回答【TAPAS】任务。
在这项工作中,我们介绍了TURL,一种用于学习同时保留语义和知识信息的关系Web表的深度上下文表征的新方法。
Table Interpretation
表解释:旨在揭示关系表中包含的数据的语义属性,并将这些信息转换为机器可理解的知识。
这个任务通常在现有知识库帮助下完成,提取的知识可用于构建和填充知识库。
表解释主要有三个任务:
- 实体链接:进行特定实体的检测和歧义消除,这是表解释的关键步骤
- 列类型注释:用知识库类型注释列
- 关系提取:用知识库谓词来解释列对之间的关系
Table Augmentation
我们希望为用户在手动编写表格时提供一些智能的帮助,这推动了表扩充的研究。表扩充是指使用附加数据扩展种子查询表的任务。
对关系表,这可以分为三个子任务:
- 用于为主题列检索实体的行填充:搜索与种子实体语义相关的补体表,排名靠前的表用于填充。
- 填充给定主题实体的单元格值的单元格填充
- 提供推荐的Header,以完成表模式的模式扩增
Existing benchmarks
表解释的若干基准:
- T2Dv2
- Wikipedia from Limaye
- WikiGS
- SemTab 2019
而表扩充几乎没有对应的基准
尽管这些基准已经被用在最近的研究中,但是它们仍存在缺点:
- 它们通常是具有有限注释的小的采样表集
- SemTab 2019包含了大量的实例;但是,它们中的大多数都是自动生成的,并且缺乏Web表的元数据/上下文
基于此,我们编译了一个更大的基准测试,包括表解释和表扩充任务。
4 Methodology
在本节中,我们将介绍TURL的框架,该框架可以在关系表上进行无监督表征学习。
首先,TURL将在无标签的关系Web表语料库上预训练,以学习单词的语义以及实体之间的关系知识。之后只需要进行微调即可满足各种下游任务。
4.1 Model Architecture
如概览图所示,TURL由三个模块组成:
- 将输入表的不同部分转换为输入嵌入的embedding layer
- 捕获文本信息以及关系知识的N个堆叠的结构感知Transformer编码器
- 用作预训练目标的投影层
4.2 Embedding Layer
如图2所示,分别对token和entity进行编码。
- token的表征为三项之和:
- word embedding
- type embedding
- position embedding:提供在caption或header中的相对位置信息
- entity的表征计算:
其中$e^e$是预训练学到的entity embedding,$e^m$是word embedding的平均值。
4.3 Structure-aware Transformer Encoder
- 基于Transformer进行改造
- 在Multi-Head Self-Attention上增加了可见性矩阵(visibility matrix)
Visibility matrix
为保持行/列结构,我们需要将位于同一行/同一列的信息关联起来,而不同行不同列的信息互不影响。
具体来说,就是让$M_{i,j}=1$,当且仅当第j个元素对第i个元素可见。
构建矩阵的两个规则:
- 如果元素i是topic entity或者在表标题中的token,$\forall j,M_{i,j}=1$
- 如果元素i与元素j是位于同一列或同一行的token或者entity,$M_{i,j}=1$
一个例子:
注:使用线段连接起来的token或entity是互相可见的
Masked Entity Recovery
这个可以之后来看…[待补充]