Table Pre-training(零)综述

Table Pre-training

A Survey on Model Architectures, Pre-training Objectives, and Downstream Tasks

SOTA result:state-of-the-art result,指的是在该项研究任务中,目前最好的模型的结果/性能/表现。

T5 : Transfer Text-to-Text Transformer

Abstract

随着预训练范式在自然语言领域的成功,一系列表预训练框架被提出,并在各种下游任务上取得了新的技术水平,如表问答、表类型识别、表关系分类、表搜索和公式预测。

为了最好地利用结构化表的特性,人们探索了各种模型架构,特别是【单独设计的注意机制】(specially-designed attention mechanisms)。

此外,为了充分利用未标记表中的监督信号,我们设计和评估了不同的预训练目标,例如,【值单元去噪】(denoising cell values)、预测数值关系和学习一个神经SQL执行器。本调查旨在对模型设计、预训练目标和表格预训练的下游任务进行回顾,并进一步分享我们对现有挑战和未来机遇的看法。

1 Introduction

表被广泛用于组织和呈现各种文档类型和数据库系统中的数据,如网页、电子表格、pdf和MySQL,因此越来越受到研究界的关注。

随着大规模的自然语言(NL)预训练的成功,一系列的研究工作被提出利用未标记的表进行自我监督的预训练,并在表类型分类等工作中取得有希望的结果。

一方面,与已经证明大规模预训练成功的NL类似,表格有密集的语义存储在表标题,列标题和注释中。

另一方面,与NL不同,表有不同的信息(直观的格式、组织良好的数值、公式等)。以及各种结构(关系表、实体表、矩阵表、表格等),因此需要特殊的模型架构和训练目标来达到最佳的结果。

为了最好地利用表的特性,同时维护理解表内外文本的功能,已经提出了许多 Tabular Language Models(TaLMs)进行表预训练:

  • Tabert
  • TaPas
  • TURL
  • TUTA
  • TaPEx
  • UnifiedSKG

我们相信,结构化表提供了一个独特的视角来探索前沿神经结构,并启发新的研究方向。由于表经常与SQL等编程语言和电子表格公式进行交互,因此它还产生了跨领域的应用程序,如语义解析、逻辑到文本和公式预测。

在本文中,我们首先在第2节中介绍了表类型、表结构、单元格信息和表语料库的初步内容。然后,我们在第3、4、5节中对表的建模架构、表的预训练目标和下游任务进行了全面的回顾。最后,我们在第6节中展现了我们的愿景。

2 Preliminaries

表大致可以分为三种形式

  • 结构良好的表:数据库表具有 有序定义 的关系模式,因此精确地支持SQL和R等形式语言的执行。
  • 半结构化表:使用标记语言或最终用户工具手工制作的,如HTML代码、Latex代码、电子表格和Word文档。它们具有灵活的结构,但缺乏元信息来记录它们,因此具有精确和自动信息检索的挑战。
  • 非结构化表:只记录原始RGB信息的图像表,例如,从书籍中扫描出来的表格,网络表格的屏幕截图,甚至是手写的草稿。

在进行任何更高层次的信息检索之前,都需要对它们进行数字化。

在本文中,我们主要关注半结构表结构良好的表。我们忽略了图像表,因为它们有明显的视觉挑战,并且希望单独讨论。

2.1 Table Structure

表是灵活的各种结构,包括关系表、实体表、矩阵表、布局表、表单等。它们也具有方向(水平/垂直方向)和层次结构(平面/层次结构)。

平面关系表的结构在类似数据库的形式中是明确和直接的,其中每一行是一条记录,每列是一个字段,没有层次结构。

一个实体表只需记录一个实体及其属性。矩阵表同时具有水平方向和垂直方向。

2.2 Cell Information

通常,单元格(cell)是表中一行和一列的交点。多个单元格可以合并成一个占据多行和列的更大单元格。单元格是记录文本、数值、格式、公式等的基本单位。

  • 文本:表中记录标题、注释、列标题、以及数据区域单元格中的元信息的关键组件。表格中的文本基本上是NL格式的,但通常长度短,含义简洁,以满足文档中的空间限制。
  • 数值:大部分单元格存储数值。与文本不同,数值可以有算术关系,如总和和比例,以及统计特征,如分布和趋势。
  • 可视化格式:表格有各种直观的格式来表示表格的结构或内容,如边框、对齐方式、背景颜色和字体
  • 公式:在一些流行的最终用户工具中,如Excel和谷歌Sheet,电子表格公式用于存储单元格之间的逻辑和数值关系
  • 其它元素,例如超链接,图像和图标也可以插入一个单元格中

2.3 Existing Large Table Corpus

  • Web Tables:WDC Web Table Corpus、Dresden Web Tables Corpus、WebTables、WikiTables
  • Spreadsheet Tables:FUSE、TUTA
  • CSV Tables:GitTable
  • Other Kinds of Tables:TableArXiv

3 Model

由于二维信息对于理解表结构至关重要,许多神经结构被提出来联合捕获结构和语义信息。

  • Table2Vec:采用 skip-gram 神经网络模型来训练具有行/列填充的单词嵌入
  • CNN:获取在二维表中的空间信息
  • Bidirectional RNN/LSTM :获取行/列的顺序
  • GNN:表的理解与问答

尽管上述模型已经广泛地运用在表的建模上,但是它们并不适用于大规模表的预训练。主要原因是它们中的大多数分开训练(或直接消耗)标记/单词嵌入,从而限制了模型理解单元格文本和表结构的能力。

最近,一系列的研究探索了使用基于Transformer的语言模型(LMs)进行表格预训练,我们称之为表格语言模型(TaLMs)。

使用Transformer的优点是,它们可以联合地预训练语义和结构表示,并继承现有的NL预训练模型的文本理解能力,如BERT。

UnifiedSKG和TableGPT等工作,没有特定表的预训练,直接微调表任务,取得了有效的,甚至SOTA的结果,表明预训练可以从文本转移到表,例如,在语言和世界知识方面。

考虑到使用基于Transformer的TaLM是表预训练的常见选择,在下面的小节中,我们将深入研究输入序列的串行化输入嵌入编码器和解码器架构注意力机制模型效率

3.1 Tabular Sequence Serialization

TaLM需要一系列的令牌来作为像LM这样的模型输入。

  • 一种简单而又常见的方法是逐行线性化原始表。大部分的工作都是使用这种方法,例如TaPas,MATE,TableFormer,TUTA和TURL。

  • 在TaPEx中,表依然被逐行线性化,但是它插入了若干特殊令牌来描述表的组件,例如[HEAD],[ROW]分别表示表头和行的区域。

  • TABBIE为两个Tranformer分别按行和列线性化表。
  • yTableGPT在相对简单的表上明显采用了基于模板的表序列化方法。
  • UnifiedSKG进行的实验表明,将外部文本(如问题)放在表格前面可以帮助T5在表格任务上更好地概括
  • 一些工作将表的特定部分进行线性化,例如,TaBERT将最相关的行线性化到输入语句中,而StruG和GraPPa只将头作为输入,没有数据单元。

3.2 Input Featurization and Embedding

Cell Text Encoding

  • 大多数表预训练方法使用WordPiece和学习到的标记嵌入来标记单元格文本,例如TaBERT,TaPas,MATE…
  • 少数使用BPE标记化,例如GraPPa和TaPEx
  • TURL由TinyBERT初始化,并基于实体词汇表学习嵌入
  • TUTA没有直接使用从NL语料库中解析出来的词汇表,而是使用基于大表语料库的WordPiece构建了一个特定于表的词汇表,并将其与BERT的词汇表合并。

Positional Encoding

在NL预训练的模型之后,大多数TaLM在序列化的表格序列中嵌入一维序列位置,例如,TaPas、MATE、StruG、GraPPa和TaPEx。

其他一些工作将整个序列划分为多个片段,分别计算每个单元中的位置: TUTA将每个单元作为一个独立的片段,并处理单元内标记的局部编码位置信息;TURL将表标题和标题视为两个独立的部分,然后使用两个局部位置编码。

表中还具有二维的行/列和层次结构信息。诸如TaPa、MATE和TUTA等工作,学习了基于列/行id的列/行嵌入,并显示出了更高的性能。

然而,考虑到层次结构,列/行编码只能提供有限的表示能力。TUTA进一步设计了基于显式/隐式树的位置嵌入来联合编码空间和层次位置,并在一般结构化的表上显示出显著的有效性。然而,它对只涉及平面表和关系表的下游任务没有帮助。

Numerical Encoding

大量的数值分布在表中,并为基于BERT的模型提出了学习最优表示的挑战,因为这些方法只是简单地以与NL文本相同的方式对数值进行标记化和编码。

它将数字的原始记录结构破坏成碎片,并引入了数字表示方面的困难。

最近,在NLP领域,对学习更好的数字表示的探索激增,而在表格数据方面很少尝试。TaPas和MATE设计了一个独特的排名嵌入为列数比较,在回答比较或最高级问题方面带来了改进。

FLAP添加了额外的特性编码来表示是否文本摘要中提到了这个值。

TUTA通过嵌入四个离散的数值特征来区分数值和纯文本:大小、精度、第一个数字和最后一个数字。在未来的工作中,我们非常希望探索更多的数值嵌入方法,例如,在算术和统计的角度。

Format Encoding

格式包含关于表结构和数据突出显示的有价值的提示,但只有少数TaLM考虑了它们。例如,TUTA学习了格式嵌入与转换器主干一起,以区分单元格是否有合并、边框、字体粗体、字体颜色和填充颜色。

3.3 Encoder and Decoder Architecture

4 Pretraining Objective

TaLM的预训练目标可分为两类:去噪自动编码器和任务特定目标。

遵循Masked Language Modeling(MLM)的想法,许多目标采用了TaLM的自监督标签来消除合成噪声作为自动编码器。同时,其他各种预训练目标从特定的下游任务中获得灵感来设计新的监督方式。

前者采用自监督学习,对表本身进行去噪,后者根据外部监督信号或具体任务建立监督。

4.1 Denoising Autoencoder Objectives

对于去噪自动编码器目标,TaLM接受部分损坏的输入并恢复原始输入。大多数TaLM以与NL序列相同的方式对表格序列应用令牌级MLM。更高级的去噪目标考虑了表结构,如单元格和列。

4.2 Task-specifific Objectives

为了在下游任务上实现SOTA的性能,去噪目标可能是不够的。