问答|达摩院开源中文社区首个表格预训练模型,取得多个基准SOTA( 三 )



问答|达摩院开源中文社区首个表格预训练模型,取得多个基准SOTA
文章图片

团队除了在 WikiSQL/Spider/CoSQL 三个学术界数据集取得 SOTA 效果之外 , 也构建了该领域中文的单轮、多轮、生成的数据集 , 并且将相关技术应用于阿里云智能客服的表格问答模块 , 从产研结合的角度推动该领域的发展 。
研究动机
预训练表格模型最终的目标是为了提升下游 Text-to-SQL 任务的效果 , 如下图所示 , 在自然语言和表格的 schema 之间 , 存在这一个复杂的语义交互结构(Schema Linking) , 对于该结构的识别和建模已经成为 Semantic Parsing 任务中的重要瓶颈 。 然而 , 业界已有的表格预训练模型没有显式建模自然语言问题和表格数据之间的语义交互结构 。

问答|达摩院开源中文社区首个表格预训练模型,取得多个基准SOTA
文章图片

因此 , 团队提出了基于模式依存的表格预训练模型 , 为了提升模型对于不同表格模式下的鲁棒性 , 还进一步提出了基于模式知识扰动的表格预训练模型;此外 , 为了减轻数据噪音对模型的影响 , 团队还提出了基于课程学习的表格预训练模型 。
首个中文表格预训练模型SDCUP
【问答|达摩院开源中文社区首个表格预训练模型,取得多个基准SOTA】基于模式依存的表格预训练
对于预训练表格模型来说 , 最关键的问题在于找到自然语言问题和模式之间的关联 , 又称模式链接问题 。 所以在预训练模型的训练目标中应该显式地引入这种模式链接结构 , 如图所示 , 团队引入了模式依存的方法 , 通过模型来预测问题中的哪些词应该和模式中的哪些项进行链接 , 并且这种链接关系对应 SQL 中的什么关键词 。 通过这种显示的关系建模 , 能够得到更好的问题和模式表征 , 从而提升下游 TableQA 模型的性能 。

问答|达摩院开源中文社区首个表格预训练模型,取得多个基准SOTA
文章图片

他们参考语义依存分析的方法对 Schema Dependency 任务进行建模 , 首先使用全连接网络分别获取每个节点作为父亲节点和作为孩子节点的语义表示 , 然后使用双仿射网络预测每个边存在的概率和该边关系类型的概率:

问答|达摩院开源中文社区首个表格预训练模型,取得多个基准SOTA
文章图片

基于模式知识的问题扰动任务
与预训练语言模型相比 , 表格预训练模型在模式存在的环境下找到合适的模式表征也至关重要 , 如下图所示 , 通过扰动问题中涉及到模式链接的词汇 , 然后通过预训练模型来恢复 。

问答|达摩院开源中文社区首个表格预训练模型,取得多个基准SOTA

推荐阅读