问答|达摩院开源中文社区首个表格预训练模型，取得多个基准SOTA( 三 )_模型|训练|达摩|工作|结构化

文章图片

团队除了在 WikiSQL/Spider/CoSQL 三个学术界数据集取得 SOTA 效果之外，也构建了该领域中文的单轮、多轮、生成的数据集，并且将相关技术应用于阿里云智能客服的表格问答模块，从产研结合的角度推动该领域的发展。
研究动机
预训练表格模型最终的目标是为了提升下游 Text-to-SQL 任务的效果，如下图所示，在自然语言和表格的 schema 之间，存在这一个复杂的语义交互结构（Schema Linking），对于该结构的识别和建模已经成为 Semantic Parsing 任务中的重要瓶颈。然而，业界已有的表格预训练模型没有显式建模自然语言问题和表格数据之间的语义交互结构。

文章图片

因此，团队提出了基于模式依存的表格预训练模型，为了提升模型对于不同表格模式下的鲁棒性，还进一步提出了基于模式知识扰动的表格预训练模型；此外，为了减轻数据噪音对模型的影响，团队还提出了基于课程学习的表格预训练模型。
首个中文表格预训练模型SDCUP
【问答|达摩院开源中文社区首个表格预训练模型，取得多个基准SOTA】基于模式依存的表格预训练
对于预训练表格模型来说，最关键的问题在于找到自然语言问题和模式之间的关联，又称模式链接问题。所以在预训练模型的训练目标中应该显式地引入这种模式链接结构，如图所示，团队引入了模式依存的方法，通过模型来预测问题中的哪些词应该和模式中的哪些项进行链接，并且这种链接关系对应 SQL 中的什么关键词。通过这种显示的关系建模，能够得到更好的问题和模式表征，从而提升下游 TableQA 模型的性能。

文章图片

他们参考语义依存分析的方法对 Schema Dependency 任务进行建模，首先使用全连接网络分别获取每个节点作为父亲节点和作为孩子节点的语义表示，然后使用双仿射网络预测每个边存在的概率和该边关系类型的概率：

文章图片

基于模式知识的问题扰动任务
与预训练语言模型相比，表格预训练模型在模式存在的环境下找到合适的模式表征也至关重要，如下图所示，通过扰动问题中涉及到模式链接的词汇，然后通过预训练模型来恢复。

问答|达摩院开源中文社区首个表格预训练模型，取得多个基准SOTA( 三 )

推荐阅读

减肥塑身瑜伽的动作

怎么做才能防止薏米粥不好喝呢

湖南撤县建市名单 2017年4月12日湖南撤县设市

长江日报 10栋房屋严格按设计方案倾倒，院士带队凸显武汉“精细爆破”科创实力

电视剧少年派在哪拍的

借了很多网贷还不上会有什么后果

不顾事实乱说话是什么成语

水包砂喷厚颜色会变深吗

慈禧是哪个皇帝的老婆慈禧内容介绍

我的足迹怎么查

乘飞机托运最大多少寸乘飞机托运最大多少寸行李箱

平时吃什么食物对头发好？日常保护头发有哪些方法？

《第几天 _《赌场风云》电视剧片尾曲》MP3歌词-黄宗泽

男女睡一张床意味着什么？真的会忍不住吗？

形容童年快乐的句子描写童年的优美句子

西兰花根部能吃吗西兰花根部可以吃吗

魅族手机有红外线功能吗

走出控油误区油性皮肤MM的6大护肤新招

投资公司文化理念口号

红黑树和平衡二叉树的区别