问答|达摩院开源中文社区首个表格预训练模型,取得多个基准SOTA( 五 )


学术界 Benchmark 结果
在耶鲁大学的 WikiSQL 数据集和微软构建的 SQuALL 数据集上 , SDCUP 模型也取得了 SOTA 的效果 , 并且相比学术界已有的表格预训练模型有较显著提升 。

问答|达摩院开源中文社区首个表格预训练模型,取得多个基准SOTA
文章图片

SDCUP 在耶鲁大学 WikiSQL 数据集上取得业界最优效果

问答|达摩院开源中文社区首个表格预训练模型,取得多个基准SOTA
文章图片

SDCUP 在微软 SQuALL 数据集上取得业界最优效果 。
中文数据集结果
在 TaBLUE 数据集上 , SDCUP 的 base 和 large 模型相比同参数规模的 BERT 模型分别提升 3.3 和 2.9 个百分点 , 并且随着数据难度的增大提升幅度也逐渐增大 , 体现出 SDCUP 模型对于复杂 NL2SQL 数据具有更好的建模能力 。

问答|达摩院开源中文社区首个表格预训练模型,取得多个基准SOTA
文章图片

总结
本文详细介绍了中文首个表格预训练模型——SDCUP 背后的数据构建和模型训练等技术细节 , 以及相关表格问答技术的产品化和业务落地情况 。 如何建模自然语言和结构数据之间的语义关联是自然语言处理领域备受关注的课题 , 本文所提出的 Schema Dependency 系列方法可以视为该领域下新的探索方向 。
除了在中英文 NL2SQL 任务中取得 SOTA 效果之外 , 团队也在探索如下方向:

  • 超大规模预训练表格理解模型;
  • 超大规模预训练表格生成模型;
  • 端到端开箱即用的问答系统 。
参考文献:
[1] Yu T, Zhang R, Polozov A, et al. SCoRe: Pre-Training for Context Representation in Conversational Semantic Parsing[C]//International Conference on Learning Representations. 2020.
[2] Hui B, Geng R, Ren Q, et al. Dynamic Hybrid Relation Exploration Network for Cross-Domain Context-Dependent Semantic Parsing[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2021, 35(14): 13116-13124.
[3] Shi P, Ng P, Wang Z, et al. Learning Contextual Representations for Semantic Parsing with Generation-Augmented Pre-Training[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2021, 35(15): 13806-13814.

推荐阅读