问答|达摩院开源中文社区首个表格预训练模型，取得多个基准SOTA_模型|训练|达摩|工作|结构化

机器之心专栏
作者：耿瑞莹、惠彬原等
达摩院Conversational AI团队

12 月 2 日，达摩院深度语言模型体系 AliceMind 发布中文社区首个表格预训练模型 SDCUP ，该模型在全球权威表格数据集 WikiSQL 和 SQuALL 上取得了业界最优效果，相关模型和训练代码已经开源于阿里巴巴深度语言模型体系 AliceMind 中。

文章图片

此外，在达摩院构建的表格问答中文数据集 TaBLUE 上， SDCUP 比同参数规模 BERT 模型效果提升约 3 个百分点。达摩院资深算法专家李永彬介绍， SDCUP 模型是达摩院表格对话技术系列研发的一部分，后续将持续对外开源。
目前，预训练表格模型 SDCUP 和相关 NL2SQL 技术已经应用在了阿里云智能客服（云小蜜）的 TableQA 产品中。并且，为满足不同场景下的训练和交付需求，表格管理、数据配置、模型训练和效果干预等功能已全部完成产品化，基本做到知识梳理低成本、问答构建高速度、模型训练无标注，满足各个场景的交付运维需求。
接下来看 SDCUP 模型的技术详解。
表格问答技术
由于数据结构清晰、易于维护，表格 / SQL 数据库是各行各业应用最普遍的结构化数据，也是智能对话系统和搜索引擎等的重要答案来源。传统表格查询需要专业技术人员撰写查询语句（如 SQL 语句）来完成，因门槛高，阻碍了表格查询的大规模应用。表格问答技术通过将自然语言直接转换为 SQL 查询，允许用户使用自然语言与表格数据库直接交互，具有很高的应用价值。
什么是表格问答（TableQA）呢？我们通过一个例子来引入，如下图班级学生信息的 Table ，用户可能会问：“告诉我 3 班最高的男生有多高？” 要想解决这个问题，需要先把自然语言转换成一个 SQL 语句，然后用 SQL 语句去查询表格。所以整个 TableQA 的核心问题就是解析自然语言：把 TEXT 文本转变为 SQL 语句（NL2SQL）。

文章图片

由于表格内容复杂多样，涉及各行各业的专业知识，样本标注难度大，模型迁移能力差，这项任务一直是自然语言处理领域的难题。
表格预训练模型国内外工作
近年来预训练语言模型（BERT、GPT、T5）迅速发展，促进了 NLP 领域各种任务上的进步，例如阅读理解、命名实体识别等任务。但目前的预训练模型基本上在通用文本上进行训练，在一些需要对结构化表格数据进行建模的任务上（如 Text-to-SQL 和 Table-to-Text），需要同时对结构化数据进行表示，如直接采用现有 BERT 等模型，就面临着编码文本与预训练文本形式不一致的问题。