问答|达摩院开源中文社区首个表格预训练模型,取得多个基准SOTA

机器之心专栏
作者:耿瑞莹、惠彬原等
达摩院Conversational AI团队

12 月 2 日 , 达摩院深度语言模型体系 AliceMind 发布中文社区首个表格预训练模型 SDCUP , 该模型在全球权威表格数据集 WikiSQL 和 SQuALL 上取得了业界最优效果 , 相关模型和训练代码已经开源于阿里巴巴深度语言模型体系 AliceMind 中 。

问答|达摩院开源中文社区首个表格预训练模型,取得多个基准SOTA
文章图片

此外 , 在达摩院构建的表格问答中文数据集 TaBLUE 上 , SDCUP 比同参数规模 BERT 模型效果提升约 3 个百分点 。 达摩院资深算法专家李永彬介绍 , SDCUP 模型是达摩院表格对话技术系列研发的一部分 , 后续将持续对外开源 。
目前 , 预训练表格模型 SDCUP 和相关 NL2SQL 技术已经应用在了阿里云智能客服(云小蜜)的 TableQA 产品中 。 并且 , 为满足不同场景下的训练和交付需求 , 表格管理、数据配置、模型训练和效果干预等功能已全部完成产品化 , 基本做到知识梳理低成本、问答构建高速度、模型训练无标注 , 满足各个场景的交付运维需求 。
接下来看 SDCUP 模型的技术详解 。
表格问答技术
由于数据结构清晰、易于维护 , 表格 / SQL 数据库是各行各业应用最普遍的结构化数据 , 也是智能对话系统和搜索引擎等的重要答案来源 。 传统表格查询需要专业技术人员撰写查询语句(如 SQL 语句)来完成 , 因门槛高 , 阻碍了表格查询的大规模应用 。 表格问答技术通过将自然语言直接转换为 SQL 查询 , 允许用户使用自然语言与表格数据库直接交互 , 具有很高的应用价值 。
什么是表格问答(TableQA)呢?我们通过一个例子来引入 , 如下图班级学生信息的 Table , 用户可能会问:“告诉我 3 班最高的男生有多高?” 要想解决这个问题 , 需要先把自然语言转换成一个 SQL 语句 , 然后用 SQL 语句去查询表格 。 所以整个 TableQA 的核心问题就是解析自然语言:把 TEXT 文本转变为 SQL 语句(NL2SQL) 。

问答|达摩院开源中文社区首个表格预训练模型,取得多个基准SOTA
文章图片

由于表格内容复杂多样 , 涉及各行各业的专业知识 , 样本标注难度大 , 模型迁移能力差 , 这项任务一直是自然语言处理领域的难题 。
表格预训练模型国内外工作
近年来预训练语言模型(BERT、GPT、T5)迅速发展 , 促进了 NLP 领域各种任务上的进步 , 例如阅读理解、命名实体识别等任务 。 但目前的预训练模型基本上在通用文本上进行训练 , 在一些需要对结构化表格数据进行建模的任务上(如 Text-to-SQL 和 Table-to-Text) , 需要同时对结构化数据进行表示 , 如直接采用现有 BERT 等模型 , 就面临着编码文本与预训练文本形式不一致的问题 。

推荐阅读