文章图片
团队除了在 WikiSQL/Spider/CoSQL 三个学术界数据集取得 SOTA 效果之外 , 也构建了该领域中文的单轮、多轮、生成的数据集 , 并且将相关技术应用于阿里云智能客服的表格问答模块 , 从产研结合的角度推动该领域的发展 。
研究动机
预训练表格模型最终的目标是为了提升下游 Text-to-SQL 任务的效果 , 如下图所示 , 在自然语言和表格的 schema 之间 , 存在这一个复杂的语义交互结构(Schema Linking) , 对于该结构的识别和建模已经成为 Semantic Parsing 任务中的重要瓶颈 。 然而 , 业界已有的表格预训练模型没有显式建模自然语言问题和表格数据之间的语义交互结构 。
文章图片
因此 , 团队提出了基于模式依存的表格预训练模型 , 为了提升模型对于不同表格模式下的鲁棒性 , 还进一步提出了基于模式知识扰动的表格预训练模型;此外 , 为了减轻数据噪音对模型的影响 , 团队还提出了基于课程学习的表格预训练模型 。
首个中文表格预训练模型SDCUP
【问答|达摩院开源中文社区首个表格预训练模型,取得多个基准SOTA】基于模式依存的表格预训练
对于预训练表格模型来说 , 最关键的问题在于找到自然语言问题和模式之间的关联 , 又称模式链接问题 。 所以在预训练模型的训练目标中应该显式地引入这种模式链接结构 , 如图所示 , 团队引入了模式依存的方法 , 通过模型来预测问题中的哪些词应该和模式中的哪些项进行链接 , 并且这种链接关系对应 SQL 中的什么关键词 。 通过这种显示的关系建模 , 能够得到更好的问题和模式表征 , 从而提升下游 TableQA 模型的性能 。
文章图片
他们参考语义依存分析的方法对 Schema Dependency 任务进行建模 , 首先使用全连接网络分别获取每个节点作为父亲节点和作为孩子节点的语义表示 , 然后使用双仿射网络预测每个边存在的概率和该边关系类型的概率:
文章图片
基于模式知识的问题扰动任务
与预训练语言模型相比 , 表格预训练模型在模式存在的环境下找到合适的模式表征也至关重要 , 如下图所示 , 通过扰动问题中涉及到模式链接的词汇 , 然后通过预训练模型来恢复 。
推荐阅读
- 研究院|传统行业搭上数字化快车,施工现场变“智造工厂”
- 机器|戴森达人学院 | 戴森HP09空气净化暖风扇测评报告
- 美容|升级扩业 中家医·家庭医生医疗美容医院引爆广州
- 问答|紧追B站加码知识类内容,抖音上线“学习频道”
- 文化|【“用数赋智”系列宣讲】苏州工艺美术职业技术学院探索传统工艺的跨界创新
- IT|南非研究显示两剂强生新冠疫苗可大幅降低Omicron导致的住院
- 团队|深信院41项科研项目亮相高交会 11个项目获优秀产品奖
- 索尼|索尼推出两款无线低音炮、环绕音箱,适配家庭影院
- 生命科学学院|科技馆内感受科技魅力
- 互联网|首儿所互联网医院办公区启用 为患者提供就医便利