章云极|九章云极DataCanvas DAT:端到端AutoML,把AI建模效率提升一百倍

机器之心原创
作者:泽南

同样是构建 AI 模型 , 用 AutoML 工具可以提升百倍效率 , 而且模型的准确度还能更高 。
给定一个数据集 , 如何找到一套高效解决问题的 AI 算法加超参数?对于机器学习开发者来说 , 这是需要耗费大量时间来完成的工作 。 不过近几年来出现的自动机器学习工具 AutoML , 用 AI 的方式让构建 AI 的模型选择、调参工作变成了全自动 。
10 月 22 日 , 在 「2021 年数智化高峰论坛」上 , 九章云极 DataCanvas 发布的自动机器学习工具(DataCanvas AutoML Toolkit , DAT)又将 AutoML 的范围拓展到了机器学习任务的全流程 。
「从工具形态上来看 , AutoML 目前已经具备独立部署的条件了 , 」九章云极 DataCanvas 资深架构师杨健说道 。 「实用化的框架会对这一领域带来基础支撑 , 其意义类似于 TensorFlow 和 PyTorch 之于深度学习——我们认为 AutoML 正需要这样的工具来促进应用的铺开 。 」

章云极|九章云极DataCanvas DAT:端到端AutoML,把AI建模效率提升一百倍
文章图片

而且 , 九章云极 DataCanvas 还希望通过完全开源的形式对社区作出更多贡献 。
让端到端的 AutoML 成为可能
神经网络设计是一项极为耗时的工作 , 其对专业知识的要求让开发的门槛一直难以降低 , 而有了 AutoML 方法 , 神经网络也可以设计神经网络 。
常规 AutoML 工具针对机器学习算法 , 面向超参数优化、特征工程等任务 , 这类工具今天看已不能满足企业的需求 。 近几年人们陆续的一些定位为端到端的 AutoML 工具 , 提升了很多工作的效率 , 在机器学习社区也获得了可观的影响力 。
但九章云极 DataCanvas 认为 , 这还不是真正意义上的端到端自动建模——在机器学习的任务流程中 , 人们还要面临数据不均衡、数据漂移、模型泛化、大规模数据建模等问题的挑战 。
如果 AutoML 工具不能自动化地解决这些问题 , 就很难成为工业界 AI 建模的核心 。 「在企业智能化转型的过程中 , 自动化意味着脱胎换骨的改造 , 应用 AI 不仅意味着使用新技术 , 还触及到了企业的管理模式、技术架构、运营体系 。 要想转型 , 我们需要做很多努力 。 」杨健说道 。
DAT 被设计成技术栈的形式 , 分清了层次和框架 , 提供了很多开箱即用的工具 , 可处理结构化、非结构化数据 , 如果无法满足需求 , 用户可以使用底层框架自由构建出符合业务需求的算法 。

章云极|九章云极DataCanvas DAT:端到端AutoML,把AI建模效率提升一百倍
文章图片

在这里 , 工程师们把 AutoML 的过程抽象成由一系列 Step 组成的实验 , 通过数据管道串联 , 一个实验的 Step 可以组装 , 数据不均衡、数据漂移等问题都有专门的 Step 去处理 , 而且随时可以针对不同场景的挑战扩展 Step 。

推荐阅读