趋势|AWS:机器学习的趋势是提供端到端的解决方案

【环球网科技报道 采访人员 勃潺】2016年 , 亚马逊云服务(AWS)开始推出机器学习服务 , 当时推出的服务数量只有3个 , 但从2017年开始 , AWS推出的机器学习服务数量便开始有了爆发式的增长 , 每年连续发布将近200个机器学习服务 , 从全球范围来看 , 有超过10万的客户使用机器学习功能服务 , 行业覆盖金融、汽车、医疗、工业制造等多元领域 。
“机器学习可以说是我们这一代最具颠覆性的技术 。 ”在今年的2020亚马逊re:Invent大会上 , AWS副总裁Swami Sivasubramanian如此评价机器学习的重要性 。 仅在2020年 , AWS便已经发布了250个新功能应用 。 从Tensorflow到PyTorch , 从SageMaker到最新发布的Amazon Neptune ML , 从基础构架到顶层应用 , AWS认为 , 在往后演进过程中 , AI SaaS也会有越来越多的服务 , 它机器学习呈现的趋势是将会提供端到端的解决方案 。
打造扎实的机器学习底层构架
2016年 , AWS发布了三款AI SaaS类服务 , 从而开启了机器学习的加速创新 。 从Swami的角度来看 , 机器学习的基础就是两件事情 , 一个是机器学习的框架 , 一个是机器学习所依赖的底层算力的基础架构 。
从框架来看 , 无论是Tensorflow还是PyTorch都处于不断演变和迭代的过程中 , 对于应用者来说 , 不同的框架能够满足不同的需求 , 同时 , 多个框架的应用组合能够有效的提高工作效率 。
在坚实的基础里面很重要的就是算力 。 不一样的机器学习的负载对于计算力的需要和对于成本的需求并不相同 。 针对不同的需求 , AWS推出M5、R6g等比较通用的机型 , 而P4d则采用了Nvidia100的GPU , 是在训练里面性能达到极致的一款机型 , 在推理和预测方面 , Inf1用的是AWS的自研芯片AWS Inferentia , 也是AWS性价比最极致的芯片 。
【趋势|AWS:机器学习的趋势是提供端到端的解决方案】AWS在机器学习方面的基础设施的选择 , 从CPU、GPU来看覆盖了英特尔、英伟达、ARM等合作伙伴 , 同时也有自研芯片 。 AWS大中华区云服务产品管理总经理顾凡介绍:“我们把所有选择放在这里的核心目的就是计算有没有创新 , 计算一直在重塑和创新 , 其中一个但就是量体裁衣 , 帮你客户做的更精准 , 针对你客户定制化的需求把量体裁衣做到极致 , 计算一直在重塑和创新 。 ”
AWS认为 , 计算、算力 , 针对机器学习仍然在创新 , 仍然在迭代 , 那个创新和迭代当中 , 其中一个非常重要的点就是选择 , 因此 , AWS把选择给到客户 , 这些选择永远围绕着更合适的性能和更合适的一个成本去推进 。
面对更加复杂的一些机器学习的超大规模的模型 , AWS此次推出分布式训练Distributed Training , 这一功能让分布式训练的速度能够提升40% , 甚至更多 。
据顾凡介绍 , 分布式训练功能能够帮助客户进行按照数据和模型进行拆解 , 从而达到更大的性能和节省更多的开发时间 。 从时间成本来看 , 这一功能在面对T53超复杂的模型、自然语言处理的模型时 , 在PyTorch上需要5.9天 , 而在以往 , 可能要花几个月的时间才能完成这样的工作量 。
缩短机器学习的路径
如何让科学家、开发工程师在相同的时间内交付更多的模型、迭代更多的模型?AWS认为要给这些客户一个捷径 , 让他们更加易于使用以及更加方便地去管理整个机器学习工作流里面的每一步 。
因此 , 对于AWS来说 , Amazon SageMaker一直都在不停的迭代 , 其中两个核心思路是:一是在机器学习的每一步当中 , 无论是从数据的准备、处理 , 到去训练一个模型 , 到快速地要去做实验 , 让SageMaker成为工具 , 让这个工具帮到客户更加的易于使用和提升效率 。 二是如何把这些工具、这些点串起来 , 放在一个环境下、一个UI下、一个工作流下 , 能够提升效率 。
在最近的12个月中 , Amazon SageMaker发布了接近50个新功能 。 值得关注的是 , SageMaker一个重点的创新点在于快速地帮助用户将原始数据转化成模型里面的核心特征 , 从而让客户不必通过繁杂的代码去进行开发 。
如果涉及到一些单一或复合的特征 , 怎么把原始数据不同的数据源、不同的格式 , 快速地转换出来 , 能够把特征提取出来 , 则是Data Wrangler要解决的问题 。
同时 , 针对特征存储、访问的特点不一样 , SageMaker推出了一个新的功能叫Feature Store , 一方面可以解决特征的一致性问题 , 在训练和预测方面用的都是同一套特征 。 另一方面 , 能够解决训练和预测中对特征数据存储不同的需求 。
新功能迭代的简单逻辑是:将SageMaker的每一个步骤做得越来越细、做得越来越易用 , 同时将复杂的机器学习工作流串联起来 。
让更多的人使用机器学习
不会机器学习技能的人 , 要如何使用机器学习?在AWS看来 , 从更广泛的机器学习的开发者 , 到数据库、数据分析 , 甚至是一些业务人员 , 都在第三个大圈里面 ,AWS将帮助这些人通过机器学习技术将想法落地 。
AWS将机器学习能力跟数据库进行嫁接 , 让数据库开发者、数据分析师沿用数据库查询的方式 , 帮助他们将机器学习的想法落地到业务应用中 。 Amazon Aurora是AWS著名的关系型数据库服务 , AWS针对Aurora推出了新功能Amazon Aurora ML 。 数据库开发者发起数据库查询(SQL)时 , 只要选择一个机器学习模型 , 就会唤醒机器学习服务 , Aurora ML自动将查询结果交给机器学习模型进行推理 , 返回结果 。
同时 , AWS把Neptune和机器学习彻底打通 , 用户能够直接用机器学习的模型去访问Neptune里面的图数据 。
此外AWS推出BI工具QuickSight , 针对很多的数据表 , 直接分析背后的要点、故事线 , 帮客户更好的读懂这样一个报表 。
这背后是QuickSight集成了非常多的机器学习的图像深度学习、NLP技术、文字结构的理解、解析语义 , 最终来生成一个SQL的代码 。 这一切都是AWS希望我们把东西做到极致的易用性 。
让数据库和机器学习实现互动 , 让更多的人参与到机器学习当中来 , 顾凡将这种场景进行了这样的描绘:“发挥你的聪明才智 , 把这些主意真正做出来 , 而不需要非要懂机器学习 , 因为他就懂SQL 。 ”
解决端到端的实际应用问题
合适的工作要用合适的工具 , 同时找到有针对性的定制化的工具 , 这里就涉及到一个趋势:机器学习的服务也在往行业的场景会去做更多的定制化 。
“扩圈”举措之一 , 便是推出开箱即用的解决方案 。 在re:Invent大会上 , AWS发布了五项用于工业领域的机器学习服务 , 分别是Amazon Monitron、Amazon Lookout for Equipment、AWS Panorama一体机、AWS Panorama SDK和Amazon Lookout for Vision 。 这是AWS首次推出开箱即用的工业领域机器学习解决方案 。
Amazon Monitron和Amazon Lookout for Equipment通过机器学习支持预测性维护 。 Amazon Monitron面向没有建立传感器网络的客户 , 提供由传感器、网关和机器学习服务组成的端到端机器监控系统 , 检测异常并预测何时需要维护工业设备 。 Amazon Lookout for Equipment面向已经拥有传感器、但不希望自己构建机器学习模型的客户 , 由AWS为其构建模型并返回预测结果 , 检测异常设备行为 。
机器学习需要一个坚实的基础 , AWS要帮客户找到捷径 , 以及让机器学习的能力不光提供给数据科学家和开发工程师 , 甚至能够延展到跟数据库打交道以及跟数据分析打交道的工作者 , 最后真正对于一些行业里面共通的 , 甚至跨行业的业务问题 , AWS希望能够做一些端到端的解决方案 , 彻底把机器学习做好 。
“别看机器学习现在所有人都在用 , 演进的也很快 , 但是从历史长河中去看还在早期阶段 , ”顾凡表示:我们说AWS在机器学习里面的愿景始终没有变过 , 它的愿景就是希望把机器学习作为一个工具 , 要交到所有企业的手中 。

    推荐阅读