闲置资源|阿里云李克:阿里云边缘云计算的技术和实践

备受关注的Distributed Cloud|2021全球分布式云大会·北京站于4月7日隆重召开 , 分布式云是2021年全球十大重要战略科技趋势 , 利用分布式架构技术创新 , 连接边缘节点、私有云和公有云的IT资源组成分布式混合云 。
全球分布式云联盟力求打造分布式云计算旗舰级技术盛会 , 本次大会共设有分布式云报告会、边缘计算论坛、Serverless云原生论坛、分布式数据库论坛、分布式存储论坛 , 跨境SD-WAN咨询会等六大论坛 , 围绕分布式云、分布式算力、Serverless、云原生、HTAP、IPFS等技术与实践展开 。 联合阿里云、腾讯云、百度云、金山云等全栈技术引领者与全球分布式云联盟携手打造这场技术饕餮盛宴 。
在4月7日下午举办的边缘计算论坛上 , 阿里云资深技术专家李克为我们带来了《阿里云边缘云计算的技术和实践》为题的精彩演讲!

闲置资源|阿里云李克:阿里云边缘云计算的技术和实践
文章图片

边缘计算的核心目标是人、事、物的快速决策
什么是边缘计算?边缘计算是相对传统集中通用计算而言 , 将工作负载部署在边缘的一种计算方式 。 采用分散式运算架构 , 在尽可能靠近物、数据源或用户的地方进行应用计算与数据存储 , 仅将必要的结果送到云中心 。 同时 , 边缘计算也是中心云和设备之间的缓冲 , 是中心云的延伸 , 与中心云互补 。 目前边缘计算落地推动力分别是延迟/确定性、数据/带宽、有限的自治权、隐私/安全性 。
李克总结道:边缘计算的核心目标是推动人、事、物的快速决策 。
Gartner按照位置不同划分3种计算场景 , 分别是Near Edge、Far Edge、Cloud , 对应着终端计算、IDC计算和中心云计算 。 其中Near Edge是标准服务器或设备 , 在距离端侧最近的地方 , 例如在工厂和园区 , 可以为任何Arm , X86设备;而Far Edge是标准的IDC节点 , 而Cloud是公共云或专有云服务 , 特征为资源集中、中心化管理 。
在IDC资源定义下 , 边缘计算的结构又可以分为Heavy Edge与Light Edge 。 其中Heavy Edge通常是集中的大规模节点 , 提供通用的计算存储能力 , 如CDN、自建IDC比较常见;而Light Edge是特殊功能的低功耗计算平台 , 通常适用于工业控制 , 基本的数据处理、传输等物联网场景 。
2022年边缘云计算将成为数字业务刚需
5G发展带来大数据、大连接、低时延应用场景 , 需要边缘云计算提供基础的计算能力 , 催生边缘云需求快速增长 。 边缘云分布式的网络架构 , 可实现离线、就近计算 , 满足特定行业对实时性、可靠性与安全性等的严格要求 。 边缘云起到了承上启下的作用 , 除了场景上的需求 , 另一个需要考虑的是成本 , 中心机房一般都是超大规模 , 几千上万台机器 , 对应的建设投入和运营成本都非常高 , 而且一般都是BGP带宽 , 使用成本比较高 , 而边缘云节点 , 机器配置不用太高 , 节点规模也较小 , 一般几十台左右 , 网络也是单线接入 , 在成本上具备较大的优势 。
比如在一个城市大脑项目中 , 通过将应用部署下沉到边缘 , 能够节省大量的BGP带宽开销 , 另外边缘上也能够卸载大量的数据 , 当数据收敛到5%之后 , 总成本可以节约一半以上 。 而成本一直都是客户选择云计算的一个核心要素 。
李克表示 , 在市场需求不断上升与自身技术不断突破双重推动下 , 在2022年 , 边缘云将成为所有数字业务的基础设施 。 传统的公有云肯定会一直存在 , 提供超强的计算和存储能力 , 距离客户较远 , 而边缘云有遍布全国的几千个小型节点 , 能够离客户较近 。 边缘云是中心云的拓展 , 和中心云一起来提供面向应用场景 , 以及面向产业互联网的下一代云计算解决方案 。
在未来 , 中心式公有云的大数据中心节点数量少、单点规模大、离终端距离近远;而分布式边缘云节点数量多、单点规模小、离终端距离近 。 分布式边缘云可以更好的面对低延时场景、大宽带场景、大连接等场景 , 并可以更好地面向产业互联网 。
阿里云边缘云产品ENS
在介绍了整个边缘计算的架构与未来发展之后 , 李克提到了边缘技术面临的挑战 。
第一是资源的管理 。 一方面资源形态较多 , 比如有CPU机器、GPU机器 , 也有面向ANDROID应用的ARM阵列 , 机型的不统一和节点网络环境不统一 , 使得节点建设和交付会面临较大的挑战 , 另外节点的数量规模也会比较大 , 随着MEC节点的引入 , 节点规模会发展到百万量级 , 对资源的管理带来较大的挑战
第二是资源使用 。 资源使用也需要更好的技术方案 , 云中心的标准虚拟化方案在小型节点上需要进行改造和适配 , 边缘上的计算、存储、网络的切片能力 , 以及中心的云产品和中间件能力下沉都需要大量技术投入 , 能够将所有边缘异构节点形成统一资源管理 。
第三是云边一体的管控技术 。 中心和边缘、边缘之间的管控需要统一 , 对客户提供位置无感的服务 , 在边缘节点上需要做好边缘的自治能力 , 资源可以快速扩缩容 , 以及实例的冷热迁移能力 。
第四是协同网络的挑战 。 所有的边缘节点之间 , 以及边缘和中心之间需要一个统一的底层网络 , 能够提供稳定可靠、质量成本最优的的传输体验 。
总体上讲 , 需要在边缘云上提供统一的资源建设纳管和统一的调度和生产能力 , 以及位置无感的服务和网络传输 。
在面对以上提到的四大挑战上 , 李克为我们带来了阿里云边缘云产品ENS 。
李克首先介绍了阿里云边缘云发展的情况 , 第一个阶段是锤炼期 , 在2017开始打造 , 依托于CDN的资源开始进行边缘计算节点的改造;第二个阶段是提供IAAS的基础服务 , 18年实现了覆盖100公里的边缘节点布局 , 19年进一步扩大了节点规模 , 有了超过300个ENS节点 , 未来会进行更多节点的管理;第三个阶段对具体业务和场景的支持 , 比如智慧城市项目 , 智能家居等;现在已经步入了第四个阶段 , 在IAAS的基础上 , 打造一些通用的PAAS能力 , 来进行更好的业务场景支持 , 比如云原生平台、视图计算平台、全球交互通信网络等 。
李克表示阿里云边缘云整体上发展策略是资源一步步下沉到离端最近的地方 , 另外对上层提供的能力越来越贴近业务场景 , 如今阿里云边缘云产品ENS已拥有众多产品能力:
1、在计算上支持三种基础计算形态 , 虚机容器和安全容器 , 终端的数字孪生计算 。
2、在存储上 , 支持块存储、文件存储 , 对象存储等多种形态 , 将原有CDN的缓存能力变为通用的KV能力 。
3、在网络上 , 实现了节点内的多种网络形态 , 跨节点的网络加速和交换能力 , 以及边缘的负载均衡产品 。
4、在安全上 , 提供了四七层的防攻击能力 , 针对内容和主机的安全能力等 , 600G的DDOS攻击 。
5、在管控上 , 能够高效的进行节点的自动化建设 , 以及容器虚机的高效生产 , 和镜像发布的管控 。
在架构上 , 李克进一步介绍道:阿里云边缘云计算产品ENS从基础设施开始 , 一层层进行封装 , 底层的服务器、交换机能够形成统一的池化资源 。 在IAAS层通过边缘飞天操作系统 , 抽象出来计算、存储网络的资源形态;在PAAS层提供了存储平台、计算平台、容器平台、视图计算平台和应用管理平台;最上层的SAAS场景交给客户进行封装实现 , 完成垂直化业务和创新场景的落地 。
边缘业务场景实践
李克表示阿里云做边缘云有3个优势:第一个是资源优势、第二个是技术优势、第三个是自有业务的优势 。
李克为我们举例道:阿里云有一个飞天操作系统用来管理中心的云计算体系 , 我们基于边缘打造了一个飞天边缘操作系统 , 主要是希望边缘上能够承载中心云的算力下沉 , 以及端上的算力上移 , 让计算在发生在最低成本和最佳体验的节点上 。 比如数据分析 , 就可以在边缘上进行预处理 , 而不需要全量的数据回传到中心云处理 , 这就实现了算力的下沉 。
终端算力上移场景代表性的场景就是云游戏、云应用等 , 终端不需要配置较好的芯片 , 运算和渲染发生在边缘节点上 , 终端只需要进行流式显示即可 , 从而完成了算力的上移 。
接下来看一下内部的场景 , 我们先拿分布式日志平台来举例子:
在边缘上不管是提供CDN服务 , 还是视频服务 , 都会有大量的访问日志和操作日志 , 这些日志需要给业务决策提供输入 , 涉及到大量的计算和存储开销 , 其挑战也是非常大的 。
首先在规模上 , 大量的分布式集群 , 每天产生超过10PB的数据 , 这些数据都需要能够可靠的进行收集和处理 。 其次在成本上 , 对应的计算、存储、网络开销每年高达几亿 , 而且业务还在持续快速增长在效率上 , 有大量的定制分析需求 , 需要快速发布 , 原始数据检索也需要快速支持 , 最后在稳定性上 , 因为很多数据涉及到调度和计费场景 , 其可用性也需要保障 。
目前的做法是设计了一套分布式的日志处理平台 , 能够在边缘上做大量的计算和存储 , 分析任务通过算子的方式在节点上进行编排 , 只有不到千分之一的分析结果需要上传中心 。
大量的计算检索都在边缘上产生 , 一方面提高了效率 , 另一方面在成本上有非常显著的降低 , 利用边缘的空闲资源 , 分而治之的把全网数据进行边缘处理 , 每年节约成本超过1个亿 。
接下里第二个内部场景是边缘的云原生 , 边缘之所以云原生 , 是为了解决资源的使用效率 , 以及应用的发布效率 , 能够提供云原生的环境 , 面向未来打造边缘的技术基座 。
李克认为云原生核心是改变业务使用资源的模式 , 开发效率的提升 。 传统的资源使用是基于物理机 , 所有的运维体系都是基于设备和操作系统 , 即使有了虚拟化技术 , 也只是在资源形态上发生了一些改变 , 对于发布和运维 , 以及开发模式没有本质的提升 。
云原生要做的就是实现高效的资源管理 , 能够进行租户隔离和资源的弹性生产 , 对外提供标准化的服务和接口 , 提供应用注册、发现和编排的能力 , 未来的应用只有基于了微服务 , 不必关系资源的弹性和运维才是真正的云原生技术 。
目前云原生平台典型的技术有容器、微服务和服务网格 , 边缘云原生在技术上分为三层 , 底层是基础的容器技术 , 不管是使用原始的DOCKER , 还是基于K8S , 需要在不同的节点和机器上提供统一的容器生产接口 , 并且还需要进行相关的容器存储和网络支持 , 在中心 , 无法使用单一的K8S集群管理这么大规模的服务器和POD , 因此需要分层的容器化平台 , 调度和控制指令能够快速下达到每一个小的集群 。
在容器台之上 , 提供了MESH的应用管理能力 , 可以进行灵活的发布和灰度 , 以及完善的数据和监控体系 , 整个云原生平台 , 对业务来讲 , 可以提供不同类型的计算资源 , 如容器、K8S、以及位置无关的SERVERLESS服务 。
目前边缘云计算已经实现了全面的云化 , 内部业务如CDN和视频等已经基于容器进行大规模部署 , 资源实现了统一的池化 , 所有的边缘节点都可以进行标准的POD生产 , 能够分钟级别提供超过10w的计算资源 , 目前在压测场景已经大规模在使用 。
接下来讲2个外部的场景:
第一个是云应用 , 典型例子是云游戏 , 云游戏的历史也比较悠久 , 一直无法大规模复制 , 而5g和边缘计算出现恰好弥补了资源覆盖和网络传输问题 , 因此云游戏能够更好的发展 。 通过云游戏平台 , 根据客户位置和应用特性 , 可以选择一个最合适边缘节点 , 生产出来一个虚拟设备 , 客户直接连接边缘节点 , 操作指令直接发送到边缘计算节点的虚拟终端上 , 节点处理后再将数据通过流式的方法下发给客户 。
云游戏这种模式 , 对于云厂商来说 , 能够实现比较好的资源复用 , 只有活跃的玩家才会有虚拟终端;对于游戏厂商来说 , 游戏的种类和更新可以更敏捷 , 具备更强的竞争力;对于客户来说 , 终端芯片要求较低 , 能够体验更多游戏 。
基于边缘云的游戏解决方案 , 对玩家和厂商都有较好的收益 , 目前云游戏已经在边缘实现规模化支持 , 同时支持端游和手游的方案 。
李克讲述的第二个案例是在视频领域 。 边缘云也能很好的满足场景需求 , 政府、行业、商业等多类场景均有视频需求 , 视频流众多 , 直接上云高成本、质量服务保障 , 自建机房投入高、运维难度大 。 阿里云边缘云可以提供同城同区就近视频汇聚能力 , 让视频更好的收流、存储;实现低成本、高质量的智能分析、智能计算 。
展望未来:标准化+开放的生态建设
最后 , 李克表示在未来边缘云发展要注重两个关键词:标准化和开放生态的建设 。 越来越多的生态应用依赖于 “云-边-端” 协同 , 边缘云在这个协同中扮演的正是上下衔接的关键角色;需要大家在标准和开放上持续坚持 , 完善边缘云的生态 。
一方面整合各种各样的边缘节点 , 从骨干网到城域网 , 再到基站和厂区 , 都可以有边缘的虚拟节点 , 建设出来一个无处不在的边缘覆盖;另一方面基于自研的边缘操作系统 , 提供分布式的融合计算网络 , 实现资源的统一纳管、统一调度、统一生产 , 对外提供统一的开放API 。
【闲置资源|阿里云李克:阿里云边缘云计算的技术和实践】李克最后总结 , 不管技术如何发展 , 场景永远是第一位的 ,4G催生了视频行业 , 5G下各类新型场景正在成为现实 , 在低延迟、大连接、大流量下 , 一切皆有可能 , 当更有价值的应用出现时 , 边缘云一定要提前做好准备 。

    推荐阅读