专访|专访后摩智能创始人:依靠存算一体,AI芯片翻越“两面墙”

上世纪四十年代 , 冯·诺伊曼架构开启了计算机系统结构发展的先河 。
在传统冯·诺伊曼架构下 , 计算和存储分离 。 不管处理器运行多快、性能多好 , 每次执行运算时都需要把数据从存储器搬到处理器中 , 数据处理完再搬回到存储器 。
以数据为主的AI计算之下 , 冯·诺伊曼架构的“存储墙”和“功耗墙”挑战凸显 。 半个多世纪后的今天 , 有没有一种方式可以翻越“两面墙”?
芯片初创企业后摩智能创始人兼CEO吴强在接受澎湃新闻(www.thepaper.cn)专访时表示 , 存算一体技术是新的AI芯片方向 , 它可以整合逻辑单元和存储单元 , 直接在存储单元内部运算 , 缓解数据搬运问题 , 降低能耗 。
【专访|专访后摩智能创始人:依靠存算一体,AI芯片翻越“两面墙”】
专访|专访后摩智能创始人:依靠存算一体,AI芯片翻越“两面墙”
文章图片

吴强
“相对于计算芯片尤其是CPU领域 , AI芯片可能是中国率先弯道超车的领域 。 ”而国内外在存算一体方面都还处于起步阶段 , 这种架构也处于学术界向工业界迁移的关键时期 。 存算一体做得好的在学术界 , AI计算强的又是工业界 , “真正想做出大芯片 , 需要两波人在一起融合 。 ”
一种新兴技术想要得到大规模普及 , 离不开产业生态的建设 。 尤其在传统芯片已经占据目前大部分已有应用场景的前提下 , 如何突破新市场 , 实现产业化落地 , 这是所有新兴AI芯片公司都要面临的问题 。
吴强说 , 相比海外垄断巨头 , 作为新玩家 , 一定要在局部有明显优势 , 解决痛点 , 客户才有动力尝试新产品 。 而建立软件生态是必须要走的路 , 唯有如此才有可能真正打破巨头的壁垒 。
翻越芯片“两面墙”
AI芯片是专门用于处理人工智能应用中大量计算任务的模块 , 主要分为GPU、FPGA、ASIC 。
后摩智能创始人兼CEO吴强表示 , 这些芯片在底层设计理念上类似 , 不同之处是对效率和通用性的取舍 。 而存算一体利用新的设计理念 , 基于存算一体的大算力计算芯片对先进制程的依赖也较弱 。
在传统冯·诺伊曼架构下 , 计算和存储分离 , 计算单元从内存中读取数据 , 计算完成后存回内存 。
但随着AI芯片的发展 , 这种架构带来的问题是 , 存储器的数据访问速度跟不上计算单元的数据处理速度 , 阻碍性能提升的“存储墙”问题严重 , 性能瓶颈凸显 , 算力提升有限 。
特别是人工智能迅猛发展的当下 , 人工智能算法对逻辑单元与存储单元之间信息交互能力的需求相对于传统任务更严苛 。 AI计算以数据为主 , 大量数据搬运导致功耗居高不下 , “功耗墙”挑战凸显 。
到2025年 , 全球数据中心将使用全球20%的电量 。 再比如AlphaGo下棋打败人类 , 但人类只用了20瓦的大脑能耗 , 而AlphaGo是2万瓦 。 如果更多脑力劳动被机器取代 , 芯片散发的热量会让地球变得滚烫 。
只有低功耗基础上的大算力才是可持续的 。 那么如何才能翻越“存储墙”和“功耗墙”?存算一体(compute-in-memory)也叫存内计算 , 是指直接在存储单元内部进行运算 。 它可以整合逻辑单元和存储单元 , 缓解数据搬运问题 , 从而降低能耗 。 这被认为是打破“冯·诺伊曼瓶颈”的有效方法 。
后摩智能联合创始人、战略副总裁项之初介绍 , 由于在存储单元内完成运算 , 存算一体可以解决困扰业界许久的“存储墙”问题 , 减少数据搬运过程中高达90%的功耗消费 , 提升计算能效比 。 同时 , 这种架构也减少了等待数据读取时算力的浪费 , 实际性能更好 。 存算一体采用非冯·诺伊曼架构 , 提升算力只需要复制“存算一体单元” , 工程上更简洁 。
当然 , 存算一体并非万能 , 它只针对某一类计算特别是以数据为主的AI计算 , 并不适合CPU等以控制为主的计算 。 存算一体作为新的芯片方向 , 还面临电路设计、架构、软件等诸多层面的挑战 。
存算一体正处于学术界向工业界迁移的关键时期 。 吴强表示 , 最本质的挑战和难点是 , “需要对存算一体技术有很深的了解 , 同时又要对AI应用落地有了解 , 只有这两者融合在一起 , 才有可能产生裂变 , 做出局部有颠覆性的东西来 。 ”
难就难在 , 这两者是两波人在做 , 存算一体做得好的在学术界 , AI计算强的又是工业界 。 “真正想做出大芯片 , 需要两波人在一起融合 。 ”吴强说 。
寻找回国创业的机会
做过AI芯片 , 也研究过存算一体 , 吴强最终决定自己创业 。
实际上 , 2018年后 , 芯片热潮起来了 , 对创业者来说 , 这是一个难得的历史机遇 。 投资人问过吴强为什么要做AI芯片?吴强说 , AI芯片相比应用芯片更难做 , 但空间很大 。 芯片巨头英伟达市值突破5000亿美元 , 增长的大部分来自于AI芯片 。
“人不喜欢做枯燥的事 , 所以一定会用AI辅助 , 变得更高效 , 我比较认可人类生活智能化是大趋势 , 如果AI是大趋势 , AI计算就必须用算力支撑 。 ”
以无人驾驶为例 , L5级无人驾驶需要4000 TPOS算力才能支撑充分的智能化 。 边缘端和云端算力支撑着AI应用 , 支撑着人类社会不断走向智能化 。 “当然我们是用差异化技术做存算一体 , 有差异化的产品做出来才能弯道超车 。 ”
2006年在普林斯顿大学获得计算机科学博士学位后 , 吴强曾先后在Intel、AMD、Facebook、地平线工作 , 是AMD的GPGPU/OpenCL创始团队核心成员 , 2009年-2017年任Facebook资深科学家 , 领导过绿色云计算项目 , 大幅优化和节约整体电耗 。
那时候英特尔已经是大公司了 , AMD也是大公司 , 距离创业都很远 。 第一次在硅谷接触到创业 , 是在Facebook时期 。 “当时Facebook也就小几百号工程师 , 还比较小 , 不是很有名 。 整个公司只有一层楼 , 每天都能看到扎克伯格 。 去了Facebook以后就看着它一路成长 , 成为国际巨头 , 拥有几万工程师 。 ”
这是吴强第一次见识到创业公司是如何成长的 , 知道了创业究竟是怎么一回事 , 这对他触动很大 。
2012年 , Facebook上市 , 包括吴强在内的一批老员工都面临着未来要做什么的选择 。 “比如有人经济上比较自由以后就去做投资了 , 有人退休了 , 有人去创业了 。 我自己也在思考 , 我要做什么 。 ”
吴强“想了一下” , 还是想去创业 。 “我觉得我也很喜欢这个过程 , 把一个公司从0到1、从小做大的过程很美好 。 ”
他开始寻找回国的机会 。 在美国待了将近20年 , 直接回国创业一步到位不现实 , 他决定先加入创业公司 。 “所以我当时看国内的机会只看创业公司 , 没有看过大公司 。 ”
带着对创业的向往 , 2017年回国后 , 吴强加入地平线担任技术副总裁及工程院院长 , 后来又任地平线CTO , 领导AI芯片软件方案及生态建设 , 以及边缘端应用解决方案商业化落地 , 帮助企业构建硅谷标准的国际化研发体系 。
一直到2020年 , 吴强离开地平线 , 自主创业 。 在美国时 , 项之初和吴强都在波士顿生活过 , 也一起踢过球 。 “在美国其实很单纯 , 我都不知道他是什么专业的 。 我们只是踢球玩 , 在一起踢球过程中是有信任感的 , 能通过这些判断一个人是不是靠谱 。 ”就这样 , 项之初也信了这个球友对创业的判断 , 两人一拍即合 。
软件生态:鸡生蛋 , 蛋生鸡
2017年微处理器顶级年会(Micro 2017)上 , 包括英伟达、英特尔、微软、 三星、苏黎世联邦理工学院与加州大学圣塔芭芭拉分校等都推出了存算一体系统原型 。 项之初对澎湃新闻(www.thepaper.cn)表示 , 从技术上来说 , 国内外在存算一体方面都还在同一起跑线上 。
“存算一体是科技大趋势 。 ”启明创投合伙人周志峰告诉澎湃新闻(www.thepaper.cn) , 近两三年 , 中国的存算一体 , 尤其是面向AI应用的 , 发展比欧美更快、更活跃 , 核心原因是中国有大量应用场景 , 在众多领域中AI落地比其他国家更早 。
“我们有大量AI算法、底层框架等相关人才 , 这些都间接推动了存算一体芯片发展 。 中国在这一领域的发展从技术路径和落地应用上来看非常多元化 。 我相信未来会有中国存算一体芯片企业成长为这个领域的世界级公司 , 而不仅仅是中国本土的领头企业 。 ”周志峰表示 。
2020年底吴强创立后摩智能 , 基于存算一体技术开发大算力智能计算芯片 。 今年3月 , 后摩智能宣布完成数千万美元天使轮融资 , 6个月内又宣布获得第二笔3亿元融资 , 目前已完成核心技术验证 , 8月中旬流片 。
尽管存算一体被一些业内人士看好 , 但一种新兴技术想要得到大规模普及 , 离不开产业生态的建设 , 包括得到芯片厂商、软件工具厂商、应用集成厂商等的协同、研发、 推广与应用 。
尤其在传统芯片已经占据目前大部分已有应用场景的前提下 , 如何突破新市场 , 实现产业化落地 , 这是所有新兴AI芯片公司都要面临的问题 。
回看英伟达GPU的发展历程 , 它的成功给出了启示 。 1999年 , 英伟达推出标志性产品GeForce256 , 这是世界上第一款GPU 。
“英伟达最初做GPU是用作图形处理的 , 后来突然发现GPU可以用作GPGPU(通用图形处理器) , 用来做科学计算 。 ”吴强说 , GPU的出现解决了一个痛点 , 没有国家实验室才买得起的服务器大集群 , 也可以拥有大算力 。
“我们作为新玩家 , 一定要在局部有明显优势去解决别人的痛点 , 比如算力更大 , 功耗更低 , 能做到这一点 , 别人才有尝试你产品的动力 。 ”
另一个不可忽视的点是英伟达以CUDA为核心的软件生态 。 吴强说 , 智能芯片的研发 , 难的是挑战软件生态 。 “英伟达的软件做得非常好用 , 符合人的思维逻辑或习惯 , 既然用习惯了就在上面建立更多工具和库 , 这就是所谓的生态 。 ”
就像先有鸡还是先有蛋的问题 , 软件好用 , 用的人自然多 , 软件用得越多 , 功能就越强大 。 “我们也一定要走这一步 , 软件一定要好用 , 迁移成本要低 , 并且要让用了之后尝到甜头的人在上面建立他的工具 , 而且一定是开放的生态 , 这样一步步做起来 , 就变成了生态 。 ”
吴强表示 , 对于所有新玩家而言 , 这是必须要走的路 , 也只有这样才有可能真正打破巨头的壁垒 。 而第一步就是要找一个“不太深的地方”攻入 , 相比AI训练 , 可以从不需要那么多算子的AI推理切入 , 逐渐在局部建立自己的生态 , 在小范围内形成闭环 , 破解鸡生蛋、蛋生鸡难题 。
高端芯片设计人才差距缩小
二战后的上世纪五六十年代 , 美国科技爆炸性发展 , 芯片作为底层支柱进入各行各业 , 诞生了最早研发半导体芯片的硅谷 。 上世纪七八十年代 , 日本汽车、家电产业发展 , 芯片作为底层支柱也跟着发展 。
今天的中国也一样 ,科技开始全面赋能 , 人工智能、无人驾驶、机器人、5G、物联网等多种新型应用形成增量市场 , 这个增量市场也必须由位于技术栈底层的新一代芯片支持 。 中国芯片产业爆发得自然 , “这个时机特别好 , 如果需求侧没有巨大增量 , 我们只是跟随欧美巨头已经有的芯片产品和市场 , 我觉得这个产业做不起来 。 ”周志峰表示 。
过去几年 , 国产芯片领域布局越来越多 , 行业正面信号的释放也是如此 。 政府、资本市场、科技大厂都在支持国产芯片发展 。 更重要的是 , 产业集群在中国 , 芯片公司能更了解用户需求 , 推动生产出更满足市场需求的差异化芯片 。
而人才优势是推动产业向前发展的最重要一环 。 “我做CEO七八个月了 , 感受还是蛮深 。 ”和以前做技术时不同 , 现在的吴强睁开眼睛就是五件事:人、钱、方向、客户、组织能力 。
过去20年 , 中国芯片人才快速成长 。 “比如一些半导体巨头在中国的研发中心都成了中国芯片人才的 ‘黄埔军校’ , 这些中国研发中心都承载和交付了很多全球领先的核心技术研发 。 ”周志峰对澎湃新闻(www.thepaper.cn)表示 , 全球前十大芯片设计公司在中国都设有研发中心 , 从事全球最尖端技术的研发 , 这是中国涌现出大量顶级芯片设计人才的重要原因 。
众多科技领域中 , 中国在芯片领域的人才优势相对明显 。 “全球范围内 , 相较于其他领域 , 华人力量在半导体行业的影响力是巨大的 。 在全球顶级芯片企业中 , 华人担任技术或商务高管的比例远高于其他领域 。 按营业收入全球前十名的芯片设计公司中有8家的CEO是华人 。 ”周志峰说 , 如今 , 这些人才大量归国 , 加入创业公司或科技大厂 , 带动中国芯片行业的发展 。
吴强同样认为 , 目前中国高端芯片在设计上和国外差距很小 , 能够满足这一轮芯片革命的发展 。 尽管眼下已经出现芯片行业过热现象 , 比如验证人才紧缺 , 价格甚至高于设计人才 , 创业企业互相挖人等 , 但他表示 , 这是暂时的 , 两年内会趋于理性 。
“我们还是希望有一点匠心的人过来 , 真的认可我们 , 看中我们做的事情 , 看中这个团队 , 愿意跟我们一起 , 相信我们可以把事情做大 , 我们要去找这样的人 。 ”
而芯片软件人才仍然偏弱 , 与硅谷差距较大 , 高端芯片设计的架构师等人才数量略有欠缺 。 “我们看了很多面向数据中心的处理器芯片公司 , 很多创业者都忽略了软件生态问题 , 只考虑怎样做出极致性能的硬件 , 但是如果没有可编程性高的配套软件生态 , 是没有办法真正进入终端市场的 。 软件生态是欧美芯片大厂真正的护城河 。 ”周志峰建议 , 中国要在芯片软件生态人才上加强培养 。
外企培养一批 , 海外归来一批 , 国内通过应用场景培养一批 , 人才固定 , 资金充足 , “未来中国会成长出大芯片巨头来 , 是谁我不知道 , 但我相信一定会有 。 ”吴强说 。
本文来自澎湃新闻

    推荐阅读