全世界|吴恩达的2021回顾,这些大事件影响了AI这一年( 三 )


北京人工智能研究院则回敬以包含 1.75 万亿参数的悟道 2.0 。
重要标杆
单纯拉高模型参数并没什么特别 。 但随着处理能力和数据源的增长 , 深度学习开始真正确立起“越大越好”的发展原则 。
财力雄厚的 AI 厂商正以狂热的速度堆积参数 , 既要提高性能、又要展示“肌肉” 。 特别是在语言模型方面 , 互联网厂商为无监督和半监督预训练提供了大量未经标记的数据 。
2018 年以来 , 这场参数层面的军备竞赛已经从 BERT(1.1 亿)、GPT-2(15 亿)、MegatronLM(83 亿)、Turing-NLG(170 亿)、GPT-3(1750 亿)一路走来 , 如今终于迈过了万亿级大关 。
挺好 , 但是……
模型的膨胀路线也带来了新的挑战 。 愈发庞大的模型令开发者们面临四大严酷障碍 。

  • 数据:大型模型需要吸纳大量数据 , 但网络和数字图书馆等传统数据源往往提供不了这么多高质量素材 。 例如 , 研究人员常用的 BookCorpus 是一套包含 11000 本电子书的数据集 , 之前已被用于训练 30 多种大型语言模型;但其中包含某些宗教偏见 , 因为内容主要讨论基督教和伊斯兰教义 , 对其他宗教几无涉及 。
AI 社区意识到数据质量将直接决定模型质量 , 但却一直未能就大规模、高质量数据集的有效编译方法达成共识 。
  • 速度:如今的硬件仍难以处理大体量模型 , 当数据反复出入内存时 , 模型的训练和推理速度都会受到严重影响 。
为了降低延迟 , Switch Transformer 背后的谷歌团队开发出一种方法 , 能够让各个 token 只处理模型各层中的一个子集 。 他们的最佳模型预测速度甚至比参数量只有其三十分之一的传统模型还快 66% 。
另外 , 微软开发的 DeepSpeed 库则选择了并行处理数据、各层及层组的路线 , 并通过在 CPU 和 GPU 间划分任务以减少处理冗余 。
  • 能耗:训练如此庞大的网络会消耗大量电能 。 2019 年的一项研究发现 , 在 8 个英伟达 P100 GPU 上训练一个包含 2 亿参数的 transformer 模型所造成的碳排放(以化石燃料发电计算) , 相当于一辆普通汽车五年的行驶总排放量 。
当然 , Cerebras 的 WSE-2 及谷歌最新 TPU 等新一代 AI 加速型芯片有望降低排放 , 而风能、太阳能及其他清洁能源的供应也在同步增加 。 相信 AI 研究对环境的破坏将愈发轻微 。
  • 模型交付:这些庞大的模型很难在消费级或边缘设备上运行 , 所以真正的规模部署只能通过互联网访问或精简版本实现——不过二者目前各有问题 。
发展现状
自然语言建模排行榜中的主力仍然是千亿级模型 , 毕竟万亿级参数的处理难度实在太高 。

推荐阅读