全世界|吴恩达的2021回顾,这些大事件影响了AI这一年( 三 )
北京人工智能研究院则回敬以包含 1.75 万亿参数的悟道 2.0 。
重要标杆
单纯拉高模型参数并没什么特别 。 但随着处理能力和数据源的增长 , 深度学习开始真正确立起“越大越好”的发展原则 。
财力雄厚的 AI 厂商正以狂热的速度堆积参数 , 既要提高性能、又要展示“肌肉” 。 特别是在语言模型方面 , 互联网厂商为无监督和半监督预训练提供了大量未经标记的数据 。
2018 年以来 , 这场参数层面的军备竞赛已经从 BERT(1.1 亿)、GPT-2(15 亿)、MegatronLM(83 亿)、Turing-NLG(170 亿)、GPT-3(1750 亿)一路走来 , 如今终于迈过了万亿级大关 。
挺好 , 但是……
模型的膨胀路线也带来了新的挑战 。 愈发庞大的模型令开发者们面临四大严酷障碍 。
- 数据:大型模型需要吸纳大量数据 , 但网络和数字图书馆等传统数据源往往提供不了这么多高质量素材 。 例如 , 研究人员常用的 BookCorpus 是一套包含 11000 本电子书的数据集 , 之前已被用于训练 30 多种大型语言模型;但其中包含某些宗教偏见 , 因为内容主要讨论基督教和伊斯兰教义 , 对其他宗教几无涉及 。
- 速度:如今的硬件仍难以处理大体量模型 , 当数据反复出入内存时 , 模型的训练和推理速度都会受到严重影响 。
另外 , 微软开发的 DeepSpeed 库则选择了并行处理数据、各层及层组的路线 , 并通过在 CPU 和 GPU 间划分任务以减少处理冗余 。
- 能耗:训练如此庞大的网络会消耗大量电能 。 2019 年的一项研究发现 , 在 8 个英伟达 P100 GPU 上训练一个包含 2 亿参数的 transformer 模型所造成的碳排放(以化石燃料发电计算) , 相当于一辆普通汽车五年的行驶总排放量 。
- 模型交付:这些庞大的模型很难在消费级或边缘设备上运行 , 所以真正的规模部署只能通过互联网访问或精简版本实现——不过二者目前各有问题 。
自然语言建模排行榜中的主力仍然是千亿级模型 , 毕竟万亿级参数的处理难度实在太高 。
推荐阅读
- 创事记|圈层社交的高光与隐忧:小天才电话手表会跑偏吗?
- 年味|冬奥会闭环的年味
- 新浪汽车|特斯拉回应ModelY起火:被旁边充电中的网约车引燃
- 斯达|汉威科技:目前能斯达的电子皮肤已有小批量商用
- IT|供应链受阻及检疫导致人手短缺 全球11月航空货运的增长大幅放缓
- 架构|一“融”解千愁,SASE因何成为未来网络安全的新范式?
- 市场|圈层社交的高光与隐忧:小天才电话手表真能挑战腾讯?
- 巨头|“假装”:硅谷科技巨头不愿言说的思想起源
- 市场|圈层社交的高光与隐忧:小天才电话手表会跑偏吗?
- 财联社|难逃反垄断制裁 美国法院驳回Facebook对FTC的反击