全世界|吴恩达的2021回顾，这些大事件影响了AI这一年( 二 ) 人工智能|文本|大事件|图像|的

在科技领域，远程办公与线上会议贯穿了这整整一年。 AI 社区则继续努力弥合整个世界，推进机器学习发展，同时加强其造福各行各业的能力。
这一次，我们希望重点展望 2022 年及之后 AI 技术的发展前景。
多模态 AI 的起飞
虽然 GPT-3 和 EfficientNet 等单独针对文本及图像等任务的深度学习模型备受瞩目，但这一年中最令人印象深刻的还是， AI 模型在发现许可证与图像间关系中取得了进步。
背景信息
OpenAI 通过 CLIP（实现图像与文本匹配）与 Dall·E（根据输入文本生成对应图像）开启了多模式学习的开端；DeepMind 的 Perceiver IO 则着手对文本、图像、视频及点云进行分类；斯坦福大学的 ConVIRT 尝试为医学 X 射线影像添加文本标签。
重要标杆
【全世界|吴恩达的2021回顾，这些大事件影响了AI这一年】虽然这些新的多模式系统大多处于实验阶段，但也已经在实际应用中取得突破。

开源社区将 CLIP 与生成对抗网络（GAN）相结合，开发出引人注目的数字艺术作品。艺术家 Martin O’Leary 使用 Samuel Coleridge 的史诗作品《忽必烈大汗》为输入，生成了充满迷幻色彩的“Sinuous Rills” 。
Facebook 表示其多模式仇恨言论检测器能够标记并删除掉社交网络上 97% 的辱骂及有害内容。该系统能够根据文本、图像及视频等 10 种数据类型将模因与其他图像 - 文本对准确划分为“良性”或“有害” 。
谷歌表示已经在搜索引擎中添加了多模式（及多语言）功能。其多任务统一模型能够返回文本、音频、图像及视频链接，用以响应由 75 种语言提交的各类查询。

新闻背后
今年的多模态发展态势源自几十年来坚实的研究基础。
早在 1989 年，约翰霍普金斯大学和加州大学圣迭戈分校的研究人员就开发出一种基于元音的分类系统，用以识别人类语音中的音频与视觉数据。
接下来的二十年间，更多研究小组先后尝试过数字视频库索引及基于证据 / 视觉数据的人类情绪分类等多模式应用方案。
发展现状
图像与文本如此复杂，因此研究人员在很长一段时间内只能专注于其中一种。在此期间，他们开发出多种不同技术成果。
但过去十年中，计算机视觉与自然语言处理已经在神经网络中得到有效融合，也让二者的最终合璧成为可能 —— 甚至音频集成也获得了参与的空间。
万亿级参数
过去一年，模型经历了从大到更大的发展历程。
背景信息：
谷歌用 Switch Transformer 拉开了 2021 年的序幕，这是人类历史上首个拥有万亿级参数的模型，总量达 1.6 万亿。