参数|零样本性能超越小样本,谷歌1370亿参数新模型比GPT-3更强

机器之心报道
机器之心编辑部

在 NLP 领域 , pretrain-finetune 和 prompt-tuning 技术能够提升 GPT-3 等大模型在各类任务上的性能 , 但这类大模型在零样本学习任务中的表现依然不突出 。 为了进一步挖掘零样本场景下的模型性能 , 谷歌 Quoc Le 等研究者训练了一个参数量为 1370 亿的自回归语言模型 Base LM , 并在其中采用了全新的指令调整(instruction tuning)技术 , 结果显示 , 采用指令调整技术后的模型在自然语言推理、阅读理解和开放域问答等未见过的任务上的零样本性能超越了 GPT-3 的小样本性能 。
大规模语言模型(LM)已经被证明可以很好的应用到小样本学习任务 。 例如 OpenAI 提出的 GPT-3, 参数量达 1,750 亿 , 不仅可以更好地答题、翻译、写文章 , 还带有一些数学计算的能力等 。 在不进行微调的情况下 , 可以在多个 NLP 基准上达到最先进的性能 。
然而 , 像 GPT-3 这样的大规模语言模型在零样本(zero-shot)学习任务中表现不是很突出 。 例如 , GPT-3 在执行阅读理解、问答和自然语言推理等任务时 , 零样本的性能要比小样本(few-shot)性能差很多 。
本文中 , Quoc Le 等来自谷歌的研究者探索了一种简单的方法来提高大型语言模型在零样本情况下的性能 , 从而扩大受众范围 。 他们认为 NLP 任务可以通过自然语言指令来描述 , 例如「这部影评的情绪是正面的还是负面的?」或者「把『how are you』译成汉语」 。
该研究采用具有 137B 参数的预训练模型并执行指令调整任务 , 对 60 多个通过自然语言指令表达的 NLP 任务进行调整 。 他们将这个结果模型称为 Finetuned LANguage Net , 或 FLAN 。

参数|零样本性能超越小样本,谷歌1370亿参数新模型比GPT-3更强
文章图片

  • 论文地址:https://arxiv.org/pdf/2109.01652.pdf
  • GitHub 地址:https://github.com/google-research/flan.
为了评估 FLAN 在未知任务上的零样本性能 , 该研究根据 NLP 任务的任务类型将其分为多个集群 , 并对每个集群进行评估 , 同时在其他集群上对 FLAN 进行指令调整 。 如下图 1 所示 , 为了评估 FLAN 执行自然语言推理的能力 , 该研究在一系列其他 NLP 任务(如常识推理、翻译和情感分析)上对模型进行指令调整 。 由于此设置确保 FLAN 在指令调整中未见自然语言推理任务 , 因此可以评估其执行零样本自然语言推理的能力 。

参数|零样本性能超越小样本,谷歌1370亿参数新模型比GPT-3更强
文章图片

评估表明 , FLAN 显著提高了模型(base 137B 参数)的零样本性能 。 在 25 个评估任务中 , FLAN 零样本在 19 项任务上优于具有 175B 参数 GPT-3 零样本 , 甚至在许多任务(如 ANLI、RTE、BoolQ、AI2-ARC、OpenbookQA 和 StoryCloze)上也显著优于 GPT-3 小样本 。 在消融研究中 , 研究发现在指令调整中增加任务集群的数量 , 可以提高模型在未见过的任务的性能 , 并且指令调整的好处只有在模型规模足够大的情况下才会出现 。

推荐阅读