Understanding Emergent Abilities of Language Models from the Loss Perspective

近期很多研究者开始怀疑“涌现能力只能出现在很大的模型”这一信念,因为研究者发现两个与其相悖的事实:

  • 1 较小的模型同样发现了涌现能力
  • 2 涌现能力的产生可能是评价指标的不连续(导致了涌现的突变现象)

该篇文章发现了两个很有意思的现象:

  • 1 不管多大的模型,如果预训练loss基本一致,则在下游模型的性能基本一致。
  • 2 在某些任务上,如果预训练不达到一个阈值,就处于一个乱猜的阶段。

结论:

  • 1 预训练loss可以反应模型的性能,我们更多应该关注如何使大模型在预训练过程中的loss尽可能小。
  • 2 连续性和非连续性指标都会产生涌现现象。

0 设置

预训练数据:

  • 1 webpages, wikipedia, books, and papers
  • 2 英文:中文=4:1
  • 3 BPE分词

1 model size

数据集介绍:使用了6个英文数据集和6个中文数据集。

MMLU和GSM8K与其对应的C-Eval和GSM8K-Chinese难度比较高,其他四个任务次之。

模型介绍:1.5B, 6B, and 32B models

使用预训练过程每43B token的训练点进行评测,绘制散点图。

结果:性能和预训练loss有关(当loss相同,不同model size的点聚集在一起),与model size无关。

2 tokens size

model range: 300M, to 540M, 1B, 1.5B, 3B, and to 6B

tokens range: 33B to 500B

参数设置:

结果:性能和预训练loss有关(当loss相同,不同tokens size的点聚集在一起),与tokens size无关。

3 LLaMa验证

使用LLaMa model:7B, 13B, 33B, 65B进行验证。

结论:与上述model size和tokens size实验一致。

4 metric

多项选择的ACC这种不连续的评价指标,使用正确答案的probs这种连续的评价指标。

开放回答的评价指标从EM(extract match) -> BrierScore。

结论:连续的指标一样可以观察到涌现现象。