Understanding Emergent Abilities of Language Models from the Loss Perspective
近期很多研究者开始怀疑“涌现能力只能出现在很大的模型”这一信念,因为研究者发现两个与其相悖的事实:
- 1 较小的模型同样发现了涌现能力
- 2 涌现能力的产生可能是评价指标的不连续(导致了涌现的突变现象)
该篇文章发现了两个很有意思的现象:
- 1 不管多大的模型,如果预训练loss基本一致,则在下游模型的性能基本一致。
- 2 在某些任务上,如果预训练不达到一个阈值,就处于一个乱猜的阶段。
结论:
- 1 预训练loss可以反应模型的性能,我们更多应该关注如何使大模型在预训练过程中的loss尽可能小。
- 2 连续性和非连续性指标都会产生涌现现象。
0 设置
预训练数据:
- 1 webpages, wikipedia, books, and papers
- 2 英文:中文=4:1
- 3 BPE分词
1 model size
数据集介绍:使用了6个英文数据集和6个中文数据集。
MMLU和GSM8K与其对应的C-Eval和GSM8K-Chinese难度比较高,其他四个任务次之。
模型介绍:1.5B, 6B, and 32B models
使用预训练过程每43B token的训练点进行评测,绘制散点图。
结果:性能和预训练loss有关(当loss相同,不同model size的点聚集在一起),与model size无关。
2 tokens size
model range: 300M, to 540M, 1B, 1.5B, 3B, and to 6B
tokens range: 33B to 500B
参数设置:
结果:性能和预训练loss有关(当loss相同,不同tokens size的点聚集在一起),与tokens size无关。
3 LLaMa验证
使用LLaMa model:7B, 13B, 33B, 65B进行验证。
结论:与上述model size和tokens size实验一致。
4 metric
多项选择的ACC这种不连续的评价指标,使用正确答案的probs这种连续的评价指标。
开放回答的评价指标从EM(extract match) -> BrierScore。
结论:连续的指标一样可以观察到涌现现象。