Understanding Emergent Abilities of Language Models from the Loss Perspective

近期很多研究者开始怀疑“涌现能力只能出现在很大的模型”这一信念，因为研究者发现两个与其相悖的事实：

1 较小的模型同样发现了涌现能力
2 涌现能力的产生可能是评价指标的不连续（导致了涌现的突变现象）

该篇文章发现了两个很有意思的现象：

1 不管多大的模型，如果预训练loss基本一致，则在下游模型的性能基本一致。
2 在某些任务上，如果预训练不达到一个阈值，就处于一个乱猜的阶段。

结论：

1 预训练loss可以反应模型的性能，我们更多应该关注如何使大模型在预训练过程中的loss尽可能小。
2 连续性和非连续性指标都会产生涌现现象。

0 设置

预训练数据：

1 webpages, wikipedia, books, and papers
2 英文：中文=4:1
3 BPE分词

1 model size

数据集介绍：使用了6个英文数据集和6个中文数据集。

MMLU和GSM8K与其对应的C-Eval和GSM8K-Chinese难度比较高，其他四个任务次之。

模型介绍：1.5B, 6B, and 32B models

使用预训练过程每43B token的训练点进行评测，绘制散点图。

结果：性能和预训练loss有关（当loss相同，不同model size的点聚集在一起），与model size无关。

2 tokens size

model range: 300M, to 540M, 1B, 1.5B, 3B, and to 6B

tokens range: 33B to 500B

参数设置：

结果：性能和预训练loss有关（当loss相同，不同tokens size的点聚集在一起），与tokens size无关。

3 LLaMa验证

使用LLaMa model：7B, 13B, 33B, 65B进行验证。

结论：与上述model size和tokens size实验一致。

4 metric

多项选择的ACC这种不连续的评价指标，使用正确答案的probs这种连续的评价指标。

开放回答的评价指标从EM（extract match） -> BrierScore。

结论：连续的指标一样可以观察到涌现现象。

Understanding Emergent Abilities of Language Models from the Loss Perspective

0 设置

1 model size

2 tokens size

3 LLaMa验证

4 metric

By crabboss

Related Post

You Missed

大模型分布式入门

大模型量化入门

优化器的进化之旅

FlashAttention – 原理解析

Understanding Emergent Abilities of Language Models from the Loss Perspective

0 设置

1 model size

2 tokens size

3 LLaMa验证

4 metric

By crabboss

Related Post

A Survey on Multimodal Large Language Models

You Missed

大模型分布式入门

大模型量化入门

优化器的进化之旅

FlashAttention – 原理解析