大模型预训练

预训练训练参数细节探讨

By crabboss 2024 年 6 月 23 日

目前开源大模型对于预训练模型和参数也渐渐趋于一致：

1 模型设置

1 Embedding and output projection：不进行共享
2 Abs位置编码 -> RoPE
3 Pre-Norm + RMSNorm
4 Bias: 只加载qkv上，保证外推性，其他权重的bias不进行设置。
5 SwishGLU，中间hidden_size由FFN的4倍变成8/3倍（保证参数一致）。
6 MQA & FlashAttention2

2 超参数设置

1 优化器：AdamW (β1、β2和ϵ为别为0.9、0.95和1−8) or (β1、β2和ϵ为别为0.9、0.999和1−8)；
2 学习率衰减：采用余弦学习率计划，学习率会衰减到峰值的10%
3 最大学习率：3e-4，可能更大的model size会设置为1.5e-4
4 精度：BFloat16进行混合精度训练。
5 batch_size: 4M
6 上下文：4K
7 weight decay为0.1
8 dropout 0.1
9 gradient clip 1
10 warm steps: 2000 ~ 5000

3 模型和超参数设置

Yi：

InternLM2：

Qwen：

Baichuan2：

LLaMA1/2:

OLMO:

Falcon:

By crabboss

大模型预训练

OLMO预训练数据处理

crabboss 2024 年 7 月 5 日

大模型预训练

OLMO预训练初探

crabboss 2024 年 7 月 5 日

大模型预训练

如何从零训练一个多模态大模型

crabboss 2024 年 6 月 30 日

大模型大模型基础

大模型分布式入门

大模型大模型量化

大模型量化入门

大模型大模型基础

优化器的进化之旅

大模型大模型基础

FlashAttention – 原理解析