大模型预训练

OLMO预训练数据处理

By crabboss 2024 年 7 月 5 日

大模型的预训练处理的基本处理方式：

1 将数据进行编码后存入多个np.memap中
2 读取时通过索引偏移量进行读取

大模型预训练数据处理基本共识：

1 每一个文本的末尾需要加上eos_token
2 将文本都拼接起来后存入np.memap文件中
3 训练时，每隔seq_len_max作为chunk_size取出进行训练（故大模型预训练数据统一为seq_len_max size长度大小）。
4 最佳global_token_size 为4M

By crabboss

大模型预训练

OLMO预训练初探

crabboss 2024 年 7 月 5 日

大模型预训练

如何从零训练一个多模态大模型

crabboss 2024 年 6 月 30 日

大模型预训练

MiniCPM：揭示端侧大语言模型的无限潜力报告读后记录

crabboss 2024 年 6 月 28 日

大模型大模型基础

大模型分布式入门

大模型大模型量化

大模型量化入门

大模型大模型基础

优化器的进化之旅

大模型大模型基础

FlashAttention – 原理解析