大模型的预训练处理的基本处理方式:1 将数据进行编码后存入多个np.memap中2 读取时通过索引偏移量进行读取大模型预训练数据处理基本共识:1 每一个文本的末尾需要加上eos_token2 将文本都拼接起来后存入np.memap文件中3 训练时,每隔seq_len_max作为chunk_size取出进行训练(故大模型预训练数据统一为seq_len_max size长度大小)。4 最佳global_token_size 为4M 文章导航 OLMO预训练初探