大模型的预训练处理的基本处理方式:

  • 1 将数据进行编码后存入多个np.memap中
  • 2 读取时通过索引偏移量进行读取

大模型预训练数据处理基本共识:

  • 1 每一个文本的末尾需要加上eos_token
  • 2 将文本都拼接起来后存入np.memap文件中
  • 3 训练时,每隔seq_len_max作为chunk_size取出进行训练(故大模型预训练数据统一为seq_len_max size长度大小)。
  • 4 最佳global_token_size 为4M