继续预训练不可避免会遇到灾难遗忘问题,以下是解决灾难遗忘的小技巧:

  • 1 加入通用语料进行训练
  • 2 调整超参数,例如学习率
  • 3 数据筛选(选择高质量数据)

根据论文《Efficient Continual Pre-training for Building Domain Specific Large Language Models》数据筛选有大致以下三点:

  • 1 相似度筛选(相似度越高越好)
  • 2 PPL(困惑度)筛选(PPL越大越好)
  • 3 词性熵筛选(熵越大越好)

我们继续来叙述一下以上三种方法:

  • 1 首先相似度筛选非常符合直觉,如果我们要继续预训练一个金融大模型,那么我们的数据可以使用m3e或者bge这种编码模型计算相似度,这样获得的数据和任务高度相关。
  • 2 PPL筛选似乎不是很可靠,从数据筛选角度来说PPL越大,这些数据越可能相对大模型来说是新数据,但是从某种角度来说,可能只是这部分数据质量太低。
  • 3 词性熵越大代表文本的多样性更高,文本质量更高。