Weak-to-Strong Extrapolation Expedites Alignment

开源模型提升性能需要大量的算力和数据,那么有没有办法可以绕过额外的算力消耗即可得到一个更好的对齐模型呢?

答案就是ExPO。

对初始SFT的梯度检查点和对齐的模型权重(DPO or PPO)进行外插,得到一个全新的对齐模型,该模型在AlpacaEval 2.0 and MT-Bench的测试中取得良好成绩,并且在1.8B to 70B的模型中都表现良好。

1 模型内插

之前的工作都已经发现了,如果融合两个模型,最后融合后的模型性能大概在两个模型的中间。

2 模型外插

既然模型0和模型2内插得到的模型1性能在模型0和模型2之间,如果此时模型0为sft模型,模型1为dpo模型,则模型2为更好的对齐模型。

这意味着模型2在模型0和模型1的右侧,即需要模型外插。

3 实验结果