NLP杂货店
大模型训练需要数据至多,参数量之大,计算…
@减少大模型显存消耗,不过分降低模型性能…
或许大家都习惯了使用Adam和AdamW…
FlashAttention是一种利用软…
AMP – 自动混合精度,大…
Deepspeed以其良好的实用性和易用…
大模型的预训练处理的基本处理方式: 1 …
OLMO是开源社区十分活跃的选手,他们开…
在做预训练的时候发现不同的tokeniz…
有的时候transformer或者tor…