是否测试过微调模型随着SFT的step的性能变化？

我利用您的SFT数据对Qwen2.5vl-7b进行SFT微调，在一些benchmark例如MMVU上，模型性能并非是随着step的增大越来越好，反而在2000step之前是逐渐下降，2000以后性能有所回升，但是仍然存在波动，batchsize为64。请问这种是正常的吗？因为我看到有人确实提到过针对qwen的模型，SFT确实很容易掉分