我利用您的SFT数据对Qwen2.5vl-7b进行SFT微调,在一些benchmark例如MMVU上,模型性能并非是随着step的增大越来越好,反而在2000step之前是逐渐下降,2000以后性能有所回升,但是仍然存在波动,batchsize为64。请问这种是正常的吗?因为我看到有人确实提到过针对qwen的模型,SFT确实很容易掉分