Skip to content

是否测试过微调模型随着SFT的step的性能变化? #105

@Fu-Fu-Fu-Fu

Description

@Fu-Fu-Fu-Fu

我利用您的SFT数据对Qwen2.5vl-7b进行SFT微调,在一些benchmark例如MMVU上,模型性能并非是随着step的增大越来越好,反而在2000step之前是逐渐下降,2000以后性能有所回升,但是仍然存在波动,batchsize为64。请问这种是正常的吗?因为我看到有人确实提到过针对qwen的模型,SFT确实很容易掉分

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions