Skip to content

[Question]: 训练速度过慢 #285

@TianzeXie

Description

@TianzeXie

Question 训练速度过慢

我正在使用qwen3作为基模,基于你们提供的vlnce数据集和示例代码进行训练(我对代码简单做了一些qwen3 api兼容)。torch为2.8 cuda为12.8.
我当前使用4张h100,单卡batchsize为2,两个epoch总共需要783608个step,这是对的吗?我单step训练时间为3秒(有时会卡一下到10-20秒之间),这正常吗?

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions