Skip to content

PaddlePaddle/FastDeploy

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

English | 简体中文

PaddlePaddle%2FFastDeploy | Trendshift
安装指导 | 快速入门 | 支持模型列表


FastDeploy :基于飞桨的大语言模型与视觉语言模型推理部署工具包

最新活动

[2025-11] 🔥FastDeploy v2.3-rc0 PaddleOCR-VL 0.9B推理性能专项优化发布,相比vLLM吞吐提升35%部署指南

[2025-09] FastDeploy v2.2 全新发布: HuggingFace生态模型兼容,性能进一步优化,更新增对baidu/ERNIE-21B-A3B-Thinking支持!

[2025-08] FastDeploy v2.1 发布:全新的KV Cache调度策略,更多模型支持PD分离和CUDA Graph,昆仑、海光等更多硬件支持增强,全方面优化服务和推理引擎的性能。

关于

FastDeploy 是基于飞桨(PaddlePaddle)的大语言模型(LLM)与视觉语言模型(VLM)推理部署工具包,提供开箱即用的生产级部署方案,核心技术特性包括:

  • 🚀 负载均衡式PD分解:工业级解决方案,支持上下文缓存与动态实例角色切换,在保障SLO达标和吞吐量的同时优化资源利用率
  • 🔄 统一KV缓存传输:轻量级高性能传输库,支持智能NVLink/RDMA选择
  • 🤝 OpenAI API服务与vLLM兼容:单命令部署,兼容vLLM接口
  • 🧮 全量化格式支持:W8A16、W8A8、W4A16、W4A8、W2A16、FP8等
  • 高级加速技术:推测解码、多令牌预测(MTP)及分块预填充
  • 🖥️ 多硬件支持:NVIDIA GPU、昆仑芯XPU、海光DCU、昇腾NPU、天数智芯GPU、燧原GCU、沐曦GPU、英特尔Gaudi等

要求

  • 操作系统: Linux
  • Python: 3.10 ~ 3.12

安装

FastDeploy 支持在英伟达(NVIDIA)GPU昆仑芯(Kunlunxin)XPU天数(Iluvatar)GPU燧原(Enflame)GCU海光(Hygon)DCU 以及其他硬件上进行推理部署。详细安装说明如下:

注意: 我们正在积极拓展硬件支持范围。目前,包括昇腾(Ascend)NPU 等其他硬件平台正在开发测试中。敬请关注更新!

入门指南

通过我们的文档了解如何使用 FastDeploy:

支持模型列表

通过我们的文档了解如何下载模型,如何支持torch格式等:

进阶用法

致谢

FastDeploy 依据 Apache-2.0 开源许可证. 进行授权。在开发过程中,我们参考并借鉴了 vLLM 的部分代码,以保持接口兼容性,在此表示衷心感谢。