cr7258-CSDN博客

cr7258

码龄8年

273,713

总访问量
112

原创
318

粉丝
61

关注

IP 属地：上海市

加入CSDN时间： 2017-08-10

查看详细资料

个人成就

获得713次点赞
内容获得57次评论
获得1,334次收藏
代码片获得3,575次分享
博客总排名27,412名
原力等级

原力等级

5

原力分

1,315

本月获得

4

TA的专栏

AI
3篇
MySQL
4篇
Linux
1篇
大数据
15篇
Canal
3篇
Nginx
4篇
Java
4篇
Docker
4篇
CloudNative
11篇
Elastic
11篇
Kubernetes
16篇
SpringCloud
2篇
Redis
3篇
数据结构与算法
1篇
DevOps
2篇
Graph
1篇
监控
1篇
HTTP
1篇
Security
1篇

TA关注的专栏 6

TA关注的收藏夹 0

TA关注的社区 1

TA参与的活动 0

兴趣领域设置

运维

devops自动化kubernetes网络运维开发

创作活动更多

AI 镜像开发实战征文活动

随着人工智能技术的飞速发展，AI 镜像开发逐渐成为技术领域的热点之一。Stable Diffusion 3.5 FP8 作为强大的文生图模型，为开发者提供了更高效的图像生成解决方案。为了推动 AI 镜像开发技术的交流与创新，我们特此发起本次征文活动，诚邀广大开发者分享在 Stable Diffusion 3.5 FP8 文生图方向的实战经验和创新应用本次征文活动鼓励开发者围绕 Stable Diffusion 3.5 FP8 文生图方向，分享以下方面的内容： 1. 技术实践与优化 - Stable Diffusion 3.5 FP8 模型架构解析与优化技巧 - 文生图生成效果的提升方法与技巧 - 模型部署与加速策略，例如使用 Hugging Face、Diffusers 等工具 - 针对特定场景（例如二次元、写实风）的模型微调与定制化开发 2. 应用场景探索 - Stable Diffusion 3.5 FP8 在不同领域的应用案例分享，例如游戏设计、广告创意、艺术创作等 - 利用 Stable Diffusion 3.5 FP8 实现图像编辑、图像修复、图像增强等功能的探索 - 结合其他 AI 技术（例如 NLP、语音识别）构建更强大的应用 3. 创新应用与思考 - 基于 Stable Diffusion 3.5 FP8 的创新应用场景设计 - AI 镜像开发的未来发展方向的思考与展望 - 对 AI 镜像开发伦理、安全等问题的探讨

28人参与去参加

更多

PD 分离推理架构详解

PD 分离大模型推理中的一种架构优化策略，核心思想是把 prefill 阶段和 decode 阶段分开，由不同的 GPU 或实例分别承担。通过分离架构，系统可以针对 prefill（计算密集型）和 decode（内存密集型）的不同特性分别优化资源配置和并行策略，从而在满足 TTFT 和 TPOT SLO 约束的前提下显著提升有效吞吐量（Goodput）。虽然 PD 分离需要在 GPU 间传输 KV Cache，但通过高速互联网络和优化的传输策略，这一开销可以被有效隐藏。

博文更新于 2025.09.21 ·

使用 NVIDIA Dynamo 部署 PD 分离推理服务

NVIDIA Dynamo 是一个开源的模块化推理框架，用于在分布式环境上实现生成式 AI 模型的服务化部署。Dynamo 通过动态资源调度、智能路由、内存优化与高速数据传输，无缝扩展大型 GPU 集群之间的推理工作负载。：一个智能规划和调度引擎，用于监控分布式推理中的容量与延迟，并在 prefill 与 decode 阶段之间灵活分配 GPU 资源，以最大化吞吐量和效率。

博文更新于 2025.09.15 ·

Chunked-Prefills 分块预填充机制详解

文章介绍了大模型推理中 prefill 与 decode 阶段在资源利用上的差异所带来的调度挑战，并回顾了从 Static Batching 到 Continuous Batching 的策略演进。为解决传统静态或迭代调度中存在的资源浪费与延迟问题，Sarathi-Serve 提出了 chunked-prefills 和 stall-free scheduling 机制，通过将长 prompt 拆分为多个小块，并与 decode 请求混合调度，从而实现高吞吐与低延迟的平衡。

博文更新于 2025.07.14 ·

Dify + OceanBase + MCP：三剑合璧，轻松构建 RAG 应用

本文详细介绍如何结合 Dify、OceanBase 和 MCP 从零开始构建一个功能完备的 RAG 应用。教程涵盖了从部署环境、创建知识库、到构建聊天助手并进行调试的全过程。最后，文章还演示了如何将 Dify 应用转化为一个标准的 MCP Server，使其能被外部客户端调用，从而极大地扩展了 AI 应用的集成与协作能力。

博文更新于 2025.06.28 ·

Speculative Decoding 推测解码方案详解

本文系统介绍了从早期草稿模型方法、Prompt Lookup 到 Jacobi Decoding、Lookahead、Medusa，再到当前速度领先的 EAGLE 等多种方案。

博文更新于 2025.06.23 ·

使用 Higress AI 网关代理 vLLM 推理服务

本文介绍了如何借助 llmaz 快速部署基于 vLLM 的大语言模型推理服务，并结合 Higress AI 网关实现服务代理、流量调度、可观测性和 Fallback 等关键能力。

博文更新于 2025.06.13 ·

Prefix Caching 详解：实现 KV Cache 的跨请求高效复用

前缀缓存（Prefix Caching）是一种大语言模型推理优化技术，它的核心思想是缓存历史对话中的 KV Cache，以便后续请求能直接重用这些中间结果。这样可以显著降低首 token 延迟，提升整体推理效率。Prefix Caching 尤其适用于多轮对话、长文档问答等高前缀复用场景。Few-shot learning（少样本学习）：多个请求都包含相同的 few-shot 示例部分，只是最后的问题不同。

博文更新于 2025.06.08 ·

使用 Run:ai Model Streamer 实现模型的高效加载

的底层采用高性能的 C++ 实现，旨在加速将模型加载到 GPU 的过程，支持来自各种存储类型（如网络文件系统、S3、本地磁盘等）的模型文件。除了性能之外，Run:ai Model Streamer 还提供了 Python SDK，方便集成到现有的推理引擎中（如 vLLM）。Run:ai Model Streamer 通过使用多线程机制，同时从文件中读取张量数据并将其加载到 CPU 内存中的专用缓冲区中。

博文更新于 2025.06.05 ·

OpenTelemetry × Elastic Observability 系列（一）：整体架构介绍

本文介绍了 OpenTelemetry Demo 的整体架构，并演示了如何借助 Elastic Observability 实现链路追踪、日志与指标的统一观测。这是 OpenTelemetry × Elastic Observability 实践系列的第一篇文章，在后续的文章中，我们将深入探讨不同编程语言（如 Java、Go、Node.js 和 Python）的 OpenTelemetry 集成实践。

博文更新于 2025.05.30 ·

vLLM 核心技术 PagedAttention 原理详解

本文系统梳理了 vLLM 核心技术 PagedAttention 的设计理念与实现机制。文章从 KV Cache 在推理中的关键作用与内存管理挑战切入，介绍了 vLLM 在请求调度、分布式执行及 GPU kernel 优化等方面的核心改进。PagedAttention 通过分页机制与动态映射，有效提升了显存利用率，使 vLLM 在保持低延迟的同时显著提升了吞吐能力。

博文更新于 2025.05.27 ·

AI 推理 | vLLM 快速部署指南

vLLM 是一个高效、易用的大语言模型（LLM）推理和服务框架，专注于优化推理速度和吞吐量，尤其适合高并发的生产环境。它由加州大学伯克利分校的研究团队开发，并因其出色的性能成为当前最受欢迎的 LLM 推理引擎之一。vLLM 同时支持在 GPU 和 CPU 上运行，本文将会分别介绍 vLLM 使用 GPU 和 CPU 作为后端时的安装与运行方法。本文系统介绍了高性能 LLM 推理框架 vLLM 的部署实践，涵盖环境准备、GPU/CPU 后端配置、离线推理与在线推理部署等环节。

博文更新于 2025.05.12 ·

AI 乱写代码怎么破？使用 Context7 MCP Server 让 AI 写出靠谱代码!

本文通过实际案例演示了如何利用 Context7 MCP Server 解决 AI 编程助手中的代码幻觉问题和使用过时 API 的问题。借助 Context7 获取最新、最准确的代码建议，显著提升了 AI 生成的代码质量，从而有效提高了开发效率。

博文更新于 2025.04.28 ·

使用 LangChain + Higress + Elasticsearch 构建 RAG 应用

Higress 是一款云原生 API 网关，内核基于 Istio 和 Envoy，可以用 Go/Rust/JS 等编写 Wasm 插件，提供了数十个现成的通用插件。Higress 同时也能够作为 AI 网关，通过统一的协议对接国内外所有 LLM 模型厂商，同时具备丰富的 AI 可观测、多模型负载均衡/fallback、AI token 流控、AI 缓存等能力。Elasticsearch 是一个分布式搜索与分析引擎，广泛用于全文检索、日志分析和实时数据处理。

博文更新于 2025.04.22 ·

为 Kubernetes 提供智能的 LLM 推理路由：Gateway API Inference Extension 深度解析

Gateway API Inference Extension 为 Kubernetes 上的 LLM 推理服务提供了专业化的流量路由解决方案。通过模型感知路由、服务优先级和智能负载均衡等特性，它有效提高了 GPU 资源利用率，降低了推理延迟。

博文更新于 2025.04.10 ·

一键部署 GPU Kind 集群，体验 vLLM 极速推理

本文介绍了如何通过一键脚本在本地快速搭建支持 GPU 的 Kind 集群，适用于大模型的开发与测试场景。利用 nvkind 工具，可以轻松实现多节点 GPU 资源分配，并结合 vLLM 成功部署了模型。

博文更新于 2025.03.22 ·

提升 AI 服务的稳定性：Higress AI 网关的降级功能介绍

本文重点介绍了 Higress AI 网关的模型降级和令牌降级功能。在 LLM 服务不可用时，模型降级功能能自动切换到备用 LLM，确保业务连续性。而令牌降级功能则通过健康检查机制，自动移除不可用的 ApiToken，并在恢复后重新加入，从而提升服务的稳定性和用户体验。

博文更新于 2025.02.22 ·

AI 网关对决：Higress 与 OneAPI 的功能对比

AI 网关旨在统一管理与各种大型语言模型（LLMs）的交互。通过提供单一入口点，它解决了使用来自不同供应商的多个 AI 模型所带来的复杂性问题。这不仅简化了访问流程，提高了系统稳定性，还降低了成本，并灵活地利用了不同模型的优势。OneAPI是一个开源的 LLM API 管理 & 分发系统，可以帮助统一管理和转发各类大语言模型（如 DeepSeek 等）的 API 请求。它提供了一个兼容 OpenAI API 格式的统一接口，让用户能够方便地切换和管理不同的 AI 模型服务，同时支持令牌管理、负载均衡等功能。

博文更新于 2025.02.13 ·

构建基于 SSE 协议通信的 MCP Server 和 Client

Server-Sent Events（SSE，服务器发送事件）是一种基于 HTTP 协议的技术，允许服务器向客户端单向、实时地推送数据。在 SSE 模式下，客户端通过创建一个对象与服务器建立持久连接，服务器则通过该连接持续发送数据流，而无需客户端反复发送请求。SSE 的主要特点包括：单向通信：服务器主动向客户端推送数据，客户端无法通过同一连接向服务器发送数据。基于 HTTP 协议：利用现有的 HTTP 协议，无需额外的协议支持，易于实现和部署。轻量级。

博文更新于 2025.02.09 ·

快速上手：实现你的第一个 MCP Client

本文介绍了如何使用 MCP Python SDK 编写一个 MCP 客户端，并集成 LLM 来实现灵活的工具调用和数据处理。通过简单的示例和进阶示例，展示了如何通过标准输入输出（stdio）方式与 MCP 服务器建立连接，并集成 LLM（如通义千问）来实现更复杂的应用场景。

博文更新于 2025.02.03 ·

MCP Server 开发实战：无缝对接 LLM 和 Elasticsearch

本教程通过构建一个 Elasticsearch MCP Server 的实例，展示了如何利用 MCP 协议的三个核心原语（Tool、Resource 和 Prompt）来增强 LLM 的能力。通过 Tool 实现了索引操作和文档写入，通过 Resource 提供数据的访问能力，而 Prompt 则帮助 LLM 以标准化的方式完成任务。最后通过一个实际的组合示例，演示了如何让 LLM 利用这些组件完成更复杂的数据处理任务，充分体现了 MCP 在提升 LLM 应用开发效率方面的优势。

博文更新于 2025.01.23 ·