cr7258
码龄8年
求更新 关注
提问 私信
  • 博客:273,713
    273,713
    总访问量
  • 112
    原创
  • 318
    粉丝
  • 61
    关注
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:上海市
加入CSDN时间: 2017-08-10
博客简介:

cr7258的博客

查看详细资料
个人成就
  • 获得713次点赞
  • 内容获得57次评论
  • 获得1,334次收藏
  • 代码片获得3,575次分享
  • 博客总排名27,412名
  • 原力等级
    原力等级
    5
    原力分
    1,315
    本月获得
    4
创作历程
  • 21篇
    2025年
  • 3篇
    2024年
  • 8篇
    2023年
  • 18篇
    2022年
  • 63篇
    2021年
成就勋章
TA的专栏
  • AI
    3篇
  • MySQL
    4篇
  • Linux
    1篇
  • 大数据
    15篇
  • Canal
    3篇
  • Nginx
    4篇
  • Java
    4篇
  • Docker
    4篇
  • CloudNative
    11篇
  • Elastic
    11篇
  • Kubernetes
    16篇
  • SpringCloud
    2篇
  • Redis
    3篇
  • 数据结构与算法
    1篇
  • DevOps
    2篇
  • Graph
    1篇
  • 监控
    1篇
  • HTTP
    1篇
  • Security
    1篇

TA关注的专栏 6

TA关注的收藏夹 0

TA关注的社区 1

TA参与的活动 0

兴趣领域 设置
  • 运维
    devops自动化kubernetes网络运维开发
创作活动更多

AI 镜像开发实战征文活动

随着人工智能技术的飞速发展,AI 镜像开发逐渐成为技术领域的热点之一。Stable Diffusion 3.5 FP8 作为强大的文生图模型,为开发者提供了更高效的图像生成解决方案。为了推动 AI 镜像开发技术的交流与创新,我们特此发起本次征文活动,诚邀广大开发者分享在 Stable Diffusion 3.5 FP8 文生图方向的实战经验和创新应用 本次征文活动鼓励开发者围绕 Stable Diffusion 3.5 FP8 文生图方向,分享以下方面的内容: 1. 技术实践与优化 - Stable Diffusion 3.5 FP8 模型架构解析与优化技巧 - 文生图生成效果的提升方法与技巧 - 模型部署与加速策略,例如使用 Hugging Face、Diffusers 等工具 - 针对特定场景(例如二次元、写实风)的模型微调与定制化开发 2. 应用场景探索 - Stable Diffusion 3.5 FP8 在不同领域的应用案例分享,例如游戏设计、广告创意、艺术创作等 - 利用 Stable Diffusion 3.5 FP8 实现图像编辑、图像修复、图像增强等功能的探索 - 结合其他 AI 技术(例如 NLP、语音识别)构建更强大的应用 3. 创新应用与思考 - 基于 Stable Diffusion 3.5 FP8 的创新应用场景设计 - AI 镜像开发的未来发展方向的思考与展望 - 对 AI 镜像开发伦理、安全等问题的探讨

28人参与 去参加
  • 最近
  • 文章
  • 专栏
  • 代码仓
  • 资源
  • 收藏
  • 关注/订阅/互动
更多
  • 最近

  • 文章

  • 专栏

  • 代码仓

  • 资源

  • 收藏

  • 关注/订阅/互动

  • 社区

  • 帖子

  • 问答

  • 课程

  • 视频

搜索 取消

PD 分离推理架构详解

PD 分离大模型推理中的一种架构优化策略,核心思想是把 prefill 阶段和 decode 阶段分开,由不同的 GPU 或实例分别承担。通过分离架构,系统可以针对 prefill(计算密集型)和 decode(内存密集型)的不同特性分别优化资源配置和并行策略,从而在满足 TTFT 和 TPOT SLO 约束的前提下显著提升有效吞吐量(Goodput)。虽然 PD 分离需要在 GPU 间传输 KV Cache,但通过高速互联网络和优化的传输策略,这一开销可以被有效隐藏。
原创
博文更新于 2025.09.21 ·
2876 阅读 ·
26 点赞 ·
0 评论 ·
32 收藏

使用 NVIDIA Dynamo 部署 PD 分离推理服务

NVIDIA Dynamo 是一个开源的模块化推理框架,用于在分布式环境上实现生成式 AI 模型的服务化部署。Dynamo 通过动态资源调度、智能路由、内存优化与高速数据传输,无缝扩展大型 GPU 集群之间的推理工作负载。:一个智能规划和调度引擎,用于监控分布式推理中的容量与延迟,并在 prefill 与 decode 阶段之间灵活分配 GPU 资源,以最大化吞吐量和效率。
原创
博文更新于 2025.09.15 ·
1290 阅读 ·
30 点赞 ·
0 评论 ·
26 收藏

Chunked-Prefills 分块预填充机制详解

文章介绍了大模型推理中 prefill 与 decode 阶段在资源利用上的差异所带来的调度挑战,并回顾了从 Static Batching 到 Continuous Batching 的策略演进。为解决传统静态或迭代调度中存在的资源浪费与延迟问题,Sarathi-Serve 提出了 chunked-prefills 和 stall-free scheduling 机制,通过将长 prompt 拆分为多个小块,并与 decode 请求混合调度,从而实现高吞吐与低延迟的平衡。
原创
博文更新于 2025.07.14 ·
1711 阅读 ·
24 点赞 ·
0 评论 ·
24 收藏

Dify + OceanBase + MCP:三剑合璧,轻松构建 RAG 应用

本文详细介绍如何结合 Dify、OceanBase 和 MCP 从零开始构建一个功能完备的 RAG 应用。教程涵盖了从部署环境、创建知识库、到构建聊天助手并进行调试的全过程。最后,文章还演示了如何将 Dify 应用转化为一个标准的 MCP Server,使其能被外部客户端调用,从而极大地扩展了 AI 应用的集成与协作能力。
原创
博文更新于 2025.06.28 ·
1327 阅读 ·
8 点赞 ·
0 评论 ·
22 收藏

Speculative Decoding 推测解码方案详解

本文系统介绍了从早期草稿模型方法、Prompt Lookup 到 Jacobi Decoding、Lookahead、Medusa,再到当前速度领先的 EAGLE 等多种方案。
原创
博文更新于 2025.06.23 ·
1605 阅读 ·
21 点赞 ·
0 评论 ·
20 收藏

使用 Higress AI 网关代理 vLLM 推理服务

本文介绍了如何借助 llmaz 快速部署基于 vLLM 的大语言模型推理服务,并结合 Higress AI 网关 实现服务代理、流量调度、可观测性和 Fallback 等关键能力。
原创
博文更新于 2025.06.13 ·
1259 阅读 ·
29 点赞 ·
0 评论 ·
27 收藏

Prefix Caching 详解:实现 KV Cache 的跨请求高效复用

前缀缓存(Prefix Caching)是一种大语言模型推理优化技术,它的核心思想是缓存历史对话中的 KV Cache,以便后续请求能直接重用这些中间结果。这样可以显著降低首 token 延迟,提升整体推理效率。Prefix Caching 尤其适用于多轮对话、长文档问答等高前缀复用场景。Few-shot learning(少样本学习):多个请求都包含相同的 few-shot 示例部分,只是最后的问题不同。
原创
博文更新于 2025.06.08 ·
2904 阅读 ·
26 点赞 ·
1 评论 ·
29 收藏

使用 Run:ai Model Streamer 实现模型的高效加载

的底层采用高性能的 C++ 实现,旨在加速将模型加载到 GPU 的过程,支持来自各种存储类型(如网络文件系统、S3、本地磁盘等)的模型文件。除了性能之外,Run:ai Model Streamer 还提供了 Python SDK,方便集成到现有的推理引擎中(如 vLLM)。Run:ai Model Streamer 通过使用多线程机制,同时从文件中读取张量数据并将其加载到 CPU 内存中的专用缓冲区中。
原创
博文更新于 2025.06.05 ·
862 阅读 ·
14 点赞 ·
0 评论 ·
16 收藏

OpenTelemetry × Elastic Observability 系列(一):整体架构介绍

本文介绍了 OpenTelemetry Demo 的整体架构,并演示了如何借助 Elastic Observability 实现链路追踪、日志与指标的统一观测。这是 OpenTelemetry × Elastic Observability 实践系列的第一篇文章,在后续的文章中,我们将深入探讨不同编程语言(如 Java、Go、Node.js 和 Python)的 OpenTelemetry 集成实践。
原创
博文更新于 2025.05.30 ·
1226 阅读 ·
12 点赞 ·
0 评论 ·
29 收藏

vLLM 核心技术 PagedAttention 原理详解

本文系统梳理了 vLLM 核心技术 PagedAttention 的设计理念与实现机制。文章从 KV Cache 在推理中的关键作用与内存管理挑战切入,介绍了 vLLM 在请求调度、分布式执行及 GPU kernel 优化等方面的核心改进。PagedAttention 通过分页机制与动态映射,有效提升了显存利用率,使 vLLM 在保持低延迟的同时显著提升了吞吐能力。
原创
博文更新于 2025.05.27 ·
1048 阅读 ·
30 点赞 ·
0 评论 ·
9 收藏

AI 推理 | vLLM 快速部署指南

vLLM 是一个高效、易用的大语言模型(LLM)推理和服务框架,专注于优化推理速度和吞吐量,尤其适合高并发的生产环境。它由加州大学伯克利分校的研究团队开发,并因其出色的性能成为当前最受欢迎的 LLM 推理引擎之一。vLLM 同时支持在 GPU 和 CPU 上运行,本文将会分别介绍 vLLM 使用 GPU 和 CPU 作为后端时的安装与运行方法。本文系统介绍了高性能 LLM 推理框架 vLLM 的部署实践,涵盖环境准备、GPU/CPU 后端配置、离线推理与在线推理部署等环节。
原创
博文更新于 2025.05.12 ·
2020 阅读 ·
26 点赞 ·
0 评论 ·
32 收藏

AI 乱写代码怎么破?使用 Context7 MCP Server 让 AI 写出靠谱代码!

本文通过实际案例演示了如何利用 Context7 MCP Server 解决 AI 编程助手中的代码幻觉问题和使用过时 API 的问题。借助 Context7 获取最新、最准确的代码建议,显著提升了 AI 生成的代码质量,从而有效提高了开发效率。
原创
博文更新于 2025.04.28 ·
3820 阅读 ·
11 点赞 ·
0 评论 ·
29 收藏

使用 LangChain + Higress + Elasticsearch 构建 RAG 应用

Higress 是一款云原生 API 网关,内核基于 Istio 和 Envoy,可以用 Go/Rust/JS 等编写 Wasm 插件,提供了数十个现成的通用插件。Higress 同时也能够作为 AI 网关,通过统一的协议对接国内外所有 LLM 模型厂商,同时具备丰富的 AI 可观测、多模型负载均衡/fallback、AI token 流控、AI 缓存等能力。Elasticsearch 是一个分布式搜索与分析引擎,广泛用于全文检索、日志分析和实时数据处理。
原创
博文更新于 2025.04.22 ·
1247 阅读 ·
7 点赞 ·
0 评论 ·
11 收藏

为 Kubernetes 提供智能的 LLM 推理路由:Gateway API Inference Extension 深度解析

Gateway API Inference Extension 为 Kubernetes 上的 LLM 推理服务提供了专业化的流量路由解决方案。通过模型感知路由、服务优先级和智能负载均衡等特性,它有效提高了 GPU 资源利用率,降低了推理延迟。
原创
博文更新于 2025.04.10 ·
1577 阅读 ·
29 点赞 ·
0 评论 ·
25 收藏

一键部署 GPU Kind 集群,体验 vLLM 极速推理

本文介绍了如何通过一键脚本在本地快速搭建支持 GPU 的 Kind 集群,适用于大模型的开发与测试场景。利用 nvkind 工具,可以轻松实现多节点 GPU 资源分配,并结合 vLLM 成功部署了模型。
原创
博文更新于 2025.03.22 ·
1351 阅读 ·
10 点赞 ·
0 评论 ·
25 收藏

提升 AI 服务的稳定性:Higress AI 网关的降级功能介绍

本文重点介绍了 Higress AI 网关的模型降级和令牌降级功能。在 LLM 服务不可用时,模型降级功能能自动切换到备用 LLM,确保业务连续性。而令牌降级功能则通过健康检查机制,自动移除不可用的 ApiToken,并在恢复后重新加入,从而提升服务的稳定性和用户体验。
原创
博文更新于 2025.02.22 ·
1548 阅读 ·
14 点赞 ·
0 评论 ·
22 收藏

AI 网关对决:Higress 与 OneAPI 的功能对比

AI 网关旨在统一管理与各种大型语言模型(LLMs)的交互。通过提供单一入口点,它解决了使用来自不同供应商的多个 AI 模型所带来的复杂性问题。这不仅简化了访问流程,提高了系统稳定性,还降低了成本,并灵活地利用了不同模型的优势。OneAPI是一个开源的 LLM API 管理 & 分发系统,可以帮助统一管理和转发各类大语言模型(如 DeepSeek 等)的 API 请求。它提供了一个兼容 OpenAI API 格式的统一接口,让用户能够方便地切换和管理不同的 AI 模型服务,同时支持令牌管理、负载均衡等功能。
原创
博文更新于 2025.02.13 ·
2196 阅读 ·
29 点赞 ·
0 评论 ·
24 收藏

构建基于 SSE 协议通信的 MCP Server 和 Client

Server-Sent Events(SSE,服务器发送事件)是一种基于 HTTP 协议的技术,允许服务器向客户端单向、实时地推送数据。在 SSE 模式下,客户端通过创建一个对象与服务器建立持久连接,服务器则通过该连接持续发送数据流,而无需客户端反复发送请求。SSE 的主要特点包括:单向通信:服务器主动向客户端推送数据,客户端无法通过同一连接向服务器发送数据。基于 HTTP 协议:利用现有的 HTTP 协议,无需额外的协议支持,易于实现和部署。轻量级。
原创
博文更新于 2025.02.09 ·
5773 阅读 ·
23 点赞 ·
1 评论 ·
30 收藏

快速上手:实现你的第一个 MCP Client

本文介绍了如何使用 MCP Python SDK 编写一个 MCP 客户端,并集成 LLM 来实现灵活的工具调用和数据处理。通过简单的示例和进阶示例,展示了如何通过标准输入输出(stdio)方式与 MCP 服务器建立连接,并集成 LLM(如通义千问)来实现更复杂的应用场景。
原创
博文更新于 2025.02.03 ·
9780 阅读 ·
17 点赞 ·
2 评论 ·
61 收藏

MCP Server 开发实战:无缝对接 LLM 和 Elasticsearch

本教程通过构建一个 Elasticsearch MCP Server 的实例,展示了如何利用 MCP 协议的三个核心原语(Tool、Resource 和 Prompt)来增强 LLM 的能力。通过 Tool 实现了索引操作和文档写入,通过 Resource 提供数据的访问能力,而 Prompt 则帮助 LLM 以标准化的方式完成任务。最后通过一个实际的组合示例,演示了如何让 LLM 利用这些组件完成更复杂的数据处理任务,充分体现了 MCP 在提升 LLM 应用开发效率方面的优势。
原创
博文更新于 2025.01.23 ·
7286 阅读 ·
39 点赞 ·
0 评论 ·
28 收藏
加载更多