kakaZhui-CSDN博客

kakaZhui

码龄1年

IP 属地：中国

加入CSDN时间： 2024-10-12

个人简介：AI算法专家，精通大模型算法以及Agent等

查看详细资料

个人成就

获得3,784次点赞
内容获得24次评论
获得2,549次收藏
代码片获得480次分享
原力等级

原力等级

7

原力分

3,009

本月获得

135

TA的专栏

TA关注的专栏 0

TA关注的收藏夹 0

TA关注的社区 0

TA参与的活动 7

兴趣领域设置

Python

python
人工智能

语音识别自然语言处理gpt-3AudioLM

创作活动更多

AI 镜像开发实战征文活动

随着人工智能技术的飞速发展，AI 镜像开发逐渐成为技术领域的热点之一。Stable Diffusion 3.5 FP8 作为强大的文生图模型，为开发者提供了更高效的图像生成解决方案。为了推动 AI 镜像开发技术的交流与创新，我们特此发起本次征文活动，诚邀广大开发者分享在 Stable Diffusion 3.5 FP8 文生图方向的实战经验和创新应用本次征文活动鼓励开发者围绕 Stable Diffusion 3.5 FP8 文生图方向，分享以下方面的内容： 1. 技术实践与优化 - Stable Diffusion 3.5 FP8 模型架构解析与优化技巧 - 文生图生成效果的提升方法与技巧 - 模型部署与加速策略，例如使用 Hugging Face、Diffusers 等工具 - 针对特定场景（例如二次元、写实风）的模型微调与定制化开发 2. 应用场景探索 - Stable Diffusion 3.5 FP8 在不同领域的应用案例分享，例如游戏设计、广告创意、艺术创作等 - 利用 Stable Diffusion 3.5 FP8 实现图像编辑、图像修复、图像增强等功能的探索 - 结合其他 AI 技术（例如 NLP、语音识别）构建更强大的应用 3. 创新应用与思考 - 基于 Stable Diffusion 3.5 FP8 的创新应用场景设计 - AI 镜像开发的未来发展方向的思考与展望 - 对 AI 镜像开发伦理、安全等问题的探讨

33人参与去参加

更多

小米新开源 MiMo-V2-Flash：稀疏注意力+强化学习超越DeepSeek-V3.2？

在追求 AGI 的道路上，如何在保持高性能推理能力的同时，极致压缩计算成本与显存占用？小米 LLM-Core 团队最新发布的给出了一个新的角度和方案。这款拥有 309B 参数（激活参数仅 15B）的 MoE 模型，通过混合滑动窗口注意力（Hybrid SWA）轻量级多 Token 预测（MTP）以及多教师在线蒸馏（MOPD），在推理效率和复杂任务处理能力上比肩 DeepSeek-V3.2 等顶尖开源模型。

博文更新于 2025.12.17 ·

字节新论文：通过Context-Folding记忆折叠实现复杂Agent

今天一起看下字节新出论文《Scaling Long-Horizon LLM Agent via Context-Folding》。在构建长程（Long-Horizon）Agent 时，上下文窗口的线性增长与注意力的二次方开销是制约模型推理能力与运行效率的核心瓶颈。不同于传统的 RAG 或基于摘要的被动压缩，字节提出的Context-Folding 赋予了 Agent主动管理记忆的能力：通过branch和return。

博文更新于 2025.12.16 ·

解构 OpenAI 的记忆管理机制：从 “Bio Tool“ 到工程化落地

今天一起来读一篇ChatGPT Memory的逆向工程博客（https://manthanguptaa.in/posts/chatgpt_memory）。大语言模型（LLM）的无状态性（Statelessness）一直是构建个性化 Agent 的核心瓶颈，OpenAI 很早在 ChatGPT 中推出的 Memory 功能，标志着从单纯的 RAG（检索增强生成）向“主动式状态管理”的范式转移。本文将基于逆向工程视角，尝试理解ChatGPT 的bio工具机制，探讨其构建长期记忆”的智能体的设计逻辑。

博文更新于 2025.12.16 ·

深度解析 Max-Min 语义分块策略对 RAG 的重构与优化

在检索增强生成（RAG）系统的构建过程中，文档分块（Chunking）的质量直接决定了检索的精度与生成内容的连贯性。传统的固定长度或基于结构的分割方法，往往因忽略文本内在语义逻辑而导致上下文断裂或噪声引入。今天一起看下论文《Max–Min semantic chunking of documents for RAG application》，看下动态语义分块算法——Max-Min 语义分块，如何作用提升 RAG 性能的底层优化。

博文更新于 2025.12.14 ·

Jina AI “Late-Chunking“如何解决RAG的文档分块困境

文档分块（Chunking）是构建检索增强生成（RAG）系统中最基础、也最棘手的一环。长久以来，开发者们一直在“小分块（有利于检索精度）”和“大分块（有利于上下文完整性）”这对根本矛盾中艰难权衡。传统的固定大小、递归字符、甚至语义分块策略，都只是在这一矛盾体上寻找妥协点，未能从根本上解决问题。今天一起看下Jina AI提出的开源项目，它通过将检索单元与生成单元解耦，实现了在检索时精准、在生成时完整的双重目标。

博文更新于 2025.12.13 ·

【Anthropic分享博客】Anthropic 内部的 Agentic Workflow 工程实践

随着 AI 辅助编程从单纯的 “Chat” 向 “Agentic”（代理式）演进，一直都是代表一种全新的工程交互范式。本文基于 Anthropic 最新分享看Claude Code的落地案例，尝试解析 Claude Code 的技术架构逻辑、上下文管理策略（Context Management）、以及基于 MCP（Model Context Protocol）的扩展应用，并重点分析如何利用这一工具构建“人在回路”的自动化闭环，以及其对现代软件工程生命周期的重构。

博文更新于 2025.12.12 ·

【读代码】claude-mem: claude code记忆升级

在 AI Engineering 的实践中，Context Window 的限制与 Session 的无状态性一直是构建长程任务 Agent 的核心瓶颈。GitHub 开源项目 claude-mem为 Anthropic 最新的工具提供了一套基于Hook 机制与异步压缩的持久化记忆解决方案。本文将从架构设计、核心工作流、代码实现及工程启示四个维度，深度剖析这个让 AI 拥有“项目连续性”记忆方案。

博文更新于 2025.12.11 ·

生产级 Agent 的极简架构: MiniMax Mini-Agent

在 Agent 框架百花齐放的今天，一起来看下MiniMax 发布的开源项目Mini-Agent（https://github.com/MiniMax-AI/Mini-Agent)），他提供了一个独特的视角。它不仅仅是自家 M2 模型的展示 Demo，更是一套遵循“Interleaved Thinking”（交错思维）范式的参考架构。本文将从架构设计、核心代码逻辑、Context 管理策略及 MCP 协议集成四个维度，深度剖析这个轻量级但生产力极强的 Agent 框架。

博文更新于 2025.12.10 ·

【读论文】医疗RAG的精准评测与实战优化

检索增强生成（Retrieval-Augmented Generation, RAG）被普遍认为是解决大型语言模型（LLM）在医疗等高风险领域知识更新滞后、回答缺乏依据等问题的关键技术，RAG总能带来性能提升已经被广泛默认，但是最近看到一篇论文（Kim et al., arXiv:2511.06738v1）对此有质疑。论文发现，医学领域中标准的RAG流程不仅未能稳定提升性能，在许多情况下甚至会降低答案的事实性和完整性。相比结论，我更感兴趣的是论文的评测方法和优化方案，作者们设计了三阶段精细化评测框架。

博文更新于 2025.12.07 ·

语音停顿检测模型Smart Turn V3：延时12ms？

在实时语音对话系统（Real-time Conversational AI）中，端点检测（Endpointing）始终是影响用户体验的核心痛点。传统的基于信号能量的 VAD（Voice Activity Detection）方案陷入了“延迟与打断”的零和博弈：阈值设置过短会导致频繁打断用户的思考（False Positive），设置过长则会导致系统响应迟钝（High Latency）。Pipecat AI 近期开源的模型提出了一种**音频原生（Audio-Native）**的解决方案。

博文更新于 2025.12.06 ·

DeepSeek新开源V3.2-Exp：稀疏注意力机制如何重塑长上下文推理效率

DeepSeek-AI 最新发布的 DeepSeek-V3.2-Exp 通过引入。

博文更新于 2025.12.02 ·

【读代码】RAG Agent专属内存管理方案MIRIX

最近关注到RAG Agent内存管理项目MIRIX（https://github.com/Mirix-AI/MIRIX），它提出了一种基于多智能体协作（Multi-Agent Collaboration）和认知科学模型的六层记忆架构。本文尝试从系统架构、记忆ETL流水线、主动检索机制及代码实现四个维度，深度剖析 MIRIX 如何解决智能体“灾难性遗忘”与“信息碎片化”的核心难题。

博文更新于 2025.12.01 ·

【读代码】构建有状态的智能体：从MemGPT架构分析到 LangGraph实践

这是最关键的一步。我们需要将从常规的消息流中剥离出来，使其成为一个独立的、持久的状态对象。# 定义核心内存结构persona: str # 机器人的自我设定human: str # 机器人对用户的认知# 定义 Agent 全局状态# 消息历史：使用 operator.add 实现追加模式# 核心内存：不使用 add，而是由 ToolNode 进行全量替换/更新# 这模拟了 RAM 的读写特性传统的工具是 Read-only 的（如搜索 Google）。

博文更新于 2025.12.01 ·

从 Anthropic 多智能体实践总结到类OpenManus应用实现

发布资源 2025.12.01 ·

【读代码】微软RAG内存管理方案：Microsoft Kernel Memory

在 AI 工程化落地过程中，RAG的瓶颈往往不在于模型本身，而在于数据处理流水线的健壮性。如何高效处理 PDF/Word/网页等多模态数据？如何解决文档切片的语义断裂？如何处理大规模文档索引时的延迟与重试？给出了企业级的方案。它不是一个简单的向量库连接器，而是一个云原生的、异步的、支持多模态的 AI 服务。KM 的强大之处在于其可扩展性。假设你需要处理一种特殊的专有格式文件.xyz，或者你想在写入向量库之前对文本进行脱敏处理 (PII Redaction)。

博文更新于 2025.11.30 ·

【读代码】Zep--基于Graph-RAG的记忆方案

在构建生产级 AI Agent 时，开发者面临着一个普遍的困境：简单的向量检索（Vector RAG）无法处理复杂的关系推理，而庞大的上下文窗口（Context Window）又带来了昂贵的成本和延迟。作为一种"记忆即服务"（Memory-as-a-Service）的基础设施，它不仅仅是一个向量数据库，更是一个集成了异步 NLP 流水线时序知识图谱 (Temporal Knowledge Graph)和混合检索的完整记忆操作系统。

博文更新于 2025.11.28 ·

【Agent实战】从 Anthropic 多智能体实践总结到类OpenManus应用实现（资源中附完整代码）

近期关注Anthropic 分享的其内部用于复杂任务处理的“多智能体研究系统”（https://www.anthropic.com/engineering/multi-agent-research-system），通过并行化、分工化和迭代式的设计，显著提升了 LLM 解决复杂问题的广度与深度。本文将尝试分析Anthropic 的架构理念，并以之前爆火的Manus为产品对标，使用 Python 和LangGraph框架，从零构建一个具备中文意图理解、英文广度搜索、深度中文报告生成。

博文更新于 2025.11.27 ·

【实战总结】Agent 应用中的高级记忆管理方案思考

在从早期的 Chatbot 向自主 Agent（Autonomous Agent）演进的过程中，"记忆（Memory）"的定义发生了质的改变。对于工业级 Agent 而言，记忆不再仅仅是滑动窗口内的几轮对话历史，而是一套涵盖了显性工作状态隐性用户画像以及语义知识沉淀的复杂代谢系统。本文将深入探讨工业界在构建 Agent 记忆系统时面临的核心挑战，尝试一种基于“双轨制记忆代谢（Dual-Track Memory Metabolism）”的通用架构，并基于LangGraph和Vector DB。

博文更新于 2025.11.27 ·

具备强推理能力的1.5B大模型，来自新浪的VibeThinker

当前“模型越大，能力越强”成为行业共识，但是也有例外，今天一起看下新浪微博AI团队发布的VibeThinker-1.5B模型，以仅15亿的参数量，在多个高难度数学和代码基准测试中，其性能不仅媲美甚至超越了体量数百倍于它的巨型模型（如DeepSeek R1 671B）。这背后并非简单的调参或数据堆砌，而是一套名为“频谱-信号原理”（Spectrum-to-Signal Principle, SSP）的创新后训练（Post-training）的独特设计。

博文更新于 2025.11.26 ·

低成本AI 硬件解决方案：Xiaozhi-ESP32 全链路架构

随着大语言模型 (LLM) 的爆发，如何将强大的认知能力下沉到低成本、低功耗的 IoT 设备上，成为 AIoT 领域的核心命题。开源项目提供了一个不错的解决方案。该项目采用“瘦客户端 + 胖服务端” (Thin Client + Thick Server)的架构设计，基于 ESP32 芯片实现了具备全双工语音交互、多轮对话记忆、多模态情感表达及视觉感知能力的 AI 智能体。本文将从系统架构、关键算法实现、工程优化策略三个维度，深度剖析该项目的技术内核。

博文更新于 2025.11.26 ·