等风来不如迎风去-CSDN博客

等风来不如迎风去

码龄17年

IP 属地：广东省

加入CSDN时间： 2009-06-04

个人简介：AI领域初学者，AI+实时语音，AI+2/3D动画生成；AI+UE表演,AI+游戏NPC；音视频行业深耕多年，熟悉会议、直播、RTC，对在线教育、娱乐秀场等音视频端到端技术及系统架构有深入研究

查看详细资料

个人成就

领域专家: 操作系统技术领域
获得1,390次点赞
内容获得416次评论
获得2,214次收藏
代码片获得5,655次分享
原力等级

原力等级

9

原力分

13,129

本月获得

112

入选《游戏领域内容榜》第47名

TA的专栏

TA关注的专栏 56

TA关注的收藏夹 0

TA关注的社区 11

TA参与的活动 0

兴趣领域设置

数据结构与算法

算法
网络与通信

httpp2pudpsslhttpswiresharkwebsocket网络安全tcpdump网络协议tcp/iprpc
音视频

opencv语音识别计算机视觉音视频视觉检测视频编解码实时音视频webrtc实时互动

嵌入式方向

创作活动更多

AI 镜像开发实战征文活动

随着人工智能技术的飞速发展，AI 镜像开发逐渐成为技术领域的热点之一。Stable Diffusion 3.5 FP8 作为强大的文生图模型，为开发者提供了更高效的图像生成解决方案。为了推动 AI 镜像开发技术的交流与创新，我们特此发起本次征文活动，诚邀广大开发者分享在 Stable Diffusion 3.5 FP8 文生图方向的实战经验和创新应用本次征文活动鼓励开发者围绕 Stable Diffusion 3.5 FP8 文生图方向，分享以下方面的内容： 1. 技术实践与优化 - Stable Diffusion 3.5 FP8 模型架构解析与优化技巧 - 文生图生成效果的提升方法与技巧 - 模型部署与加速策略，例如使用 Hugging Face、Diffusers 等工具 - 针对特定场景（例如二次元、写实风）的模型微调与定制化开发 2. 应用场景探索 - Stable Diffusion 3.5 FP8 在不同领域的应用案例分享，例如游戏设计、广告创意、艺术创作等 - 利用 Stable Diffusion 3.5 FP8 实现图像编辑、图像修复、图像增强等功能的探索 - 结合其他 AI 技术（例如 NLP、语音识别）构建更强大的应用 3. 创新应用与思考 - 基于 Stable Diffusion 3.5 FP8 的创新应用场景设计 - AI 镜像开发的未来发展方向的思考与展望 - 对 AI 镜像开发伦理、安全等问题的探讨

28人参与去参加

更多

【AIGC】ViMax：2:项目入口、配置、技术报告

问题ViMax 解法LLM 处理不了长剧情角色、场景一致性差多机位空间错乱画质不稳定生成不可控多 Agent 职责划分你 AIMV 系统若结合这些技术，将会直接对标 ViMax 级别的架构。

博文更新于 6 小时前 ·

【AIGC】ViMax：1: 解决痛点及UV环境配置

它很像一条“视频处理（抽帧/分镜/剪辑） + LLM/LangChain（理解/生成） + 向量检索Faiss（RAG/素材匹配） + 网络调用（多模型/网关/流式） + 结构化配置（pydantic）”的工作流。如果你把或项目要实现的核心功能（比如：视频分镜→生成分镜文案→检索素材→合成视频？）贴一小段，我可以按你的实际业务，把这些库进一步映射到“每一步会用到哪些库”。

博文更新于 2025.12.14 ·

【打印】默认长边装订

下面我给你讲清楚为什么选这个。

博文更新于 2025.12.13 ·

【AIGC】侧脸引起的AIGC 角色一致性崩坏

罪魁祸首是in profile(侧颜)。“不要画 90 度侧脸，除非你能接受换人。请在 JSON 里把它改成，脸就回来了。

博文更新于 2025.12.11 ·

【Paper2Slides】3：核心流程:四阶段、状态管理

分快速测试模式和正常模式的结果，避免互相干扰。 get_config_dir: 在模式目录下，根据具体的配置参数创建更细化的子目录。输入: 模式目录、配置字典 config。逻辑: 解析 config 中的关键参数（例如 output_type, style, slides_length），生成一个描述性的目录名（例如 slides_academic_medium）。输出: .../mode/slides_academic_medium/ 作用: 为每一种独特的配置组合创建独立的目录，方便用户对比不同

博文更新于 2025.12.11 ·

【Paper2Slides】2：图片生成工作逻辑

style_ref_image 作为风格参考图直接传递给底层图片生成模型使用，确保幻灯片视觉风格统一。该变量包含第二张幻灯片的Base64编码图像数据和强制一致性指令，在生成后续幻灯片时作为首要参考。模型同时接收视觉信息和"STRICTLY MAINTAIN..."文本指令，强制保持背景色、强调色、字体等元素的一致性，从而实现整个演示文稿的视觉连贯性。

博文更新于 2025.12.10 ·

【Paper2Slides】1：提示词分析：图片生成、内容规划、论文提取

这个过程就像一个编辑或设计师在制作演示文稿前，先规划好每一页应该放什么标题、什么文字、以及配上哪张图或哪个表格。这个 JSON 计划是。

博文更新于 2025.12.10 ·

【Docker 】本地缓存PyTorch 和 NVIDIA 依赖包

只用【方案一】就足够好了。虽然 6MB/s 下载 2GB 需要点时间（大约 5-10 分钟），但加上后，只要下载成功一次，这辈子都不用再下载了，哪怕你改了 Dockerfile 的其他地方，这一层也会复用本地磁盘上的文件。修改，把那段RUN命令改成带有的版本，然后去掉。

博文更新于 2025.12.04 ·

【huggingface】docling 模型下载

目录下，然后修改 Dockerfile 屏蔽下载，修改 docker-compose.yml 挂载进去。也降级，降到一个兼容 Numpy 1.x 的版本（通常 4.10.x 或更早的版本就可以）。(注意：我加上了 headless 版本，以防万一你环境里装的是无头版，这两个最好保持一致)如果上面的命令执行完没有报错，或者只是报了一些无关痛痒的警告，那么你的环境基本就修复了。既然你是在搞 SurfSense 的 Docker 部署，(这是默认路径)，把里面的东西打包或者直接复制出来。

博文更新于 2025.12.04 ·

【HuggingFace】模型下载：sentence-transformers/all-MiniLM-L6-v2

不需要纠结git-xet。brewgit-xetgit clone请使用以下。

博文更新于 2025.12.04 ·

【win11】ics服务和53端口

(base) PS C:\Users\zhangbin> wsl --shutdown(base) PS C:\Users\zhangbin> notepad $env:USERPROFILE.wslconfig(base) PS C:\Users\zhangbin> netstat -ano -p udp | findstr :53UDP 0.0.0.0:53 : 4924UDP 0.0.0.

博文更新于 2025.12.04 ·

【dify】gemini bananpro 的生图输出映射为python代码

根据你提供的输入数据和需求，你的主要目标是将 Dify 节点中的参数名（arg1arg2）映射为更有意义的变量名（textfiles），并确保代码能正确解析arg2中包含的文件信息。

博文更新于 2025.12.02 ·

【linux】tar [选项] 归档文件名要打包的文件/目录..

你这个命令参数位置反了，直接改成上面那条就行。

博文更新于 2025.11.26 ·

【CosyVoice2】4「不走 Triton Server，纯 Python gRPC + JIT + vLLM」结果分析

文章摘要：本文记录了CosyVoice语音合成项目的优化实践，成功结合JIT(TorchScript)和vLLM实现加速方案。测试数据显示音频生成耗时0.75-2.45秒，RTF(实时因子)在0.122-0.341之间。项目采用ONNXRuntime + CUDA/TensorRT EP处理声学模型，vLLM + torch.compile + CUDA Graph处理LLM部分，绕过了Triton Server直接使用Python gRPC方案。关键优化包括Flash Attention后端、编译图缓存

博文更新于 2025.11.25 ·

【cosyvoice2 】3：vLLM加速+旧版官方+旧模型成功运行

本文介绍了在Ubuntu系统中通过PyCharm SSH远程部署vLLM加速环境的过程。首先检查了Python 3.10.16、PyTorch 2.5.1+cu124、vLLM 0.7.3和ONNX Runtime 1.19.0等关键组件的版本兼容性，确认环境配置正确。文章提供了环境备份和恢复的方法，并详细说明了如何从零开始搭建满足要求的开发环境，包括Python环境创建、PyTorch安装、vLLM和ONNX Runtime的版本控制。最后给出了验证环境配置的脚本和固定环境配置的建议。对于vLLM代码较老

博文更新于 2025.11.25 ·

【CosyVoice2】2 ：triton_trtllm 基准测试结果分析

CosyVoice 的Triton/TensorRT 版本确实具备了驱动实时数字人的能力（200ms 级延迟），处于行业领先水平。但它对算力资源极其敏感，且工程部署难度较大（需要编译 TensorRT 引擎）。落地建议：使用目录下的方案进行部署。开启以获得最低延迟（约 190ms）。在 LLM 和 TTS 之间增加智能断句算法，平衡“句子完整度”和“响应速度”。

博文更新于 2025.11.25 ·

【cosyvoice2 】1：pycharm ssh远程ubuntu部署vLLM加速版本

本文介绍了在PyCharm中配置SSH远程开发的方法。主要内容包括：1) 查看SSH服务监听端口的三种方法（配置文件查询、监听端口检查、本地SSH测试）；2) 配置PyCharm远程SSH开发的关键步骤：首先生成SSH密钥并配置免密登录，然后在PyCharm中选择Key pair验证方式指定私钥文件；3) 在远程解释器、部署配置和终端中复用SSH配置的具体操作流程。文章提供了详细的命令行操作和图形界面配置说明，适用于Windows和Linux/macOS系统，帮助开发者实现PyCharm与远程服务器的无缝连

博文更新于 2025.11.25 ·

【agent】AI 数字人构建15：GPT5的TTS 选型分析

本文针对数字人TTS选型提出三大关键指标：流式首包低延迟(<250ms)、强可控表达能力、稳定的说话人一致性。根据应用场景推荐：交互型数字人首选CosyVoice2（首包150ms）和XTTS-v2（多语言克隆）；影视配音推荐IndexTTS2（情绪表现强）。建议采用多引擎分层架构，实时对话用CosyVoice2，高表现需求用IndexTTS2重渲，并配合文本切片、角色缓存、推理加速等工程优化方案，实现低延迟交互与高质量输出的平衡。

博文更新于 2025.11.23 ·

【chatai】第一个vue项目编译运行

文章摘要：该项目是一个基于Vue 3的语音聊天应用前端，需要配合FunASR后端服务使用。关键要点包括：开发环境配置：必须使用Volar插件（现名Vue Official）并禁用Vetur插件以避免冲突运行方式：开发模式：npm run dev（热重载）生产部署：npm run build（生成dist目录）核心功能流程：音频采集：16kHz单声道PCM格式数据传输：通过WebSocket发送base64编码音频到ws://localhost:8080/chat 消息格式：支持chat.vo

博文更新于 2025.11.23 ·

【TTS】2025.3: SupertonicTTS: Towards Highly Efficient and Streamlined Text-to-Speech System及c++代码

SupertonicTTS：面向实时数字人的高效语音合成方案 SupertonicTTS是一种专为低延迟场景设计的语音合成系统，其核心优势在于极快的推理速度（RTF 0.001-0.015）和简洁的架构。该系统采用语音自动编码器将音频压缩为低维潜在向量，配合Flow Matching技术实现2-5步快速推理，无需自回归解码。虽然当前版本仅支持英文且缺乏原生流式接口，但其超快的整句生成速度（1秒语音仅需10ms）使其仍可通过分块处理实现伪流式效果。对于3D数字人应用，该系统能显著降低TTS延迟，简化部署流程，

博文更新于 2025.11.23 ·