等风来不如迎风去
码龄17年
求更新 关注
提问 私信
  • 博客:5,480,881
    社区:158
    动态:16
    5,481,055
    总访问量
  • 3,283
    原创
  • 237
    排名
  • 2,785
    粉丝
  • 985
    关注
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:广东省
加入CSDN时间: 2009-06-04

个人简介:AI领域初学者,AI+实时语音,AI+2/3D动画生成;AI+UE表演,AI+游戏NPC;音视频行业深耕多年,熟悉会议、直播、RTC,对在线教育、娱乐秀场等音视频端到端技术及系统架构有深入研究

博客简介:

突围

博客描述:
智慧改变人生,奋斗创造生活。改变命运,从此刻做起。
查看详细资料
个人成就
  • 领域专家: 操作系统技术领域
  • 获得1,390次点赞
  • 内容获得416次评论
  • 获得2,214次收藏
  • 代码片获得5,655次分享
  • 原力等级
    原力等级
    9
    原力分
    13,129
    本月获得
    112
创作历程
  • 438篇
    2025年
  • 398篇
    2024年
  • 286篇
    2023年
  • 639篇
    2022年
  • 624篇
    2021年
  • 281篇
    2020年
  • 57篇
    2019年
  • 10篇
    2018年
  • 19篇
    2017年
  • 10篇
    2016年
  • 4篇
    2015年
  • 142篇
    2014年
  • 223篇
    2013年
  • 58篇
    2012年
  • 232篇
    2011年
  • 66篇
    2010年
  • 58篇
    2009年
成就勋章
  • 入选《游戏领域内容榜》第47名
TA的专栏
  • AI入门与实战
    付费
    376篇
  • 网络服务入门与实战
    付费
    490篇
  • 传输探索实践
    付费
    349篇
  • WebRTC入门与实战
    付费
    625篇
  • 多码率自适应与播放
    付费
    84篇
  • OBS开发实战与开播探索
    付费
    140篇
  • c/c++笔面应用实战
    付费
    209篇
  • FFmpeg/Libav基础库
    付费
    191篇
  • Qt跨平台客户端开发入门与实战
    付费
    50篇
  • 媒体播放器设计与实现
    付费
    246篇
  • Linux内核/驱动/引导/汇编
    30篇
  • linux菜鸟手记
    214篇
  • MATLAB
  • 服务器/脚本/编译
    121篇
  • 嵌入式系统及开发
    74篇
  • UNIX网络编程
    41篇
  • windows环境编程
    158篇
  • 数学/微积分/概率统计
    9篇
  • 活在人间
    103篇
  • 笔试-面试
    5篇
  • 算法/数据结构
    33篇
  • 英语学习
    21篇
  • Android
    132篇

TA关注的专栏 56

TA关注的收藏夹 0

TA关注的社区 11

TA参与的活动 0

兴趣领域 设置
  • 数据结构与算法
    算法
  • 网络与通信
    httpp2pudpsslhttpswiresharkwebsocket网络安全tcpdump网络协议tcp/iprpc
  • 音视频
    opencv语音识别计算机视觉音视频视觉检测视频编解码实时音视频webrtc实时互动
嵌入式方向
  • 6410讲师 (RSS)
  • 千里千寻 (RSS)
  • Gtk+等嵌入式内容
创作活动更多

AI 镜像开发实战征文活动

随着人工智能技术的飞速发展,AI 镜像开发逐渐成为技术领域的热点之一。Stable Diffusion 3.5 FP8 作为强大的文生图模型,为开发者提供了更高效的图像生成解决方案。为了推动 AI 镜像开发技术的交流与创新,我们特此发起本次征文活动,诚邀广大开发者分享在 Stable Diffusion 3.5 FP8 文生图方向的实战经验和创新应用 本次征文活动鼓励开发者围绕 Stable Diffusion 3.5 FP8 文生图方向,分享以下方面的内容: 1. 技术实践与优化 - Stable Diffusion 3.5 FP8 模型架构解析与优化技巧 - 文生图生成效果的提升方法与技巧 - 模型部署与加速策略,例如使用 Hugging Face、Diffusers 等工具 - 针对特定场景(例如二次元、写实风)的模型微调与定制化开发 2. 应用场景探索 - Stable Diffusion 3.5 FP8 在不同领域的应用案例分享,例如游戏设计、广告创意、艺术创作等 - 利用 Stable Diffusion 3.5 FP8 实现图像编辑、图像修复、图像增强等功能的探索 - 结合其他 AI 技术(例如 NLP、语音识别)构建更强大的应用 3. 创新应用与思考 - 基于 Stable Diffusion 3.5 FP8 的创新应用场景设计 - AI 镜像开发的未来发展方向的思考与展望 - 对 AI 镜像开发伦理、安全等问题的探讨

28人参与 去参加
  • 最近
  • 文章
  • 专栏
  • 代码仓
  • 资源
  • 收藏
  • 关注/订阅/互动
更多
  • 最近

  • 文章

  • 专栏

  • 代码仓

  • 资源

  • 收藏

  • 关注/订阅/互动

  • 社区

  • 帖子

  • 问答

  • 课程

  • 视频

搜索 取消

【AIGC】ViMax:2:项目入口、配置、技术报告

问题ViMax 解法LLM 处理不了长剧情角色、场景一致性差多机位空间错乱画质不稳定生成不可控多 Agent 职责划分你 AIMV 系统若结合这些技术,将会直接对标 ViMax 级别的架构。
原创
博文更新于 6 小时前 ·
6 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【AIGC】ViMax:1: 解决痛点及UV环境配置

它很像一条“视频处理(抽帧/分镜/剪辑) + LLM/LangChain(理解/生成) + 向量检索Faiss(RAG/素材匹配) + 网络调用(多模型/网关/流式) + 结构化配置(pydantic)”的工作流。如果你把或项目要实现的核心功能(比如:视频分镜→生成分镜文案→检索素材→合成视频?)贴一小段,我可以按你的实际业务,把这些库进一步映射到“每一步会用到哪些库”。
原创
博文更新于 2025.12.14 ·
91 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

【打印】默认长边装订

下面我给你讲清楚为什么选这个。
原创
博文更新于 2025.12.13 ·
326 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

【AIGC】侧脸引起的AIGC 角色一致性崩坏

罪魁祸首是in profile(侧颜)。“不要画 90 度侧脸,除非你能接受换人。请在 JSON 里把它改成,脸就回来了。
原创
博文更新于 2025.12.11 ·
96 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【Paper2Slides】3:核心流程:四阶段、状态管理

分快速测试模式和正常模式的结果,避免互相干扰。 get_config_dir: 在模式目录下,根据具体的配置参数创建更细化的子目录。 输入: 模式目录、配置字典 config。 逻辑: 解析 config 中的关键参数(例如 output_type, style, slides_length),生成一个描述性的目录名(例如 slides_academic_medium)。 输出: .../mode/slides_academic_medium/ 作用: 为每一种独特的配置组合创建独立的目录,方便用户对比不同
原创
博文更新于 2025.12.11 ·
71 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【Paper2Slides】2:图片生成工作逻辑

style_ref_image 作为风格参考图直接传递给底层图片生成模型使用,确保幻灯片视觉风格统一。该变量包含第二张幻灯片的Base64编码图像数据和强制一致性指令,在生成后续幻灯片时作为首要参考。模型同时接收视觉信息和"STRICTLY MAINTAIN..."文本指令,强制保持背景色、强调色、字体等元素的一致性,从而实现整个演示文稿的视觉连贯性。
原创
博文更新于 2025.12.10 ·
61 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【Paper2Slides】1:提示词分析:图片生成、内容规划、论文提取

这个过程就像一个编辑或设计师在制作演示文稿前,先规划好每一页应该放什么标题、什么文字、以及配上哪张图或哪个表格。这个 JSON 计划是。
原创
博文更新于 2025.12.10 ·
127 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【Docker 】 本地缓存PyTorch 和 NVIDIA 依赖包

只用【方案一】就足够好了。虽然 6MB/s 下载 2GB 需要点时间(大约 5-10 分钟),但加上后,只要下载成功一次,这辈子都不用再下载了,哪怕你改了 Dockerfile 的其他地方,这一层也会复用本地磁盘上的文件。修改,把那段RUN命令改成带有的版本,然后去掉。
原创
博文更新于 2025.12.04 ·
140 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【huggingface】docling 模型下载

目录下,然后修改 Dockerfile 屏蔽下载,修改 docker-compose.yml 挂载进去。也降级,降到一个兼容 Numpy 1.x 的版本(通常 4.10.x 或更早的版本就可以)。(注意:我加上了 headless 版本,以防万一你环境里装的是无头版,这两个最好保持一致)如果上面的命令执行完没有报错,或者只是报了一些无关痛痒的警告,那么你的环境基本就修复了。既然你是在搞 SurfSense 的 Docker 部署,(这是默认路径),把里面的东西打包或者直接复制出来。
原创
博文更新于 2025.12.04 ·
76 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【HuggingFace】模型下载:sentence-transformers/all-MiniLM-L6-v2

不需要纠结git-xet。brewgit-xetgit clone请使用以下。
原创
博文更新于 2025.12.04 ·
159 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【win11】ics服务和53端口

(base) PS C:\Users\zhangbin> wsl --shutdown(base) PS C:\Users\zhangbin> notepad $env:USERPROFILE.wslconfig(base) PS C:\Users\zhangbin> netstat -ano -p udp | findstr :53UDP 0.0.0.0:53 : 4924UDP 0.0.0.
原创
博文更新于 2025.12.04 ·
536 阅读 ·
24 点赞 ·
0 评论 ·
8 收藏

【dify】gemini bananpro 的生图输出映射为python代码

根据你提供的输入数据和需求,你的主要目标是将 Dify 节点中的参数名(arg1arg2)映射为更有意义的变量名(textfiles),并确保代码能正确解析arg2中包含的文件信息。
原创
博文更新于 2025.12.02 ·
64 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【linux】tar [选项] 归档文件名 要打包的文件/目录..

你这个命令参数位置反了,直接改成上面那条就行。
原创
博文更新于 2025.11.26 ·
329 阅读 ·
5 点赞 ·
0 评论 ·
10 收藏

【CosyVoice2】4「不走 Triton Server,纯 Python gRPC + JIT + vLLM」结果分析

文章摘要: 本文记录了CosyVoice语音合成项目的优化实践,成功结合JIT(TorchScript)和vLLM实现加速方案。测试数据显示音频生成耗时0.75-2.45秒,RTF(实时因子)在0.122-0.341之间。项目采用ONNXRuntime + CUDA/TensorRT EP处理声学模型,vLLM + torch.compile + CUDA Graph处理LLM部分,绕过了Triton Server直接使用Python gRPC方案。关键优化包括Flash Attention后端、编译图缓存
原创
博文更新于 2025.11.25 ·
103 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【cosyvoice2 】3:vLLM加速+旧版官方+旧模型成功运行

本文介绍了在Ubuntu系统中通过PyCharm SSH远程部署vLLM加速环境的过程。首先检查了Python 3.10.16、PyTorch 2.5.1+cu124、vLLM 0.7.3和ONNX Runtime 1.19.0等关键组件的版本兼容性,确认环境配置正确。文章提供了环境备份和恢复的方法,并详细说明了如何从零开始搭建满足要求的开发环境,包括Python环境创建、PyTorch安装、vLLM和ONNX Runtime的版本控制。最后给出了验证环境配置的脚本和固定环境配置的建议。对于vLLM代码较老
原创
博文更新于 2025.11.25 ·
99 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【CosyVoice2】2 :triton_trtllm 基准测试结果分析

CosyVoice 的Triton/TensorRT 版本确实具备了驱动实时数字人的能力(200ms 级延迟),处于行业领先水平。但它对算力资源极其敏感,且工程部署难度较大(需要编译 TensorRT 引擎)。落地建议:使用目录下的方案进行部署。开启以获得最低延迟(约 190ms)。在 LLM 和 TTS 之间增加智能断句算法,平衡“句子完整度”和“响应速度”。
原创
博文更新于 2025.11.25 ·
60 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【cosyvoice2 】1:pycharm ssh远程ubuntu部署vLLM加速版本

本文介绍了在PyCharm中配置SSH远程开发的方法。主要内容包括:1) 查看SSH服务监听端口的三种方法(配置文件查询、监听端口检查、本地SSH测试);2) 配置PyCharm远程SSH开发的关键步骤:首先生成SSH密钥并配置免密登录,然后在PyCharm中选择Key pair验证方式指定私钥文件;3) 在远程解释器、部署配置和终端中复用SSH配置的具体操作流程。文章提供了详细的命令行操作和图形界面配置说明,适用于Windows和Linux/macOS系统,帮助开发者实现PyCharm与远程服务器的无缝连
原创
博文更新于 2025.11.25 ·
162 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

【agent】AI 数字人构建15:GPT5的TTS 选型分析

本文针对数字人TTS选型提出三大关键指标:流式首包低延迟(<250ms)、强可控表达能力、稳定的说话人一致性。根据应用场景推荐:交互型数字人首选CosyVoice2(首包150ms)和XTTS-v2(多语言克隆);影视配音推荐IndexTTS2(情绪表现强)。建议采用多引擎分层架构,实时对话用CosyVoice2,高表现需求用IndexTTS2重渲,并配合文本切片、角色缓存、推理加速等工程优化方案,实现低延迟交互与高质量输出的平衡。
原创
博文更新于 2025.11.23 ·
227 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【chatai】第一个vue项目编译运行

文章摘要: 该项目是一个基于Vue 3的语音聊天应用前端,需要配合FunASR后端服务使用。关键要点包括: 开发环境配置:必须使用Volar插件(现名Vue Official)并禁用Vetur插件以避免冲突 运行方式: 开发模式:npm run dev(热重载) 生产部署:npm run build(生成dist目录) 核心功能流程: 音频采集:16kHz单声道PCM格式 数据传输:通过WebSocket发送base64编码音频到ws://localhost:8080/chat 消息格式:支持chat.vo
原创
博文更新于 2025.11.23 ·
98 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【TTS】2025.3: SupertonicTTS: Towards Highly Efficient and Streamlined Text-to-Speech System及c++代码

SupertonicTTS:面向实时数字人的高效语音合成方案 SupertonicTTS是一种专为低延迟场景设计的语音合成系统,其核心优势在于极快的推理速度(RTF 0.001-0.015)和简洁的架构。该系统采用语音自动编码器将音频压缩为低维潜在向量,配合Flow Matching技术实现2-5步快速推理,无需自回归解码。虽然当前版本仅支持英文且缺乏原生流式接口,但其超快的整句生成速度(1秒语音仅需10ms)使其仍可通过分块处理实现伪流式效果。对于3D数字人应用,该系统能显著降低TTS延迟,简化部署流程,
原创
博文更新于 2025.11.23 ·
126 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多