寻道AI小兵-CSDN博客

寻道AI小兵

码龄16年

IP 属地：广东省

加入CSDN时间： 2010-05-17

个人简介：10年+互联网架构师，聚焦AI大模型开发实战，分享前沿技术，解锁AI新技能，共探智能未来！

查看详细资料

个人成就

优质创作者: 人工智能技术领域
获得34,203次点赞
内容获得16,675次评论
获得30,852次收藏
代码片获得39,675次分享
原力等级

原力等级

9

原力分

16,871

本月获得

224

TA的专栏

TA关注的专栏 3

TA关注的收藏夹 0

TA关注的社区 40

TA参与的活动 23

TA的推广

兴趣领域设置

探索AIGC新天地，互助共赢创未来！

技术一起搞，点子一起碰，海量资料免费拿
寻找技术之道、实现自由人生！

扫码关注即刻免费领取三重福利： 1️⃣北大最新DeepSeek研究资料（独家解读） 2️⃣AI+编程书籍全集（涵盖热门领域） 3️⃣全套AI技术/变现教程资料（限时领取）

创作活动更多

AI 镜像开发实战征文活动

随着人工智能技术的飞速发展，AI 镜像开发逐渐成为技术领域的热点之一。Stable Diffusion 3.5 FP8 作为强大的文生图模型，为开发者提供了更高效的图像生成解决方案。为了推动 AI 镜像开发技术的交流与创新，我们特此发起本次征文活动，诚邀广大开发者分享在 Stable Diffusion 3.5 FP8 文生图方向的实战经验和创新应用本次征文活动鼓励开发者围绕 Stable Diffusion 3.5 FP8 文生图方向，分享以下方面的内容： 1. 技术实践与优化 - Stable Diffusion 3.5 FP8 模型架构解析与优化技巧 - 文生图生成效果的提升方法与技巧 - 模型部署与加速策略，例如使用 Hugging Face、Diffusers 等工具 - 针对特定场景（例如二次元、写实风）的模型微调与定制化开发 2. 应用场景探索 - Stable Diffusion 3.5 FP8 在不同领域的应用案例分享，例如游戏设计、广告创意、艺术创作等 - 利用 Stable Diffusion 3.5 FP8 实现图像编辑、图像修复、图像增强等功能的探索 - 结合其他 AI 技术（例如 NLP、语音识别）构建更强大的应用 3. 创新应用与思考 - 基于 Stable Diffusion 3.5 FP8 的创新应用场景设计 - AI 镜像开发的未来发展方向的思考与展望 - 对 AI 镜像开发伦理、安全等问题的探讨

43人参与去参加

更多

【AI大模型前沿】Step-Audio-EditX：全球首个开源LLM音频编辑大模型，开启音频创作新纪元

Step-Audio-EditX是由阶跃星辰开发的开源音频编辑大模型，它基于3B参数的LLM架构，专注于音频的情感、说话风格和副语言编辑。该模型不仅支持零样本TTS（文本到语音合成），还能够通过迭代编辑实现情感和风格的细粒度控制。其核心创新在于仅使用大边距合成数据进行训练，无需额外的编码器或适配器，即可实现音频属性的解耦和迭代控制。

博文更新于 15 小时前 ·

【AI大模型前沿】Maya1：Maya Research开源的语音合成模型，让AI声音充满情感

Maya1 是一个开源的AI语音合成模型，基于30亿参数的Transformer架构和SNAC神经编解码器，能够通过自然语言描述生成具有特定情感和特征的语音。它支持20多种情绪表达，如大笑、哭泣、叹气等，并且可以实时流式传输音频，适用于游戏配音、播客制作、语音助手开发等多种场景。

博文更新于昨天 08:00 ·

【AI大模型前沿】FG-CLIP：360推出的双语细粒度视觉语言对齐模型，助力多模态理解新突破

FG-CLIP 是由 360 人工智能研究院推出的双语细粒度视觉语言对齐模型，旨在提升图像与文本之间的精准匹配能力。该模型通过层次化对齐架构和丰富的细粒度监督信号，实现了对图像细节的精准理解，同时支持中英文双语任务。FG-CLIP 在 29 项权威基准测试中全面超越了 Google 的 SigLIP 2 和 Meta 的 MetaCLIP 2，展现出卓越的性能，成为全球领先的视觉语言模型。

博文更新于前天 08:00 ·

【AI大模型前沿】UniWorld：基于强化学习的图像编辑大模型技术解析与应用探索

UniWorld是一个专注于图像编辑与生成的多模态大模型，其核心目标是通过统一的架构实现图像理解、生成、编辑和感知等多任务处理。该模型在图像编辑领域引入了强化学习策略优化，解决了传统监督微调方法的过拟合和泛化能力差的问题。UniWorld通过高分辨率语义编码器和多模态大语言模型（MLLM）的结合，实现了在多个基准测试中的卓越性能，展现出强大的通用性和泛化能力。

博文更新于 2025.12.17 ·

【AI大模型前沿】Ouro：字节跳动Seed团队推出的循环语言模型，开启推理新纪元

Ouro是一个循环语言模型（Looped Language Models，简称LoopLM），其名称来源于象征循环与自我吞噬的“衔尾蛇”（Ouroboros）。该模型通过在潜在空间中进行迭代计算，将推理能力直接构建到预训练阶段，而非仅依赖后期微调。Ouro采用两阶段自适应计算训练策略，展现出卓越的参数效率。其1.4B和2.6B参数规模的模型在各类基准测试中，性能媲美甚至超越了规模大得多的SOTA LLM，尤其在高难度数学推理任务上表现卓越。

博文更新于 2025.12.16 ·

【AI大模型前沿】美团 LongCat-Flash-Omni：低延迟音视频交互的全模态大模型

LongCat-Flash-Omni 是一款由美团 LongCat 团队开发的开源全模态大语言模型，基于 LongCat-Flash 系列高效架构设计，创新性地集成多模态感知和语音重建模块。该模型拥有 5600 亿总参数（激活参数 270 亿），能够实现低延迟的实时音视频交互能力。通过渐进式多模态融合训练策略，LongCat-Flash-Omni 在文本、图像、音频、视频理解及生成能力上表现出色，在全模态基准测试中达到开源最先进水平（SOTA）。

博文更新于 2025.12.15 ·

【AI大模型前沿】SoulX-Podcast：多语言、多方言、多说话人的语音合成新突破

SoulX-Podcast是由Soul AI Lab推出的一款多说话人语音合成模型，专为生成长篇播客对话而设计。该模型基于Qwen3-1.7B架构，采用“LLM + Flow Matching”语音生成范式，具备零样本语音克隆与多轮对话能力，能够生成超过90分钟的高稳定性多轮语音对话。SoulX-Podcast不仅支持普通话、英语及多种汉语方言（如四川话、河南话、粤语等），还具备跨方言提示功能，可通过普通话提示生成目标方言语音。此外，模型支持副语言控制（如笑声、叹气等），增强语音合成的真实感。其在多说话人对

博文更新于 2025.12.14 ·

【AI大模型前沿】FIBO：首个开源原生支持JSON的文本生成图像模型

FIBO是一个开源的文本生成图像模型，专为长结构化描述训练而成。它在超过1亿条结构化JSON描述上训练，每条约1000字，能够精确、可重复地控制光线、构图、色彩与相机参数。FIBO支持生成、精修和灵感三种模式，具备特征解耦能力，可单独调整某个属性而不破坏整体场景。其使用100%授权数据，确保合规性和法律透明性，适合专业工作流。

博文更新于 2025.12.13 ·

【AI大模型前沿】DeepSeek-OCR：开启OCR 2.0时代，用视觉压缩技术革新文档处理

DeepSeek-OCR是由DeepSeek团队开发的一款革命性的OCR模型，参数规模约30亿（3B），采用“上下文光学压缩”技术，将文本信息以视觉形式压缩，使模型通过“看图”来重建文本。该模型不仅继承了传统OCR的文本识别能力，更在文档理解层面进行了全方位升级，能够同时“看懂文字”“理解布局”“分析图表”，真正实现了从“看见文字”到“理解内容”的跨越。

博文更新于 2025.12.12 ·

【AI大模型前沿】HunyuanWorld-Mirror：腾讯开源的多功能3D重建大模型

HunyuanWorld-Mirror是由腾讯发布的一个开源的多功能前馈式3D重建大模型。它能够整合多种几何先验信息，如相机姿态、校准内参、深度图等，并在单次前向传播中同时生成点云、多视图深度图、相机参数、表面法线、3D高斯点等多种3D表示。这一模型不仅在性能上刷新了开源领域的SOTA（State of the Art），更重要的是它打破了技术壁垒，让3D重建从专业工具转变为人人可用的技术。

博文更新于 2025.12.11 ·

【AI大模型前沿】PaddleOCR-VL：百度0.9B超轻量级文档解析利器，多语言多模态功能强大

PaddleOCR-VL是一款面向文档解析的SOTA（State-of-the-Art）且资源高效的模型。其核心组件为PaddleOCR-VL-0.9B，这是一种紧凑而强大的视觉语言模型（VLM），由NaViT风格的动态分辨率视觉编码器与ERNIE-4.5-0.3B语言模型组成，以实现精准的元素识别。该模型不仅支持109种语言，还能在识别复杂元素（如文本、表格、公式和图表）方面表现出色，同时保持极低的资源消耗。

博文更新于 2025.12.10 ·

【AI大模型前沿】SAIL-VL2：字节跳动开源的小而强视觉语言模型，2B参数也能吊打大模型

SAIL-VL2 是由字节跳动抖音 SAIL 团队和新加坡国立大学 LV-NUS 实验室联合开发的开源视觉语言基础模型。作为 SAIL-VL 的继任者，SAIL-VL2 在 2B 和 8B 参数规模下，于多样化的图像与视频基准测试中均达到当前最优性能，展现出从细粒度感知到复杂推理的强劲能力。其核心创新包括大规模数据筛选与优化、渐进式训练框架以及混合专家（MoE）架构，使得模型在效率和性能上均实现了显著提升。

博文更新于 2025.12.09 ·

【GitHub开源AI精选】DiaMoE-TTS：清华和巨人网络开源的多方言语音合成利器

DiaMoE-TTS 是一个基于国际音标（IPA）的统一框架，专门针对多方言语音合成的复杂性而设计。它在 F5-TTS 架构的基础上，引入了方言感知的混合专家（MoE）模型来模拟不同方言之间的语音差异，并利用低秩适配器（LoRA）和条件适配器进行参数高效的自适应，从而能够快速迁移到新的方言。与依赖大规模或专有资源的方法不同，DiaMoE-TTS 支持可扩展的开放数据驱动合成，实验表明其能够生成自然且富有表现力的语音，即使在只有数小时数据的情况下，也能对未见过的新方言以及专业领域（如京剧）实现零样本性能。

博文更新于 2025.12.08 ·

【AI大模型前沿】SongBloom：腾讯AI Lab开源的全长度歌曲生成模型

SongBloom 是一个由腾讯 AI Lab 联合顶尖高校研发的开源歌曲生成模型。它采用自回归扩散模型，将扩散模型的高保真度与语言模型的可扩展性相结合，通过交错生成范式，逐步将音乐草图从短到长进行扩展，并将细节从粗粒度提升到细粒度。仅需输入 10 秒参考音频和对应歌词，SongBloom 即可生成长达 2 分 30 秒的双通道、48kHz 高质量完整歌曲。在主观和客观评测中，SongBloom 均优于现有开源方法，并与顶尖商业平台 Suno-v4.5 相当。

博文更新于 2025.12.07 ·

【AI大模型前沿】UniPixel：香港理工大学联合腾讯推出的像素级多模态大模型

UniPixel是一个由香港理工大学和腾讯ARC Lab团队开发的统一像素级多模态大模型，专注于图像/视频的精细理解与交互。它能够在单个模型中完成对象指代、像素级分割和区域推理三大任务，通过创新设计的“对象记忆机制”和统一视觉编码方式，实现了对视频中目标的精准追踪与语义理解。基于Qwen2.5-VL框架构建的UniPixel，支持点、框、掩码三种交互方式，在9项视觉任务基准测试中超越了72B参数的传统模型，并且开源了代码和在线Demo。

博文更新于 2025.12.06 ·

【AI大模型前沿】Youtu-Embedding：腾讯优图开源的高性能通用文本表示模型

Youtu-Embedding 是腾讯优图实验室开发的面向企业级应用的通用文本表示模型。该模型通过大规模语料预训练和创新的微调框架，具备强大的语义理解能力，能够胜任文本检索、意图理解、相似度判断等六大任务。它在中文语义评测基准 CMTEB 上表现优异，广泛适用于企业客服、知识管理、智能问答等场景。

博文更新于 2025.12.05 ·

【GitHub开源AI精选】Glyph：智谱与清华开源的视觉文本压缩框架，突破大模型上下文限制

Glyph 是一个通过视觉 - 文本压缩扩展上下文窗口的框架，它将长文本渲染为图像，利用视觉语言模型（VLM）处理图像，从而在不增加模型实际上下文长度的前提下实现上下文的高效扩展。这种方法不仅大幅降低了计算成本和显存占用，还显著提升了推理速度，同时在多模态任务中展现出强大的泛化能力。

博文更新于 2025.12.04 ·

【GitHub开源AI精选】LLaVA-OneVision-1.5：面向多模态训练大众化的全开源框架

LLaVA-OneVision-1.5 是由 EvolvingLMMS-Lab 开发的全开源多模态框架，旨在通过高效训练和高质量数据实现多模态任务的高性能和低成本。该模型采用自研的 RICE-ViT 作为视觉编码器，结合 2D 旋转位置编码和区域感知注意力机制，支持可变输入分辨率。基于 Qwen3 的语言模型，通过三阶段训练流程（语言–图像对齐、高质量知识中期预训练和视觉指令对齐）进行优化。它在多模态基准测试中表现出色，成本可控，且全链条透明开放。

博文更新于 2025.12.03 ·