寻道AI小兵
码龄16年
求更新 关注
提问 私信
  • 博客:1,824,027
    社区:253
    问答:12
    动态:81,170
    视频:3,168
    1,908,630
    总访问量
  • 701
    原创
  • 178
    排名
  • 63,341
    粉丝
  • 576
    关注
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:广东省
加入CSDN时间: 2010-05-17

个人简介:10年+互联网架构师,聚焦AI大模型开发实战,分享前沿技术,解锁AI新技能,共探智能未来!

博客简介:

寻道AI,探索AI无限可能!

博客描述:
探索未知,分享所知。作为一名系统架构师,我曾带领团队打造多个行业领域的系统平台。如今,我正踏上AI大模型的探索之旅,期待与你一起成长,迎接技术的未来。
查看详细资料
个人成就
  • 优质创作者: 人工智能技术领域
  • 获得34,203次点赞
  • 内容获得16,675次评论
  • 获得30,852次收藏
  • 代码片获得39,675次分享
  • 原力等级
    原力等级
    9
    原力分
    16,871
    本月获得
    224
创作历程
  • 419篇
    2025年
  • 282篇
    2024年
成就勋章
TA的专栏
  • AI大模型从零基础到企业级开发落地
    付费
    54篇
  • AI大模型预训练微调进阶
    付费
    30篇
  • DeepSeek入门到精通(实战指南)
    付费
    26篇
  • Qwen开发部署微调实战
    付费
    39篇
  • AI大模型Spring AI开发实战
    付费
    43篇
  • GitHub开源AI项目精选
    210篇
  • AI大模型 - 前沿技术追踪
    171篇
  • AI大模型 - 具身智能前沿
    18篇
  • AI大模型 - MCP探索实践
    24篇
  • 国产开源大模型开发实战手册
    65篇
  • GLM开发部署微调实战
    25篇
  • AI Agent与RAG开发实战
    13篇
  • AI大模型ms-swift框架实战指南
    13篇
  • AI大模型提示工程完全指南
    16篇
  • 技术人生之路
    22篇

TA关注的专栏 3

TA关注的收藏夹 0

TA关注的社区 40

TA参与的活动 23

TA的推广
兴趣领域 设置
  • 编程语言
    pythonjava
  • 人工智能
    机器学习人工智能语言模型
  • 学习和成长
    程序人生
  • AIGC
    chatgptAIGCAI编程langchainagi
探索AIGC新天地,互助共赢创未来!
技术一起搞,点子一起碰,海量资料免费拿
寻找技术之道、实现自由人生! bj 扫码关注即刻免费领取三重福利: 1️⃣北大最新DeepSeek研究资料(独家解读) 2️⃣AI+编程书籍全集(涵盖热门领域) 3️⃣全套AI技术/变现教程资料(限时领取)
创作活动更多

AI 镜像开发实战征文活动

随着人工智能技术的飞速发展,AI 镜像开发逐渐成为技术领域的热点之一。Stable Diffusion 3.5 FP8 作为强大的文生图模型,为开发者提供了更高效的图像生成解决方案。为了推动 AI 镜像开发技术的交流与创新,我们特此发起本次征文活动,诚邀广大开发者分享在 Stable Diffusion 3.5 FP8 文生图方向的实战经验和创新应用 本次征文活动鼓励开发者围绕 Stable Diffusion 3.5 FP8 文生图方向,分享以下方面的内容: 1. 技术实践与优化 - Stable Diffusion 3.5 FP8 模型架构解析与优化技巧 - 文生图生成效果的提升方法与技巧 - 模型部署与加速策略,例如使用 Hugging Face、Diffusers 等工具 - 针对特定场景(例如二次元、写实风)的模型微调与定制化开发 2. 应用场景探索 - Stable Diffusion 3.5 FP8 在不同领域的应用案例分享,例如游戏设计、广告创意、艺术创作等 - 利用 Stable Diffusion 3.5 FP8 实现图像编辑、图像修复、图像增强等功能的探索 - 结合其他 AI 技术(例如 NLP、语音识别)构建更强大的应用 3. 创新应用与思考 - 基于 Stable Diffusion 3.5 FP8 的创新应用场景设计 - AI 镜像开发的未来发展方向的思考与展望 - 对 AI 镜像开发伦理、安全等问题的探讨

43人参与 去参加
  • 最近
  • 文章
  • 专栏
  • 代码仓
  • 资源
  • 帖子
  • 问答
更多
  • 最近

  • 文章

  • 专栏

  • 代码仓

  • 资源

  • 帖子

  • 问答

  • 社区

  • 视频

  • 课程

  • 关注/订阅/互动

搜索 取消

【AI大模型前沿】Step-Audio-EditX:全球首个开源LLM音频编辑大模型,开启音频创作新纪元

Step-Audio-EditX是由阶跃星辰开发的开源音频编辑大模型,它基于3B参数的LLM架构,专注于音频的情感、说话风格和副语言编辑。该模型不仅支持零样本TTS(文本到语音合成),还能够通过迭代编辑实现情感和风格的细粒度控制。其核心创新在于仅使用大边距合成数据进行训练,无需额外的编码器或适配器,即可实现音频属性的解耦和迭代控制。
原创
博文更新于 15 小时前 ·
299 阅读 ·
19 点赞 ·
0 评论 ·
21 收藏

【AI大模型前沿】Maya1:Maya Research开源的语音合成模型,让AI声音充满情感

Maya1 是一个开源的AI语音合成模型,基于30亿参数的Transformer架构和SNAC神经编解码器,能够通过自然语言描述生成具有特定情感和特征的语音。它支持20多种情绪表达,如大笑、哭泣、叹气等,并且可以实时流式传输音频,适用于游戏配音、播客制作、语音助手开发等多种场景。
原创
博文更新于 昨天 08:00 ·
691 阅读 ·
21 点赞 ·
0 评论 ·
12 收藏

【AI大模型前沿】FG-CLIP:360推出的双语细粒度视觉语言对齐模型,助力多模态理解新突破

FG-CLIP 是由 360 人工智能研究院推出的双语细粒度视觉语言对齐模型,旨在提升图像与文本之间的精准匹配能力。该模型通过层次化对齐架构和丰富的细粒度监督信号,实现了对图像细节的精准理解,同时支持中英文双语任务。FG-CLIP 在 29 项权威基准测试中全面超越了 Google 的 SigLIP 2 和 Meta 的 MetaCLIP 2,展现出卓越的性能,成为全球领先的视觉语言模型。
原创
博文更新于 前天 08:00 ·
641 阅读 ·
23 点赞 ·
0 评论 ·
19 收藏

【AI大模型前沿】UniWorld:基于强化学习的图像编辑大模型技术解析与应用探索

UniWorld是一个专注于图像编辑与生成的多模态大模型,其核心目标是通过统一的架构实现图像理解、生成、编辑和感知等多任务处理。该模型在图像编辑领域引入了强化学习策略优化,解决了传统监督微调方法的过拟合和泛化能力差的问题。UniWorld通过高分辨率语义编码器和多模态大语言模型(MLLM)的结合,实现了在多个基准测试中的卓越性能,展现出强大的通用性和泛化能力。
原创
博文更新于 2025.12.17 ·
706 阅读 ·
7 点赞 ·
0 评论 ·
22 收藏

【AI大模型前沿】Ouro:字节跳动Seed团队推出的循环语言模型,开启推理新纪元

Ouro是一个循环语言模型(Looped Language Models,简称LoopLM),其名称来源于象征循环与自我吞噬的“衔尾蛇”(Ouroboros)。该模型通过在潜在空间中进行迭代计算,将推理能力直接构建到预训练阶段,而非仅依赖后期微调。Ouro采用两阶段自适应计算训练策略,展现出卓越的参数效率。其1.4B和2.6B参数规模的模型在各类基准测试中,性能媲美甚至超越了规模大得多的SOTA LLM,尤其在高难度数学推理任务上表现卓越。
原创
博文更新于 2025.12.16 ·
673 阅读 ·
19 点赞 ·
1 评论 ·
27 收藏

【AI大模型前沿】美团 LongCat-Flash-Omni:低延迟音视频交互的全模态大模型

LongCat-Flash-Omni 是一款由美团 LongCat 团队开发的开源全模态大语言模型,基于 LongCat-Flash 系列高效架构设计,创新性地集成多模态感知和语音重建模块。该模型拥有 5600 亿总参数(激活参数 270 亿),能够实现低延迟的实时音视频交互能力。通过渐进式多模态融合训练策略,LongCat-Flash-Omni 在文本、图像、音频、视频理解及生成能力上表现出色,在全模态基准测试中达到开源最先进水平(SOTA)。
原创
博文更新于 2025.12.15 ·
776 阅读 ·
29 点赞 ·
0 评论 ·
11 收藏

【AI大模型前沿】SoulX-Podcast:多语言、多方言、多说话人的语音合成新突破

SoulX-Podcast是由Soul AI Lab推出的一款多说话人语音合成模型,专为生成长篇播客对话而设计。该模型基于Qwen3-1.7B架构,采用“LLM + Flow Matching”语音生成范式,具备零样本语音克隆与多轮对话能力,能够生成超过90分钟的高稳定性多轮语音对话。SoulX-Podcast不仅支持普通话、英语及多种汉语方言(如四川话、河南话、粤语等),还具备跨方言提示功能,可通过普通话提示生成目标方言语音。此外,模型支持副语言控制(如笑声、叹气等),增强语音合成的真实感。其在多说话人对
原创
博文更新于 2025.12.14 ·
647 阅读 ·
22 点赞 ·
0 评论 ·
19 收藏

【AI大模型前沿】FIBO:首个开源原生支持JSON的文本生成图像模型

FIBO是一个开源的文本生成图像模型,专为长结构化描述训练而成。它在超过1亿条结构化JSON描述上训练,每条约1000字,能够精确、可重复地控制光线、构图、色彩与相机参数。FIBO支持生成、精修和灵感三种模式,具备特征解耦能力,可单独调整某个属性而不破坏整体场景。其使用100%授权数据,确保合规性和法律透明性,适合专业工作流。
原创
博文更新于 2025.12.13 ·
763 阅读 ·
19 点赞 ·
0 评论 ·
29 收藏

【AI大模型前沿】DeepSeek-OCR:开启OCR 2.0时代,用视觉压缩技术革新文档处理

DeepSeek-OCR是由DeepSeek团队开发的一款革命性的OCR模型,参数规模约30亿(3B),采用“上下文光学压缩”技术,将文本信息以视觉形式压缩,使模型通过“看图”来重建文本。该模型不仅继承了传统OCR的文本识别能力,更在文档理解层面进行了全方位升级,能够同时“看懂文字”“理解布局”“分析图表”,真正实现了从“看见文字”到“理解内容”的跨越。
原创
博文更新于 2025.12.12 ·
1113 阅读 ·
10 点赞 ·
0 评论 ·
27 收藏

【AI大模型前沿】HunyuanWorld-Mirror:腾讯开源的多功能3D重建大模型

HunyuanWorld-Mirror是由腾讯发布的一个开源的多功能前馈式3D重建大模型。它能够整合多种几何先验信息,如相机姿态、校准内参、深度图等,并在单次前向传播中同时生成点云、多视图深度图、相机参数、表面法线、3D高斯点等多种3D表示。这一模型不仅在性能上刷新了开源领域的SOTA(State of the Art),更重要的是它打破了技术壁垒,让3D重建从专业工具转变为人人可用的技术。
原创
博文更新于 2025.12.11 ·
753 阅读 ·
17 点赞 ·
0 评论 ·
21 收藏

【AI大模型前沿】PaddleOCR-VL:百度0.9B超轻量级文档解析利器,多语言多模态功能强大

PaddleOCR-VL是一款面向文档解析的SOTA(State-of-the-Art)且资源高效的模型。其核心组件为PaddleOCR-VL-0.9B,这是一种紧凑而强大的视觉语言模型(VLM),由NaViT风格的动态分辨率视觉编码器与ERNIE-4.5-0.3B语言模型组成,以实现精准的元素识别。该模型不仅支持109种语言,还能在识别复杂元素(如文本、表格、公式和图表)方面表现出色,同时保持极低的资源消耗。
原创
博文更新于 2025.12.10 ·
1191 阅读 ·
16 点赞 ·
0 评论 ·
26 收藏

【AI大模型前沿】SAIL-VL2:字节跳动开源的小而强视觉语言模型,2B参数也能吊打大模型

SAIL-VL2 是由字节跳动抖音 SAIL 团队和新加坡国立大学 LV-NUS 实验室联合开发的开源视觉语言基础模型。作为 SAIL-VL 的继任者,SAIL-VL2 在 2B 和 8B 参数规模下,于多样化的图像与视频基准测试中均达到当前最优性能,展现出从细粒度感知到复杂推理的强劲能力。其核心创新包括大规模数据筛选与优化、渐进式训练框架以及混合专家(MoE)架构,使得模型在效率和性能上均实现了显著提升。
原创
博文更新于 2025.12.09 ·
898 阅读 ·
21 点赞 ·
0 评论 ·
28 收藏

【GitHub开源AI精选】DiaMoE-TTS:清华和巨人网络开源的多方言语音合成利器

DiaMoE-TTS 是一个基于国际音标(IPA)的统一框架,专门针对多方言语音合成的复杂性而设计。它在 F5-TTS 架构的基础上,引入了方言感知的混合专家(MoE)模型来模拟不同方言之间的语音差异,并利用低秩适配器(LoRA)和条件适配器进行参数高效的自适应,从而能够快速迁移到新的方言。与依赖大规模或专有资源的方法不同,DiaMoE-TTS 支持可扩展的开放数据驱动合成,实验表明其能够生成自然且富有表现力的语音,即使在只有数小时数据的情况下,也能对未见过的新方言以及专业领域(如京剧)实现零样本性能。
原创
博文更新于 2025.12.08 ·
1249 阅读 ·
53 点赞 ·
0 评论 ·
25 收藏

【AI大模型前沿】SongBloom:腾讯AI Lab开源的全长度歌曲生成模型

SongBloom 是一个由腾讯 AI Lab 联合顶尖高校研发的开源歌曲生成模型。它采用自回归扩散模型,将扩散模型的高保真度与语言模型的可扩展性相结合,通过交错生成范式,逐步将音乐草图从短到长进行扩展,并将细节从粗粒度提升到细粒度。仅需输入 10 秒参考音频和对应歌词,SongBloom 即可生成长达 2 分 30 秒的双通道、48kHz 高质量完整歌曲。在主观和客观评测中,SongBloom 均优于现有开源方法,并与顶尖商业平台 Suno-v4.5 相当。
原创
博文更新于 2025.12.07 ·
2235 阅读 ·
37 点赞 ·
0 评论 ·
48 收藏

【AI大模型前沿】UniPixel:香港理工大学联合腾讯推出的像素级多模态大模型

UniPixel是一个由香港理工大学和腾讯ARC Lab团队开发的统一像素级多模态大模型,专注于图像/视频的精细理解与交互。它能够在单个模型中完成对象指代、像素级分割和区域推理三大任务,通过创新设计的“对象记忆机制”和统一视觉编码方式,实现了对视频中目标的精准追踪与语义理解。基于Qwen2.5-VL框架构建的UniPixel,支持点、框、掩码三种交互方式,在9项视觉任务基准测试中超越了72B参数的传统模型,并且开源了代码和在线Demo。
原创
博文更新于 2025.12.06 ·
1989 阅读 ·
54 点赞 ·
0 评论 ·
37 收藏

【AI大模型前沿】Youtu-Embedding:腾讯优图开源的高性能通用文本表示模型

Youtu-Embedding 是腾讯优图实验室开发的面向企业级应用的通用文本表示模型。该模型通过大规模语料预训练和创新的微调框架,具备强大的语义理解能力,能够胜任文本检索、意图理解、相似度判断等六大任务。它在中文语义评测基准 CMTEB 上表现优异,广泛适用于企业客服、知识管理、智能问答等场景。
原创
博文更新于 2025.12.05 ·
940 阅读 ·
17 点赞 ·
0 评论 ·
26 收藏

【GitHub开源AI精选】Glyph:智谱与清华开源的视觉文本压缩框架,突破大模型上下文限制

Glyph 是一个通过视觉 - 文本压缩扩展上下文窗口的框架,它将长文本渲染为图像,利用视觉语言模型(VLM)处理图像,从而在不增加模型实际上下文长度的前提下实现上下文的高效扩展。这种方法不仅大幅降低了计算成本和显存占用,还显著提升了推理速度,同时在多模态任务中展现出强大的泛化能力。
原创
博文更新于 2025.12.04 ·
713 阅读 ·
18 点赞 ·
0 评论 ·
16 收藏

【GitHub开源AI精选】LLaVA-OneVision-1.5:面向多模态训练大众化的全开源框架

LLaVA-OneVision-1.5 是由 EvolvingLMMS-Lab 开发的全开源多模态框架,旨在通过高效训练和高质量数据实现多模态任务的高性能和低成本。该模型采用自研的 RICE-ViT 作为视觉编码器,结合 2D 旋转位置编码和区域感知注意力机制,支持可变输入分辨率。基于 Qwen3 的语言模型,通过三阶段训练流程(语言–图像对齐、高质量知识中期预训练和视觉指令对齐)进行优化。它在多模态基准测试中表现出色,成本可控,且全链条透明开放。
原创
博文更新于 2025.12.03 ·
969 阅读 ·
23 点赞 ·
0 评论 ·
15 收藏
加载更多